关于 All In Boom 到底是 Boom 在哪里?

10 天前
 OneLiteCore

都说 All in one 是 All in boom 但是真的 boom 的时候是哪个地方炸?

自组了一台 NAS 配置是 8100 + 32G 内存 + 海韵 GX650 电源,多盘位塔式机箱装了 3 个前风扇,主板也是一手的,硬件上爆炸的风险应该不高。

软件上 SSD 装 PVE 并存放虚拟机的磁盘镜像,直通 Sata 控制器到 Debian 虚拟机里做存储服务,然后在飞牛的虚拟机里挂载并提供影音服务。

网络

网络使用全家硬路由,PVE 里面也没有装软路由,只是在 Debian 里用 Docker 装了 Sub-Store 来整合复数个机场的订阅给其他设备的客户端使用,避免单个机场跑路的问题。

不折腾全家网络和软路由自然网络不会因为 All in one 爆炸。

意外断电

无论是否 All in one 都有这个问题而且城市供电一般没什么问题,最多加一个 UPS 就搞定了,所以暂时不纠结这个

硬件磨损

作为数据盘的 HDD 注定是有寿命的,在散热和电源都比较到位的情况下做好备份就行。其他的部件比如 CPU 、内存、电源、主板、风扇和机箱等基本不考虑寿命问题。

唯独作为系统盘的 SSD 可能是风险点出问题的话自然就是全 Boom 了,但是用 PVE 定时备份系统到 HDD 里届时恢复反而会比物理机直装更方便些。

作为参考某些 Nas 厂商会在多个数据盘上多分一个区以此组 Raid 给系统盘,这个方法对于存储设备来说是挺好的,但是除非组黑裙否则这个路子没法用。

软件爆炸

更新/配置 PVE 导致系统全挂或者整机无法联网,这个算人为的错误不是设备的问题,熟悉 Linux 的各种操作和习惯之后一般不会炸。

其他潜在的 Boom ?

最后的问题就是,在考虑了上述的问题之后是否还有其他会导致爆炸的点?

6566 次点击
所在节点    NAS
97 条回复
noxworld
10 天前
@MrGba2z 你好,请问可以分享下恢复过程吗?最近需要干类似的事情,但是没搞过,很慌🙁
libregratis
10 天前
思路没问题,但仍然不建议,具体 boom 原因肯定每个人都不一样,不过,做好兜底,准备好救急用的备份路由器,或者让光猫 PPPoE 并配置好 Wi-Fi
Quarter
10 天前
All in boom 主要是因为服务的集中导致的,由于所有服务集中在一台机器上,比如主板坏了或者系统盘坏了,那就会导致所有的服务都无法访问,你的存储无法访问,你的软路由也挂了,网络也不正常,你的各种 docker 部署的服务也无法访问,就相当于一起炸了,所以叫 all in boom
tianling1993
10 天前
你都没有 all in one ,哪里会 boom ,硬件挂掉导致的 boom 都是少数,大多数说的 boom 都是指的软路由(做主路由)折腾的时候导致内网不通的 boom ,并不是物理意义上的 boom
AQ72w51dUHaWXgqZ
10 天前
1. pve 系统盘 boom 过两次,两次全是三星 ssd,从此一生黑了. 2. 也是三星, ecc 内存 boom 一次, 那段时间服务器几个小时就因为校验失败重启.
Takizawa
10 天前
我在小主机上玩 ros ,虚拟机+wsl2 配合来搞,有一天吃完饭回来发现还能输出画面,但是怎么也动不了,强制关机后就再也没救活。。。主板启动画面都出现不了,还好东哥有 180 天只换不修服务,换完之后我再也不折腾这玩意了,吃灰了很久很久,直到飞牛出来了,我装了个飞牛图个新鲜,配合几块吃灰的移动机械硬盘,玩了几天继续吃灰,根本没有继续投入精力的热情了。
cskeleton
10 天前
我早期遇到的一个场景。
ESXi 上装了 openwrt+omv+其他无关紧要的,但是忘了给 openwrt 设置开启自启动。

一切搞定之后把机器放好,线理好,一切安好用了很久。。。直到某一天突然停电了,来点之后 OpenWrt 没有启动起来,整个网络就无了。

要解决也不难,关键的问题在于,我需要把从电视柜机器拖出来,把理好的网线电线薅出来,直接用笔记本插线。弄完之后我就不想理线了,一股脑塞电视柜后面,反正看不见也不影响。

再后来我就把网络相关的单独放在了一个物理设备上。
Oktfolio
10 天前
我的 PVE 更新莫名重启就 boom 了
danhahaha
10 天前
刚经历了一场,手欠升级了稳定运行小 10 年的系统,里面 3 个 linux ,一个 win ,还有其他七七八八,然后覆盖了 grub ,整个系统无法进去,工作文件在里面,密码在里面,安装整个系统的过程记录在里面,甚至启动 u 盘的库存管理也在里面,然后到处翻,找出 u 盘,先进系统备份,把工作文件先搞出来,然后发现需要其中一个网站密码,一直是记录在一个数据库里面,还需要先跑起来 docker.....

折腾半天还是得先恢复系统,好在最后恢复了,搞玩第一件事情就是全部备份出来
OneLiteCore
9 天前
@coldle 主板是一手的么,以及电源是什么?这种就防不胜防了硬件又没办法备份,除非是自组 Nas 搭配成品 Nas 互为备份才能可靠些
OneLiteCore
9 天前
@AkinoKaedeChan 这个确实是一个遗漏的点,不过手上的板子不支持,真要解决只能等后期换设备了。不过这也是用 PVE 的一个原因就是新设备迁移虚拟机会比物理机安装后全部手搓服务要方便。相当于将操作系统和硬件解耦了。
OneLiteCore
9 天前
@xixiv5 UPS 是主动式的还是被动式的?你这个情况防不胜防啊,只能通过数据多备份来降低爆炸后的损失,压根没办法预防这类事情的发生。
OneLiteCore
9 天前
@lovelylain 以前确实考虑过移动硬盘或者硬盘柜之类的操作,后面觉得电源不稳定伤硬盘。之后买了海韵 GX650 的电源成了全家最好的并且唯一的电源,所以搭配塔式多盘位机箱自组了 Nas 。偶尔倒是会想着成品比如群晖的电源对比这种比较好的台式机电源,哪个会更好一些还是说差不多。
OneLiteCore
9 天前
@WizardLeo 手贱改网络配置我真的 Boom 过,PVE 默认是静态 IP 的想改成 DHCP 让路由器来主导 IP 但是第一次改没经验也没备份旧配置,最后导致断网。

另外还 Boom 过一次是给 PVE 换源也是没备份旧配置直接改,改错了之后发现 PVE 的网页起不来了,问 AI 说是源会影响软件包改错了之后网页 UI 的软件炸了。

不过好在没有折腾路由而且家里人对 Nas 几乎没有需求,所以修起来也不需要受气,但折腾是真的折腾。
OneLiteCore
9 天前
@msg7086 SSD 损坏确实是我目前比较担心的点也确实需要备份,但是我昨天尝试了下发现有一个问题就是 NAS 自己就在 PVE 里所以停机备份后 NAS 服务必定是中断的,也就没办法实现 “PVE 使用停机模式备份 NAS 系统到 NAS 系统下的硬盘” 这个操作了。目前的想法是先备份到 PVE 所在的 SSD 里然后 NAS 定期 ssh/rsync 数据到内部的硬盘,但是这个会增加 SSD 的读写量。
OneLiteCore
9 天前
@CapNemo 系统备份的最终目的地是硬盘,新装的 PVE 肯定是直接连接着 Sata 控制器上的所有硬盘的,所以可以直接读盘里备份的系统镜像恢复到 PVE 里,然后再直通 Sata 控制器给 Nas 系统先恢复文件服务,之后再启动恢复其他系统。
strobber16
9 天前
OneLiteCore
9 天前
@CapNemo 折腾过 i3-8100 直通核显给飞牛 OS 以解决影音播放 4K 失败的问题但是直通了之后依旧播放失败,等后期升级比如换十二代板 U 后再考虑了。单独买一块显卡直通也是解决方案但是太费电了,家人看电影也看不出 4K 和 1080P 的差别所以暂时打算只下载不需要转码的 1080P 电影资源。
OneLiteCore
9 天前
@AkinoKaedeChan 折腾过 i3-8100 直通核显给飞牛 OS 以解决影音播放 4K 失败的问题但是直通了之后依旧播放失败,等后期升级比如换十二代板 U 后再考虑了。单独买一块显卡直通也是解决方案但是太费电了,家人看电影也看不出 4K 和 1080P 的差别所以暂时打算只下载不需要转码的 1080P 电影资源。
Jacksu
9 天前
我比你这种极端多了,我的 ALL in Boom 运行在 OpenWrt 系统上(非魔改,直接官方镜像添加了自己需要的东西),两年多了,平时也很稳定的从没 Boom 过,直到前几天刚 Boom 了一次,原因是系统盘的分区表突然没了,所有服务包括网络直接失联。我有做了充分的备份,恢复过程如下
1 、让网络正常。先进原来做 AP 的硬路由,从 AP 模式改成拨号上网模式,重启,2 分钟内搞定!
2 、插入一个有 live 系统都 F 卡,走 TF 卡启动设备排查问题,本来以为是磁盘炸了(启动那看不到硬盘了),准备换切换硬盘,结果 lsblk 还看得到原来的硬盘,猜测是分区表挂了,用 gdisk 恢复了分区表。耗时 5 分钟左右吧。
3 、恢复分区表后看到各分区容量都正常,没测试文件就拔出 TF 卡重启了,结果还是找不到硬盘,无奈用重新用 TF 卡进去,发现系统分区 ext4 文件系统挂了,而 docker 那些应用数据都还完好如初(另外的分区,btrfs 文件系统),好在我把 openwrt 的系统分区额外做了 dd 备份,OpenWrt 分区很小,就 1G ,1 分钟内就 dd 回来,然后重启可以选择硬盘启动了,所有服务恢复。由于上一步没测试文件浪费了时间,这个过程差不多 20 分钟。
4 、再次进入硬路由改成 AP 模式并重启让 openwrt 主路由重新下发 DHCP ,2 分钟。

这次 Boom 在发现问题后大约 30 分钟内恢复,目前还没找到 nvme 丢失分区表的原因,不清楚是硬件还是软件上的问题。

附一下我在这台 All in Boom 上跑的东西:

!( https://imgur.com/a/9qwg3Yl)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1154262

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX