关于 All In Boom 到底是 Boom 在哪里?

10 天前
 OneLiteCore

都说 All in one 是 All in boom 但是真的 boom 的时候是哪个地方炸?

自组了一台 NAS 配置是 8100 + 32G 内存 + 海韵 GX650 电源,多盘位塔式机箱装了 3 个前风扇,主板也是一手的,硬件上爆炸的风险应该不高。

软件上 SSD 装 PVE 并存放虚拟机的磁盘镜像,直通 Sata 控制器到 Debian 虚拟机里做存储服务,然后在飞牛的虚拟机里挂载并提供影音服务。

网络

网络使用全家硬路由,PVE 里面也没有装软路由,只是在 Debian 里用 Docker 装了 Sub-Store 来整合复数个机场的订阅给其他设备的客户端使用,避免单个机场跑路的问题。

不折腾全家网络和软路由自然网络不会因为 All in one 爆炸。

意外断电

无论是否 All in one 都有这个问题而且城市供电一般没什么问题,最多加一个 UPS 就搞定了,所以暂时不纠结这个

硬件磨损

作为数据盘的 HDD 注定是有寿命的,在散热和电源都比较到位的情况下做好备份就行。其他的部件比如 CPU 、内存、电源、主板、风扇和机箱等基本不考虑寿命问题。

唯独作为系统盘的 SSD 可能是风险点出问题的话自然就是全 Boom 了,但是用 PVE 定时备份系统到 HDD 里届时恢复反而会比物理机直装更方便些。

作为参考某些 Nas 厂商会在多个数据盘上多分一个区以此组 Raid 给系统盘,这个方法对于存储设备来说是挺好的,但是除非组黑裙否则这个路子没法用。

软件爆炸

更新/配置 PVE 导致系统全挂或者整机无法联网,这个算人为的错误不是设备的问题,熟悉 Linux 的各种操作和习惯之后一般不会炸。

其他潜在的 Boom ?

最后的问题就是,在考虑了上述的问题之后是否还有其他会导致爆炸的点?

6552 次点击
所在节点    NAS
97 条回复
MrGba2z
10 天前
你可以买一块便宜的新盘试一下 假设手头的系统盘坏掉了 (就从机箱里拔掉)

然后你看看恢复到之前的状态是要多久。

我测试过,也写了完整的恢复流程,个人是比较满意的,不算硬盘寄过来的时间(家里有多余的 ssd),down time 是 1 小时不到。
minami
10 天前
"硬件上爆炸的风险应该不高"——你好,真的会炸,这不是概率高低的问题,再低的概率落到自己头上就是 boom 。
sentinelK
10 天前
这个“boom”我理解的含义是会因为一个点的损坏(这个损坏包含软件崩溃、硬件损坏、以及人为失误),导致网络、存储等多个功能因为耦合性太强直接瘫痪。

楼主把人为、软件崩溃和硬件损坏全排除了,那当然就没什么可“boom”的了。
billlee
10 天前
你配置监控告警了吗?没有到时候就是 RAID 一块盘炸完带病运行,直到另一块盘也炸了
irainsoft
10 天前


[危险操作,请勿模仿]

boom 过一次,从云端拉了 4 天数据恢复过来
imes
10 天前
首先,"网络使用全家硬路由",你这个就已经不是 all in boom 了,要虚拟机装 OpenWrt 做全屋代理才有资格称呼 all in boom 。
Tink
10 天前
任何地方都有可能炸,我的是从架子上摔下来炸了
ATKLLL
10 天前
boom 就 boom 在折腾,你想折腾 A 可能要调整主机配置可能要调整硬件,意外或者操作失误可能导致连锁反应,影响 BCD 等系统.
OneLiteCore
10 天前
@MrGba2z 之前试过了不过是原盘重装的,从 Ubuntu 24 服务器版重装到 Debian 13 服务器版结果重新配置环境太过繁琐了:

- 配置 DHCP
- 路由器固定 IP
- 换源
- 在没有梯子的情况下安装梯子
- 安装 zsh/tmux 等日常工具
- 安装 Docker 然后恢复各种服务
- 添加硬盘自动挂载
- 设置硬盘自动休眠
- 安装 Smb 服务并共享文件服务
- 安装 Zerotier/Tailscale
- 安装日常开发环境
- 解决 Github 访问不了的问题
- 安装 rdp
- 安装飞牛虚拟机
- 创建虚拟机内网
- 飞牛内网挂载 Smb 提供服务
- 到电视上查看飞牛 TV 是否正常连接和播放

整个过程非常的繁琐和重复,最后实在搞烦了才觉得 PVE 直接备份系统之后以后再也不折腾这些了。

我现在的感觉是 PVE+Debian 会比单独 Debian 更容易维护,一个是 PVE 代替了 IPKVM/IPMI 省的来回拔插键鼠显示器,二是备份恢复整个系统会更方便。本质上就是加了一个中间层解耦了操作系统和硬件。
OneLiteCore
10 天前
@minami 对的,所有的硬件都会 Boom 所以才需要备份,加上 PVE 使得备份和恢复整个系统会变得更容易些,如果是物理机直装的话手动重装各种服务要烦死人的。
OneLiteCore
10 天前
@sentinelK 就是在担心还有什么没考虑到的点导致 Boom ,因为重装系统和恢复所有服务的过程实在是太繁琐了,想着 PVE 可以更方便的备份和恢复系统才这么做的。有点类似以前有个老哥发帖是直接在虚拟机里面搞开发,这样开发环境随时可以迁移的感觉。
OneLiteCore
10 天前
@billlee 目前就靠 PVE 和虚拟机上的 Smart 手工查看并且没有配置 Raid ,而是用 Crontab 每日备份数据到不休眠的磁盘 A 上,然后每周备份到会定时休眠的磁盘 B 上。家用环境感觉备份还是比 Raid 重要些。
OneLiteCore
10 天前
@irainsoft 是什么原因导致的 Boom ?我的重要数据都不到 1TB 大小甚至可能 100GB 都不到,所以考虑没那么周全。
OneLiteCore
10 天前
@imes 是的,我查到的都说只要网络不 Boom 其他的都好搞定。
OneLiteCore
10 天前
@Tink 我家里养猫出现过猫毛堵住进风口的问题,但是这个就是系统之外的风险了,没办法在系统内部进行风险管理
SakuraYuki
10 天前
@imes 对的,而且大部分时间 all in boom 都是从虚拟机里的 openwrt 开始 boom 起导致一连串的服务因为网络异常连环 boom
OneLiteCore
10 天前
@ATKLLL 是的,遇到过设置 PVE 自动进行 DHCP 配置错误导致断网的,后面每次修改配置都会先 cp 原来的配置到通目录下的 .bak 文件里,然后额外插了一个无线网卡给 PVE 作为保险。

人为操作的风险始终是存在的,只能够 Boom 了之后吸取教训了。
OneLiteCore
10 天前
@SakuraYuki 那这套配置暂时没啥问题了先运行一段时间,哪天要是 Boom 了我在上来现身说法吧
Rorysky
10 天前
boom 其实就是在网络

把网络服务软硬件单独出来,一点问题没有
irainsoft
10 天前
@OneLiteCore #13 无法判断,没有意外断电之类的外部因素,可能真的只是自己出问题了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1154262

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX