关于 All In Boom 到底是 Boom 在哪里?

10 天前
 OneLiteCore

都说 All in one 是 All in boom 但是真的 boom 的时候是哪个地方炸?

自组了一台 NAS 配置是 8100 + 32G 内存 + 海韵 GX650 电源,多盘位塔式机箱装了 3 个前风扇,主板也是一手的,硬件上爆炸的风险应该不高。

软件上 SSD 装 PVE 并存放虚拟机的磁盘镜像,直通 Sata 控制器到 Debian 虚拟机里做存储服务,然后在飞牛的虚拟机里挂载并提供影音服务。

网络

网络使用全家硬路由,PVE 里面也没有装软路由,只是在 Debian 里用 Docker 装了 Sub-Store 来整合复数个机场的订阅给其他设备的客户端使用,避免单个机场跑路的问题。

不折腾全家网络和软路由自然网络不会因为 All in one 爆炸。

意外断电

无论是否 All in one 都有这个问题而且城市供电一般没什么问题,最多加一个 UPS 就搞定了,所以暂时不纠结这个

硬件磨损

作为数据盘的 HDD 注定是有寿命的,在散热和电源都比较到位的情况下做好备份就行。其他的部件比如 CPU 、内存、电源、主板、风扇和机箱等基本不考虑寿命问题。

唯独作为系统盘的 SSD 可能是风险点出问题的话自然就是全 Boom 了,但是用 PVE 定时备份系统到 HDD 里届时恢复反而会比物理机直装更方便些。

作为参考某些 Nas 厂商会在多个数据盘上多分一个区以此组 Raid 给系统盘,这个方法对于存储设备来说是挺好的,但是除非组黑裙否则这个路子没法用。

软件爆炸

更新/配置 PVE 导致系统全挂或者整机无法联网,这个算人为的错误不是设备的问题,熟悉 Linux 的各种操作和习惯之后一般不会炸。

其他潜在的 Boom ?

最后的问题就是,在考虑了上述的问题之后是否还有其他会导致爆炸的点?

6556 次点击
所在节点    NAS
97 条回复
totoro625
10 天前
直通 Sata 控制器:
高危行为,极其容易炸,就自己玩没必要直通
假如硬件序列号变化

网络:
Debian 、Docker 、Sub-Store 任何一项炸了怎么办
我曾经网络反代依赖 clash ,clash 依赖自建订阅,自建订阅依赖网络反代,搞了个循环

意外断电:
UPS 爆炸了解一下,真实爆炸
APC 自动关机演练过吗?
UPS 定期检查过吗

主板、电源寿命:
比你想象中更加脆弱,很可能 reboot 就炸了
系统盘寿命,swap 分区在系统盘吗?
smart 定期跑吗

PVE 定时备份:
不知道你是什么备份恢复方案,实战演练过没有
官方的 PBS 我自己的经常炸,后来直接备份数据了

“熟悉 Linux 的各种操作和习惯之后一般不会炸”
都是人为: /t/1151375
社区的程序员算是熟悉了吧,普通人呢?

软件爆炸:
关闭自动 apt update 了吗?
关闭 docker 自动更新了吗?
软件源用的是官方、大学的、还是自建的,会被投毒吗

防火墙:
pve 关闭密码登录 ssh 了吗
pve 自带防火墙打开了吗
ipv4/6 入站关闭了吗
moifmwisdfewmi9
10 天前
@OneLiteCore PVE 整个系统是怎么备份的方便简单介绍一下吗 感谢
用 proxmox backup server?
rabt
10 天前
上午系统盘突然变只读了,某些文件损坏打不开了,某个 docker 运行不了了,晚上回家断电重启开不了机了,系统盘数据导出来后发现很多文件坏了,文件打开是空白。没备份到其他设备!没备份到其他设备!没备份到其他设备!搞了一个周末才恢复的七七八八。
cpstar
10 天前
鸡蛋放在一个篮子里——就是这个 boom
OneLiteCore
10 天前
@irainsoft 表现形式是什么? HDD 挂掉了还是?
94188
10 天前
PVE 系统盘是怎么备份的?只备份核心配置 /etc/pve 目录下的东西吗? 还是定时 dd 整个系统到另外的盘?
OneLiteCore
10 天前
@totoro625 感谢回复,你提到的很多点我可能都没有顾及到/顾及好。我后续再完善一波就打算先试着用用了,等真 Boom 了我再上来现身说法,T_T
OneLiteCore
10 天前
@moifmwisdfewmi9 收实话暂时没有深入研究过这块,计划是等需要的服务和环境都配置好了之后先手动备份一次,之后打算不直通 Sata 而是将单独的硬盘分配给 Debian ,同时分 1~2 块硬盘给 PVE 看看能不能备份到本地。我有 3 块 256G 大小的 HDD 二手不值钱又还能用,打算用这个来备份。
xFrye
10 天前
通常来说 boom 就是网络爆炸了,你把网络单独分出来那肯定不会 boom
OneLiteCore
10 天前
@rabt 有检查过这个状态下的 Smart 信息么?是不是 TBW 用完了?
OneLiteCore
10 天前
@cpstar 想尽可能了解大多数情况下 Boom 的原因好做预防/补救措施,但是目前查到的 Boom 大都是 All in one 里面的网络炸了导致全家断网。
OneLiteCore
10 天前
@xFrye 所以可以理解为目前系统内潜在的风险就是配置出错和硬盘磨损么?在想着只要搞好备份的话,是否能够认为这套方案“足够稳定”以当作生产环境来使用。
ffxrqyzby
10 天前
@94188 #26 PVE 不用备份吧, 备份容器就行了
HandForLove
10 天前
我的软路由( esxi:爱快+openwrt )和 NAS ( pve:TrueNAS )是分离的,软路由挂了可以换个路由器先把网搞通,NAS 系统坏了其实也没事,我自己换过系统(从 esxi 换到 pve ),数据还在。
OneLiteCore
10 天前
@ffxrqyzby 容器和 Docker Compose 文件都有备份,但是开发环境之类的要单独备份比较麻烦,不如整个操作系统都给备份了省的后面重装要全部手搓。
OneLiteCore
10 天前
@HandForLove 你是将软路由作为主路由么?我的理解是要搞软路由的话可以搞旁路由,这样炸了不影响家人上网。但考虑了下之后感觉软路由无非是用作梯子和去广告,前者的话客户端可以解决,后者的话不乱装国产软件基本不会有系统弹窗而浏览器的广告可以靠插件解决。想了解下目前对软路由的需求是什么?
davidyin
10 天前
我是把软路由单独一个机器,nas 单独一个机器,然后就是 PVE ,里面有些 VMs ,备份就备到 nas 上。
三个都是单独的,好些。
在墙外,无需再多一个。
worker201
10 天前
炸了不可怕,关键在于炸了能不能恢复,比如更换硬件
恢复需要多长时间,宕机期间你能不能接受
liqingyou2093
10 天前
是人心态炸了 哈哈
helleon
10 天前
机器再怎么炸都不是大事,严重的是老婆炸,更严重的是全家一起炸。
老婆在和闺蜜微信八卦吃瓜,女儿在线考试,儿子在开黑,老丈人在看球,这时候炸了,最最可怕

所以只要不影响主干网的应用,路由/dns 啥的不在你折腾的机器上就没啥大事

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1154262

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX