运维事故,公司虚拟化服务器 ALL IN BOOM 了

2023-10-20 12:05:08 +08:00
 cjpjxjx

单机跑的 Proxmox VE ,硬盘超发了,同事为了升级一台虚拟机内 300 多 G 的内部项目,在下班前打包备份全部项目文件到虚拟机本地目录(虚拟机内磁盘剩余 400G ,以为没问题,就先下班了),此时没人知道该虚拟机所在的宿主机物理磁盘实际仅剩余 200 多 G ,结果就是大家都下班后,有其他部门在加班的同事反馈内部系统登录不了,开发数据库也连不上,在家准备远程到公司电脑查看,结果发现 VPN 也登不上了,远程处理不了只能前往公司处理,然后就发现 Proxmox VE 宿主机物理磁盘被干爆了,导致上面跑的好几个内部系统、数据库和 VPN 全部 GG 了,迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复,总共导致服务中断两小时,还好全部服务都是对内的而且是下班时间,没造成什么大影响,群里通报一下差不多就过去了,自己引以为戒

我是刚接手不久,还没来得及优化,已经采购了硬盘,正在路上呢,没想到就挂了。。。

7342 次点击
所在节点    职场话题
39 条回复
gvdlmjwje
2023-10-20 16:20:02 +08:00
为啥不用 esxi 我直接用 veeam one 监控
cpu IOPS 流量 剩余空间给你现实的清清楚楚 直接拿台显示器监控页面投上去就完了
joyhub2140
2023-10-20 16:28:25 +08:00
宿主机应该还是有监控的,我们这边所使用的超融合除了会监控 guest 系统的资源占用,本身的资源占用也会发警告的。
dongkof
2023-10-20 17:19:43 +08:00
吓得我赶紧去看看,虚机都做的瘦硬盘为了节省容量,前两天还做了个几 t 的 oracle 测试系统,拉数据库前还做了快照,我感觉快炸了
Quarter
2023-10-20 20:10:23 +08:00
@Andim 额,数据一般不也放虚机里嘛,不在虚拟磁盘的话放在哪里哇
Quarter
2023-10-20 20:10:56 +08:00
@cqmzgg2023 没办法,esxi 有限制,只能单机
vivisidea
2023-10-20 20:14:00 +08:00
监控报警呢?剩余 200G ,剩余比例是多少?一般到 80%就要介入了,要么扩容,要么删掉一些数据
Andim
2023-10-20 20:26:55 +08:00
@Quarter ESXI 可以挂载物理盘呀,PVE 我没用过
fsdrw08
2023-10-20 23:10:47 +08:00
单机我只考虑 hyperv
adoal
2023-10-20 23:35:34 +08:00
所以呢,thin provisioning 这玩意,双刃剑啊。

不管怎么说,监控还是要做起来的。
adoal
2023-10-20 23:42:40 +08:00
另外呢,物理磁盘还是建议做成池。你这个案例里,“迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复”,说明物理磁盘的总量还是有富余的,这种如果用池就不会挂掉。当然,都做成池了,如果整体不够用,那就没地方可迁,所以最关键的还是要监控。

另外的另外,跑最基础的 infrastructure 的虚拟机,建议放在单独的一组池上,并且用 thick provisioning ,确保不超。甚至可以考虑单独的物理机集群……哦,你只有单机……当我没说。
patrickyoung
2023-10-20 23:51:32 +08:00
@yyzh #11 因为不需要,他的底层就是 Debian ,什么古董硬件都可以
fantathat
2023-10-21 10:37:44 +08:00
怎么会虚拟机的空闲空间比宿主机的剩余空间还要大呢
fantathat
2023-10-21 10:39:51 +08:00
boom 的聲音很好聽,不過求問若是某運行於容器中的單服務的虛擬機磁盤爆了如之奈何?
Rorysky
2023-10-21 14:53:46 +08:00
为什么都在一台物理机上?
Quarter
2023-10-22 09:54:16 +08:00
@Andim 我没说不能挂在物理盘啊,我是说只能单机运行😂
xbird
2023-10-22 13:38:31 +08:00
@cjpjxjx 监控 A 监控监控 C ,监控 B 监控监控 A ,监控 C 监控监控 B ,环而控之,则一机不损
dode
2023-10-22 16:36:05 +08:00
赶紧删几个不重要虚拟机
podel
2023-10-22 20:03:13 +08:00
PVE 的 LVM 很容易超发硬盘。
xwh
2023-10-23 11:33:57 +08:00
@Quarter #24 我理解他的意思是单独分配挂载数据盘吧?比方说 50g 系统盘+300g 数据盘

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/983760

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX