学校超算管理员匆忙上线 CentOS 8 结果翻车了

2021-03-22 12:44:39 +08:00
 xuegy

最近学校大跃进式把所有超算节点从 7 升级到 8 了,结果大翻车。

系统升级完,第一件事当然是登进去重新编译代码。结果新系统居然忘装 nano,没办法先用 vi 改配置文件吧,给管理员发了一个 ticket,10 分钟后回复我装好了,看来新系统装完了还挺闲的。

进 module 里面看看更新了啥,结果也乱套了。原来 CentOS 7 老的 module 还没清理干净,跟新的摆在一起都不知道谁是谁,只能通过版本号猜。(截至发帖时清理的差不多了)

编译的时候 openmpi 也翻车了,找不到libpmi2.so.0。这个应该是属于重大运维事故了吧?管理员在一整天之后才修复,告诉我说是忘记在头节点上编译 pmi 了。上线之前这么基本的组件都不测试一下的吗?

总结经验教训,学校级别的运维水平参差不齐,从 7 升级到 8 翻车是难免的。年底不能白嫖 CentOS 以后肯定得换系统,到时候接着翻车。

12021 次点击
所在节点    Linux
76 条回复
DaGongRen001
2021-03-23 11:18:26 +08:00
7 的用户比 8 的多不少吧
xuegy
2021-03-23 11:22:15 +08:00
@m4d3bug “RHEL for Open Source Infrastructure 不适合单个开发人员,以及当前想要在独立的开源项目基础架构之外使用 RHEL 的红帽客户 /合作伙伴、政府组织、医疗机构、学术机构或非营利组织。红帽将继续为传统的非营利组织、学术机构和政府实体探索新计划”
abbottcn
2021-03-23 11:53:57 +08:00
顺便吐槽一下.
很多超算中心写的那个使用说明, 太过于专业化了.
99%的用户, 仅仅是来做计算, 让计算跑起来, 又不是 CS 专业的,
谁理解什么容器啥意思?

手册应该分两版本,
简明版, 只需要讲,
怎么到这个机器来, 怎么拿走数据?
如果你的程序手册告诉你, 是这么运行, 那么在这个机器, 是如此运行.
需要对中心提供的每一个程序都要写类似的说明.

高阶版, 一定要提醒客户, 如果没有任何计算机基础, 请一定找一个 CS 专业的人员, 陪同一起看使用说明.

我课题组的机器,
从单个服务器到计算集群, 自己做.
只要是机器上提供的计算软件,
每一个, 操作流程都是:
用户提供输入控制文件到指定目录; mkdir ~/input
用户拷贝脚本到目录; cp /opt/share/scripts/run-XXX.sh ~/input
需要更换 XXX 为对应的程序名称, 手册有列表.
最后, 运行计算, bash ~/input/run-XXX.sh
所有计算, 会自动加载到队列中. 会自动设定 CPU 核心数目, 内存数目等.

只用如何登录以及拿走数据,
录制视频, 演示 windows + MobaXterm 如何搞.

就是这样的简易使用策略, 学生都能搞错.
还想指望学生能看懂诸如 容器 之类的名词, 是不现实的.
tom8
2021-03-23 12:03:15 +08:00
没事升级新系统那个干啥 新系统有的问题谷歌不到呀 我司都还是 centos 7 呢
m4d3bug
2021-03-23 12:03:58 +08:00
@xuegy 而个人开发者可以通过更新的红帽开发者计划轻松访问 RHEL,更多信息点击《新年新项目:让红帽企业 Linux 更易获得》。
mostkia
2021-03-23 12:10:33 +08:00
服务器还在用 centos7,之前尝鲜升级到 8,结果一堆兼容问题,然后又退回去了。踩过的众多坑告诉我,不要在生产环境下手贱去尝鲜新事物,可能是习惯了这种保守策略,导致我连普通软件只要能用就非常抗拒升级,否则少不了乱七八糟的各种毛病。
xuegy
2021-03-23 12:11:42 +08:00
@m4d3bug 超算上百台机器,redhat 改行做慈善了?
xuegy
2021-03-23 12:16:38 +08:00
@abbottcn 管理员说我是全校唯一一个需要编译 C++的。别人要么用现成的商业软件要么就是 python 练丹师。他手册里编译器那页写那么长就我一个人在看...
abbottcn
2021-03-23 12:21:21 +08:00
@xuegy 只要支持 singularity 就可以了。
在自己机器上编译处理完毕,拷贝上去就可用了。我认为特别好用。

我把它当作可以秒开的虚拟机,网络用户啥都不用考虑,数据还在原来地方,只是环境不同了。
前一秒还是 c7,后一秒可能就是 apt 可用可。

我个人认为,这是针对科学计算方面十分优秀的解决方案。
xuegy
2021-03-23 12:40:21 +08:00
@abbottcn 我看了一下手册,他们确实这个月随着新系统同时上线了 singularity,不过并没有建议我用...
xuegy
2021-03-23 12:52:46 +08:00
@abbottcn 感觉确实是没法用啊,我个人又没有 icc 的 license,还得跑去本机编译。
sadfQED2
2021-03-23 12:56:41 +08:00
@chenqh php 的项目,php5.4,而且 php 还自己写了很多 c 扩展,nginx 又加了些 lua 扩展啥的。导致这么多年来根本没人敢动
Jat001
2021-03-23 13:03:13 +08:00
@abbottcn 跑肯定是能跑,就是坑太多,用户和运维的学习成本都很高
murasha
2021-03-24 15:49:42 +08:00
@vhwwls 同运维,支持这个观点。
yanqiyu
2021-03-25 16:31:59 +08:00
编译的时候发生混沌 /软件包版本混沌有个很直接的解决方案:自己搭建 dist-git/koji 等一套软件包编译打包系统。软件包管理就能解决找出没有被满足的依赖、以及提示冲突的老包。而不是一股脑 make install,然后谁也不记得哪些文件是哪些软件的。

并且上游有包(印象中 openmpi 就在 centos 有打包)并且能满足需求就直接用呗。就算是 CERN 的集群都有安装 EPEL 包...虽然大家用软件都是直接去 cvmfs 上面 source 的。
wxlg1117
2021-05-01 01:54:01 +08:00
@abbottcn
虽然是这样变化没错,但 centos 一下子从以稳定性著称的 RHEL 系统再编译版变成了 fedora 的贝塔测试版...还是滚动发布版本;
那么以后谁还会大规模部署使用呢?我相信绝大多数用户都不会去使用 stream 版而会转去 第三方 rhel 再编译版的,比如那个
Rocky Linux 或 CloudLinux

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/763914

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX