我们的环境:
计算节点:20+台配备 3090/4090/A800 的服务器,10Gbps 交换机互联
共享存储:双副本 PB 级 GPFS 存储池(非官方对接维护),目前问题是运维成本过高,包括运维人员水平和价格方面。正评估 Minio+JuiceFS 替代方案。
任务调度:Slurm 系统,现存问题:
GPU 共享困难,Debug 状态下显存利用率不足
任务申请卡数碎片化影响调度效率
账号管理:基于 /etc/passwd 文件同步,正在探索迁移至 OpenLDAP ,并与飞书账号集成
重点问题求教:
存储方案选择: 当前 GPFS 在加载 conda 环境时出现显著延迟(从共享存储加载 conda 环境经常会导致 VSCode Timeout ),可能原因是否是元数据操作瓶颈?考虑到我们缺乏官方支持且运维成本高,是否有必要迁移到 Ceph/JuiceFS 等开源方案?特别希望了解实际性能对比数据。
Slurm 与容器化整合: 有些开源仓库提供了模型代码运行环境的 docker 镜像,但是当通过 Slurm 分配 GPU 进入计算节点 bash ,再进去运行 Docker 后台任务时,常出现任务结束后容器残留导致 GPU 占用冲突。是否有成熟的 Slurm 插件或脚本方案能实现提交时自带容器信息,并且实现生命周期绑定?
调度系统演进方向:
我们观察到许多算力租赁平台采用 K8s 管理算力,实现:
相较 Slurm ,这种架构在 GPU 利用率方面是否具有显著优势?迁移成本与收益如何权衡?
参考( 3 年前): https://ex.noerr.eu.org/t/823176
希望各位能不吝赐教,期待大家的实战经验分享!(文本由 DeepSeek 润色过)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.