求问各位深度学习大佬,哪种 GPU 服务器可以运行 docker 啊

22 天前
 harrietliu
求问各位深度学习大佬,哪种 GPU 服务器可以运行 docker 啊

尝试了 AutoDL 运行不了,自己单位的服务器也是基于 docker 底层管理的,子容器中没法越权,请问还有其他方式吗
1493 次点击
所在节点    问与答
22 条回复
coefuqin
22 天前
你提问题都不会提,都不知道你想说什么。
nekoneko
22 天前
你说的啥意思, docker 如何使用 GPU 吗?
按照 GPU 型号去供应商那里看说明文档呗.
harrietliu
22 天前
@coefuqin 一般的深度学习服务器平台如 autoDL 等,会使用类似于 Kubernetes 的组件来隔离每一个用户(容器),这个时候由于这些组件的底层是基于 docker 的,因此在子用户的容器内没有办法运行 docker ,System has not been booted with systemd as init system (PID 1). Can't operate.,无法连接主机中的 docker 守护进程,比如:Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
这样的情况下如果配置 docker in docker 也是需要超级账户的,我现在应该表达清楚了?
Clannad0708
21 天前
@harrietliu #3 你为什么要 在 docker 里面用 docker ,有什么必要的场景吗。有个参数 run as root 0 没用过你的平台不知道能不能直接修改容器配置。
harrietliu
21 天前
@Clannad0708 因为一些深度学习服务器或者某些单位管理 gpu 资源的平台是这样配置的(基于某些组件底层 based on docker ),但是好像听说腾讯和阿里云的 gpu 服务器可以单独运行 docker 的 server 。
harrietliu
21 天前
@Clannad0708 这些平台的容器是用来划分不同的用户的,修改容器配置应该也是需要超级用户
coefuqin
21 天前
@harrietliu 你要这么操作,就直接买阿里云,腾讯云的 gpu server 啊。不用云原生的 autoDL 不就行了。dind 是一件复杂的事情,就算你有超级权限,估计也很难搞定 dind 的网络。
coefuqin
21 天前
@harrietliu #5 以你对这些 cloud native 的技术认知来说,多 gpu server 组集群,也是一件困难的事。
harrietliu
21 天前
@coefuqin 肯定想用单位的免费服务器,我要是富豪也不会问了,直接买电脑不就好了。而且单位的 gpu 就是你说的工作集群啊。提问是想说有没有其他人遇到和我类似的问题,有没有什么好的解决方案
coefuqin
21 天前
@harrietliu #9 你不要搞 docker in docker 不就行了?不会?不会就只能学了。
liu731
21 天前
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

What can i say...(你这好比用数据加减法提问如何解弹道方程式)
python35
21 天前
你可以 shell 进公司的容器里面吗,可以的话直接再容器里跑就行;
我们这边的 gpu 训练平台,本地提交一个任务指定节点、指定镜像、指定一个入口脚本,平台自动按照你指定的镜像在指定的节点上初始化容器,帮你把入口脚本在容器里面跑起来;
harrietliu
21 天前
@python35 哦哦,好的,这个我试一下,看看能不能添加这个镜像
Clannad0708
21 天前
@harrietliu #6 懂了,你在平台上操作实际是一个 docker 而不是 ubuntu 虚拟机这样吗?你在一个 docker 里面用 gpu 他们的 gpu 也是容器化的 分片 gpu ,所以场景就是 docker in docker 啊。这个没啥办法基本上就是得挂载宿主机的 socket.文件。要么就看看网上有什么解决办法吧。
harrietliu
21 天前
@Clannad0708 嗯嗯,shell 的话我还没找到入口,目前我是在自己的轻薄本上跑只用 cpu 的 demo ,找管理员直接添加这个镜像是比较方便的
zzzk1
21 天前
智星云可以
harrietliu
21 天前
@zzzk1 好的,我试一下
Clannad0708
21 天前
@harrietliu #15 搞 AI 不建议弄的这么套中套,前段时间调研用 kubeflow ,里面也是一个容器的 notebook 里面自己跑训练的 AI 代码。wc 那简直了,python 必要的一些工具下载起来都麻烦,要么和 python 版本不匹配要么依赖不匹配,还在容器里,挺麻烦的说实话。在容器里 apit install 有的还没 root 权限下不下来,反正整了几天搞不了了
harrietliu
21 天前
@Clannad0708 它这个容器内都是 root 的,除了用不了 docker 其他的我觉得还可以
Clannad0708
21 天前
@harrietliu #19 容器内看自己是 root 但是你只是看起来有权限,实际运行起来很多东西没内核权限的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1140399

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX