V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
harrietliu
V2EX  ›  问与答

求问各位深度学习大佬,哪种 GPU 服务器可以运行 docker 啊

  •  
  •   harrietliu · 21 天前 · 1489 次点击
    求问各位深度学习大佬,哪种 GPU 服务器可以运行 docker 啊

    尝试了 AutoDL 运行不了,自己单位的服务器也是基于 docker 底层管理的,子容器中没法越权,请问还有其他方式吗
    22 条回复    2025-06-23 19:29:26 +08:00
    coefuqin
        1
    coefuqin  
       21 天前
    你提问题都不会提,都不知道你想说什么。
    nekoneko
        2
    nekoneko  
       21 天前
    你说的啥意思, docker 如何使用 GPU 吗?
    按照 GPU 型号去供应商那里看说明文档呗.
    harrietliu
        3
    harrietliu  
    OP
       21 天前
    @coefuqin 一般的深度学习服务器平台如 autoDL 等,会使用类似于 Kubernetes 的组件来隔离每一个用户(容器),这个时候由于这些组件的底层是基于 docker 的,因此在子用户的容器内没有办法运行 docker ,System has not been booted with systemd as init system (PID 1). Can't operate.,无法连接主机中的 docker 守护进程,比如:Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
    这样的情况下如果配置 docker in docker 也是需要超级账户的,我现在应该表达清楚了?
    Clannad0708
        4
    Clannad0708  
       21 天前
    @harrietliu #3 你为什么要 在 docker 里面用 docker ,有什么必要的场景吗。有个参数 run as root 0 没用过你的平台不知道能不能直接修改容器配置。
    harrietliu
        5
    harrietliu  
    OP
       21 天前
    @Clannad0708 因为一些深度学习服务器或者某些单位管理 gpu 资源的平台是这样配置的(基于某些组件底层 based on docker ),但是好像听说腾讯和阿里云的 gpu 服务器可以单独运行 docker 的 server 。
    harrietliu
        6
    harrietliu  
    OP
       21 天前
    @Clannad0708 这些平台的容器是用来划分不同的用户的,修改容器配置应该也是需要超级用户
    coefuqin
        7
    coefuqin  
       21 天前
    @harrietliu 你要这么操作,就直接买阿里云,腾讯云的 gpu server 啊。不用云原生的 autoDL 不就行了。dind 是一件复杂的事情,就算你有超级权限,估计也很难搞定 dind 的网络。
    coefuqin
        8
    coefuqin  
       21 天前
    @harrietliu #5 以你对这些 cloud native 的技术认知来说,多 gpu server 组集群,也是一件困难的事。
    harrietliu
        9
    harrietliu  
    OP
       21 天前
    @coefuqin 肯定想用单位的免费服务器,我要是富豪也不会问了,直接买电脑不就好了。而且单位的 gpu 就是你说的工作集群啊。提问是想说有没有其他人遇到和我类似的问题,有没有什么好的解决方案
    coefuqin
        10
    coefuqin  
       21 天前
    @harrietliu #9 你不要搞 docker in docker 不就行了?不会?不会就只能学了。
    liu731
        11
    liu731  
       21 天前
    https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

    What can i say...(你这好比用数据加减法提问如何解弹道方程式)
    python35
        12
    python35  
       21 天前
    你可以 shell 进公司的容器里面吗,可以的话直接再容器里跑就行;
    我们这边的 gpu 训练平台,本地提交一个任务指定节点、指定镜像、指定一个入口脚本,平台自动按照你指定的镜像在指定的节点上初始化容器,帮你把入口脚本在容器里面跑起来;
    harrietliu
        13
    harrietliu  
    OP
       21 天前
    @python35 哦哦,好的,这个我试一下,看看能不能添加这个镜像
    Clannad0708
        14
    Clannad0708  
       21 天前
    @harrietliu #6 懂了,你在平台上操作实际是一个 docker 而不是 ubuntu 虚拟机这样吗?你在一个 docker 里面用 gpu 他们的 gpu 也是容器化的 分片 gpu ,所以场景就是 docker in docker 啊。这个没啥办法基本上就是得挂载宿主机的 socket.文件。要么就看看网上有什么解决办法吧。
    harrietliu
        15
    harrietliu  
    OP
       21 天前
    @Clannad0708 嗯嗯,shell 的话我还没找到入口,目前我是在自己的轻薄本上跑只用 cpu 的 demo ,找管理员直接添加这个镜像是比较方便的
    zzzk1
        16
    zzzk1  
       21 天前
    智星云可以
    harrietliu
        17
    harrietliu  
    OP
       21 天前
    @zzzk1 好的,我试一下
    Clannad0708
        18
    Clannad0708  
       21 天前
    @harrietliu #15 搞 AI 不建议弄的这么套中套,前段时间调研用 kubeflow ,里面也是一个容器的 notebook 里面自己跑训练的 AI 代码。wc 那简直了,python 必要的一些工具下载起来都麻烦,要么和 python 版本不匹配要么依赖不匹配,还在容器里,挺麻烦的说实话。在容器里 apit install 有的还没 root 权限下不下来,反正整了几天搞不了了
    harrietliu
        19
    harrietliu  
    OP
       21 天前
    @Clannad0708 它这个容器内都是 root 的,除了用不了 docker 其他的我觉得还可以
    Clannad0708
        20
    Clannad0708  
       21 天前
    @harrietliu #19 容器内看自己是 root 但是你只是看起来有权限,实际运行起来很多东西没内核权限的
    YsHaNg
        21
    YsHaNg  
       21 天前
    rootless 的 container 可以用 podman/Kaniko
    harrietliu
        22
    harrietliu  
    OP
       21 天前
    @YsHaNg 好的!
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5685 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:55 · PVG 10:55 · LAX 19:55 · JFK 22:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.