nakroy 最近的时间轴更新
nakroy

nakroy

V2EX 第 680857 号会员,加入于 2024-03-18 22:46:42 +08:00
构建适用于大模型微调的对话数据集
Local LLM  •  nakroy  •  5 天前  •  最后回复来自 MIUIOS
4
针对 AI 场景的分布式存储
Kubernetes  •  nakroy  •  2024-10-26 11:05:36 AM  •  最后回复来自 cybort
2
AI 大模型的分布式存储方案
程序员  •  nakroy  •  2024-10-26 13:48:53 PM  •  最后回复来自 tap91624
25
本地裸金属集群的 LoadBalancer 方案
Kubernetes  •  nakroy  •  2024-10-15 14:48:34 PM  •  最后回复来自 nakroy
14
本地集群的 LoadBalancer 方案
云计算  •  nakroy  •  2024-10-15 14:51:10 PM  •  最后回复来自 nakroy
5
请教各位大佬,有没有合适的文档管理系统推荐
程序员  •  nakroy  •  5 天前  •  最后回复来自 nakroy
23
nakroy 最近回复了
@astu 我们后面使用了一个叫 Pydio Cells 的开源 DMS ,https://github.com/pydio/cells ,支持使用 k8s helm 部署和管理,在线访问 office 使用的是开 OnlyOffice 的容器,然后 Pydio Cells 里面接入 OnlyOffice ,打开 office 文档的时候自动跳转到 OnlyOffice 的编辑界面。
这个开源 DMS 功能比较完善,UI 界面也比较现代化,是用 GO 语言写的,所以性能上比 nextcloud 强。但是因为是开源,所以开源不稳定偶尔出 bug 的情况也是不可避免的,这时候一般只能求助 Pydio Cells 的论坛了,版主回复还是挺积极的。
2024-10-25 15:06:27 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 好的兄弟,我去看看
2024-10-25 15:04:22 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 我现在有 4 台 910B 的机器做测试,不纠结分布式存储那直接用本地为每一个模型分片存储确实成本最低。因为训练场景不多,主要还是推理场景。但是华为的人推的方案就有提到搭配他们的存储产品,所以不知道和传统的分布式存储有啥区别
2024-10-25 14:21:12 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mhycy 好的,了解了。那看来对于集群场景,使用专门的存储节点确实不是必须的
2024-10-25 14:19:34 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce 所以实际模型权重一直保留在内存里,需要的时候直接加载到 GPU 上?这里的内存是指存储节点的内存,而不是计算节点的内存,例如 GPU 节点能直接读取存储节点内存上的模型参数加载到 GPU 上,而不是先加载到 GPU 节点的内存上,然后再从 GPU 节点的内存上再加载到 GPU 节点的 GPU 上?
2024-10-25 14:02:13 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@mightybruce IB 和 RDMA 技术有过了解,英伟达就有专门的配套用 IB 交换机的网络方案,但是一般的客户根本玩不起,而且我这里根本没说每次加载都从磁盘加载,而是考虑到 GPU 节点首次需要使用存储的模型权重或者数据集时可能的读写性能瓶颈,如果你一次全部把所有模型所有数据全加载到内存上一直用,也不用导出到磁盘作存储,那你无敌了
2024-10-25 13:31:25 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@sampeng 就是传统的分布式存储无法满足大模型场景的读写性能,应该有专门针对大模型场景 I/O 优化的硬件软件方案
2024-10-25 13:29:37 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@paopjian 因为很多情况下,机器可能需要加载多个模型而不只是一个模型,或者如果单个模型非常大,假设你要使用多个机器去加载,占用的存储空间还是很大的,每个节点都为每个模型备份一次,就显得比较繁琐。当然我这里还没讨论到千卡万卡规模的集群,我认为这种级别的集群也是使用分布式存储的,只是因为是商业方案不会公开这些架构细节
2024-10-25 11:57:56 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@paopjian 也就是直接把模型加载到存储节点的内存,然后让其他节点通过光纤直接读存储节点内存的数据?
2024-10-25 11:54:31 +08:00
回复了 nakroy 创建的主题 程序员 AI 大模型的分布式存储方案
@fcten 考虑到同步的问题,例如同时用多个 GPU 节点做微调和训练,从集中的存储系统读取和存储而非每个节点都存储 checkpoint 副本,如果数据集很大,也不会考虑每个节点都存这个数据集
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4935 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 01:12 · PVG 09:12 · LAX 17:12 · JFK 20:12
♥ Do have faith in what you're doing.