[上海/广州/北京] 训练/推理平台开发工程师

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

2 个正式 hc ，实习生不限

职位概述:
1. 负责 GPU 训练集群的资源管理与调度，保证 GPU 资源的高效使用
2. 提升分布式训练任务的稳定性，包括开发鲁棒的训练框架以及方便易用的可视化工具等
3. 提升分布式训练任务的训练效率，系统性地解决 IO/通信/运算等方向的性能问题
4. 负责对接训练平台在自动驾驶数据流中的上下游，具体包括提升数据预处理的效率，提供用户友好的模型管理工具等

职位要求：
1. 计算机及相关专业的应届毕业生
2. 熟悉 Python/Golang/C++/C 任一开发语言，并有关相关的项目经验
3. 参与过社区开源项目，如 kubernetes/kubeflow/horovod 等加分
4. 了解通用 GPU 架构以及业内相关虚拟化方案加分
5. 了解高性能网络相关技术，对 RDMA 编程以及相关流控技术有一定的技术储备加分
6. 熟练使用 Tensorflow/Pytorch 等训练框架，有 CUDA 编程经验加分

有意向的童鞋： [email protected]

GPU

分布式训练

资源管理

8 条回复 • 2025-07-30 15:49:02 +08:00