2 个正式 hc ,实习生不限
职位概述:
1. 负责 GPU 训练集群的资源管理与调度,保证 GPU 资源的高效使用
2. 提升分布式训练任务的稳定性,包括开发鲁棒的训练框架以及方便易用的可视化工具等
3. 提升分布式训练任务的训练效率,系统性地解决 IO/通信/运算等方向的性能问题
4. 负责对接训练平台在自动驾驶数据流中的上下游,具体包括提升数据预处理的效率,提供用户友好的模型管理工具等
职位要求:
1. 计算机及相关专业的应届毕业生
2. 熟悉 Python/Golang/C++/C 任一开发语言,并有关相关的项目经验
3. 参与过社区开源项目,如 kubernetes/kubeflow/horovod 等加分
4. 了解通用 GPU 架构以及业内相关虚拟化方案加分
5. 了解高性能网络相关技术,对 RDMA 编程以及相关流控技术有一定的技术储备加分
6. 熟练使用 Tensorflow/Pytorch 等训练框架,有 CUDA 编程经验加分
有意向的童鞋:
[email protected]