关于我
大家好,是一名 AI 领域的创业者,目前正在研发一名音视频领域的智能体工具,已经获得了天使轮的融资。产品 MVP 正在打磨中,整个团队在广州番禺。当下的 AI 发展迅猛,我认为已经可以重塑整个互联网软件的形态,正如同 16 年是的“互联网+”概念。如果你也对此认同并且想要在大潮流下做点什么,希望你能耐心看完整个招聘 JD ,看看我们有没有合作/共同创造的机会。
岗位职责
- 设计并开发基于 Python 的智能体核心框架,支持自主决策、多任务协作和动态环境适应。开发面向音视频多模态场景的 LLM 应用系统
- 使用 RAG 技术优化大模型输出,结合音视频元数据、字幕、语音识别结果等多模态数据提升检索与生成质量
- 负责开源模型(如 Whisper 、Stable Video Diffusion 等)的本地化部署,搭建高并发、低延迟的模型服务 API ,支持音视频流式处理需求。
- 设计模型量化、并行推理、GPU 优化等方案,提升音视频场景下的推理性能与资源利用率。
- 构建音视频数据预处理与微调 Pipeline ,使用 LoRA/P-Tuning 等技术高效微调多模态模型,提升特定任务的效果。
- 探索多模态 LLM 、AI 生成( TTS/视频合成)等技术方向,推动 AIGC 与音视频产品的创新结合。
- 跟踪 LLM 与音视频领域的前沿进展,评估技术落地可行性并推动团队技术升级。
岗位要求
- 统招本科及以上学历,3 年以上 Python/C/C++ 开发经验
- 精通智能体开发框架( CrewAI/LangChain/Autogen ),对 RAG 有深刻洞见
- 熟悉 OpenAI Agents SDK ,具备 Manus 或 UI-TARS 开发经验优先
- 具备音视频处理经验,熟悉 FFmpeg/OpenCV/Librosa/Openshot 等工具,了解语音识别( ASR )、视频理解(动作检测)等任务
- 深入理解智能体技术栈(决策系统、知识管理、工具集成)
- 熟练掌握工具链集成( OpenAI Tools/MCP 协议)
- 具备后端架构经验(微服务、分布式系统、高并发)
-
加分项
- LLM 微调经验
- 有 AIGC 音视频项目经验或开源项目贡献者优先。
福利待遇
- 五险一金,绩效+年终奖金
- 20k-35k(大牛可谈)
- 双休
联系我
请将简历发送至招聘邮箱: versacepoon@kolc.ai ,邮件标题注明"应聘职位+姓名"