开发了一个 AI 大模型的负载均衡器 AILoad,可缓解并发限制

115 天前
 xiaoz

目前市面上部分厂商提供了免费的 AI 模型接口(比如 Grok 、Gemini 等),通常免费提供的 API 接口均有严格的速率限制。于是我写了一个 AI 大模型的负载均衡调度器 AILoad 来改善此问题,后端可配置多个大模型的 API 接口,随机轮询后端多个大模型接口,并提供统一的 OpenAI 兼容格式调用,从而缓解并发限制。

主要特点

Docker Compose 安装

version: '3'
services:
    aiload:
        container_name: aiload
        volumes:
            - '/opt/aiload/data:/opt/aiload/data'
        restart: always
        ports:
          - '2081:2081'
        image: 'helloz/aiload'

一些不足

通过轮询的方法虽然缓解了并发限制的焦虑,后端虽然使用了 IP 亲和性算法,但是如果连续对话的场景超过 IP 缓存有效期后可能会分配到另外的模型上面,导致长对话中可能存在模型跳跃的问题。不知道各位大佬可有更好的解决方案。

注意

此项目仅供学习和测试用途,请勿滥用!!!

更多说明可参考开源项目地址: https://github.com/helloxz/aiload

994 次点击
所在节点    OpenAI
2 条回复
G2bN4dbX9J3ncp0r
115 天前
xiaoz
115 天前
@lidashuang #1 ,感谢分享,这个看起来功能很丰富,我这个目前比较单一。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1117863

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX