2025 年,是 AI 硬件的全面爆发之年:AI 手机、AIPC 、AI 陪伴、AI 眼镜、AI 智慧座舱……然而,云端大模型主导的 AI 硬件正在显露隐忧:高昂的 API 调用成本让中小企业望而却步,隐私数据上传云端的安全风险如影随形,网络延迟与垂域适配不足更是制约着端侧的场景创新。
开源端侧小模型崛起正在改写游戏规则:根据小模型能力密度发展趋势( Densing Law ),小模型能力大约每 3.5 个月就翻一倍,边缘 AI 推理场景正在从想象变为现实。甚至英伟达也在论文《 Small Language Models are the Future of Agentic AI 》宣告:小模型才是 Agentic AI 的未来。
当开发者们摩拳擦掌,想要用先进小模型打造创新应用时,现实又浇了一盆冷水:
最近美国硅谷明星端侧 AI Startup Nexa AI 公司在 github 上发布的 Nexa SDK ,为全球开发者带来了破局新思路。这个项目致力于解决长期存在于端侧模型部署中的共性问题,让 AI 模型在手机、PC 、汽车、IoT 等边缘设备上的落地变得前所未有的简单。
github 项目链接: https://github.com/NexaAI/nexa-sdk
Nexa SDK 构建了 4 大核心优势,解决端侧 AI 部署的核心痛点:

Nexa SDK 与其他端侧 SDK 的比较优势:
| Features | NexaSDK | Ollama | llama.cpp | LM Studio |
|---|---|---|---|---|
| NPU 支持 | ✅ NPU 优先 | ❌ | ❌ | ❌ |
| Android SDK 支持 | ✅ NPU/GPU/CPU 支持 | ⚠️ | ⚠️ | ❌ |
| 支持 GGUF 、MLX 、NEXA 任意一种格式的模型 | ✅ 底层控制 | ❌ | ⚠️ | ❌ |
| 全面支持多模态 | ✅ 图像、音频、文字模型 | ⚠️ | ⚠️ | ⚠️ |
| 跨平台支持 | ✅ 桌面端、移动端、车载端, IoT 端 | ⚠️ | ⚠️ | ⚠️ |
| 一行代码调用 | ✅ | ✅ | ⚠️ | ✅ |
| 兼容 OpenAI API + 函数调用 | ✅ | ✅ | ✅ | ✅ |
✅完全支持 ⚠️部分或有限支持 ❌ 不支持
NEXA SDK 一经发布也获得了包括 AMD/高通的诸多行业认可:

根据使用方式和平台,Nexa SDK 提供不同的工具包:
下载路径:
可以从 github: https://github.com/NexaAI/nexa-sdk 或者 https://sdk.nexa.ai 下载 Nexa CLI 。

一行代码运行模型
Nexa SDK 支持 LLM 、多模态、音频( ASR\TTS )、CV 、生图等多种端侧模型。例如:
多模态模型
NexaSDK 在 Qwen3VL 发布当天 Day-0 跨平台支持,领先 llama.cpp/ollama 三周,并得到 Qwen 官方认可
nexa infer NexaAI/Qwen3-VL-4B-Instruct-GGUF
车载多模态模型(适配高通 NPU )
nexa infer NexaAI/AutoNeural
相比于其他框架,NexaSDK 对于新模型的支持速度还是非常迅速,可以访问 Nexa AI 官方模型仓库 https://huggingface.co/NexaAI 查看使用更多精选的模型。

目前 Nexa CLI 支持 MacOS 、Windows 、Linux (并支持 Docker 运行),同时提供 Python API, IOS Swift API 、Android Kotlin/JAVA API 开发工具包,
兼容 OpenAI API NEXA CLI 还提供 OpenAI 兼容的 REST API ,一行命令即可访问服务接口,无缝覆盖对话生成、文本嵌入、文档重排序、图像生成等核心场景,满足多样化开发需求。
nexa serve
/v1/chat/completions - 用于 LLM 和 VLM 的对话生成/v1/embeddings - 为文本生成向量嵌入/v1/reranking - 根据查询相关性对文档重新排序/v1/images/generations - 根据提示生成图像Nexa SDK Python 工具包,适配 MacOS 、Windows 、Linux 等全平台优化后端,无论是本地开发还是企业级应用,都能使用 Python 更高效落地。可以使用 Python API 一键运行 LLM 、VLM 、OCR 、ASR 、TTS 、图像生成、说话人分离、键值缓存、采样配置、对话模板以及错误处理等。

更多文档参阅: https://docs.nexa.ai/nexa-sdk-python/overview
下载地址:
Nexa SDK Android 工具包:可直接从 Maven 中央仓库获取,或访问 github: https://github.com/NexaAI/core
dependencies {
implementation("ai.nexa:core:0.0.12")
}
Nexa SDK iOS 工具包: https://github.com/NexaAI/nexasdk-mobile-iOS-framework
更多文档参阅: https://docs.nexa.ai/nexa-sdk-android/overview
更多文档参阅: https://docs.nexa.ai/nexa-sdk-ios/quickstart
当部署不再是难题,当性能不再妥协,端侧 AI 的革命,正在每一个场景悄然发生:
端侧 AI 的低成本、高隐私、低延迟特性,正在重构产品形态,催生全新商业模式。
希望今天分享的 Nexa SDK 能让每一位热爱端侧 AI 的人都能参与到端侧 AI 的浪潮中,无需复杂的工具链,消解沉重的技术壁垒,赋能每一位开发者,解锁端侧 AI 落地的无限可能!
github 项目链接: https://github.com/NexaAI/nexa-sdk (如果认为对您工作有帮助,欢迎为开源作者 star )
1
bigoxEvan 2 天前
就是原来我跑不动的模型用这个就能跑动了吗?
|
2
RemiliaForever OP @bigoxEvan 性能有一些优化,但也到不了这程度。主要解决的是 Npu 使用和多类模型易用性问题。
|
3
c0xt30a 1 天前
闭源的产品推荐之前麻烦说清下。
兴冲冲地去看底层实现,折腾了半小时发现只有个二进制库文件。 |