小规模会议场景(小于 10 人)下的说话人分割,希望能流式处理,请问什么模型延迟和准确性比较好呢?
提前感谢大佬回复!
(目前试过 funasr 的 cam++,分割效果不太好)
![]() |
1
czfy 2024-05-06 22:08:36 +08:00
|
2
q0000001 2024-05-06 23:06:22 +08:00 via Android
多嘴问问,funasr 可以流式识别说话人?
|
![]() |
3
BMPixel 2024-05-07 09:14:22 +08:00
我之前自己试了几个,WhisperX 效果是最好的,不过好像不能流式。
|
6
q0000001 2024-05-07 15:32:54 +08:00
@Leon6868 我也看到有,但是基本上都是非实时语音识别才有加载 cam++,看到 issue 里面说流式没有,所以一直没看到。
能再问问你是用 paraformer-zh-streaming 这个,再加载 cam++吗? |
![]() |
7
roding 2024-05-07 16:20:30 +08:00
为什么要分割人😱
|
![]() |
8
Leon6868 OP @q0000001 #6 我描述得确实不太准确,当时是采用滑窗方式分割说话人的,类似 3s 历史+2s(未处理)这样(迫真流式)。我也没找到近期实时说话人识别/分割的工作,如果见到类似的工作欢迎多交流🙏
|
9
q0000001 2024-05-07 22:50:57 +08:00 via iPhone
|
![]() |
10
Leon6868 OP @q0000001 #9 最近尝试了一个非常好的项目,sherpa onnx ,在 asr 和 说话人分割/识别 方面基本能满足我的需求,你可以试一下
|