感觉 Rime 的分词和搭配很成问题啊

288 天前
 Irilsy

如题,用的白霜词库,已经快一年了。虽然一直在用,以前就遇到过这些问题但还能忍受,不过最近经常要写一些东西,这方面的困扰明显严重了很多。


比如下面这些句子:

渐渐地就不在意了: (「不/在意/了」被理解成了「不再/一乐」)

以前就会这样: (「以前/就会」被理解成了「一千九/会」)

不管怎么使劲都不行: (「不管怎么/使劲/都/不行」 => 「不管怎么/是/筋斗/不行」)

无论如何你都不可能再离开这里了: (「离开/这里/了」 => 「离开/这/离了」)


还有一些可能有些强求的例子,因为即使是别的输入法也可能处理不好。

这不是你该管的事情:

这种方法会更加有用: 之所以会出现「游泳」这个搭配可能跟我之前有一阵子经常打「游泳」有关,但是我觉得连词性都判断不出来也不太正常吧……


想问问大家有没有什么好的解决办法?

5176 次点击
所在节点    中州韻
40 条回复
yumenaka
286 天前
非常好用。只要不是很罕有的句子,都能很容易地匹配到。
Volekingsg
285 天前
请教下启动了 grammar 也没有那个正无穷符号,这个是咋开的
Irilsy
285 天前
@Volekingsg 那个正无穷符号不是语言模型的,是白霜词库( rime-frost )自带的,正无穷符号表示不是挂载的词库和个人词库中的词,而是根据已有词库拼接的;还有星号表示是个人词库中的词(就是之前打过的),没有符号表示是挂载词库中的。参见 https://github.com/gaboolic/rime-frost/issues/12
GabrielS
285 天前
1 渐渐地就不在意了
渐渐的 就不再 一乐
是因为词库里有“就不再”,这种可以考虑后续删掉

2 以前就会这样
一千九 会这样
这个无解 rime 会把你的输入分割尽量短。如果打”以前就会“是没有问题的, 以前+就会的词频大于一千九+会的词频。但是”以前 就会 这样“ 会分割成 3 段,"一千九 会这样”只有两段。 即使 "以前 + 就会 + 这样"的词频大于"一千九 会这样“的词频也不行,rime 有限分割成 2 段。

3 不管怎么使劲都不行
这个是正常的,可能是你的用户词频影响了。

4 无论如何你都不可能再离开这里了
这个是正常的,可能是你的用户词频影响了。

5 这不是你该管的事情
这不是你改观的事情
这是因为”改观“的词频大于”该管“,除非上语言模型 不然无解

6 这种方法会更加有用
这个是正常的,可能是你的用户词频影响了。

如果你写东西多,其实可以关闭用户词库。或者试试双拼加形,墨奇音形,也是白霜作者做的
kimizen
284 天前
用了好几天
反馈一下,万象大模型配合云输入纠错,完全可以和那些在线输入法掰手腕了……
ly1878
283 天前
请教各位大佬,小白折腾了一天,看了好几个 git 文档,之前的几处翻页、自定义短语修改都是迷迷糊糊设置,最后测试有效,现在还是没启用成功万象大模型,虽然这个帖子讲了比较明白,https://www.saraba1st.com/2b/thread-2210738-1-1.html ,我还是不懂到底要修改哪个 yaml ,好几个修改了,重新部署还是无效,可以麻烦大佬手把手的指点一下吗?万分感谢,差点要放弃了。我用的是凇鹤拼音,
模糊音设置,试了好几处修改,也没成功,麻烦大佬看下我的帖子,感谢。https://ex.noerr.eu.org/t/1098582#reply0
@GabrielS @Irilsy @NoOneNoBody @TrembleBeforeMe @Volekingsg @billlee @docx @jiaoyidongxi @kimizen @noisay
kimizen
283 天前
@ly1878 把万象模型的代码复制到 xhup.schema.yaml 这个文件里或者新建一个 xhup.schema.custom.yaml 覆写
Volekingsg
283 天前
@ly1878 #26 新建 double_pinyin_flypy.custom.yaml 填入以下内容
patch:
grammar:
language: amz-v3n2m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2

translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7
ly1878
283 天前
感谢两位帮助, @kimizen 不管是加入还是新建都没有效果。 @Volekingsg 还是没有效果。
重新部署还是不行。
kimizen
283 天前
@ly1878 你复制的哪里的代码?直接复制作者自己的,别用那个楼主修改的
__include: octagram #启用语言模型
#语言模型
octagram:
__patch:
grammar:
language: amz-v2n3m1-zh-hans
collocation_max_length: 5
collocation_min_length: 2
translator/contextual_suggestions: true
translator/max_homophones: 7
translator/max_homographs: 7
kimizen
283 天前
@ly1878 yaml 要注意空格……https://github.com/amzxyz/RIME-LMDG/wiki/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E8%AF%B4%E6%98%8E
没生效基本大概率是这原因 custom 要注意的坑太多了,你直接复制到 xhup.schema.yaml 里
ly1878
283 天前
@kimizen 感谢你的帮助。麻烦你看下我的另一个帖子,https://ex.noerr.eu.org/t/1098582#reply13 我自认为配置的都正确,会不会是我用的凇鹤拼音输入法,自身配置的问题? https://github.com/kchen0x/rime-crane
Volekingsg
283 天前
@ly1878 #29 自行检查 build 目录下的输入方案是否符合预期
ly1878
283 天前
@Volekingsg build 目录怎样是符合预期呢?一直没手动修改这里的文件,一直都是根目录修改的。我看了这么多教程没提到要修改 build 里面的文件啊
Volekingsg
283 天前
@ly1878 #34 没说要改,build 是聚合了你 custom 和原始文件生成的,你这样折腾不如去把文档认真读两篇( https://rime.im/docs/),虽然确实不好理解
ly1878
282 天前
请教各位,删除自造词 Shift+Fn+Delete ,没有 fn 键,如何修改成其他的键?
1073
282 天前
有没有大佬帮忙看下生效没
https://github.com/amzxyz/RIME-LMDG/issues/7
FEDT
257 天前
为啥你的待选区后面有个无穷的符号,我的没有
Chengnan049
236 天前
@omz 那我就不能要一个既不联网又舒服的输入法吗?你要这么说的话我给搜狗断网后输入效果也是一流,这个问题加一个语言模型就能解决,很简单
guxianbang
221 天前
仅使用万象拼音 https://github.com/amzxyz/rime_wanxiang_pro 的自带词库,没有安装语言模型,楼主“比如下面这些句子”里的所有句子都能正确匹配在第一位,不用选字(除了“无论如何你都不可能再离开这里了”打出了“在”,可用辅助码多打一个“a”解决)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1097614

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX