求教!缩略词、错别字符串还原单词

2024-06-11 17:37:18 +08:00
 sonnyclarity492
1. 假设每个单词都有自己的变种书写形式,缩写、扩写,原样照写。
2. 变种形式的单词,可能是恰巧和另一个单词拼写相同,可能是写错了,可能是有特定缩略形式。
3. 词汇表的数量是有限的,比如说原始单词就 2000 个。
4. 用户的书写习惯不同,例如 apple 这个单词,有人写作 ape ,有人写作 apl ,有人写作 apple ,有人写作 opple ,有人写作 udtp (某种意义上是正确的)。
5. 存在用户随意输入的情况。

于是我们就有一堆字符串,希望能够确定这个字符串最可能是哪个原始单词。

说说我的今天工作,我把 word 和 aliases 丢到神经网络里训练,用 alias 预测 word ,结果是它几乎不认识没见过的 alias ,错误率很高。

这是因为那些字符串我自己也还原不出来,可能是用户随意打的。

各位大佬有没有什么好的建议?
1549 次点击
所在节点    机器学习
8 条回复
sonnyclarity492
2024-06-11 17:40:20 +08:00
当然了,词汇表限定在某个专业领域,也不是随便什么单词,但有些输入确实看不懂,一个个去猜的话很费时间
aloxaf
2024-06-11 17:51:37 +08:00
感觉这事儿适合 LLM 。如果只是单纯的简写/拼错的话,用模糊匹配或许也行。

话说我没明白 apple 究竟是咋样才能拼成 udtp……
sonnyclarity492
2024-06-11 17:56:51 +08:00
@aloxaf 哈哈哈哈哈感谢回答,这个是我随便取名字,就当是一个专有名词。

这个数量倒不多,更多的是缩写,比如地名缩写加三个首字母
3dward
2024-06-12 09:00:51 +08:00
l22576283
2024-06-12 11:26:34 +08:00
这个场景得依赖上下文推测才行,我觉得直接上大模型吧,让大模型根据上下文推测用户的缩写表达的单词
realJamespond
2024-06-12 11:44:19 +08:00
搜下 Levenshtein Distance 距离算法应该可以
sonnyclarity492
2024-06-12 21:30:03 +08:00
@realJamespond 编辑距离我尝试过了,结果不理想,要不就是概率很低,要不就是乱匹配
sonnyclarity492
2024-06-12 21:30:48 +08:00
@l22576283 很遗憾,我也想要上下文,但是仅仅是单词短语,国家、地区信息也不提供

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1048650

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX