求教！缩略词、错别字符串还原单词

2024-06-11 17:37:18 +08:00

sonnyclarity492

1. 假设每个单词都有自己的变种书写形式，缩写、扩写，原样照写。
2. 变种形式的单词，可能是恰巧和另一个单词拼写相同，可能是写错了，可能是有特定缩略形式。
3. 词汇表的数量是有限的，比如说原始单词就 2000 个。
4. 用户的书写习惯不同，例如 apple 这个单词，有人写作 ape ，有人写作 apl ，有人写作 apple ，有人写作 opple ，有人写作 udtp （某种意义上是正确的）。
5. 存在用户随意输入的情况。

于是我们就有一堆字符串，希望能够确定这个字符串最可能是哪个原始单词。

说说我的今天工作，我把 word 和 aliases 丢到神经网络里训练，用 alias 预测 word ，结果是它几乎不认识没见过的 alias ，错误率很高。

这是因为那些字符串我自己也还原不出来，可能是用户随意打的。

各位大佬有没有什么好的建议？

1629 次点击

所在节点

机器学习

8 条回复

sonnyclarity492

2024-06-11 17:40:20 +08:00

当然了，词汇表限定在某个专业领域，也不是随便什么单词，但有些输入确实看不懂，一个个去猜的话很费时间

aloxaf

2024-06-11 17:51:37 +08:00

感觉这事儿适合 LLM 。如果只是单纯的简写/拼错的话，用模糊匹配或许也行。

话说我没明白 apple 究竟是咋样才能拼成 udtp……

sonnyclarity492

2024-06-11 17:56:51 +08:00

@aloxaf 哈哈哈哈哈感谢回答，这个是我随便取名字，就当是一个专有名词。

这个数量倒不多，更多的是缩写，比如地名缩写加三个首字母

3dward

2024-06-12 09:00:51 +08:00

可以用 spell check 算法试试：
https://stackoverflow.com/questions/2294915/what-algorithm-gives-suggestions-in-a-spell-checker

l22576283

2024-06-12 11:26:34 +08:00

这个场景得依赖上下文推测才行，我觉得直接上大模型吧，让大模型根据上下文推测用户的缩写表达的单词

realJamespond

2024-06-12 11:44:19 +08:00

搜下 Levenshtein Distance 距离算法应该可以

sonnyclarity492

2024-06-12 21:30:03 +08:00

@realJamespond 编辑距离我尝试过了，结果不理想，要不就是概率很低，要不就是乱匹配

sonnyclarity492

2024-06-12 21:30:48 +08:00

@l22576283 很遗憾，我也想要上下文，但是仅仅是单词短语，国家、地区信息也不提供

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1048650

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.