NLP 领域学术界进展： 2017

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2966 天前的主题，其中的信息可能已经有所发展或是发生改变。

原文发表于我的博客： NLP 领域学术界进展：2017

前一段听了 Manning 的分享，结合现实场景，这里做一次目前 NLP 学术界进展的 review

NLP 领域学术界进展

实际上，近年来 NLP/CV/大数据领域的学术界和工业界基本已经不分家了，学术界能做到的，只要不脱离工业太远（基础性改造），基本上就会在工业界得到应用。

图上大部分都表达为标注任务，做有监督学习都可以直接解决，特殊的，翻译类任务会作为文本对齐（序列化有监督学习）来解决，而 QA/Dialog 目前也没有摆脱标注样本训练的过程。

图上出现的比较有意思的几点：

WSD：语义消歧，似乎是一个简单的事情，实际上非常难做，最主要是即不可能有充足的样本，且也没有一个 teacher，进行 lifelong-learning，而只能靠 KB、词典进行消歧。用词典进行消歧往往会受限于词典本身的约束（看一个词条并不能看懂），而对互联网知识直接进行（半监督）学习又很容易出错，没有一个体系化的收敛方法。
Summarization：文本生成至今仍然是一个很难的问题，一方面是 GAN 在 NLP 下应用仍然有比较强的限制，另一方面是 NLP 的生成式任务很难有一个好的评价方法。近年来强化学习+GAN 在 NLP 上有一些应用，但仍然不成熟。

图上没有出现的比较有意思的点：

互联网知识结构化：如何将互联网知识完全的结构化，并让机器完全的理解？
机器语言：如何让机器之间进行交流，能互相进行信息的补充与互学习？
专业领域建模：数学、物理、化学、计算机等专业领域进行建模，如自动化的 debug （据说已经有准确率达到~80%的自动化程序 debugger ）

Manning 表示 2017 是 NLP+Attention+BiLSTM 的一年，相信 2018 是 GAN+RL+NLP 的一年，不知明年是否有闲，可以发些文章

注：很多东西没有介绍，感兴趣的 V 友可以留言交流

NLP

学术界

消歧

Gan

11 条回复 • 2017-09-18 10:08:50 +08:00

alexapollo

2017-09-18 00:24:36 +08:00

举个例子：比如 V2EX 文章底部的几个词，就是一个标准的 keyphrase extraction
它最难的一个点就是很难确定评判标准，是一个比较主观的事情，像这里如果能提一个 Manning，就很有意思

而 entity linking 可以将 Manning 链接到 Stanford 的 Christopher Manning 教授，更进一步的靠近了现实知识

HowardMei

2017-09-18 00:36:52 +08:00 via Android

请教最新进展： https://ex.noerr.eu.org/t/382875#reply0

woodfish

2017-09-18 00:38:07 +08:00

有网上视频吗，求一个分享

alexapollo

2017-09-18 00:43:10 +08:00

@HowardMei 语义分析是一个比较广泛的概念，专利分析比较相关的领域应该是 Information extraction，也即把里面的信息提取出来结构化，这个领域已经有很多工业手段，也有一些比较新的研究（正如上文的 Attention ）

你可以讲讲你的场景，看看有什么可以帮助你的

alexapollo

2017-09-18 00:46:57 +08:00

@woodfish 我的没有，推荐可以看看 Stanford CS 224n 的课程：cs224n.stanford.edu

HowardMei

2017-09-18 01:20:48 +08:00 via Android

@alexapollo 仅仅提取是不够的，要做交叉关联分析查重查新，能发现竞争对手专利布局模式，最好还能自动生成高通过率的专利申请文本。

AntiGameZ

2017-09-18 05:13:16 +08:00 via iPhone

你说的图里没有提到的部分，应该就是语义网和本体论的部分吧(semantic web & ontologies)

最近上课在看论文，云里雾里的。

alexapollo

2017-09-18 09:25:07 +08:00

@HowardMei 点可能很多，比如查重，就是一个 text match 问题，这里由于有对抗（替换相近词），所以考虑引入词向量就能解决不少问题

alexapollo

2017-09-18 09:26:03 +08:00

@AntiGameZ semantic web 是另外一个努力的方向，和这个方向还不大一样，而且现在 kg 也基本替代 sw 成为事实标准了

Morriaty

2017-09-18 09:42:18 +08:00

Text Similarity 已经算已解决问题了吗！！

alexapollo

2017-09-18 10:08:50 +08:00

@Morriaty 你看横向的事情（一部分是可演进的），后面是 translation，paraphrase