网络上有海量的文本信息,想要处理这些非结构化的数据就需要利用 NLP 技术。

本文将介绍 NLP 的基本概念,2大任务,4个典型应用和6个实践步骤。

想要了解更多 NLP 相关的内容,请访问  NLP专题 ,免费提供59页的NLP文档下载。

访问 NLP 专题,下载 59 页免费 PDF

NLP 为什么重要?

“语言理解是人工智能领域皇冠上的明珠”

比尔·盖茨

在人工智能出现之前,机器智能处理结构化的数据(例如 Excel 里的数据)。但是网络中大部分的数据都是非结构化的,例如:文章、图片、音频、视频…

在非结构数据中,文本的数量是最多的,他虽然没有图片和视频占用的空间大,但是他的信息量是最大的。

为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。

什么是自然语言处理 – NLP

每种动物都有自己的语言,机器也是!

自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。

不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间都无法直接交流,需要翻译才能交流。

而计算机更是如此,为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。

既然不同人类语言之间可以有翻译,那么人类和机器之间是否可以通过“翻译”的方式来直接交流呢?

NLP 就是人类和机器之间沟通的桥梁!

自然语言就是大家平时在生活中常用的表达方式,大家平时说的“讲人话”就是这个意思。

自然语言:我背有点驼(非自然语言:我的背部呈弯曲状)

自然语言:宝宝的经纪人睡了宝宝的宝宝(微博上这种段子一大把)

NLP 的2大核心任务

  • 句子聚合 – Sentence Aggregation
  • 语法化 – Lexicalisation
  • 参考表达式生成 – Referring Expression Generation|REG
  • 语言实现 – Linguistic Realisation
  • 想要深入了解NLG,可以看看这篇文章《 一文看懂自然语言生成 – NLG(6个实现步骤+3个典型应用)

    NLP 的5个难点

    聊天机器人

    过去只有 Siri、小冰这些机器人,大家使用的动力并不强,只是当做一个娱乐的方式。但是最近几年智能音箱的快速发展让大家感受到了聊天机器人的价值。

    而且未来随着智能家居,智能汽车的发展,聊天机器人会有更大的使用价值。

    语音识别已经成为了全民级的引用,微信里可以语音转文字,汽车中使用导航可以直接说目的地,老年人使用输入法也可以直接语音而不用学习拼音…

    目前的机器翻译准确率已经很高了,大家使用 Google 翻译完全可以看懂文章的大意。传统的人肉翻译未来很可能会失业。

    NLP 的 2 种途径、3 个核心步骤

    NLP 可以使用传统的机器学习方法来处理,也可以使用深度学习的方法来处理。2 种不同的途径也对应着不同的处理步骤。详情如下:

    方式 1:传统机器学习的 NLP 流程

    百度百科版本+维基百科

    百度百科版本

    自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

    自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

    维基百科版本

    自然语言处理(NLP)是计算机科学,信息工程和人工智能的子领域,涉及计算机与人类(自然)语言之间的交互,特别是如何对计算机进行编程以处理和分析大量自然语言数据。自然语言处理中的挑战通常涉及语音识别,自然语言理解和自然语言生成。

    相关书籍(3)

    统计自然语言处理基础

    自然语言处理综论

    Python自然语言处理》

    开拓视野类文章(15)

    NLP领域中的迁移学习现状 (2019-9)

    观点 | 认知智能的突围:NLP、知识图谱是AI下一个“掘金地”? (2019-8)

    从发展滞后到不断突破,NLP已成为AI又一燃爆点? (2019-7)

    【技术综述】深度学习在自然语言处理中的应用发展史 (2019-6)

    干货|最全自然语言处理attention综述 (2019-6)

    AI产品经理必备知识:8个最先进的NLP领域的预训练模型 (2019-6)

    8种优秀预训练模型大盘点,NLP应用so easy! (2019-5)

    从基于规则到深度学习,NLP 技术进阶三部曲 (2019-3)

    中文对比英文自然语言处理NLP的区别综述 (2019-3)

    百度发布NLP模型ERNIE,基于知识增强,在多个中文NLP任务中表现超越BERT (2019-3)

    自然语言处理中注意力机制综述 (2019-1)

    21种NLP任务激活函数大比拼:你一定猜不到谁赢了

    深度好文:2018年NLP应用和商业化调查报告

    5 分钟入门 Google 最强NLP模型:BERT

    NLP技术落地为何这么难?里面有哪些坑?

    微软亚洲研究院:NLP将迎来黄金十年

    横扫13项中文NLP任务:香侬科技提出汉语字形表征向量Glyce+田字格CNN

    深度长文:中文分词的十年回顾

    现有模型还“不懂”自然语言:20多位研究者谈NLP四大开放性问题

    对话清华NLP实验室刘知远:NLP搞事情少不了知识库与图神经网络

    中文分词十年又回顾: 2007-2017