人工智能技术科普:语音识别和自然语言理解
·语音识别(Automatic Speech Recognition);
·什么是语音识别?
语音识别是以语音为研究对象,通过信号处理和识别技术让机器自动识别和理解人类口述的语言后,将语音信号转换为相应的文本或命令的一门技术。
由语音识别和语音合成、自然语言理解、语义网络等技术相结合的语音交互正在逐步成为当前多通道、多媒体智能人机交互的主要方式。
·语音识别流程;
语音识别流程分为训练和识别两条线路。
语音信号经过前端信号处理、端点检测等预处理后,逐帧提取语音特征,传统的特征类型包括有MFCC、PLP、FBANK等特征,提取好的特征会送到解码器,在训练好的声学模型、语言模型之下,找到最为匹配的此序列作为识别结果输出。
·语音识别技术模式图和对应企业图;
基础层 :包含大数据、计算力和算法三块,其中大数据等接入的是相应领域的第三方服
务商。机器在识别人类的语音指令后接入、提供相应的服务。诸如影视、电影票、餐饮等;
技术层 :以科大讯飞为首的语音技术提供商;
应用层 :传统家居环境中的电视、音箱厂商都给加上了语音识别功能,新增交互方式;
还有智能车载采用语音交互让手不离开方向盘提高安全系数;还有搜索厂商基于搜索做出来
的语音助手等。
·自然语言理解(Natural Language Understanding);
·什么是自然语言理解?
自然语言理解即文本理解,和语音图像的模式识别技术有着本质的区别,语言作为知识
的载体,承载了复杂的信息量,具有高度的抽象性,对语言的理解属于认知层面,不能仅靠模式匹配的方式完成。
·自然语言理解的应用:搜索引擎+机器翻译;
自然语言理解最典型两种应用为搜索引擎和机器翻译。
搜索引擎可以在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,最终达到搜索引擎和自然语言用户之间的良好衔接,可以在两者之间建立起更高效,更深层的信息传递。
·自然语言理解技术在机器翻译中的应用;
事实上搜索引擎和机器翻译不分家,互联网、移动互联网为其充实了语料库使得其发展模态发生了质的改变。互联网、移动互联网除了将原先线下的信息(原有语料)进行在线化之外,还衍生出来的新型UGC模式:知识分享数据,像维基百科、百度百科等都是人为校准过的词条,噪声小;社交数据,像微博和微信等展现用户的个性化、主观化、时效性,可以用来做个性化推荐、情感倾向分析、以及热点舆情的检测和跟踪等;社区、论坛数据,像果壳、知乎等为搜索引擎提供了问答知识、问答资源等数据源。
另一方面,因为深度学习采用的层次结构从大规模数据中自发学习的黑盒子模式是不可解释的,而以语言为媒介的人与人之间的沟通应该要建立在相互理解的基础上,所以深度学习在搜索引擎和机器翻译上的效用没有语音图像识别领域来得显著。