• 给音频进行信号处理后,便要按帧(毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维 向量 信息
  • 将这些帧信息识别成状态(可以理解为中间过程,一种比 音素 还要小的过程)
  • 再将状态组合形成音素(通常3个状态=1个音素)
  • 最后将音素组成字词(dà jiā hǎo)并串连成句 。于是,这就可以实现由语音转换成文字了。

    百度百科和维基百科

    百度百科版本

    语音识别技术,也被称为自动语音识别 Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

    维基百科版本

    语音识别是计算语言学的跨学科子领域,其开发方法和技术,使得能够通过计算机识别和翻译口语。它也被称为自动语音识别(ASR),计算机语音识别或语音到文本(STT)。它融合了语言学,计算机科学和电气工程领域的知识和研究。

    一些语音识别系统需要“训练”(也称为“登记”),其中个体说话者将文本或孤立的词汇读入系统。系统分析人的特定声音并使用它来微调对该人的语音的识别,从而提高准确性。不使用训练的系统称为“说话者无关” 系统。使用训练的系统称为“说话者依赖”。

    入门类文章(3)

    语音识别的技术原理是什么?

    语音识别如何处理汉字中的“同音字 ”现象?

    CUI三部曲之语音识别——机器如何听懂你的话?

    相关资源(1)

    绝佳的ASR学习方案:这是一套开源的中文语音识别系统

    关于 easyAI

    人工智能领域的百科全书,非常适合小白和新手入门 AI 领域。
    现在市面上大家看到的绝大部分 AI 资料都是追求严谨的“理工科天书”,这个世界不缺少严谨真确晦涩难懂的 AI 资料,但是很缺容易理解的内容。
    我们希望抛开复杂的公式,复杂的逻辑,复杂的专用名词。做一套文科生也能看懂的 AI 知识库。
    站长邮箱:[email protected]
  •