自动语音识别(ASR)是语音人工智能的阶段之一,自动语音识别帮助语音转录为文本,因此也称为语音到文本转换。
自动语音识别(ASR)将原始语音信号作为ASR信号的输入,再对该语音信号进行预处理以减少任何背景噪音或干扰,再把预处理后的音频通过以下模型进行处理,以成功映射到文本。
1、特征提取
特征提取是自动语音识别(ASR)系统的重要组成部分。由于模型不能直接处理音频信号,因此特征提取涉及将原始音频信号转换为一系列可以由ASR系统分析和解释的数字特征的过程。特征提取的目标是捕获音频信号中与语音识别相关的最显着信息,同时最大限度地减少噪声和其他失真的影响。
ASR中的特征提取是一个复杂的过程,涉及将原始音频信号转换为一组可用于识别语音的数字特征的多个步骤。特征提取技术的选择和使用的特定参数会对ASR系统的准确性和鲁棒性产生重大影响。
2.声学模型
声学模型是自动语音识别(ASR)系统的基本组成部分。它的主要功能是将口语单词的声学信号转换为一系列语音单元,然后可以通过语言和词汇模型进一步处理。声学模型的准确性直接影响ASR系统的整体性能。简而言之,声学模型可以根据将声学特征映射到语音单位的函数来定义。
声学模型基于隐马尔可夫模型(HMM)的原理,隐马尔可夫模型是表示观察序列概率分布的数学模型。在ASR的上下文中,观察是从语音信号中提取的声学特征,例如Mel倒谱系数(MFCC),表示语音信号的频谱特征。HMM是一种概率模型,它在给定隐藏状态或音素的情况下估计每次观察的概率。
声学模型使用大量语音数据进行训练,这些数据通常被转录为语音单元。训练数据用于估计HMM的参数,其中包括每个音素的声学特征的均值和方差。在训练期间,HMM学习将每个音素与一组独特的声学特征相关联,并模拟音素之间的转换。
声学模型的准确性对于ASR系统的性能至关重要。不准确的模型的会导致音素识别错误,从而显着降低系统的整体性能。
3.发音模型
发音模型是自动语音识别(ASR)系统用来将语音单元转录为单词的一组规则和模式。它通过提供有关每个音素(声音单位)在特定语言中如何发音的信息,帮助系统识别单词的正确发音。如果没有发音模型,ASR系统将很难准确地转录口语单词,因为通常有多种方法可以用不同的方言和口音发音相同的单词或声音。
4.语言模型
语言模型是一种统计模型,用于预测给定上下文中一个词或一系列词的概率。语言模型将分析句子并根据每个单词出现的上下文为每个单词分配概率。
ASR系统将使用语言模型根据发音模型生成的分配给每个单词的概率来预测给定音频输入的最可能转录。这将有助于最大程度地减少错误并提高ASR输出的准确性。
5.解码器
解码器考虑了所有模型的输出并产生最佳的音频转录。它通常基于基于图形的搜索来完成。