自动语音识别(ASR)中有多种用于特征提取的技术,但使用最广泛的方法称为梅尔倒谱系数(MFCC)。MFCC基于人类听觉系统分析声音的能力,并已被证明可有效表示语音信号。
从音频信号中提取MFCC特征的过程包括几个步骤:
1.预加重:第一步是对音频信号应用预加重滤波器。该滤波器放大了信号的高频分量,从而更容易提取有意义的特征。
2.帧阻塞:音频信号被分成通常为20-30毫秒的短帧。帧重叠以确保帧之间具有连续性。
3.开窗:将窗函数应用于每个帧以减少由帧边缘处的不连续性引起的频谱泄漏。
4.傅立叶变换:对每一帧应用傅立叶变换,将时域信号转换为频域信号。
5.Mel-Scale滤波:生成的频谱通过一组三角形滤波器,这些滤波器在Mel-scale上均匀分布,这是一种基于感知的尺度,反映了人类听到声音的方式。滤波器用于强调对语音识别最重要的频率。
6.对数变换:每个滤波器的输出使用对数函数进行变换,它压缩了频谱的动态范围,并且更容易用少量系数表示信号。
7.离散余弦变换:最后,将离散余弦变换(DCT)应用于对数滤波器输出,产生一组代表语音信号的梅尔频率倒谱系数(MFCC)。
然后将每个帧的MFCC特征集用作ASR系统声学模型的输入,该模型将特征映射到音素或单词。