top of page

语音识别

语音识别通常是用如图 1 所示的系统构建的。传统的语音识别技术使用称为GMM-HMM的声学模型,它是GMM和HMM的混合体(图2,*1)。此后深度学习开始流行,深度学习从较早的阶段就开始应用于语音识别。

从2011年左右开始,最初有两种方法:Tandem型和DNN-HMM混合型,但现在DNN-HMM(使用DNN代替GMM的声学模型)已成为主流(图2)。此外,如图3所示,虽然从2000年到2010年语音识别准确率几乎持平,但此后随着深度学习的普及,准确率迅速提高(指标为Word Error Rate:WER)*2。看来即使在目前的产品开发水平上也经常采用这种方法。

另外,从2016年左右开始,一种名为端到端语音识别的新系统迅速兴起,并已成为研究层面的主流。

此外,情绪识别作为一种基于音频信号的技术正在变得越来越普遍,并且事实证明,估计老年人的情绪可能有助于提高护理质量。*3

*1. Yu等人,基于深度循环神经网络的发音和频谱信息融合,2019

*2.http://www.iro.umontreal.ca/~bengioy/talks/KDD2014-tutorial.pdf

*3. Hirooka 等人,护理对象言语和情感数据库的构建,日本声学学会会议录,2-Q-9,第 1059-1060 页,2018 年

语音识别系统搭建图

图1 语音识别系统外观

语音识别方法的演变

图2 语音识别方法的演变

 语音识别准确度的变化

图3 语音识别准确率变化

bottom of page