top of page

音声認識

 一般に音声認識はFig.1のようなシステムで構築されています。音声認識の従来の技術としてはGMM-HMMという, GMMとHMMをハイブリッドで使うような音響モデルを使った手法が使われていました(Fig.2, *1)。その後, ディープラーニングが台頭し, 音声認識では比較的早い段階からディープラーニングが適用され始めました。

 2011年ごろから, 最初はTandem型とDNN-HMMのハイブリッド型という2つの方式があり, 現在はDNN-HMMという, GMMをDNNに置き換えた音響モデルを使う方式が主流になっています(Fig.2)。またFig.3で示されるように音声認識精度が2000年から2010年頃までほぼ横ばいであるのに対し, ディープラーニングの一般化に伴い, その後急激に精度が向上していることが分かります(指標はWord Error Rate : WER)*2。現在の製品開発レベルでもこの方式を採用している場合が多いと思われます。

 また2016年ごろから新たなシステムである, End-to-End音声認識という手法が急速に台頭しており, 研究レベルではこちらが主流になっています。

 加えて音声信号に基づく技術として感情認識も一般化しつつあり、高齢者等の感情を推測することで介護品質の向上に寄与する可能性が示されています*3

*1. Yu et al., Articulatory and Spectrum Information Fusion Based on Deep Recurrent Neural Networks, 2019

*2.http://www.iro.umontreal.ca/~bengioy/talks/KDD2014-tutorial.pdf

*3. 廣岡他, 要介護者を対象とした音声および感情データベースの構築, 日本音響学会講演論文集, 2-Q-9, pp.1059-1060, 2018

音声認識のシステム構築の図

Fig.1 音声認識システム外観

音声認識手法の進化

Fig.2 音声認識手法の進化

 音声認識精度の変遷

Fig.3 音声認識精度の変遷

bottom of page