音声認識ツールVOSKの活用

HiSR
2022年6月23日
読了時間: 1分

更新日：2022年7月2日

　20以上の言語と方言をサポート - 英語、インド英語、ドイツ語、フランス語、スペイン語、ポルトガル語、中国語、ロシア語、トルコ語、ベトナム語、イタリア語、オランダ語、カタロニア語、アラビア語、ギリシャ語、ペルシャ語、フィリピン語、ウクライナ語、カザフ語、スウェーデン語、日本語、エスペラント、ヒンディー語、チェコ語、ポーランド語。今後さらに増える予定です。

　Raspberry Pi、Android、iOSなどの軽量なデバイスでもオフラインで動作可能です。

インストールは、pip3 install voskで容易に実行できます。

言語ごとのポータブルモデルは各50MBですが、より大きなサーバーモデルもあります。

ストリーミングAPIを提供し、最高のユーザ体験を実現（一般的な音声認識Pythonパッケージとは異なります）。

　java/csharp/javascriptなど、様々なプログラミング言語へのバインディングも用意されています。最高の精度を得るために、語彙を素早く再構成することができます。

単純な音声認識だけでなく、話者の識別も可能です。

→ 詳細は本家HP参照のことhttps://alphacephei.com/vosk/

音響モデルや言語モデルも再構築可能なため、より実際的な音声認識システムの構築も可能なようです。

▶︎実行方法

1. インストール

pip install vosk

2. モデルの準備

vosk-model-small-ja-0.22

https://alphacephei.com/vosk/models

3. サンプルコードのダウンロード

git clone https://github.com/alphacep/vosk-api.git

4. 実行

pythontest_microphone.py

▶︎モデルの構築

TBD

音声認識ツールVOSKの活用

最新記事

コメント