top of page
  • 執筆者の写真HiSR

音声認識ツールVOSKの活用

更新日:2022年7月2日

 20以上の言語と方言をサポート - 英語、インド英語、ドイツ語、フランス語、スペイン語、ポルトガル語、中国語、ロシア語、トルコ語、ベトナム語、イタリア語、オランダ語、カタロニア語、アラビア語、ギリシャ語、ペルシャ語、フィリピン語、ウクライナ語、カザフ語、スウェーデン語、日本語、エスペラント、ヒンディー語、チェコ語、ポーランド語。今後さらに増える予定です。

 Raspberry Pi、Android、iOSなどの軽量なデバイスでもオフラインで動作可能です。

インストールは、pip3 install voskで容易に実行できます。

言語ごとのポータブルモデルは各50MBですが、より大きなサーバーモデルもあります。

ストリーミングAPIを提供し、最高のユーザ体験を実現(一般的な音声認識Pythonパッケージとは異なります)。

 java/csharp/javascriptなど、様々なプログラミング言語へのバインディングも用意されています。最高の精度を得るために、語彙を素早く再構成することができます。

単純な音声認識だけでなく、話者の識別も可能です。


→ 詳細は本家HP参照のことhttps://alphacephei.com/vosk/

音響モデルや言語モデルも再構築可能なため、より実際的な音声認識システムの構築も可能なようです。


▶︎実行方法


1. インストール

pip install vosk


2. モデルの準備

vosk-model-small-ja-0.22


3. サンプルコードのダウンロード


4. 実行

pythontest_microphone.py



▶︎モデルの構築


TBD








                     


閲覧数:1,691回0件のコメント

最新記事

すべて表示

ChatGPTを用いた音響解析

「opensmileを使ってfeature importanceを計算して」 以下の通り、概ね妥当なコードを生成していると考えられます。 #開始 OpenSMILEは、オーディオ特徴抽出ライブラリであり、音声データからさまざまな特徴を抽出することができます。特徴重要度(Feature Importance)を計算するためには、通常、機械学習モデルを使用することになります。 具体的には、以下の手順で

bottom of page