top of page
  • 執筆者の写真HiSR

Attention is all you need

更新日:2022年6月24日


✔︎HPもぜひご覧ください : https://www.hrl.jp/


Abstract

 近年の入力文章を別の文章で出力(翻訳)する(Equence Transduction Model)モデルでは, エンコーダー&デコーダーを含む複雑なRNNまたはCNNをベースとしています。我々はRNNやCNNを完全に排除し, アテンション機構のみに基づく新たにシンプルなネットワークアーキテクチャ, トランスフォーマーを提案しています。二つの機械翻訳タスクで実験した結果, これらのモデルは性能が優れている一方で, より並列化可能であり, 学習時間が大幅に短縮されることが分かりました。

 本モデルは, WMT 2014英独翻訳タスクで28.4 BLEU※1を達成し、アンサンブルを含む既存の最良結果を2 BLEU以上, 上まりました。WMT2014英仏翻訳タスクでは, 8 GPUで3.5日間学習後, 41.8という新たな単一モデルによる最新BLEUスコアを記録しました。

本論文ではTransformerが他のタスクにうまく一般化することを, 大規模及び限定された学習データの両方で英語の構成語解析に成功しました。


✔︎ポイント

 Attentionは "Attention is all you need" (Vaswani et al, 2017)で一躍有名になった手法です。翻訳などの入力文章を別の文章で出力するというモデル(=Sequence Transduction Model)はAttentionを用いたエンコーダー&デコーダ形式のRNNやCNNが主流でした。 本論文ではRNNやCNNを用いずAttentionのみを用いたモデル(Transformer)を提案しています。  Transformerには以下のような特徴が挙げられます。

 ・再帰も畳み込みも一切使わない。

 ・これまでのアンサンブルモデルも含めたSoTAを超えるBLEUスコア(28.4)を記録。

 ・並列化が比較的用意で訓練時間が圧倒的に削減できる。

 ・Transformerは他のタスクにおいても汎用性が高い(画像認識 ...)。


※1. BLEUスコア・・・最も一般的に使用されている機械翻訳の評価指標です。

機械翻訳結果と参照訳との類似度を以下の式で表します。


pn は評価コーパス全体について、翻訳文と参照訳 を比較し、 n-gram(たとえば 2-gram) の一致率を算出しています。これを1-gram から N-gram について幾何平均を求めることにより、スコアを算出します。 Nは、通常4が用いられます。1-gram は単語 訳の正しさを表す指標となっており、高次の n-gram は、翻訳の流暢さを表す指標で、BLEU ス コアは両者を組み合わせた指標となっています。このように、BLEU スコアは0~1の実数で表現され、値が大きいほど良好な翻訳文であると判断されます。



✔︎参考文献



✔︎HPもぜひご覧ください : https://www.hrl.jp/


閲覧数:71回0件のコメント

最新記事

すべて表示

ChatGPTを用いた音響解析

「opensmileを使ってfeature importanceを計算して」 以下の通り、概ね妥当なコードを生成していると考えられます。 #開始 OpenSMILEは、オーディオ特徴抽出ライブラリであり、音声データからさまざまな特徴を抽出することができます。特徴重要度(Feature Importance)を計算するためには、通常、機械学習モデルを使用することになります。 具体的には、以下の手順で

bottom of page