Attention is all you need

HiSR
2022年4月28日
読了時間: 2分

更新日：2022年6月24日

✔︎HPもぜひご覧ください : https://www.hrl.jp/

Abstract

　近年の入力文章を別の文章で出力(翻訳)する（Equence Transduction Model）モデルでは, エンコーダー＆デコーダーを含む複雑なRNNまたはCNNをベースとしています。我々はRNNやCNNを完全に排除し, アテンション機構のみに基づく新たにシンプルなネットワークアーキテクチャ, トランスフォーマーを提案しています。二つの機械翻訳タスクで実験した結果, これらのモデルは性能が優れている一方で, より並列化可能であり, 学習時間が大幅に短縮されることが分かりました。

　本モデルは, WMT 2014英独翻訳タスクで28.4 BLEU※1を達成し、アンサンブルを含む既存の最良結果を2 BLEU以上, 上まりました。WMT2014英仏翻訳タスクでは, 8 GPUで3.5日間学習後, 41.8という新たな単一モデルによる最新BLEUスコアを記録しました。

本論文ではTransformerが他のタスクにうまく一般化することを, 大規模及び限定された学習データの両方で英語の構成語解析に成功しました。

✔︎ポイント

　Attentionは "Attention is all you need" (Vaswani et al, 2017)で一躍有名になった手法です。翻訳などの入力文章を別の文章で出力するというモデル(=Sequence Transduction Model)はAttentionを用いたエンコーダー＆デコーダ形式のRNNやCNNが主流でした。本論文ではRNNやCNNを用いずAttentionのみを用いたモデル（Transformer）を提案しています。　Transformerには以下のような特徴が挙げられます。

　・再帰も畳み込みも一切使わない。

　・これまでのアンサンブルモデルも含めたSoTAを超えるBLEUスコア(28.4)を記録。

　・並列化が比較的用意で訓練時間が圧倒的に削減できる。

　・Transformerは他のタスクにおいても汎用性が高い（画像認識 ...）。

※1. BLEUスコア・・・最も一般的に使用されている機械翻訳の評価指標です。

機械翻訳結果と参照訳との類似度を以下の式で表します。

pn は評価コーパス全体について、翻訳文と参照訳を比較し、 n-gram(たとえば 2-gram) の一致率を算出しています。これを1-gram から N-gram について幾何平均を求めることにより、スコアを算出します。 Nは、通常4が用いられます。1-gram は単語訳の正しさを表す指標となっており、高次の n-gram は、翻訳の流暢さを表す指標で、BLEU スコアは両者を組み合わせた指標となっています。このように、BLEU スコアは0～1の実数で表現され、値が大きいほど良好な翻訳文であると判断されます。

✔︎参考文献

http://arxiv.org/abs/1706.03762

https://www.anlp.jp/proceedings/annual_meeting/2004/pdf_dir/P4-8.pdf

✔︎HPもぜひご覧ください : https://www.hrl.jp/

Attention is all you need

最新記事

Коментарі