✔︎HPもぜひご覧ください : https://www.hrl.jp/
Abstract
近年の入力文章を別の文章で出力(翻訳)する(Equence Transduction Model)モデルでは, エンコーダー&デコーダーを含む複雑なRNNまたはCNNをベースとしています。我々はRNNやCNNを完全に排除し, アテンション機構のみに基づく新たにシンプルなネットワークアーキテクチャ, トランスフォーマーを提案しています。二つの機械翻訳タスクで実験した結果, これらのモデルは性能が優れている一方で, より並列化可能であり, 学習時間が大幅に短縮されることが分かりました。
本モデルは, WMT 2014英独翻訳タスクで28.4 BLEU※1を達成し、アンサンブルを含む既存の最良結果を2 BLEU以上, 上まりました。WMT2014英仏翻訳タスクでは, 8 GPUで3.5日間学習後, 41.8という新たな単一モデルによる最新BLEUスコアを記録しました。
本論文ではTransformerが他のタスクにうまく一般化することを, 大規模及び限定された学習データの両方で英語の構成語解析に成功しました。
✔︎ポイント
Attentionは "Attention is all you need" (Vaswani et al, 2017)で一躍有名になった手法です。翻訳などの入力文章を別の文章で出力するというモデル(=Sequence Transduction Model)はAttentionを用いたエンコーダー&デコーダ形式のRNNやCNNが主流でした。 本論文ではRNNやCNNを用いずAttentionのみを用いたモデル(Transformer)を提案しています。 Transformerには以下のような特徴が挙げられます。
・再帰も畳み込みも一切使わない。
・これまでのアンサンブルモデルも含めたSoTAを超えるBLEUスコア(28.4)を記録。
・並列化が比較的用意で訓練時間が圧倒的に削減できる。
・Transformerは他のタスクにおいても汎用性が高い(画像認識 ...)。
※1. BLEUスコア・・・最も一般的に使用されている機械翻訳の評価指標です。
機械翻訳結果と参照訳との類似度を以下の式で表します。
pn は評価コーパス全体について、翻訳文と参照訳 を比較し、 n-gram(たとえば 2-gram) の一致率を算出しています。これを1-gram から N-gram について幾何平均を求めることにより、スコアを算出します。 Nは、通常4が用いられます。1-gram は単語 訳の正しさを表す指標となっており、高次の n-gram は、翻訳の流暢さを表す指標で、BLEU ス コアは両者を組み合わせた指標となっています。このように、BLEU スコアは0~1の実数で表現され、値が大きいほど良好な翻訳文であると判断されます。
✔︎参考文献
✔︎HPもぜひご覧ください : https://www.hrl.jp/
Comments