AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

HiSR
2022年4月29日
読了時間: 1分

更新日：2022年6月24日

✔︎HPもぜひご覧ください : https://www.hrl.jp/

Abstract

　Transformerは自然言語処理タスクのデファクトスタンダードとなっていますが, コンピュータビジョンへの応用はまだ限定的です。ビジョンにおいてアテンションは畳み込みネットワークと組み合わせて適用されるか, 畳み込みネットワークの全体的な構造を維持したまま特定のコンポーネントを置き換えるために使用されるかのいずれかです。　本手法はこのようなCNNへの依存は必要なく, 画像パッチのシーケンスに直接適用される変換器が, 画像分類タスクにおいて非常に良い性能を発揮できることが示されました。Vision Transformer(ViT)は最新のCNNと比較して優れた結果を達成し, 学習には実質的に少ない計算資源ですむようになることが示されています。

✔︎ポイント　TBD

✔︎参考文献

https://www.sciencedirect.com/science/article/pii/S093336572200001X

✔︎HPもぜひご覧ください : https://www.hrl.jp/

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

最新記事

Comments