AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
更新日:2022年6月24日
✔︎HPもぜひご覧ください : https://www.hrl.jp/
Abstract
Transformerは自然言語処理タスクのデファクトスタンダ ードとなっていますが, コンピュータビジョンへの応用はまだ限定的です。ビジョンにおいてアテンションは畳み込みネットワークと組み合わせて適用されるか, 畳み込みネットワークの全体的な構造を維持したまま特定のコンポーネントを置き換えるために使用されるかのいずれかです。 本手法はこのようなCNNへの依存は必要なく, 画像パッチのシーケンスに直接適用される変換器が, 画像分類タスクにおいて非常に良い性能を発揮できることが示されました。Vision Transformer(ViT)は最新のCNNと比較して優れた結果を達成し, 学習には実質的に少ない計算資源ですむようになることが示されています。

✔︎ポイント TBD
✔︎参考文献
https://www.sciencedirect.com/science/article/pii/S093336572200001X
✔︎HPもぜひご覧ください : https://www.hrl.jp/