top of page

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

  • 執筆者の写真: HiSR
    HiSR
  • 2022年4月29日
  • 読了時間: 1分

更新日:2022年6月24日

✔︎HPもぜひご覧ください : https://www.hrl.jp/

Abstract

 Transformerは自然言語処理タスクのデファクトスタンダ ードとなっていますが, コンピュータビジョンへの応用はまだ限定的です。ビジョンにおいてアテンションは畳み込みネットワークと組み合わせて適用されるか, 畳み込みネットワークの全体的な構造を維持したまま特定のコンポーネントを置き換えるために使用されるかのいずれかです。  本手法はこのようなCNNへの依存は必要なく, 画像パッチのシーケンスに直接適用される変換器が, 画像分類タスクにおいて非常に良い性能を発揮できることが示されました。Vision Transformer(ViT)は最新のCNNと比較して優れた結果を達成し, 学習には実質的に少ない計算資源ですむようになることが示されています。



✔︎ポイント TBD



✔︎参考文献



✔︎HPもぜひご覧ください : https://www.hrl.jp/





 
 
 

最新記事

すべて表示
ChatGPTを用いた音響解析

「opensmileを使ってfeature importanceを計算して」 以下の通り、概ね妥当なコードを生成していると考えられます。 #開始 OpenSMILEは、オーディオ特徴抽出ライブラリであり、音声データからさまざまな特徴を抽出することができます。特徴重要度(Fe...

 
 
 

Comentarios


bottom of page