top of page
  • 執筆者の写真HiSR

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

更新日:2022年6月24日

✔︎HPもぜひご覧ください : https://www.hrl.jp/

Abstract

 Transformerは自然言語処理タスクのデファクトスタンダ ードとなっていますが, コンピュータビジョンへの応用はまだ限定的です。ビジョンにおいてアテンションは畳み込みネットワークと組み合わせて適用されるか, 畳み込みネットワークの全体的な構造を維持したまま特定のコンポーネントを置き換えるために使用されるかのいずれかです。  本手法はこのようなCNNへの依存は必要なく, 画像パッチのシーケンスに直接適用される変換器が, 画像分類タスクにおいて非常に良い性能を発揮できることが示されました。Vision Transformer(ViT)は最新のCNNと比較して優れた結果を達成し, 学習には実質的に少ない計算資源ですむようになることが示されています。



✔︎ポイント TBD



✔︎参考文献



✔︎HPもぜひご覧ください : https://www.hrl.jp/





閲覧数:36回0件のコメント

最新記事

すべて表示

ChatGPTを用いた音響解析

「opensmileを使ってfeature importanceを計算して」 以下の通り、概ね妥当なコードを生成していると考えられます。 #開始 OpenSMILEは、オーディオ特徴抽出ライブラリであり、音声データからさまざまな特徴を抽出することができます。特徴重要度(Feature Importance)を計算するためには、通常、機械学習モデルを使用することになります。 具体的には、以下の手順で

bottom of page