Key points are not available for this paper at this time.
CLIPのような事前学習されたビジョン・ランゲージ(V-L)モデルは、下流タスクへの優れた一般化能力を示しています。しかし、入力テキストプロンプトの選択に対して敏感であり、良好な性能を発揮するためにはプロンプトテンプレートの慎重な選択が必要です。自然言語処理(NLP)の文献に触発され、最近のCLIP適応アプローチでは、下流タスク用にCLIPをファインチューニングするためのテキスト入力としてプロンプトを学習しています。我々は、CLIPの単一のブランチ(言語またはビジョン)で表現を適応するためにプロンプトを使用することは、下流タスクにおいて両方の表現空間を動的に調整する柔軟性を許さないため、最適ではないことに注目しています。本研究では、視覚と言語の両ブランチに対してマルチモーダルプロンプト学習(MaPLe)を提案し、視覚と言語の表現間の整合性を向上させます。我々の設計は、相互の相乗効果を確保するために視覚と言語のプロンプト間の強い結合を促進し、独立した単一モーダル解の学習を抑制します。さらに、異なる初期段階で別個のプロンプトを学習し、段階ごとの特徴関係を段階的にモデル化して豊かなコンテキスト学習を可能にします。我々のアプローチの有効性は、新規クラスへの一般化、新たなターゲットデータセット、未確認のドメインシフトという代表的な3つのタスクで評価しました。最先端手法Co-CoOpと比較して、MaPLeは好意的な性能を示し、11の多様な画像認識データセットの平均において新規クラスで3.45%の絶対的向上、全体の調和平均で2.72%の向上を達成しました。コードと事前学習モデルは https://github.com/muzairkhattak/multimodal-prompt-learning にて公開しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Muhammad Uzair Khattak
Hanoona Rasheed
Muhammad Maaz
Australian National University
Mohamed bin Zayed University of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Khattakら(木曜日,)がこの問題を研究しました。
www.synapsesocial.com/papers/69d7d5c111d83f35e5ae2e59 — DOI: https://doi.org/10.1109/cvpr52729.2023.01832
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: