大規模事前学習済みビジョン・ランゲージモデル(VLM)は多様なタスク間での転移学習を大きく前進させました。しかし、限られた少数ショットデータでこれらのモデルを適応させると過学習が起こりやすく、新たなタスクに対する汎化能力が損なわれます。本研究では、この問題に対処するため、共有可能で学習可能なモダリティ非依存の表現空間を導入するMulti-Modal Representation Learning(MMRL)を提案します。MMRLは、テキストと画像の両方のエンコーダに射影される空間トークンを表現トークンとして生成し、より効果的なクロスモーダル相互作用を可能にします。従来の主にクラス・トークンの特徴のみを最適化する手法とは異なり、MMRLはタスク固有の特徴が顕著になる上位のエンコーダ層に表現トークンを挿入し、下位層には一般的知識を保持します。訓練時にはクラス特徴と表現特徴を共同で最適化し、表現トークンにはタスク適応のために学習可能な射影層を適用し、クラス・トークンの射影層は凍結して事前学習知識を保持します。さらなる汎化促進のため、凍結されたVLMのゼロショット特徴とクラスおよびテキスト特徴を整合させる正則化項を導入しています。推論時には、基本タスクでクラス特徴と表現特徴の両方を活用するが、新規タスクではより強い汎化能力を持つクラス特徴のみを使用する分離戦略を用います。これを基に、MMRL++を提案し、パラメータ効率を高め、表現トークン間の層内相互作用--特に勾配共有とインスタンス固有情報のネットワーク内伝播を効果的に実現します。15データセットにわたる詳細な実験で、MMRLおよびMMRL++はタスク固有の適応と汎化の強いバランスを保ちつつ、最先端手法を一貫して上回る性能を示しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuncheng Guo
Xiaodong Gu
Building similarity graph...
Analyzing shared references across papers
Loading...
Guoら(Thu,)はこの問題を研究しました。
www.synapsesocial.com/papers/68f147cc724575985c3fd2cc — DOI: https://doi.org/10.48550/arxiv.2505.10088
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: