What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

MMRL++：パラメータ効率が高く相互作用を考慮したビジョン・ランゲージモデルの表現学習

Key Points

MMRL++は、表現特徴の最適化によりビジョン・ランゲージモデルの汎化能力を高め、過学習を低減します。
本モデルは15のデータセットで大幅な性能向上を示し、従来最先端手法を凌駕します。
学習可能なモダリティ非依存表現空間を組み込み、テキストと画像間の効果的な相互作用を促進します。
独自の分離戦略により、基本タスクと新規タスクの両方で堅牢な性能を保証します。

Abstract

大規模事前学習済みビジョン・ランゲージモデル（VLM）は多様なタスク間での転移学習を大きく前進させました。しかし、限られた少数ショットデータでこれらのモデルを適応させると過学習が起こりやすく、新たなタスクに対する汎化能力が損なわれます。本研究では、この問題に対処するため、共有可能で学習可能なモダリティ非依存の表現空間を導入するMulti-Modal Representation Learning（MMRL）を提案します。MMRLは、テキストと画像の両方のエンコーダに射影される空間トークンを表現トークンとして生成し、より効果的なクロスモーダル相互作用を可能にします。従来の主にクラス・トークンの特徴のみを最適化する手法とは異なり、MMRLはタスク固有の特徴が顕著になる上位のエンコーダ層に表現トークンを挿入し、下位層には一般的知識を保持します。訓練時にはクラス特徴と表現特徴を共同で最適化し、表現トークンにはタスク適応のために学習可能な射影層を適用し、クラス・トークンの射影層は凍結して事前学習知識を保持します。さらなる汎化促進のため、凍結されたVLMのゼロショット特徴とクラスおよびテキスト特徴を整合させる正則化項を導入しています。推論時には、基本タスクでクラス特徴と表現特徴の両方を活用するが、新規タスクではより強い汎化能力を持つクラス特徴のみを使用する分離戦略を用います。これを基に、MMRL++を提案し、パラメータ効率を高め、表現トークン間の層内相互作用--特に勾配共有とインスタンス固有情報のネットワーク内伝播を効果的に実現します。15データセットにわたる詳細な実験で、MMRLおよびMMRL++はタスク固有の適応と汎化の強いバランスを保ちつつ、最先端手法を一貫して上回る性能を示しました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuncheng Guo

Xiaodong Gu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MMRL++：パラメータ効率が高く相互作用を考慮したビジョン・ランゲージモデルの表現学習

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider