March 1, 2024Open Access

視覚と言語モデルの一般化のための不変テスト時適応

Key Points

Key points are not available for this paper at this time.

Abstract

視覚と言語の基盤モデルは、広範な画像とテキストのペアデータセットにおけるスケーラビリティにより、多くの下流タスクで顕著な成功を収めています。しかし、これらのモデルは、微細な画像分類のようなロングテールタスクに適用した際、「決定ショートカット」による一般化能力の制限が顕著に現れます。本研究では、CLIPモデルが望ましい不変の因果特徴と望ましくない決定ショートカットの両方を包含する豊富な特徴セットを持つことを発見しました。さらに、CLIPの下流タスクでのパフォーマンス低下は、特定のタスク要件に応じて事前学習された特徴を効果的に活用できないことに起因しています。この課題に対処するため、本論文はテスト時のプロンプト調整のパラダイムを導入し、学習可能なプロンプトを最適化することで、推論段階でモデルが真の因果的な不変特徴を活用し、決定ショートカットを無視するように促します。提案手法は、誤解を招く可能性のあるタスク非関連の文脈情報への過度な依存を効果的に軽減し、同時に重要なタスク関連の視覚的手掛かりを強調します。本手法の有効性は様々なアプローチとの比較分析により検証されています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhenqiang Ma

Yan Zhu

Changqing Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

視覚と言語モデルの一般化のための不変テスト時適応

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider