Key points are not available for this paper at this time.
視覚と言語の基盤モデルは、広範な画像とテキストのペアデータセットにおけるスケーラビリティにより、多くの下流タスクで顕著な成功を収めています。しかし、これらのモデルは、微細な画像分類のようなロングテールタスクに適用した際、「決定ショートカット」による一般化能力の制限が顕著に現れます。本研究では、CLIPモデルが望ましい不変の因果特徴と望ましくない決定ショートカットの両方を包含する豊富な特徴セットを持つことを発見しました。さらに、CLIPの下流タスクでのパフォーマンス低下は、特定のタスク要件に応じて事前学習された特徴を効果的に活用できないことに起因しています。この課題に対処するため、本論文はテスト時のプロンプト調整のパラダイムを導入し、学習可能なプロンプトを最適化することで、推論段階でモデルが真の因果的な不変特徴を活用し、決定ショートカットを無視するように促します。提案手法は、誤解を招く可能性のあるタスク非関連の文脈情報への過度な依存を効果的に軽減し、同時に重要なタスク関連の視覚的手掛かりを強調します。本手法の有効性は様々なアプローチとの比較分析により検証されています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenqiang Ma
Yan Zhu
Changqing Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Maら(Fri,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e765e9b6db6435876dafd4 — DOI: https://doi.org/10.48550/arxiv.2403.00376
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: