February 26, 2024Open Access

謎めいた射影：マルチモーダルLLMはより豊富なクロスモーダル射影なしにドメイン固有の視覚機能を獲得する

Key Points

Key points are not available for this paper at this time.

Abstract

LLaVAやGPT-4(V)のようなマルチモーダル大規模言語モデル（MLLM）は、言語モダリティと連携して画像に関する汎用的な対話を可能にします。既製のMLLMは皮膚科学や農業などのドメインの画像に対して能力が限られている場合があり、ドメイン固有のアプリケーションを解放するためにファインチューニングが必要です。現在のオープンソースMLLMの一般的なアーキテクチャは、画像と言語（クロスモーダル）射影ネットワークと大規模言語モデルという2つの主要モジュールで構成されています。これら2つのモジュールがドメイン固有の視覚的属性のモデリングにおいて果たす役割を理解することは、将来のモデル設計を情報提供し、現在のモデルの解釈可能性の取り組みを効率化する上で望まれます。この目的のため、4つのデータセットと2種類のファインチューニング設定の下で実験を行い、MLLMがファインチューニングされるにつれてドメイン固有の視覚能力を獲得することを確認しましたが、更新は関連するドメイン固有の視覚的属性を抽出する射影にはつながりませんでした。我々の結果は、ファインチューニングが射影のみであっても、ドメイン固有の視覚的属性はLLMによってモデリングされていることを示しています。この研究を通じて、MLLMアーキテクチャにおけるクロスモーダル射影の役割の再解釈の可能性を提示します。射影詳細ページ：https://claws-lab.github.io/projection-in-MLLMs/

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Gaurav Verma

Minje Choi

Kartik Sharma

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

謎めいた射影：マルチモーダルLLMはより豊富なクロスモーダル射影なしにドメイン固有の視覚機能を獲得する

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study