Key points are not available for this paper at this time.
LLaVAやGPT-4(V)のようなマルチモーダル大規模言語モデル(MLLM)は、言語モダリティと連携して画像に関する汎用的な対話を可能にします。既製のMLLMは皮膚科学や農業などのドメインの画像に対して能力が限られている場合があり、ドメイン固有のアプリケーションを解放するためにファインチューニングが必要です。現在のオープンソースMLLMの一般的なアーキテクチャは、画像と言語(クロスモーダル)射影ネットワークと大規模言語モデルという2つの主要モジュールで構成されています。これら2つのモジュールがドメイン固有の視覚的属性のモデリングにおいて果たす役割を理解することは、将来のモデル設計を情報提供し、現在のモデルの解釈可能性の取り組みを効率化する上で望まれます。この目的のため、4つのデータセットと2種類のファインチューニング設定の下で実験を行い、MLLMがファインチューニングされるにつれてドメイン固有の視覚能力を獲得することを確認しましたが、更新は関連するドメイン固有の視覚的属性を抽出する射影にはつながりませんでした。我々の結果は、ファインチューニングが射影のみであっても、ドメイン固有の視覚的属性はLLMによってモデリングされていることを示しています。この研究を通じて、MLLMアーキテクチャにおけるクロスモーダル射影の役割の再解釈の可能性を提示します。射影詳細ページ:https://claws-lab.github.io/projection-in-MLLMs/
Building similarity graph...
Analyzing shared references across papers
Loading...
Gaurav Verma
Minje Choi
Kartik Sharma
Building similarity graph...
Analyzing shared references across papers
Loading...
Vermaら(Mon,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e779ebb6db6435876ee97f — DOI: https://doi.org/10.48550/arxiv.2402.16832