May 2, 2024Open Access

視覚言語モデルを用いた少数ショットクラスインクリメンタル学習

Key Points

Key points are not available for this paper at this time.

Abstract

近年の深層学習の進展により、さまざまな教師ありコンピュータビジョンタスクにおいて、人間の能力に匹敵する素晴らしいパフォーマンスが示されています。しかし、モデルのトレーニング前にすべてのクラスを網羅する広範なトレーニングデータのプールを持つという一般的な仮定は、新しいクラスのための限られたデータの可用性が標準である現実のシナリオとはしばしば乖離しています。この課題は、少ないサンプルで新しいクラスをトレーニングデータにシームレスに統合することが求められ、モデルが基底クラスのパフォーマンスを損なうことなくこれらの追加を適切に受け入れる必要があります。この緊急性に対処するために、研究コミュニティは少数ショットクラスインクリメンタル学習（FSCIL）の領域においていくつかのソリューションを導入しています。本研究では、言語正則化器と部分空間正則化器を利用した革新的なFSCILフレームワークを紹介します。基底トレーニング中に、言語正則化器は視覚言語モデルから抽出された意味論情報を取り入れるのに役立ちます。部分空間正則化器は、インクリメンタルトレーニング中に基底クラスに固有の画像とテキストの意味論の微妙な関連をモデルが習得するのを促進します。我々が提案するフレームワークは、限られたデータを持つ新しいクラスをモデルが受け入れることを可能にするだけでなく、基底クラスのパフォーマンスを維持することも保証します。我々のアプローチの有効性を証明するために、3つの異なるFSCILベンチマークにおいて包括的な実験を行い、我々のフレームワークが最先端のパフォーマンスを達成しました。

視覚言語モデルを用いた少数ショットクラスインクリメンタル学習

Key Points

Abstract

Cite This Study