La détection d'objets à vocabulaire ouvert est une tâche innovante en vision par ordinateur capable de reconnaître et de localiser largement divers objets dans les images. Contrairement aux méthodes traditionnelles, elle peut gérer diverses catégories d'objets et est adaptée aux applications en temps réel dans des environnements dynamiques. Les méthodes existantes réalisent généralement des capacités de détection sans coupure en fusionnant images et texte. Cependant, lorsque des divergences sémantiques existent entre le texte et les images, des problèmes de prédictions biaisées apparaissent, réduisant l'efficacité de l'orientation sémantique. Pour résoudre ces problèmes, nous proposons une méthode de détection d'objets à vocabulaire ouvert universelle qui exploite des modèles fondamentaux pour fournir une orientation sémantique fine pour le processus de détection. Nous concevons un algorithme de perception de scène adaptatif multi-niveaux qui capture les caractéristiques subtiles des objets cibles dans des scènes complexes, permettant une séparation précise entre l'arrière-plan et le premier plan. De plus, nous introduisons le modèle Text-KAN (T-KAN), qui intègre des descriptions textuelles avec des caractéristiques d'image. En utilisant des fonctions d'activation apprenables, il résout les dépendances sur des matrices linéaires, améliore l'interprétabilité du texte, corrige les biais sémantiques et atteint un alignement précis entre les images et le texte à un niveau fin. Nous évaluons de manière exhaustive les performances de notre méthode proposée sur des benchmarks de vocabulaire ouvert existants, en réalisant des expériences sur les ensembles de données COCO et LVIS. Les résultats démontrent des gains de performances significatifs dans la détection de nouvelles catégories, soulignant les fortes capacités de généralisation de la méthode. Ce travail fournit des perspectives et des références précieuses pour faire avancer le domaine de la détection d'objets à vocabulaire ouvert.
Wang et al. (Mar,) ont étudié cette question.