March 3, 2026Open Access

Vers une détection d'objets universelle : une perspective fine sur la détection d'objets à vocabulaire ouvert

Key Points

La méthode proposée montre des améliorations significatives des performances en détectant de nouvelles catégories d'objets dans des environnements dynamiques.
Les éléments de preuve clés indiquent une augmentation notable de la précision de détection avec l'intégration des caractéristiques du modèle Text-KAN.
L'évaluation sur des benchmarks de vocabulaire ouvert, en particulier les ensembles de données COCO et LVIS, met en évidence les fortes capacités de généralisation de la méthode.
Peut permettre des avancées dans le domaine de la détection d'objets à vocabulaire ouvert ; une validation supplémentaire est nécessaire sur des ensembles de données divers.

Abstract

La détection d'objets à vocabulaire ouvert est une tâche innovante en vision par ordinateur capable de reconnaître et de localiser largement divers objets dans les images. Contrairement aux méthodes traditionnelles, elle peut gérer diverses catégories d'objets et est adaptée aux applications en temps réel dans des environnements dynamiques. Les méthodes existantes réalisent généralement des capacités de détection sans coupure en fusionnant images et texte. Cependant, lorsque des divergences sémantiques existent entre le texte et les images, des problèmes de prédictions biaisées apparaissent, réduisant l'efficacité de l'orientation sémantique. Pour résoudre ces problèmes, nous proposons une méthode de détection d'objets à vocabulaire ouvert universelle qui exploite des modèles fondamentaux pour fournir une orientation sémantique fine pour le processus de détection. Nous concevons un algorithme de perception de scène adaptatif multi-niveaux qui capture les caractéristiques subtiles des objets cibles dans des scènes complexes, permettant une séparation précise entre l'arrière-plan et le premier plan. De plus, nous introduisons le modèle Text-KAN (T-KAN), qui intègre des descriptions textuelles avec des caractéristiques d'image. En utilisant des fonctions d'activation apprenables, il résout les dépendances sur des matrices linéaires, améliore l'interprétabilité du texte, corrige les biais sémantiques et atteint un alignement précis entre les images et le texte à un niveau fin. Nous évaluons de manière exhaustive les performances de notre méthode proposée sur des benchmarks de vocabulaire ouvert existants, en réalisant des expériences sur les ensembles de données COCO et LVIS. Les résultats démontrent des gains de performances significatifs dans la détection de nouvelles catégories, soulignant les fortes capacités de généralisation de la méthode. Ce travail fournit des perspectives et des références précieuses pour faire avancer le domaine de la détection d'objets à vocabulaire ouvert.

Vers une détection d'objets universelle : une perspective fine sur la détection d'objets à vocabulaire ouvert

Key Points

Abstract

Cite This Study