March 3, 2026

Représentations compactes et invariantes à l'aide de l'apprentissage profond pour la recherche d'images par similarité

Key Points

The novel NIP method enhances descriptor invariance, addressing CNN shortcomings in image transformations.
NIP improves descriptor robustness to rotations and scale changes by utilizing advanced dimension reduction techniques.
Pooling strategies applied to image databases significantly mitigate the impacts of transformation issues on descriptor performance.
Combining NIP with RBMH yields compact binary codes, outperforming existing methods across various data scale scenarios.

Abstract

Nous avons précédemment mené une étude comparative entre les descripteurs FV et CNN dans le cadre de la recherche par similarité d’instance. Cette étude montre notamment que les descripteurs issus de CNN manquent d’invariance aux transformations comme les rotations ou changements d’échelle. Nous montrons dans un premier temps comment des réductions de dimension (“pooling”) appliquées sur la base de données d’images permettent de réduire fortement l’impact de ces problèmes. Certaines variantes préservent la dimensionnalité des descripteurs associés à une image, alors que d’autres l’augmentent, au prix du temps d’exécution des requêtes. Dans un second temps, nous proposons la réduction de dimension emboitée pour l’invariance (NIP), une méthode originale pour la production, à partir de descripteurs issus de CNN, de descripteurs globaux invariants à de multiples transformations. La méthode NIP est inspirée de la théorie pour l’invariance “i-theory”, une théorie mathématique proposée il y a peu pour le calcul de transformations invariantes à des groupes au sein de réseaux de neurones acycliques. Nous montrons que NIP permet d’obtenir des descripteurs globaux compacts (mais non binaires) et robustes aux rotations et aux changements d’échelle, que NIP est plus performants que les autres méthodes à dimensionnalité équivalente sur la plupart des bases de données d’images. Enfin, nous montrons que la combinaison de NIP avec la méthode de hachage RBMH proposée précédemment permet de produire des codes binaires à la fois compacts et invariants à plusieurs types de transformations. La méthode NIP+RBMH, évaluée sur des bases de données d’images de moyennes et grandes échelles, se révèle plus performante que l’état de l’art, en particulier dans le cas de descripteurs binaires de très petite taille (de 32 à 256 bits).

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Olivier André Luc Morère (Fri,) studied this question.

www.synapsesocial.com/papers/69a75fcac6e9836116a2bc50

Authors

Olivier André Luc Morère

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Représentations compactes et invariantes à l'aide de l'apprentissage profond pour la recherche d'images par similarité

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion