March 3, 2026

Détection automatique de covers par apprentissage profond

Key Points

The approach enables rapid searching in large audio corpora using expressive song embeddings, improving retrieval efficiency.
Combining melodic and harmonic representations outperforms systems using single input formats in cover detection.
A novel cost function enhances the structure of embeddings during training, allowing for better performance metrics.
The operational implementation showcases practical efficiency in an industrial context, highlighting real-world applicability.

Abstract

Les reprises (ou covers en anglais) sont des interprétations différentes d’une même œuvre musicale originale. Elles partagent typiquement une ligne mélodique ou une structure harmonique similaire, mais diffèrent généralement dans plusieurs autres dimensions, telles que la structure, l’instrumentation, le genre, etc. La détection automatique de covers est la tâche consistant à retrouver dans un corpus audio toutes les covers d’une chanson donnée. Elle a longtemps été considérée comme un problème théorique ardu et est récemment devenue un problème pratique posé par le développement de larges corpus audio. Dans ce travail, nous abordons la détection de covers en utilisant le paradigme d’apprentissage de métrique. Nous montrons que cette approche permet d'extraire d’une chanson une représentation expressive et compacte – son embedding – appropriée pour une recherche rapide dans de larges corpus audio. Nous proposons ensuite une étude comparative de différentes représentations et montrons que les systèmes combinant représentations mélodiques et harmoniques surpassent ceux qui s’appuient sur une seule représentation d'entrée. Nous illustrons par une analyse qualitative et quantitative comment mélodie et harmonie se complètent efficacement et décrivons divers types de fusion permettant d'établir un nouvel état de l’art sur de larges corpus publiquement accessibles. Nous étudions alors théoriquement comment l’espace des embeddings est structuré pendant l’entraînement, et introduisons une nouvelle fonction de coût qui améliore encore les résultats. Nous décrivons enfin une implémentation opérationnelle de la méthode et démontrons son efficacité dans un contexte industriel.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Guillaume Doras

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Détection automatique de covers par apprentissage profond

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study