Les reprises (ou covers en anglais) sont des interprétations différentes d’une même œuvre musicale originale. Elles partagent typiquement une ligne mélodique ou une structure harmonique similaire, mais diffèrent généralement dans plusieurs autres dimensions, telles que la structure, l’instrumentation, le genre, etc. La détection automatique de covers est la tâche consistant à retrouver dans un corpus audio toutes les covers d’une chanson donnée. Elle a longtemps été considérée comme un problème théorique ardu et est récemment devenue un problème pratique posé par le développement de larges corpus audio. Dans ce travail, nous abordons la détection de covers en utilisant le paradigme d’apprentissage de métrique. Nous montrons que cette approche permet d'extraire d’une chanson une représentation expressive et compacte – son embedding – appropriée pour une recherche rapide dans de larges corpus audio. Nous proposons ensuite une étude comparative de différentes représentations et montrons que les systèmes combinant représentations mélodiques et harmoniques surpassent ceux qui s’appuient sur une seule représentation d'entrée. Nous illustrons par une analyse qualitative et quantitative comment mélodie et harmonie se complètent efficacement et décrivons divers types de fusion permettant d'établir un nouvel état de l’art sur de larges corpus publiquement accessibles. Nous étudions alors théoriquement comment l’espace des embeddings est structuré pendant l’entraînement, et introduisons une nouvelle fonction de coût qui améliore encore les résultats. Nous décrivons enfin une implémentation opérationnelle de la méthode et démontrons son efficacité dans un contexte industriel.
Building similarity graph...
Analyzing shared references across papers
Loading...
Guillaume Doras
Building similarity graph...
Analyzing shared references across papers
Loading...
Guillaume Doras (Thu,) studied this question.