September 28, 2025Open Access

Explorer la faisabilité des LLM pour l'annotation automatisée des émotions musicales

Key Points

GPT-4o a démontré une capacité prometteuse mais limitée pour l'annotation des émotions musicales comparée aux experts humains, avec des performances variables selon l'état émotionnel.
Bien que les annotations réalisées par GPT-4o fussent globalement moins précises, les métriques de fiabilité inter-évaluateurs indiquent une variabilité acceptable parmi les annotateurs humains.
De vastes évaluations comprenant des mesures d'exactitude et des métriques d'accord montrent que les scores de GPT reflètent les désaccords typiques entre experts.
La rentabilité positionne GPT comme une alternative évolutive potentielle pour l'annotation des émotions dans le domaine musical, soulignant ses implications pratiques.

Abstract

Les approches actuelles d'annotation des émotions musicales reposent encore largement sur le labelling manuel, un processus qui impose des charges importantes en ressources et en travail, limitant sévèrement l'échelle des données annotées disponibles. Cette étude examine la faisabilité et la fiabilité de l'utilisation d'un grand modèle de langage (GPT-4o) pour l'annotation des émotions dans la musique. Nous avons annoté GiantMIDI-Piano, une base de données de musique piano classique en MIDI, selon un cadre valence-arousal à quatre quadrants en utilisant GPT-4o, puis comparé ces annotations à celles de trois experts humains. Nous avons mené des évaluations approfondies pour mesurer la performance et la fiabilité des annotations émotionnelles générées par GPT, incluant l'exactitude standard, l'exactitude pondérée tenant compte de l'accord inter-experts, les métriques d'accord entre annotateurs, et la similarité distributionnelle des labels générés. Bien que les performances d'annotation de GPT soient inférieures à celles des experts humains en exactitude globale et manifestent moins de nuances dans la catégorisation des états émotionnels spécifiques, les métriques de fiabilité inter-évaluateurs indiquent que la variabilité de GPT reste dans la fourchette des désaccords naturels entre experts. Ces résultats soulignent à la fois les limites et le potentiel de l'annotation basée sur GPT : malgré ses insuffisances actuelles par rapport à la performance humaine, sa rentabilité et son efficacité en font une alternative évolutive prometteuse pour l'annotation des émotions musicales.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Meng Yang

Jon McCormack

Maria Teresa Llano

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Explorer la faisabilité des LLM pour l'annotation automatisée des émotions musicales

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider