What question did this study set out to answer?

The goal is to solve the assignment problem in meeting transcription, enhancing speaker separation and evaluation measures.

April 10, 2026Open Access

Extending Speech Separation and Evaluation Measures for Meeting Transcription

Key Points

The goal is to solve the assignment problem in meeting transcription, enhancing speaker separation and evaluation measures.
Proposed an approach to address the assignment problem for aligning true annotations with transcription output.
Integrated temporal constraints into the word error rate (WER) for more accurate evaluation.
Extended utterance-level permutation invariant training (uPIT) to handle long meeting recordings.
Developed a complete transcription system using speech separation followed by recognition and diarization.
The proposed system achieved transcription quality comparable to more complex existing systems.
Implemented methods showed improved accuracy in speaker recognition through effective reuse of recognition data.

Abstract

Die Transkribierung von Gesprächssituationen ist zu einem wichtigen Thema im Bereich der Sprachverarbeitung geworden. Als Aufgabe, die Frage zu beantworten, wer was wann in langen Aufnahmen mit teilweise überlappender Sprache gesagt hat, umfasst sie die Transkription von Sprache (was wurde gesagt?), die Diarisierung (wer hat wann gesprochen?) und, entweder explizit oder implizit, die Sprachseparierung (Wiederherstellung des Sprachsignals jedes Sprechers). Das Lösen der Kombination dieser Unterprobleme bei langen Aufnahmen stellt Herausforderungen dar, die bei den Teilaufgaben allein nicht auftreten. Diese Arbeit befasst sich speziell mit der Lösung des sogenannten Zuordnungsproblems (Assignment Problem), d. h. der Suche nach einer plausiblen Zuordnung oder Abbildung zwischen den wahren Annotationen und der Ausgabe eines Besprechungstranskriptionssystems oder eines seiner Teilsysteme. Eine solche Zuordnung ist notwendig sowohl dann, wenn eine Kostenfunktion im Training berechnet werden soll, als auch, wenn die Leistung eines Transkriptionssystems bewertet werden soll. Um Systeme für Gesprächssituationen zu bewerten wird die die Wortfehlerrate (Word Error Rate, WER) von der Bewertung einzelner Aussagen auf Besprechungen erweitert. In die Wortfehlerrate wird eine zeitliche Beschränkung integriert, die sicherstellt, dass Wörter, die als korrekt erkannt werden, auch physikalisch plausibel vom selben akustischen Event stammen können. Außerdem werden Verfahren vorgestellt, wie das Zuordnungsproblem während der Berechnung der Wortfehlerrate für verschiedene Systemarchitekturen and Analysezwecke gelöst werden kann. Anschließend wird hergeleitet, wie das Zuordnungsproblem für das Training eines Neuronalen Netzes zur Sprechertrennung gelöst werden kann. Dies geschieht als Erweiterung des häufig verwendeten Aussagenweisen Permutations-invarianten Trainings (Utterance-level Permutation Invariant Training, uPIT) auf ganze Meetingaufnahmen. Das daraus resultierende Trainingsschema, Graph-PIT, erlaubt es, lange Aufnahmen zu verarbeiten, ohne auf eine Fensterung zurückgreifen zu müssen. Abschließend wird ein volles System zur Transkription von Gesprächssituationen vorgestellt, das basierend auf der Sprecherseparierung erst Spracherkennung und dann Diarisierung durchführt. Dabei werden in der Diarisierung Informationen aus der Spracherkennung wiederverwendet, um die zeitliche Auflösung und damit auch die Sprechererkennung zu verbessern. Das vorgestellte System zeigt eine vergleichbare Transkriptionsqualität wie komplexere Systeme aus der Literatur.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Thilo von Neumann

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Extending Speech Separation and Evaluation Measures for Meeting Transcription

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider