Die Transkribierung von Gesprächssituationen ist zu einem wichtigen Thema im Bereich der Sprachverarbeitung geworden. Als Aufgabe, die Frage zu beantworten, wer was wann in langen Aufnahmen mit teilweise überlappender Sprache gesagt hat, umfasst sie die Transkription von Sprache (was wurde gesagt?), die Diarisierung (wer hat wann gesprochen?) und, entweder explizit oder implizit, die Sprachseparierung (Wiederherstellung des Sprachsignals jedes Sprechers). Das Lösen der Kombination dieser Unterprobleme bei langen Aufnahmen stellt Herausforderungen dar, die bei den Teilaufgaben allein nicht auftreten. Diese Arbeit befasst sich speziell mit der Lösung des sogenannten Zuordnungsproblems (Assignment Problem), d. h. der Suche nach einer plausiblen Zuordnung oder Abbildung zwischen den wahren Annotationen und der Ausgabe eines Besprechungstranskriptionssystems oder eines seiner Teilsysteme. Eine solche Zuordnung ist notwendig sowohl dann, wenn eine Kostenfunktion im Training berechnet werden soll, als auch, wenn die Leistung eines Transkriptionssystems bewertet werden soll. Um Systeme für Gesprächssituationen zu bewerten wird die die Wortfehlerrate (Word Error Rate, WER) von der Bewertung einzelner Aussagen auf Besprechungen erweitert. In die Wortfehlerrate wird eine zeitliche Beschränkung integriert, die sicherstellt, dass Wörter, die als korrekt erkannt werden, auch physikalisch plausibel vom selben akustischen Event stammen können. Außerdem werden Verfahren vorgestellt, wie das Zuordnungsproblem während der Berechnung der Wortfehlerrate für verschiedene Systemarchitekturen and Analysezwecke gelöst werden kann. Anschließend wird hergeleitet, wie das Zuordnungsproblem für das Training eines Neuronalen Netzes zur Sprechertrennung gelöst werden kann. Dies geschieht als Erweiterung des häufig verwendeten Aussagenweisen Permutations-invarianten Trainings (Utterance-level Permutation Invariant Training, uPIT) auf ganze Meetingaufnahmen. Das daraus resultierende Trainingsschema, Graph-PIT, erlaubt es, lange Aufnahmen zu verarbeiten, ohne auf eine Fensterung zurückgreifen zu müssen. Abschließend wird ein volles System zur Transkription von Gesprächssituationen vorgestellt, das basierend auf der Sprecherseparierung erst Spracherkennung und dann Diarisierung durchführt. Dabei werden in der Diarisierung Informationen aus der Spracherkennung wiederverwendet, um die zeitliche Auflösung und damit auch die Sprechererkennung zu verbessern. Das vorgestellte System zeigt eine vergleichbare Transkriptionsqualität wie komplexere Systeme aus der Literatur.
Building similarity graph...
Analyzing shared references across papers
Loading...
Thilo von Neumann
Building similarity graph...
Analyzing shared references across papers
Loading...
Thilo von Neumann (Tue,) studied this question.
www.synapsesocial.com/papers/69d8968f6c1944d70ce08121 — DOI: https://doi.org/10.17619/unipb/1-2544
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: