What question did this study set out to answer?

The aim is to investigate state-space models for predicting audio signals to enhance real-time noise cancellation.

April 15, 2026Open Access

Recurrent Audio Forecasting for Active Noise Cancellation

Key Points

The aim is to investigate state-space models for predicting audio signals to enhance real-time noise cancellation.
Utilized state-space models for audio signal forecasting
Assessed performance using SpeechCommands and ESC-50 datasets
Analyzed model efficiency on embedded hardware
Examined generalization across various datasets
Achieved precise audio predictions with low error metrics
Demonstrated good generalization across different datasets
Maintained constant memory usage regardless of sequence length
Identified limitations in prediction accuracy for signals across the frequency spectrum

Abstract

Aktive Geräuschunterdrückung (Active Noise Cancellation) reduziert unerwünschte Geräusche, indem ein Gegensignal erzeugt wird, das mit dem Störsignal destruktiv interferiert. Derartige Systeme sind weit verbreitet, beispielsweise in Kopfhörern oder in der Fahrzeugakustik. Für eine effektive Unterdrückung muss das Gegensignal mit minimaler Latenz erzeugt werden, wodurch strenge Echtzeitanforderungen an das System gestellt werden. Dies motiviert vorausschauende Ansätze, bei denen das Gegensignal auf Basis einer kurzzeitigen Vorhersage des akustischen Signals berechnet wird. Eine präzise Vorhersage unter diesen zeitlichen Randbedingungen erfordert jedoch eine hohe rechnerische Effizienz, insbesondere bei eingebetteten Systemen mit begrenzten Hardware-Ressourcen. Konventionelle Ansätze zur Geräuschunterdrückung basieren überwiegend auf adaptiven Filtern in Rückkopplungs- und Vorsteuerungsstrukturen. Neuere Arbeiten untersuchen komplexe Modelle des maschinellen Lernens. Zustandsraummodelle wurden zwar bereits erfolgreich zur Sequenzmodellierungeingesetzt, jedoch bislang nicht systematisch für die Vorhersage von Audiosignalen im Kontext der aktiven Geräuschunterdrückung untersucht. Sie kombinieren eine lineare rekurrente Struktur mit einer komplexwertigen diagonalen Parametrierung, wodurch paralleles Training und eine effiziente Diskretisierung ermöglicht werden. Diese Architektur führt zu einem konstanten Speicherbedarf unabhängig von der Sequenzlänge und erlaubt eine kausale Echtzeitverarbeitung auf eingebetteter Hardware. In dieser Arbeit werden Zustandsraummodelle zur Vorhersage von Audiosignalen untersucht, um die Echtzeitberechnung von Gegensignalen zu ermöglichen. Es wird gezeigt, dass Zustandsraummodelle Audiosignale präzise vorhersagen können und niedrige Fehlermetriken für die SpeechCommandsund ESC-50 Datensätze erreichen. Die Analyse zeigt zudem eine gute Generalisierungsfähigkeit über verschiedene Datensätze hinweg und belegt, dass die vorgeschlagenen Modelle bei unterschiedlichen Abtastraten ohne erneutes Training eingesetzt werden können, was eine flexible Nutzung in einerVielzahl von Systemen ermöglicht. Gleichzeitig werden Grenzen hinsichtlich der Vorhersagegenauigkeit bei Signalen, deren Energie über das gesamte Frequenzspektrum verteilt ist, sowie Einschränkungen bezüglich der rechnerischen Effizienz unter stark ressourcenbeschränkten Bedingungen aufgezeigt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Moritz Steinhauser

Actions

Institutions

TU Wien

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Recurrent Audio Forecasting for Active Noise Cancellation

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider