HNI Forum: Speech Recognition and Machine Listening: Recent Trends and Developments

 |  Nachrichtentechnik (NT) / Heinz Nixdorf Institut

Das HNI Forum ist eine interdisziplinäre Vortragsreihe, die sich mit aktuellen Forschungsthemen beschäftigt, die für das Heinz-Nixdorf-Institut relevant sind. Die Veranstaltung am 20.4.2023 wurde von Prof. Häb-Umbach organisiert und moderiert und hatte die jüngsten Entwicklungen im Bereich der maschinellen Verarbeitung von Sprach- und Audiosignalen zum Thema.

Als Vortragende konnten Dr. Lukas Drude, Amazon R&D Aachen, und Janek Ebbers vom Fachgebiet Nachrichtentechnik gewonnen werden, die jeweils spannende Vorträge zu sehr aktuellen Forschungsthemen hielten.

Lukas berichtete über moderne Spracherkennungsarchitekturen, die auf dem Ende-zu-Ende Ansatz beruhen. Diese haben mittlerweilse die hybriden Ansätze, die noch getrennte akustische und Sprachmodelle verwenden, aufgrund ihrer höheren Leistungsfähigkeit in vielen Anwendungen verdrängt. Bei den Ende-zu-Ende Verfahren stellen sich aber neue Herausforderungen, wie etwa die Anpassung an einen sich verändernden Kontext (neue Wörter, neue akustische Umgebung, etc.). Lukas zeigte, wie eine solche Anpassung effektiv erfolgen kann.

Janek Ebbers stellte maschinelle Lernverfahren zur Erkennung von Geräuschen oder anderen akustischen Ereignissen vor. In seinem Vortrag präsntierte er Verfahren, die es ermöglichen, einen leistungsfähigen Klassifikator zu trainieren, auch wenn nur nichtannotierte oder schwach anotierte Trainingsdaten vorhanden sind.

Vielen Dank and Lukas und Janek für ihre unterhaltsamen und informativen Einblicke in ihre Forschungsarbeiten.