Achtung:

Sie haben Javascript deaktiviert!
Sie haben versucht eine Funktion zu nutzen, die nur mit Javascript möglich ist. Um sämtliche Funktionalitäten unserer Internetseite zu nutzen, aktivieren Sie bitte Javascript in Ihrem Browser.

Foto: Universität Paderborn, Jörg Ullmann Bildinformationen anzeigen
Foto: Universität Paderborn, Jörg Ullmann Bildinformationen anzeigen
Foto: Universität Paderborn, Jörg Ullmann Bildinformationen anzeigen

Foto: Universität Paderborn, Jörg Ullmann

Foto: Universität Paderborn, Jörg Ullmann

Foto: Universität Paderborn, Jörg Ullmann

| Carolin Riethmüller

Verbesserte Sprachverarbeitung durch deep neural networks

English summary below

 Es ist ein alt bekanntes Problem: Man möchte die lange Autofahrt sinnvoll nutzen und einige Telefonate währenddessen erledigen. Die Freisprechanlage sollte es möglich machen – doch beim Gesprächspartner kommt hauptsächlich Autolärm an, die eigene Stimme ist kaum zu verstehen. Der renommierter Sprachverarbeitungsforscher Professor Dr. Chin-Hui Lee hat gemeinsam mit seinen Studenten an der Georgia Institute of Technology ein neues Verfahren entwickelt, um die Störgeräusche rund um die Stimme zu minimieren. Nun stellte er es auf Einladung von Professor Reinhold Häb-Umbach dessen Fachgruppe und allen Interessierten in einem Vortrag zum Thema „A Machine Learning Approach to Acoustic Signal Processing“ vor. Trotz großer Hitze kamen zahlreiche Studierenden in den Konferenzsaal. Eine Fachgruppe aus Erlangen, mit der es eine Kooperation gibt, war ebenfalls via Skype zugeschaltet.

Mit der Kombination aus Deep Learning und Big data, den deep neural networks (DNN), konnten Chin-Hui Lee und seine Studierenden weitaus bessere Ergebnisse erzielen als mit bisher üblichen Systemen zur Sprachbereinigung. Mithilfe von zahlreichen Aufnahmen von Sprache lernt das Programm, den Sprecher entweder aus Störgeräuschen, oder zwischen zwei Stimmen herauszufiltern. Musik hingegen macht dem Team noch Probleme. „Gute digitale Sprachbereinigung wird zu zuverlässiger automatischer Spracherkennung führen“, so Lee. Außerdem seien große Datensätze und die Kombination von DNN mit bisherigen Techniken wichtig auf dem Weg zu immer besserer Sprachverarbeitung.

Chin-Hui Lee ist Professor am Georgia Institute of Technology. Davor war er bis zum Jahr 2001 an den berühmten Bell Laboratories, Murray Hill, New Jersey, beschäftigt, wo er als „Distinguished Member of Technical Staff“ zuletzt Direktor der Forschungsabteilung „Dialogue Systems“ war. Dr. Lee ist Fellow des IEEE und der ISCA (International Speech Communication Association). Unter seinen vielen Auszeichnungen ist der renommierte Technical Achievement Award der IEEE Signal Processing Society für “Exceptional Contributions to the Field of Automatic Speech Recognition''.

Professor Chin-Hui Lee from the Georgia Institute of Technology presented his latest results in acoustic signal processing at the University of Paderborn. With deep neural networks he and his students were able to improve the results significantly.

 Der Vortrag wurde auf Englisch gehalten und von der Autorin übersetzt.

Die Universität der Informationsgesellschaft