Verbesserte Sprachverarbeitung durch deep neural networks

06.08.2018 | EIM-Nachrichten, EI-Nachrichten

Ein Beitrag von Carolin Riethmüller

English summary below

Es ist ein alt bekanntes Problem: Man möchte die lange Autofahrt sinnvoll nutzen und einige Telefonate währenddessen erledigen. Die Freisprechanlage sollte es möglich machen – doch beim Gesprächspartner kommt hauptsächlich Autolärm an, die eigene Stimme ist kaum zu verstehen. Der renommierte Sprachverarbeitungsforscher Professor Dr. Chin-Hui Lee hat gemeinsam mit seinen Studenten an der Georgia Institut of Technologie University ein neues Verfahren entwickelt, um die Störgeräusche rund um die Stimme zu minimieren. Nun stellte er es auf Einladung von Professor Reinhold Häb-Umbach dessen Fachgruppe und allen Interessierten in einem Vortrag zum Thema „A Machine Learning Approach to Acoustic Signal Processing“ vor. Trotz großer Hitze kamen zahlreiche Studierenden in den Konferenzsaal, eine Fachgruppe aus Erlangen, mit der es eine Kooperation gibt, war ebenfalls via Skype zugeschaltet.

Mit der Kombination aus Deep Learning und Big data, den deep neural networks (DNN), konnten Chin-Hui Lee und seine Studierenden weitaus bessere Ergebnisse erzielen als mit bisher üblichen Systemen zur Sprachbereinigung. Mithilfe von zahlreichen Aufnahmen von Sprache lernt das Programm, den Sprecher entweder aus Störgeräuschen, oder zwischen zwei Stimmen herauszufiltern. Musik hingegen macht dem Team noch Probleme. „Gute digitale Signalprozessoren werden zu exakten ASR (automatic speech recognition) führen“, so Lee. Außerdem wären große Datensätze und die Kombination von DNN mit bisherigen Techniken wichtig auf dem Weg zur fehlerfreien Sprachverarbeitungen.

Chin-Hui Lee ist Professor am Georgia Institute of Technology. Davor war er bis zum Jahr 2001 an den berühmten Bell Laboratories, Murray Hill, New Jersey, beschäftigt, wo er als „Distinguished Member of Technical Staff“ zuletzt Direktor der Forschungsabteilung „Dialogue Systems“ war. Dr. Lee ist Fellow des IEEE und der ISCA (International Speech Communication Association). Unter seinen vielen Auszeichnungen ist der renommierte Technical Achievement Award der IEEE Signal Processing Society für “Exceptional Contributions to the Field of Automatic Speech Recognition''.

Professor Chin-Hui Lee from the Georgia Institute of Technology presented his latest results in acoustic signal processing at the University of Paderborn. With deep neural networks he and his students were able to improve the results significantly.

Der Vortrag wurde auf Englisch gehalten und von der Autorin übersetzt.