Wie haben Siri und Co. sprechen gelernt und warum sind die digitalen Assistenten doch nicht so klug, wie wir denken? Die Hintergründe kennt Prof. Dr. Reinhold Häb-Umbach vom Fachgebiet Nachrichtentechnik der Universität Paderborn. Der Wissenschaftler beschäftigt sich mit der automatisierten Verarbeitung von gesprochener Sprache und mit maschinellem Lernen. Aktuell hat er im Rahmen eines DFG-Projekts ein Verfahren entwickelt, das es ermöglicht, neben anderen Störgeräuschen sogar den Halleffekt in der Signalübertragung auf ein Minimum zu reduzieren. Die Methode erlaubt es außerdem, verschiedene Sprecher zu erfassen und ein Gespräch simultan zu verschriftlichen, was mit konventionellen Systemen bisher nicht möglich war.
„Alexa, stell den Wecker!“
Während der Mensch sein Gegenüber in der Regel auch unter schwierigen akustischen Bedingungen versteht, indem er sich konzentriert und Umgebungsgeräusche weitestgehend ausblendet, können Spracherkennungsprogramme das noch lange nicht. Das Ergebnis: Die Sprache-zu-Text-Verarbeitung funktioniert nicht mehr und auf Befehle wie „Alexa, stell den Wecker“ reagiert der Assistent mit einer Bestellung beim Bäcker. „Um solche Fehler künftig zu vermeiden, wollen wir die akustische Signalverarbeitung deutlich verbessern und Störgeräusche fast vollständig eliminieren“, so Häb-Umbach. „Wenn wir sprechen, machen wir zwischendurch kurze Pausen. Die Störgeräusche im Hintergrund laufen aber weiter. Innerhalb dieser „Lücken“ können sie vom Mikrofon identifiziert werden. Die gewonnenen Daten kann man anschließend isoliert betrachten und das Störsignal löschen“, erklärt er.
Die Technologie, mit der Hall aus Sprachsignalen entfernt werden kann, ist neu und mit Anwendungen wie Amazon Echo brandaktuell geworden. „Störfilter für Rauschen gibt es inzwischen schon in jedem Handy. Für Hall gab es bislang allerdings keine wirklich geeigneten Tools. Das Problem wird konkret, wenn Mikrofone in größerem Abstand zum Sprecher stehen, wie es bei den digitalen Assistenten ja der Fall ist.“ Durch den Hall wird das Sprachsignal an Flächen in der Umgebung reflektiert und gelangt so auf unterschiedlichen Wegen mit unterschiedlicher Laufzeit und Dämpfung zum Mikrofon. Dazu Häb-Umbach: „Jeder kennt das: Im Badezimmer hört sich die Sprache anders an als im Wohnzimmer. Dieser Hall verwirrt den Spracherkenner. Man kann ihn eliminieren, indem man aus Trainingsdaten lernt, wie man vom verhallten Signal auf das unverhallte Signal zurückrechnen kann“.
Neue Technologie für die Identifizierung von unterschiedlichen Sprechern
Schwieriger wird es im Fall der sogenannten „blinden Quellentrennung“: Sobald mehrere Personen gleichzeitig reden, gelangen die Systeme an ihre Grenzen. „Verschiedene Sprecher zu erkennen und die Gespräche automatisch in eine vernünftige schriftliche Form zu bringen, war bis dato eine große Herausforderung. Uns ist es jetzt gelungen, mithilfe von neuronalen Netzen hervorragende Ergebnisse in der automatischen Spracherkennung zu erzielen “, erklärt Häb-Umbach. Dafür werden in einem ersten Schritt überlagerte Sprachsignale voneinander getrennt und anschließend separat betrachtet. „Jede Einheit wird für sich genommen von dem Spracherkennungssystem analysiert. Im Ergebnis steht ein fertiger Text, genauer gesagt ein Transkript, das eine exakte Wiedergabe des Gesprochenen ist.“ Ein Gerät, das eigenständig Gespräche verschriftlicht, könnte es also bald geben, meint der Experte.
Um überhaupt in der Lage zu sein, eine Sprache automatisch zu erkennen, müssen die Systeme vorher mit Daten „gefüttert“ werden. Dazu Häb-Umbach: „Wir sprechen hier von der Lernphase. Dabei speisen wir Sprachsignale und gleichzeitig auch die entsprechenden Texte ein. So lernen die Systeme, welche schriftliche Repräsentation zu welchem Laut passt. Das System lernt also auch, wie die jeweiligen Wörter ausgesprochen werden.“ Inzwischen sind die Forscher sogar noch einen Schritt weiter: Sie arbeiten an selbstlernenden Systemen, die eine vorherige „Fütterung“ überflüssig machen und trotzdem fehlerfreie Protokolle liefern. „Es gibt nur ein Audiosignal und keinen Text, der als Lerngrundlage dient. Das bezeichnet man auch als „Unüberwachtes Lernen“. Nützlich ist das zum Beispiel für die Dokumentation seltener Sprachen. Linguisten könnten mithilfe der Technologie schnell Korpora, also digitale Textsammlungen, aufbauen. Das Spracherkennungsprogramm nimmt ihnen viel Arbeit ab. Denn: Die Sprachdaten mühselig per Hand zu transkribieren, nimmt unglaublich viel Zeit in Anspruch“, weiß Häb-Umbach.
Maschinelles Lernen macht es möglich: Die Forscher haben eine Methode entwickelt, die die akustischen Bausteine gesprochener Sprache identifiziert und ein Verfahren zum Trennen der Laute entwickelt. „Das heißt, Laute werden segmentiert und als wiederkehrende Muster erkannt. So kommt man letztendlich zu dem Silbenaufbau, zu Wörtern bis hin zu ganzen Sätzen“, erklärt der Elektrotechniker. Das stößt auch bei der Industrie auf großes Interesse: „Wir haben Kontakt zu Google, Facebook, NTT und vielen anderen großen Playern“, sagt Häb-Umbach.