Hier eine Übersicht über die abgeschlossenen Projekte im Fachgebiet.
Amigo
Ziel ist die Erforschung und Entwicklung von offener, standardisierter, interoperabler Middelware und intelligenten Diensten für die vernetzte Hausumgebung, welche dem Nutzer intuitive, personalisierte und unauffällige Interaktion durch nahtlose Interoperabilität der Dienste und Applikationen anbietet.
Ziele des Projektes.
DraFaLa
Im Rahmen dieses Projekts wird ein flexibler und kostengünstiger Mehrwertdienst realisiert, der Spediteuren eine lückenlose Überwachung des Zustands der Waren auf ihren Fahrzeugen erlaubt. Die Überwachung erfolgt automatisch ohne die Notwendigkeit eines Eingreifens durch den Fahrer, so dass dieser sich ständig auf seine Aufgabe, das Fahrzeug sicher zu führen, konzentrieren kann.
Unüberwachte akustische Geometriekalibrierung
Akustische Ereignisse stellen eine wichtige Quelle von Kontextinformation für ein maschinelles Perzeptionssystem dar. So können insbesondere sprechende Personen durch den Einsatz von Mikrofonfeldern lokalisiert und Signale unterschiedlicher Quellen getrennt werden. Dabei wird die Geometrie des Aufbaus, d. h. die relativen Positionen der Mikrofone zueinander und die absolute Position des Feldes im Raum, als bekannt vorausgesetzt.
Für den praktischen Einsatz verteilter Mikrofonfelder – z. B. in einer intelligenten Umgebung – ist es aber nicht sinnvoll, derart einschränkende Annahmen bezüglich des Sensoraufbaus treffen zu müssen. Ziel dieses Projekts ist es daher, Methoden zu entwickeln, die eine komplett unüberwachte Kalibrierung der Geometrie von verteilten Mikrofonfeldern erlauben. Dazu wird die Kalibrierung als Maximum-Likelihood Schätzproblem formuliert. Zusätzlich sollen Verfahren entwickelt werden, die es erlauben, die relative Geometrie der akustischen Sensorik in einen Referenzrahmen einzubetten, der durch eine komplemenäre Sensormodalität, wie z. B. visuelle Sensoren, gegeben ist.
Die in diesem Projekt entwickelten Verfahren führen zu einer wesentlichen Vereinfahcung der Installation und des Einsatzes audio-visueller Sensornetzwerke. Dies stellt einen wichtigen Schritt hin zur Praxistauglichkeit von ”intelligenten“ audio-visuellen Systemen dar.
Projektförderung durch die DFG unter Kennzeichen Ha3455/7-1 und Ha3455/7-2
Ein integrierter Ansatz zur Störgeräuschunterdrückung und blinden Trennung von Sprachsignalen
In diesem Projekt werden die bisher meist getrennt bearbeiteten Probleme der Geräuschreduktion und der blinden Trennung von Sprachsignalen gemeinsam betrachtet werden. Während in der Literatur meist von einer konstanten und bekannten Anzahl von Sprechern ausgegangen wird, wird hier ein Verfahren entwickelt, welches ein entstörtes und entmischtes Ausgangssignal hoher Qualität für wechselnde Gesprächssituationen liefert, in denen mal ein einziger und ein andermal mehrere Sprecher gleichzeitig aktiv sind.
Zur Lösung des Problems wird die Dünnbesetztheit von Sprache im Zeit-Frequenzbereich ausgenutzt. Es wurde ein neuartiges statistische Modell entwickelt, in dem die Phasendifferenzen der Mikrofonsignale über ein Gemisch von direktionalen auf einer Hyperkugel definierten Verteilungen beschrieben werden (sog. Watsonverteilungen), deren Parameter mit Hilfe des Expectation Maximization Algorithmus geschätzt werden. Die dabei abfallenden Sprachaktivitätswahrscheinlichkeiten werden zur Lösung des Permutationsproblems und zur Rekonstruktion der Quellensignale verwendet. Die zunächst für eine blockbasierte Verarbeitung entwickelten Schätzverfahren wurden anschließend in sequentielle Algorithmen ¨uberführt, um eine Geräuschreduktion und Quellentrennung mit möglichst geringer Latenz zu erreichen.
Projektförderung durch die DFG unter dem Kennzeichen Ha3455/8-1
Spectral Denoising
Denoising of signals distorted by an additive nonstationary noise is of great interest in many applications even beyond speech signal processing. Since a time-frequency representation of speech signals is sparse, an enhancement of the short-time Fourier transform (STFT) coefficients of a single-channel noisy signal is often used to remove noise. Such spectral speech enhancement systems usually work in two domains, first, in the power spectral density (PSD) domain to estimate a PSD of the noise signal and, second, in the signal-to-noise ratio (SNR) domain to calculate a spectral gain function, which is used to enhance the noisy STFT coeffitients. Since clean speech and noise signals can be satisfactorily modelled as two independent random processes, statistical model-based approaches can be developed for denoising.
Source separation and interference reduction for automatic speech recognition in dynamic acoustic environments (Transfer Project)
This project is dedicated to a holistic approach for speech enhancement, separation and recognition in an automatic house environment. Financed by the “Deutsche Forschungsgemeinschaft” (DFG) a new system is researched combining the hand-on experience from a third-party company with the recent scientific advances in speech enhancement through deep learning at the Department of Communications Engineering (EIM-E/NT) . As basis for the speech enhancement and separation task a spectral masking beamformer inspired by an approach developed in our department is considered.