auf einer messe habe ich
dieses produkt getestet.
die idee ist einfach: der mensch sendet in der kommunikation auf 3 kanälen.
1. verbal (inhalt oder besser: content)
2. nonverbal (gestik, mimik etc.) und
3. auf dem paralinguistischen kanal (u.a klang der stimme)
am telefon fällt kanal 2 schon mal weg und kanal 1 durch die spracherkennung bereits ganz gut verarbeitet.
und nun gibt es eine software, die kanal 3 analysieren kann. ärger, zufriedenheit, stolz, autorität, enttäuschung, und so weiter. und ein computer wird in der lage sein, ironie zu verstehen! dann nämlich, wenn inhalt und stimmeingenschaften nicht kongruent, bzw. in einem bestimmten verhältnis zueinander stehen.
Ein Mensch kann in einem Telefonat den inhaltlichen wie auch den paralinguistischen Informationsstrom gleichzeitig extrahieren und gemeinsam auswerten. Beim "Gespräch" zwischen Mensch und Computer hat man sich allerdings bis heute fast ausschließlich auf den ersten Kommunikationskanal konzentriert. Diese automatische Erkennung des gesprochenen Textes aus den Sprachsignalen ist bekannt als Spracherkennung.
Dagegen ist die automatische Erkennung der paralinguistischen Eigenschaften aus Sprachsignalen ein noch junges Forschungsfeld, das zunehmendes Interesse erweckt. Die mathematischen Methoden und Algorithmen, die dies ermöglichen sollen, stammen aus dem Gebiet der Mustererkennung, eines Zweiges der statistischen Signalverarbeitung. Wie die Spracherkennung besteht auch die Emotionserkennung aus mehreren Schritten: So werden zunächst emotional bewertete Sprachdatenbanken erstellt, anhand derer das Erkennungssystem trainiert werden kann. Dann werden Merkmale aus den Sprachsignalen berechnet, die sich bezüglich verschiedener Emotionen besonders gut unterscheiden lassen. Es folgen eine Auswahl der sinnvollsten Merkmale sowie der Entwurf und die Optimierung eines lernfähigen Erkennungssystems, das aus den Daten die Entscheidungsregel für die Emotionserkennung selbst extrahiert. Schließlich wird der "Erkenner" trainiert und mit unbekannten Testdaten validiert.
Bei der Berechnung der Merkmale stellte sich allerdings heraus, dass die in der Spracherkennung etablierten Merkmale für die Emotionserkennung nur bedingt nützlich sind, weil sich die linguistischen und paralinguistischen Informationen an unterschiedlichen Stellen der Sprachsignale verstecken. Bis die automatische Emotionserkennung für einen praktischen Einsatz ausgereift ist, sind deshalb noch viele Forschungsarbeiten nötig.
Doch der Aufwand lohnt sich, denn die Anwendungen für die Emotionserkennung aus Sprachsignalen sind vielfältig. Interessenten finden sich in Callcentern ebenso wie im medizinischen Bereich. In Fahrerassistenzsystemen könnte die Technologie detektieren, ob der Fahrer gerade im Stress ist. Zudem könnte die konventionelle Spracherkennung verbessert werden, weil die emotionale Färbung einer Sprachäußerung oft mit dem Inhalt des Gesagten verbunden ist: Das Schimpfwort "Mist" und das Grußwort "Herzlichen Glückwunsch" sind immer mit unterschiedlichen Emotionen verbunden. In der umgekehrten Richtung sollen die Erkenntnisse aus der Emotionserkennung auch dazu beitragen, die synthetisierte Sprache des Sprachcomputers emotionaler zu gestalten.
und noch ein einsatzgebiet wurde kürzlich erschlossen :)
folgt