Künstliche Intelligenz und Empathie. Vom Leben mit Emotionserkennung, Sexrobotern & Co
Furcht gleichzusetzen mit der Tendenz zu Flucht, Erstarrung oder Kampf. Somatische Theorien hingegen halten Emotionen für Wahrnehmungen körperlicher Veränderungen. Der Philosoph und Psychologe William James, auf den dieser Ansatz zurückgeht, prägte hierfür Ende des 19. Jahrhunderts den Slogan: Wir weinen nicht, weil wir traurig sind, sondern wir sind traurig, weil wir weinen.6
Kognitivistische Theorien konzentrieren sich auf die intentionalen Objekte von Emotionen. In der gegenwärtigen Psychologie ist der Ansatz verbreitet, Emotionen als Interpretation und Bewertung (engl. appraisal) einer Situation vor dem Hintergrund gewisser Ziele, Wünsche, Überzeugungen und Erfahrungen zu verstehen. Solche Bewertungen umfassen etwa die Relevanz für die eigene Person oder Gruppe, den Neuigkeitswert des Ereignisses, die hedonische Qualität (›angenehm‹ oder ›unangenehm‹), die Relevanz für die eigenen Bedürfnisse und die Wahrscheinlichkeit des Eintretens.
Emotionen lassen sich durch jeweils spezifische Bewertungsmuster voneinander abgrenzen, die verhältnismäßig stabil sind. Diese Bewertungsmuster unterscheiden sich in ihrer Komplexität und in ihrem kognitiven Anspruch. Sie variieren von niederstufigen biologisch bestimmten Mustern bis hin zu kognitiv anspruchsvollen, kontext- und kulturabhängigen Prozessen. Die Bewertungstheorien finden auch in der emotionalen KI Anwendung.7 Gefühlstheorien (engl. feeling theories) hingegen verstehen die subjektive Erlebnisqualität als das entscheidende Merkmal von Emotionen. Da es zweifelhaft ist, ob Maschinen tatsächlich über subjektive Gefühlsqualitäten verfügen, ist dieser Ansatz in der emotionalen KI nicht verbreitet.
Tabelle 1: Emotionstheorien und affektive Phänomene
Basale Emotionen
Zu den wichtigsten und in der emotionalen KI einflussreichsten psychologischen Ansätzen gehört die Theorie der basalen Emotionen. Ihre Ursprünge reichen auf Darwin (1872) zurück, der beobachtete, dass Emotionen bei Menschen und Tieren eng mit gewissen Gesichtsausdrücken und Verhaltensweisen verknüpft sind. Die Theorie der basalen Emotionen besagt nun, dass es eine Reihe von basalen Emotionen gibt, die universell geteilt und in bestimmten neuronalen Strukturen des Gehirns verankert sind. Sie werden durch eine eng begrenzte Klasse von Reizen ausgelöst und haben die evolutionäre Funktion, schnelles und effizientes Verhalten im Umgang mit bestimmten Herausforderungen der Umwelt zu ermöglichen. Sie sind nicht rational kontrollierbar und laufen weitgehend automatisch ab. Man spricht deshalb auch von Affektprogrammen.
Besonders bedeutsam für die emotionale KI waren die Arbeiten des Psychologen Paul Ekman, der diesen Ansatz seit den 1960er Jahren fortentwickelt hat.8 Im Zentrum seiner Untersuchungen stand der enge Zusammenhang zwischen basalen Emotionen und bestimmten Gesichtsausdrücken, die kulturübergreifend erkannt werden. Nach Ekman lassen sich solche Emotionen sogar allein auf der Grundlage des Gesichtsausdrucks zuordnen. Seine ursprüngliche Liste enthält sechs basale Emotionen: Furcht, Freude, Ärger, Traurigkeit, Überraschung und Ekel. Allerdings hat Ekman diese Liste später selbst modifiziert und es wurden noch weitere, davon abweichende Aufzählungen basaler Emotionen erstellt.
Das Gegenstück zu den basalen Emotionen bilden nicht-basale oder komplexe Emotionen. Wie die rein negative Abgrenzung schon andeutet, lässt sich diese Art von Emotionen weit schwieriger unter einen einheitlichen Begriff fassen und es gibt unterschiedliche Ansätze zu ihrer Erklärung. Einige gehen davon aus, dass komplexe Emotionen sich aus basalen Emotionen zusammensetzen. Nostalgie ließe sich etwa als Mischung aus Freude und Traurigkeit beschreiben. Für andere entstehen komplexe Emotionen aus der Ausrichtung basaler Emotionen auf ein neues, zumeist spezifischeres Bezugsobjekt. So entstünde etwa Eifersucht, indem Ärger auf eine ganz bestimmte Form der Anstößigkeit als neues Objekt bezogen würde, nämlich auf Untreue in einer Liebesbeziehung. Schließlich kann man komplexe Emotionen auch als ganz und gar eigenständige Phänomene verstehen, so dass die Klasse der Emotionen in zwei distinkte Arten auseinanderfiele.
Die Frage ist allerdings, ob es tatsächlich eine so strikte Abgrenzung zwischen basalen und nicht-basalen Emotionen gibt oder ob der Übergang zwischen automatischen und universellen Emotionsformen und ihren kognitiv anspruchsvolleren, kontextabhängigen Gegenstücken nicht eher fließend ist. Ein Beispiel wäre die Furcht vor einem gefährlichen Raubtier, die in Form eines Affektprogramms abläuft und auch im Tierreich vorkommt, gegenüber der Furcht vor einem Börsencrash, die deutlich anspruchsvollere kognitive Ressourcen sowie bestimmte soziale Organisationsformen voraussetzt. Furcht in diesem nicht-basalen Sinn scheint auch nicht mit einem bestimmten Gesichtsausdruck oder den drei Grundverhaltensformen des Affektprogramms (Flucht, Erstarrung oder Kampf) verbunden zu sein.
Da komplexe Emotionen in der emotionalen KI nur eine untergeordnete Rolle spielen, werden die unterschiedlichen Erklärungsansätze und ihre Probleme nicht näher ausgeführt. Die Theorie der basalen Emotionen hingegen gewann großen Einfluss in diesem Bereich, denn die Unterscheidung von Emotionen auf der Grundlage von Gesichtsausdrücken eignet sich vorzüglich für die algorithmische Emotionserkennung. Das Internet bietet zudem eine gute Quelle, um an jene Daten zu kommen, die notwendig sind, um solche Programme zu entwickeln.
2. Wie künstliche Systeme wissen, was wir fühlen
Die automatisierte Emotionserkennung ist der derzeitig ökonomisch und sozial bedeutsamste Zweig der emotionalen KI. Diese Wachstumsbranche wird in Zukunft noch mehr an Gewicht gewinnen und Folgen für unser Zusammenleben haben. Bereits jetzt wurden eine Reihe von Methoden entwickelt, die in unterschiedlichen Bereichen Anwendung finden. Im Folgenden werden die grundlegenden Technologien und Verfahren zur Erkennung menschlicher Emotionen vorgestellt, die in künstlichen Systemen eingesetzt werden.
Gesichtsbasierte Emotionserkennung
Eine Inspirationsquelle der automatischen Emotionserkennung bildet das Gesichtsbewegungskodierungssystem (engl. Facial Action Coding System, FACS), das Paul Ekman seit den 1970er Jahren in Zusammenarbeit mit Wallace Friesen für die zwischenmenschliche Emotionserkennung entwickelt hat.9 Das System ordnet jeder sichtbaren Bewegung der mimischen Muskulatur eine Bewegungseinheit (engl. Action Unit, AU) zu, die eine einzelne Muskelbewegung beschreibt oder mehrere zusammenfasst.
Auf diese Art und Weise lassen sich Gesichtsausdrücke klassifizieren und als Code darstellen. Die verschiedenen Typen basaler Emotionen werden anhand bestimmter Kombinationen der Bewegungseinheiten charakterisiert, die zu dem für sie typischen Gesichtsausdruck führen. Furcht etwa lässt sich durch Zusammenziehen der Augenbrauen (AU 4), Heben des oberen Augenlids (AU 5), Anspannen des unteren Augenlids (AU 7) sowie Aufeinanderpressen der Lippen (AU 23) beschreiben. Freude umfasst das Anheben der Wangen (AU 6) und der Mundwinkel (AU 12). Die Intensität einer Bewegung kann zusätzlich auf einer fünf Stufen umfassenden Skala ausgedrückt werden. Das System lässt sich durch die Hinzunahme von Kopf- und Augenbewegungen sowie typischen Verhaltensmustern erweitern.
Besonders große Resonanz erfuhr FACS, weil sich mit Hilfe der Mikromimik (kurze, schnelle Gesichtsbewegungen, die nur Sekundenbruchteile andauern) erkennen lässt, welche Emotion jemand tatsächlich hat, auch wenn die Person dies verbergen möchte. Zwar ist nicht jeder spontan in der Lage, solche Mikroausdrücke zu erkennen. Diese Fähigkeit lässt sich jedoch nach Ekman gut trainieren. Er arbeitet mit dem Auslandsgeheimdienst (CIA), dem Verteidigungsministerium und dem nach den Terroranschlägen vom 11. September 2001 gegründeten Heimatschutzministerium (Department of Homeland Security) der USA zusammen. Die Mitarbeiter dieser Einrichtungen sollen darin geschult werden, potentielle Terroristen anhand ihrer Mikromimik zu enttarnen. Dieses Beispiel verdeutlicht den großen Reiz, den automatisierte gesichtsbasierte Emotionserkennung ausübt: Sie soll es den Nutzern – seien es staatliche oder kommerzielle Akteure – erlauben, die wahren Emotionen einer Person zu erkennen, ohne auf deren Selbstinterpretation angewiesen zu sein.
Künstliche Systeme müssen jedoch nicht in Anlehnung an Ekmans Gesichtsbewegungskodierungssystem programmiert werden. Es ist auch möglich, sie mit Hilfe von ›Big Data‹ darauf zu trainieren, Gesichtsausdrücke als Muster in Datensätzen zu erkennen. Beide Verfahrensweisen lassen sich auch miteinander kombinieren. Die Datengrundlage besteht aus Live-Aufnahmen von Kameras,