Maschinen mit Herz und Seele
Mary Czerwinski fährt gerade zur Arbeit und streitet sich mit ihrem Lebensgefährten, der neben ihr sitzt. Sie versucht, Ruhe zu bewahren, doch innerlich kocht sie. Plötzlich erreicht ihren Partner eine SMS: „Deiner Freundin Mary geht es nicht gut. Vielleicht solltest Du sie anrufen“. Czerwinski trägt ein intelligentes Armband, das ihren Puls und die elektronische Ladung ihrer Haut misst. Wenn sie besonders angespannt ist, verschickt das Gerät automatisch eine Nachricht an den gesamten Freundeskreis. Czerwinski hat das Armband selbst entwickelt, sie arbeitet im Forschungslabor von Microsoft.
Unsere Gefühle zu erfassen – das ist der nächste große Schritt in der Mensch-Maschinen-Kommunikation. Computer sollen den User künftig besser verstehen und aktiv werden, wenn es ihm nicht gut geht. Affective Computing nennt sich diese Forschungsrichtung und Anwendungsmöglichkeiten gibt es zuhauf: Die Technik eignet sich, um Ärzte bei Operationen zu überwachen – die Software schlägt dann bei Müdigkeit Alarm, sie könnte psychologische Krankheiten wie etwa eine Depression nur anhand der Smartphone-Nutzung diagnostizieren oder in einem Assessment Center messen, ob ein Bewerber die emotionalen Qualitäten einer Führungskraft mitbringt.
Mussten Forscher früher noch unhandliche EEG-Kappen mit Gel am Kopf ihrer Probanden befestigen, um deren Gefühle zu messen, reichen heute Kamera, Mikrofon und kleine Sensoren aus, die sich leicht in den Alltag integrieren lassen. Ingenieure des Massachusetts Institute of Technology (MIT) etwa statteten in dem Projekt AutoEmotive das Lenkrad eines Fahrzeugs mit Berührungssensoren aus, die den emotionalen Zustand des Fahrers kontrollieren. Ist er wütend und bringt sich in Gefahr, spielt das Auto beruhigende Musik. Außerdem ändert sich die Lackierung in eine Signalfarbe, um andere Fahrer zu warnen.
Bis solche Zukunftsvisionen realisiert werden könnten, muss aber noch eine Menge Grundlagenforschung betrieben werden. „Unsere Gefühlswelt ist äußerst komplex“, sagt Patrick Gebhard vom Deutschen Forschungszentrum für Künstliche Intelligenz in Saarbrücken. Er arbeitet seit mehr als 15 Jahren daran, den Computern Empathie beizubringen. Und er kennt ihre Grenzen. „Selbst uns Menschen fällt es nicht leicht, die Emotionen unserer Bekannten und Freunde korrekt einzuschätzen“, sagt er. „Computer tun sich damit erst recht schwer.“
Das liege unter anderem daran, dass Menschen im Alltag eine Art Maske tragen – sie verhalten sich so, wie es die Gesellschaft von ihnen erwartet und regulieren ihre Emotionen. Ein Lächeln kann ebenso gut Ausdruck von Scham wie Schadenfreude sein. Die regulierten Emotionen sind in Gestik, Mimik, Körperhaltung und Sprache gut zu erkennen. „Um aber die wahren Emotionen zu sehen, müssen wir mit anderen Menschen eine Beziehung aufbauen“, sagt Gebhard. Und selbst dann liegt man regelmäßig falsch.
Dennoch kann Affective Computing auch heute schon sinnvoll sein. Gebhard hat zum Beispiel einen Bewerbungssimulation mitentwickelt, bei dem die Software die regulierten Gefühle der Bewerber analysiert. Der Forscher zeigt, wie sie funktioniert: Er setzt sich vor einen großen Flachbildschirm und sieht sich dem computeranimierten Bild einer Frau im Business-Anzug gegenüber. Sie trägt ein weißes Hemd, die Ärmel sind hochgekrempelt. Ihr Kopf bewegt sich kaum wahrnehmbar mal nach links, mal nach rechts. Die Figur wirkt selbstbewusst, aber ihre Computerstimme klingt holprig. Zunächst bittet sie Gebhard, sich vorzustellen. Dann präsentiert sie ihre Firma und fragt nach seinen Stärken und Schwächen.
Gebhard verhält sich absichtlich daneben. Als die Frau ihre Firma präsentiert, blickt er aus dem Fenster, lehnt sich im Stuhl zurück und verschränkt seine Arme. Der Computer registriert sein Verhalten mittels einer Tiefenkamera, die hinter dem Bildschirm aufgebaut ist. Die Software „OPEN SSI“, die an der Universität Augsburg entwickelt wurde, vergleicht Gebhards Bewegungen mit Mustern, die in einer Datenbank gespeichert und bestimmten Gefühlausdrücken zugeordnet sind. 120 Bilder werden pro Sekunde ausgewertet – in Echtzeit.
Das Bewerbungsspiel ist Ergebnis des europäischen Forschungsprojekts TARDIS. Es richtet sich an Jugendliche zwischen 18 und 25 Jahren, die kein funktionierendes Elternhaus und keine Ausbildung haben – und damit wenig Chancen auf dem Arbeitsmarkt. „Die sozialen Strategien, die sie bräuchten, um ein Bewerbungsgespräch zu bestehen, sind ihnen fremd“, sagt Gebhard. Auf ihre Ziele angesprochen, antworten sie im Bewerbungsgespräch, sie möchten reich werden oder Kinder kriegen. In der Simulation können sie sich immer wieder der gleichen Situation stellen, während der Computer auf unpassende Körpersignale hinweist.
Ein zweiter Bildschirm zeigt, was der Computer tatsächlich „sieht“: Gebhards Körper gleicht in der Aufzeichnung einem Skelett. Man sieht neongelbe Linien für Arme, Torso, Kopf und Beine, an den Gelenken erscheinen gelbe Punkte. Eine Heat-Map zeigt unterschiedlich starke rote Flächen an, je nachdem, wo und wie intensiv sich Gebhard bewegt hat. Gemessen wird auch, wir lange er Augenkontakt mit der Bildschirmfigur hält, wie laut seine Stimme ist, ob er einsilbig antwortet – alles Anzeichen für seine Gefühlslage.
Es ist verblüffend, wie viel sich allein aus Videobildern herauslesen lässt. Die Firma Affectiva, von Forschern des (MIT) gegründet, erfand ein System, dass aus Kameraaufnahmen emotionale Regungen wie Überraschung, Verachtung oder Scham herauslesen kann. Die Forscher hatten zuvor mehr als eine Milliarde Gesichtsausdrücke von mehreren Tausend Menschen aufgezeichnet und damit ihre Computer-Algorithmen gefüttert. Konsumforscher nutzen diese Software, um Testpersonen neue Produkte in die Hand zu drücken und dann ihre Gefühle bei der Nutzung zu messen. Zu Affectivas Kunden gehören Unilever und Coca-Cola.
Am besten funktionieren allerdings Systeme, die sowohl Video- als auch Audioaufnahmen berücksichtigen. Björn Schuller von der Universität Passau, Präsident der „Association for the Advancement of Affective Computing“, erklärt, dass sich Bild- und Tonanalysen bei Affective Computing stets ideal ergänzen. Oft reiche schon ein einzelner gesprochener Satz aus, damit die Software Alter, Geschlecht und Persönlichkeit eines Menschen prognostizieren kann – ob er offen, extrovertiert, liebenswürdig oder neurotisch ist.
Schuller hat eine Software entwickelt, die die aufgezeichneten Daten drei sogenannten Dimensionen zuordnet: Wertigkeit, Aktivität und Dominanz. Drückt sich der Mensch körperlich und sprachlich positiv oder negativ aus? Ist er aktiv oder passiv? Ist er dominant oder zurückhaltend? Ärger und Furcht weisen zum Beispiel bei Wertigkeit und Aktivität ähnliche Werte auf, allerdings drückt sich Ärger in einer stärkeren Dominanz aus. Die Stimme wird dabei fest und laut. In einem Projekt, das Schuller mitbetreute, gelang es einer Software, eine klinische Depression mit hoher Wahrscheinlichkeit zu erkennen. Die Leute mussten nur einen Text nachsprechen oder ein Lied singen.
Patrick Gebhard beschreibt als weitere Vision eine Szene aus der Fernsehserie Continuum. Dort landet eine Polizistin aus der Zukunft in unserer Gegenwart. In ihrem Kopf ist ein Mikrochip implantiert, der ihre Gefühle überwacht. In besagter Szene will sie aus Wut auf jemanden schießen. Der Chip hindert sie daran, da es sich nicht um Selbstverteidigung handeln würde. In Kampfjets könnten solche Systeme künftig Piloten überwachen und vorschnelle Handlungen mit katastrophalen Folgen abwenden – auch ohne Chip im Kopf. Das MIT Media Lab stellte etwa kürzlich die App „BioGlass“ für die Computerbrille Google Glass vor. Sie nutzt die Sensoren der Brille, um aus winzigen Bewegungen unseres Kopfes unseren emotionalen Zustand zu berechnen.
Manche Menschen erschreckt diese Technik. Werden nach unseren privaten Daten bald auch unsere innersten Empfindungen ins Netz gespeist? Patrick Gebhard warnt vor übertriebener Panikmache. „Affective Computing ist nichts anderes als ein neutrales Werkzeug, dessen Potential wir noch ergründen müssen“, sagt er. „Computer verstehen uns vermutlich nie vollständig.“ Und damit hätten sie ja letztendlich wieder etwas mit den Menschen gemein.
Dieser Text erschien im Focus.