11KM: der tagesschau-Podcast: Belauscht. Was KI aus unseren Stimmen liest

tagesschau 10/12/23 - Episode Page - 27m - PDF Transcript

Transcript
Show Notes

Diese Ansage kennt ihr bestimmt. Ihr ruft bei einer Hotline an und soll aufgezeichnet werden.

So what? Warum nicht? Ja, weil es vielleicht um mehr geht, als ihr denkt.

Denn eure Stimme gibt viel mehr Preis, als ihr vielleicht glaubt. Besonders, wenn eine künstliche

Intelligenz sie auswertet und dann vielleicht sogar völlig falsche Annahme über euch trifft.

Ihr hört 11km der Tagesschau-Podcast, ein Thema in aller Tiefe. Mein Name ist Victoria Kobmann.

Heute ist Donnerstag, der 12. Oktober. Mein Gast heute ist Rebecca Ciesielski vom BR AI und Automation Lab.

Hallo Rebecca. Hallo. Du warst quasi im Silicon Valley von München unterwegs, nämlich bei einem

Softwareunternehmen. Ja, Silicon Valley, das ist eine ganz interessante Analogie, weil das ist in

Gilching und andere kennen das vielleicht auch diese Region unter Oberfaffenhofen. Da sind

tatsächlich relativ viele unterschiedliche Unternehmen, die alle was mit Hightech machen und

eben auch dieses Unternehmen, was wir uns angeguckt haben, Odearing. Ich muss sagen, ich war noch

nicht im Silicon Valley, aber auf jeden Fall nicht so, wie man sich das vorstellt, sondern das war

ein sehr unscheinbare Bürokomplex und da sind wir so in die erste Etage gefahren und da war das

so eine etage Büros und relativ unscheinbar außer ein großes rotes Sofa-Stand im Empfangsbereich.

Und dann sind wir von Bion Schuller, dem wissenschaftlichen Leiter, dort in einen

Konferenzraum geführt worden, der schon so abgedunkelt war und dann hat er seinen Laptop

aufgeklappt. Abgedunkelt, okay, was ist da passiert? Ja, vielleicht war das für die mysteriöse

Stimmung, aber wahrscheinlich war es einfach nur, damit wir die Software auf dem Laptop gut

erkennen können und er hat uns dann halt gezeigt, wie Software zum Beispiel funktioniert, die Emotionen

erkennt. Ich finde es übrigens immer sehr spannend, wie viel mehr Angst die Leute vor Kameras haben und

entspannt sind mit Mikrofonen. Was wir jetzt sehen, ist ein sogenanntes Arousal Valence Modell,

das heißt, das zeigt wie negativ oder positiv ich klinge und wie aktiviert oder erregt ich bin.

Dann hat sich ein Mikrofon an seinen Hemd gesteckt und hat dann diese Software geöffnet und da

musste er erstmal einen Text vorlesen, den hat er relativ neutral vorgelesen, damit sich die Software

sozusagen an seine Stimme gewöhnt und dann hat er uns eben das gezeigt und das Klang so ein

bisschen geschauspielert und dann waren wir natürlich neugierig.

Und was macht dann die Software damit, also die KI? Das ist wie so ein Vier-Eck auf dem Bildschirm und in

allen Ecken, also in den Vier-Ecken ist jeweils ein Smiley und einer davon schaut wütend und einer

schaut fröhlich und einer schaut, naja, so ein bisschen neutral zufrieden und einer schaut traurig

und da ist so ein roter Punkt auf diesem Koordinatensystem und der springt dann immer mit so einer

kleinen Verzögerung in eine Richtung, also zum Beispiel zu dem wütenden Smiley oder zu dem

zufriedenen und so weiter und ich war neugierig und wollte das selbst ausprobieren und habe mir

eben dann auch dieses Mikro genommen und habe ohne die Software vorher groß an meine Stimme zu

gewöhnen und zu trainieren einfach was gesagt auf Deutsch und habe dann auch gesehen, dass die

Software das einigermaßen in einer Emotion kategorisieren kann. Jetzt rede ich sehr motiviert und auch

etwas fröhlich, amused, okay. Und jetzt rede ich relativ neutral und versuche nur etwas zu erklären,

was ich versuche zu beschreiben, also zum Beispiel, dass ich da jetzt gerade ein Punkt sehe auf dem

Bildschirm, der hin und her springt. Okay, da steht dann jetzt aber worried, also das war jetzt relativ negativ.

Ach, das geht aber viel schneller als ich dachte, muss ich sagen. Ich dachte irgendwie, dass man so

ein Text einspricht und dann erst hinterher irgendwie kommt, naja, die Person hat sich vielleicht

so oder so gefühlt, aber das heißt, es wird quasi in Echtzeit angepasst. Ja, also so fast in

Echtzeit und was ich da gerade erzählt habe mit worried und amused und diese ganz konkreten Emotionen,

das wird dann immer noch dazu angezeigt und das war aber, ja, das hat eher nicht so richtig

gepasst oder hatte ich zumindest das Gefühl, dass es nicht so richtig passt, weil das waren dann

schon sehr große Emotionen dafür, dass ich eigentlich da nur, ja, relativ neutral gesprochen

habe, zumindest aus meiner Wahrnehmung. Wir wollten natürlich dann auch wissen,

wie dieses Software funktioniert und da hat Björn Schuller gesagt, die misst ganz viele verschiedene

Faktoren der Stimme. Intonation, Intensität, Rhythmus, dann habe ich den Klang der Stimme,

also klingt die Eheise, geschrien sozusagen, geflüstert, das ist so Stimmqualitative Merkmal,

dann nennen wir das und dann gibt es artikulatorische Merkmale, das heißt, wie sauber spreche ich,

sozusagen. Und all das kann die KI erfassen und verarbeiten und daraus bestimmte Muster ableiten.

Also dieses Programm, das mit einer künstlichen Intelligenz funktioniert, hat eigentlich das

Ziel, nur aus dem, wie jemand spricht, aus der Spreche quasi, rauszuhören, welche Emotionen der

oder die hat. Okay, also was würdest du jetzt sagen, wie feinfühlig, wie genau ist das Ganze?

Ja, also was auffallend war, war, dass die Emotionen so ungefähr gepasst haben, also genau mit diesen

vier Richtungen, das hat schon so ungefähr gepasst, aber eben auch mit dem Schauspielern. Also wir

haben ja, oder ich habe in dem Fall ja auch versucht, meine Stimme dann so ein bisschen zu

verstellen und zu sagen, jetzt spreche ich irgendwie fröhlich oder jetzt spreche ich irgendwie neutral

und das war ja nicht authentisch. Also ich war in der Situation ja nicht fröhlich gerade, weil

irgendwas passiert ist, sondern ich habe das ja bloß mal versucht durchzuspielen und das hat es

einigermaßen, wie gesagt, abgebildet. Das heißt, die Software hat noch nicht erkannt, dass du die

Emotionen nur gespielt hast. Björn Schuller, der Vorsteller schon seit 20 Jahren oder über 20

Jahren in diesem Bereich, hat uns dann auch gesagt, dass die Emotionen nur so gut abgebildet werden

können, wie Menschen sie auch erkennen. Das heißt, die KI in der Zukunft wird einfach immer mehr

ähnlich wie ein Mensch hören können, oh, der ist gerade total durch den Wind oder ist

kognitiv gerade woanders, was auch immer es ist. Und Menschen erkennen das ja auch nicht immer

richtig, aber das ist sozusagen die bestmögliche Weise, wie so ein Algorithmus die Emotionen

erkennen kann, aber es geht nicht besser als Menschen. Er hat verschiedene Zahlen auch ins

Feld geführt und da ist oft zum Beispiel von 80 Prozent Richtigkeit die Rede und das ist eben dann

auch manchmal falsch, aber Menschen liegen halt auch manchmal falsch. Wo kommt diese Software denn

zum Einsatz? Die wird ja wahrscheinlich nicht einfach nur so produziert, ohne dass man die

benutzen will. Die Software ist tatsächlich im Einsatz und zwar sogar auch in Deutschland und

ein Einsatzfeld sind Core Center, was natürlich relativ nahe liegt, weil da ja ganz viel mit Sprache

gearbeitet wird und Sprache das Medium ist, was da die ganze Zeit ausgetauscht wird und dementsprechend

auch analysiert werden kann. Was für Core Center sind das? Wir wissen nicht, welche Core Center

das alle einsetzen, aber wir haben einen Core Center gehabt, was uns auch Einblicke gegeben hat

und das ist das Core Center 1188.0. 1188.0, wenn ich das höre, da denke ich doch an diese Werbung

aus den 90ern. 1188.0, die Auskunft für Deutschland, Telegate. 1188.0, da werden Sie geholfen. Das ist

meine Assoziation mit 1188.0, diese Werbung natürlich mit Verona Pot. Ich wusste gar nicht,

dass es die Hotline überhaupt noch gibt heute. Ja, das war überraschend, also die hatten ihre große

Hochphase, das haben sie uns auch erzählt, eben in den 90ern mit dieser Auskunft, die sie waren.

Wie ich mir die Auskunft merke, ganz einfach. Mit 11 wurde ich eingeschult. Für jede Sendung brauche ich

mindestens 88 Garten. Und dann kam natürlich das Internet und Telefonauskünfte wurden weniger

wichtig und das Businessmodell von 1188.0 hat sich auch verschoben hinzu einem Core Center Betreiber,

also quasi Core Center für andere Unternehmen. Das machen die jetzt hauptsächlich, aber sie sind

auch immer noch ein bisschen Auskunft, das haben sie uns auch gesagt. Wenn die einen Core Center

für andere sind, dann ist das so, wie wenn ich jetzt als Kunde, als Kundin, wo anrufe und irgendeine

Frage habe, dann rufe ich vermeintlich bei irgendeiner Firma an. Ich lande aber bei der 1188.0,

oder wie? Genau, das haben wir in unserer Recherche auch an sehr vielen Stellen gehört, dass es immer

mehr Unternehmen gibt, die ihre Core Center Outsourcen an andere Unternehmen. Das würde man aber als

anrufende Person nicht mitbekommen. Also man würde bei einem Unternehmen XY anrufen und dann würde

die Person am anderen Ende sagen, dass man dort gelandet ist bei diesem Unternehmen und würde

jetzt nicht sagen, ich bin eigentlich bei einem Core Center Betreiber angestellt und gar nicht

bei dem Unternehmen selbst. Wo landet man da? Wo sitzen die? Ich suche sie jetzt raus, ne? Ein Moment,

wir haben uns dort das Core Center angeschaut, also das Unternehmen selbst, das ist in Essen und die

haben aber ihre Core Center in unterschiedlichen deutschen Städten, eben zum Beispiel in Rostock

und dort sitzen relativ viele Personen in einem Großhaumbüro und alle haben so Headset auf und

telefonieren den ganzen Tag, also wie man sich so ein Core Center vorstellt. Und was hat die 1188.0

jetzt mit dieser StimmKI zu tun? Also es gab da auch Smilies und zwar auf dem Bildschirm der

Agentinnen und Agenten 2, also einmal einen, der gezeigt hat, wie die Anrufenden klingen und einmal

einen, der gezeigt hat, wie die Agentinnen und Agenten selbst klingen. Und die konnten ihre Farbe

wechseln, also das war auch eine sehr grobe Einschätzung, also von Grün, was eher so freundlich

fröhlich ist, über gelb, so neutrale Eindruck der Stimme, bisschen zu rot, aggressiv, fütend,

aufgeregt und das ging sowohl bei den Smilies für die Anrufenden als auch für die Mitarbeitenden,

also schon eine sehr grobe Einteilung, aber man konnte sich irgendwie ein Bild machen und das

war so ganz interessant, dass wir, obwohl wir ja nicht gehört haben, was die Anrufenden gesagt haben,

weil das als über Headset war, gesehen haben, wie diese Smilies zum Beispiel ihre Farbe verändert

haben über das Gespräch und dann erst rot eingestiegen sind, mit wütend oder aufgeregt

wahrscheinlich, über irgendwie neutral, bisschen zu fröhlich zum Teil manchmal. Ja, man kennt's,

oder? Man ruft an und ist erstmal irgendwie ein bisschen sauer, weil was nicht funktioniert und

dann denkt man aber, okay, vielleicht lag's auch ein bisschen an mir. Ja, oder die Person am anderen

Ende der Leitung sagt, was ändert, doch wieder beruhigt oder gibt's eine Hilfestellung und so

weiter? Ja. Wie war denn dein Eindruck da vor Ort? Wie finden die Mitarbeiter das? Also die Mitarbeiter

mit denen wir gesprochen haben, die haben gesagt, das ist eine Unterstützung für sie, aber was sie

auch gesagt haben und das war ganz interessant, dass sie versuchen die Anrufenden wieder auf Grün,

also auf freundlich zu switchen, war der Ausdruck und das hat bei mir den Eindruck verstärkt oder

hervorgerufen, dass es da auch ein bisschen um Spiel geht. Also dass das wie so ein Gamification

Ansatz ist, dass die Mitarbeitenden schon versuchen, bestimmt auch die Anliegen der Anrufenden zu lösen.

Na klar, aber auf der anderen Seite auch einfach versuchen, dass dieser Smiley irgendwie wieder

Grün wird, wenn er vorher eben ärger ausdrückt und rot war und das war schon echt interessant,

also dass das auch ein Spiel ist vielleicht. Also es gibt nur 0 und 1, es gibt nur sauer oder

fröhlich quasi. Ja, wobei man da auch noch so eine, wie so eine Verlaufskurve darunter gesehen hat,

wo man dann sehen konnte, okay, da hat sich quasi der Anteil der Frühlichkeit gerade wieder

gesteigert oder gesenkt und so weiter. Also es war schon so ein bisschen differenzierter als nur

wütend oder glücklich. Wenige Meter entfernt von der Agentin saß die Teamleiterin Yvonne

Eklof Martin und die hatte auch so eine ähnliche Ansicht. Also die hat auf ihrem Bildschirm vor

sich auch Smilies gesehen, aber eben nicht nur die zwei, also nicht nur für ein Gespräch, sondern

für alle Gespräche in ihrem Team. Also die Teamleiterin, die schaut jetzt aber nicht auf die Kunden,

sondern auf die Mitarbeiter oder wie, wie die ihre Gespräche so führen. Da haben wir dann sowas

gesehen wie 50 Prozent Freundlichkeit neben einem Smiley oder 27 Prozent Ärger neben einem anderen

Smiley und das war schon ja auch relativ eindrücklich, dass sie sogar so eine Prozentangabe

daneben hatte und sie konnte auf diese einzelnen Gespräche in Echtzeit klicken und sich dann

genau angucken, wie ist der Verlauf des Gesprächs und wie hat sich die Stimmung des Gesprächs entwickelt.

Wir sind natürlich bestrebt, gute Kundengespräche zu führen, freundliche Kundengespräche zu führen

und so können wir natürlich reagieren, sollte der Agent nicht so schöne Gespräche führen,

dass wir dagegen steuern können. Also ich stelle mir das irgendwie schon auch wie eine Drucksituation

für denjenigen, der da in der Leitung sitzt, oder? Man möchte ja, dass der Kunde zufrieden ist.

Das war gar nicht meine erste Assoziation. Meine erste Assoziation war, das wissen die Menschen,

die anrufen mir gar nicht. Also die Menschen, die anrufen, die hören quasi in der Wandansage,

die wir wahrscheinlich alle kennen. Zur Prüfung und Verbesserung unserer Servicequalität

würden wir den Inhalt dieses Gesprächs mit ihrem Einverständnis gerne aufzeichnen. Wenn sie damit

einverstanden sind, drücken sie bitte die Taste 1. Also bei 1188.0 ist kein Hinweis darauf,

dass auch die Emotionen ausgewertet werden und dann gibt es quasi diese zweite Ebene, wo jemand

auf der anderen Seite des Telefons sitzt und die ganze Zeit auf einem Bildschirm sieht,

wie die Stimme der Anrufenden gerade klingt. Ja, stimmt, das ist ja eigentlich schon interessant.

Also wenn ich gefragt werde, ob was aufgezeichnet wird, dann rechne ich damit, dass man sich das

vielleicht hinterher nochmal anhört, aber ja nicht, dass meine Emotionen von einer künstlichen

Intelligenz analysiert werden. Das ist ja schon noch mal was anderes, ne? Und das ist auch eine

große Debatte, die darüber geführt wird, ob man Menschen darüber informieren sollte und in

wiefern das gemacht werden sollte. Und das haben wir natürlich dann auch den Leiter des Kurs-Hinterbereichs

von 1188.0, hier in Hausmann gefragt. Also die Kunden werden nicht vorab informiert, sie werden darüber

informiert, wenn was aufgezeichnet wird, das tun wir auch, aber da hier nichts gespeichert wird und

keine Kundenprofile daraus abgeleitet werden. Und ich sage mal, in dem System nicht hinterlegt wird,

war er ärgerlich oder freundlich, ist das nicht gut für mich. Das war so die erste

Assoziation, die zweite Assoziation ist natürlich, ja okay, da werden die Menschen,

die dort arbeiten, auch die ganze Zeit gemonitort. Ich finde, das hat irgendwie so ein bisschen

Vibes von totaler Überwachung am Arbeitsplatz, oder? Ja, also sie selbst sagen darüber,

dass es eine Hilfestellung ist und das ist natürlich auch für die Agentinnen und Agenten

eine gute Hilfestellung sein kann, wenn eben die Teamleiterin direkt sieht, okay, dieses Gespräch

ist gerade am Eskalieren, vielleicht geht sie dann mal hin. Ich sehe das Gespräch in Echtzeit,

hier vor Ort habe ich die Möglichkeit, dann die entsprechenden Zumagenten zu gehen, ihnen

aufzumunden, aufzubauen, zu fragen, was war im Gespräch, ob es eine bestimmte Situation gab,

was diesen Ausschlag bei mir hier über Starsport ausgemacht hat. Und Jürn Hausmann, der Manager

von 1188.0, hat auch gesagt, das ist mit dem Betriebsrat abgesprochen und das ist auch mit einem

externen Datenschützer abgesprochen, dieser Anwendung. Also das heißt, die haben sich da

schon abgesichert. Nichtsdestotrotz bleibt natürlich der Eindruck und den hatten wir vor Ort

auch, dass es eine permanente Monitoring ermöglicht. Ist das eigentlich erlaubt? Also eigentlich muss

man ja zustimmen, wenn man aufgezeichnet wird. Aber ist das denn legal, dann ohne Erlaubnis zu

sagen, ich speise jetzt die Stimme in eine Software ein, sodass die in Echtzeit von einer KI

analysiert wird und wir wissen, wie es dir geht. Also das finde ich irgendwie schon was anderes.

Also wir haben mit mehreren Expertinnen und Experten in diesem Bereich geredet und der Grundkonsens ist

schon, dass man das im Einzelfall prüfen muss, weil es kein allgemeines, kein pauschales Gesetz

gibt, was Emotionserkennung am Arbeitsplatz verbietet. Aber eigentlich waren sich trotzdem alle

relativ einig, dass eine Bandansage, die das nicht konkret thematisiert und nicht sagt, hier werden

ihre Emotionen ausgewertet, sind sie damit einverstanden, dass das rechtlich unzulässig ist.

Also dass die Personen, die dort anrufen, darüber aufgeklärt werden müssen, wenn ihre Stimme auf

diese Art und Weise verarbeitet wird. Und der Rechtsexperte Peter Wette, der auch in dem Bereich

schon seit sehr vielen Jahren aktiv ist und lange als Professor in dem Bereich gearbeitet hat,

also mit beschäftigten Datenschutz sich sehr gut auskennt, der hat gesagt.

Emotionsanalyse in Callcentern, sowohl zu Lasten von Beschäftigten wie von Kunden,

ist datenschutzrechtlich unzulässig. Wow, was sagt die 1188 Null dazu? Habt ihr denen das mal gesagt?

Ja, also die haben gesagt, dass sie davon ausgehen, dass sie auf der richtigen rechtlichen Seite stehen.

Hm, okay, das sieht der Jurist anscheinend anders, wenn das doch dann anscheinend zumindest drittig ist.

Warum passiert das denn dann trotzdem?

Also Peter Wetter hat uns zum Beispiel auch gesagt, dass er in den 20 Jahren,

die er Callcenter schon beobachtet, rechtlich und auch zum Beispiel Gutachten erstellt,

dass er immer wieder erlebt hat, dass Callcenter diese rechtlichen Grenzen austasten.

Und das geht, haben wir auch in dieser Recherche miterlebt, weil eben diese Einzelfallprüfung so aufwendig ist.

Also das heißt, es muss erst mal im Einzelfall geprüft werden, es muss auch erst mal herausgefunden werden,

was genau ist jetzt rechtlich unzulässig und was ist vielleicht noch okay oder eben in dem Graubereich,

der gerade noch akzeptabel ist und dann müssen daraus Konsequenzen gezogen werden.

Und passiert das?

Ja, also wir waren in unserer Recherche zum Beispiel in Mecklenburg-Vorpommern

bei der Landesdatenschutzbehörde dort, also in jedem Bundesland gibt es eine Datenschutzbehörde

und die sind dafür zuständig zu prüfen, ob es zum Beispiel an Arbeitsplätzen Datenschutzverstöße gibt.

Und diese Behörden, also jetzt nicht im speziellen Mecklenburg-Vorpommern, sondern generell haben uns gesagt,

dass sie im Jahr manchmal bis zu über 10.000 Beschwerden bekommen und sie müssen halt allen diesen Beschwerden nachgehen.

Und da kommt dann keiner mehr hinterher, verstehe ich.

In Deutschland gibt es ja eigentlich die Datenschutzgrundverordnung, die müsste sowas regeln.

Da steht diese künstliche Intelligenz allerdings, glaube ich, noch nicht so drin.

Aber auf EU-Ebene, da tut sich gerade was, nämlich der AI-Act, den hatten wir ja auch schon mal in einer anderen FKM-Folge zur KI,

der soll in Zukunft doch einiges dazu regeln.

Haben die auch auf dem Schirm, dass die KI unsere Stimmen analysieren kann?

Wenn die AI-Act-Verordnung in einer Weise verabschiedet werden sollte, wie sie gerade diskutiert wird

oder wie zumindest die Parlamentsposition gerade ist, dann könnte es sein, dass Emotionserkennung am Arbeitsplatz pauschal verboten wird.

Das ist alles noch sehr, sehr viel im Wagen, weil das gerade noch diskutiert wird.

Wohin führt das, glaubst du? Wohin könnte sich diese neue Technik entwickeln?

Also was wir bei Beyond Schulle, wir waren zweimal dort, was wir auch mitbekommen haben,

ist, dass er nicht nur von deutschen Unternehmen angefragt wird oder seinen Unternehmen,

sondern eher als Wissenschaftler und eben Hersteller oder zumindest Vordenkel von solchen Softwareanwendungen,

wird zum Beispiel anscheinend auch von Diktaturen, das hat er uns zum Beispiel erzählt,

gefragt, ob er für die Lügendetektoren oder auch Software zur Homosexualitätserkennung bauen kann.

Homosexualitätserkennung, aber an der Stimme dann?

Das hat er uns gesagt, ja.

Das war übrigens früher etwas, was wir immer wieder angefragt wurden aus Regimen, wie soll ich sagen,

die man nicht unterstützen möchte, auch man zum Beispiel Homosexualität erkennen kann automatisch.

Und das war eines der Themen, die ich immer abgelehnt habe.

Und sind das Länder, in denen Homosexualität schrafrechtlich relevant wäre?

Ja, also wir mussten ihm versprechen, dass wir nicht sagen, welche Länder das waren,

aber genau, das wäre wirklich problematisch für die Menschen.

Also er sagt, er hat das abgelehnt, das zu entwickeln, aber es zeigt natürlich, wenn er es sogar schon bei ihm aufschlägt,

dass diese Gedanken, dass das vielleicht möglich ist anhand der Stimme, dass das in der Welt ist.

Und wenn man mal ein bisschen weiter noch wegschaut, zum Beispiel nach China,

dann sieht man auch, dass zum Beispiel im Bildungsbereich Emotionserkennung dort schon eingesetzt wird.

Also dass es Schulen gibt, die zum Beispiel Gesichtserkennung, also da geht es dann jetzt nicht um Stimme,

sondern um Emotionen, die aus Gesichtern herausgelesen werden sollen, in Schulen aufhängen

und da die ganze Zeit die Kinder beobachten und gucken, ob die gerade konzentriert sind

und was vermeintlich in deren Köpfen abgeht.

Und das ist ja schon, ja, das ist justopisch.

Also zum Glück wohnen wir jetzt nicht in einem Überwachungsstaat, aber wenn wir jetzt mal Deutschland angucken,

kann das ja auch irgendwie gefährlich sein für uns?

Ja, das ist die Frage. Also wir haben bei 1188 Nuiya relativ deutlich gesehen,

dass die Software dort am Rahmen geknüpft war, also eben, dass keine Profile gebildet werden,

dass die Mitarbeitenden jetzt nicht deshalb bestraft werden, wenn sie unglücklicher oder ärgerlicher und so weiter klingen.

Also es wurde uns zumindest so gesagt, sobald das aber eingeführt wird, also sobald man sagt,

okay, diese Software misst wirklich Leistung und je nachdem, wie freundlich oder wie fröhlich jemand klingt,

wird er besser bewertet oder negativer bewertet, wenn die Person weniger freundlich klingt,

dann könnte das natürlich sehr negative Auswirkungen auch haben, also am Arbeitsplatz zu einer großen Kontrolle,

zu einer großen Überwachung führen.

Wir haben über Ethik unter anderem mit Kate Crawford gesprochen.

Sie ist KI-Ethikerin aus Australien und beschäftigt sich schon sehr lange mit Emotionserkennung

und dass man sich immer stärker selbst darauf hin konditioniert, so zu klingen, wie der Algorithmus das möchte.

This idea of discrete emotions, that we, you know, just feel this clear thing called joy or fear or anger,

I think has been very strongly disputed in the more recent scientific literature.

Und das haben wir ja zum Beispiel eben auch bei Björn Schulle gemerkt, der relativ stark geschauspielert hat,

damit der Algorithmus ihn richtig versteht.

Das heißt also, wenn ich schauspielern muss, damit die KI meine Emotionen eindeutig zuordnen kann,

dann ist das natürlich fehleranfällig.

Schwierig, wenn dann daraus falsche Schlüsse gezogen werden.

Also, was kann das denn bedeuten für Leute, die dort anrufen und dann falsch eingeschätzt werden?

Also, was uns zum Beispiel die Call-Agents in dem Corsair-Literaturen,

die die Call-Agentin in dem Corsair-Literaturen von 1188.0 auch gesagt hat, ist, dass sie schon wahrnimmt,

dass Menschen, die, sie hat gesagt, nicht Deutsch klingen, dass sie auch schlechter bewertet werden von dem Algorithmus.

Das hat ja eben keine Konsequenzen in dem Fall, aber sie sagt, sie blendet das dann aus,

weil sie hört ja, dass die Person freundlich klingt.

Aber das heißt trotzdem, dass der Algorithmus das nicht richtig abbildet.

Und die KI-Ethik-Experte, Nikate Crawford, was ist ihr Fazit zu dieser Software?

Wie schätzt die das ein?

Also, sie spricht sich auch für ein Verbot aus.

Sie schaut sehr gespannt auf den AI-Akt, weil sie findet, dass diese Software,

dass Emotionserkennung sehr stark reglementiert werden, beziehungsweise auch verboten werden sollte.

So, yet again, I think these are red flags to why we should be deeply concerned about the spread of these systems.

Und Rebecca, wie beunruhigt bist du denn nach dieser Recherche jetzt?

Ja, das ist schon sehr fragwürdig zum Teil.

Und auch die Frage, ob man Lügendetektoren bauen kann, ob man Homosexualitätserkennung damit bauen kann,

das ist alles sehr höchst problematisch.

Und ich glaube, wir sollten generell über Emotionserkennung, aber über alle Daten und über alle Algorithmen,

die über solche Körperdaten, also über solche biometrischen Daten, Entscheidungen über Menschen treffen,

viel stärker reden und das viel mehr im Fokus der Öffentlichkeit haben.

Rebecca, danke, dass du uns davon erzählt hast.

Ciao, tschüss!

Rebecca Cisielski vom BR AI und Automation Lab hat sich angeschaut, wo und wie künstliche Intelligenz

heute schon überall eingesetzt wird, um unsere Stimme zu analysieren.

Und was Unternehmen damit machen können, gemeinsam mit ihren Kollegen Sami Kammes und Simon Würz.

Ihr findet ihr Radiofeature abgehört in der AID-Audiothek, wir verlinken euch das in unseren Show-Notes.

Folgenautor ist Lukas Waschbisch.

Mitgearbeitet hat Katharina Hübel, Produktion Ursula Kierstein, Jonas Lasse-Teichmann, Konrad Winkler und Christine Dreyer.

Redaktionsleitung Lena Gürtler und Fumiko Lipp.

FKM ist eine Produktion von BR24 und NDR Info.

Mein Name ist Victoria Kopmann, wir hören uns morgen wieder.

Und hier noch ein Hör-Tipp. Wer noch mehr wissen will über künstliche Intelligenz,

die Entwicklung geht rasend schnell, viele sprechen davon, dass die KI dabei ist, die Welt zu verändern.

Damit ihr da nicht den Überblick verliert, empfehle ich euch den KI-Podcast von der AID.

Wir verlinken ihn auch in unseren Show-Notes, genau wie weitere FKM-Folgen über die Möglichkeiten und Gefahren von KI.

Tschüss!

Machine-generated transcript that may contain inaccuracies.

Künstliche Intelligenz kann anhand unserer Stimme erkennen, wie es uns geht, wie leistungsfähig wir sind oder welcher sexuellen Orientierung wir folgen. Schon heute analysieren uns Unternehmen in Echtzeit, wenn wir mit ihnen telefonieren. Und meistens wissen wir es nicht einmal. In dieser 11KM-Folge ist Rebecca Ciesielski von BR AI und Automation Lab zu Gast bei Host Victoria Koopmann und erzählt, was sie gemeinsam mit ihren Kollegen Simon Wörtz und Sami Khamis zur Künstlichen Intelligenz herausgefunden hat.

Die Doku zur Recherche findet ihr hier:

https://www.ardaudiothek.de/episode/ard-radiofeature/abgehoert-doku-ueber-das-geschaeft-mit-ki-stimmanalyse/ard/94821776/

Wir haben uns bei 11KM in anderen Folgen bereits mit dem Thema KI beschäftigt:

Deepfake: Bei Anruf Klon:

https://www.ardaudiothek.de/episode/11km-der-tagesschau-podcast/deepfake-bei-anruf-klon/tagesschau/94554634/

Plötzlich im Datensatz. Wenn die KI mit Dir trainiert:

https://www.ardaudiothek.de/episode/11km-der-tagesschau-podcast/ploetzlich-im-datensatz-wenn-die-ki-mit-dir-trainiert/tagesschau/94587872/

Und hier noch ein Hör-Tipp der "KI-Podcast" der ARD:

https://www.ardaudiothek.de/sendung/der-ki-podcast/94632864/

An dieser Folge waren beteiligt:

Folgenautor:in: Lukas Waschbüsch

Mitarbeit: Katharina Hübel

Produktion: Ursula Kirstein, Jonas Lasse Teichmann, Konrad Winkler und Christine Dreyer

Redaktionsleitung: Fumiko Lipp und Lena Gürtler

11KM: der tagesschau-Podcast wird produziert von BR24 und NDR Info. Die redaktionelle Verantwortung für diese Episode trägt der BR.