11KM: der tagesschau-Podcast: Plötzlich im Datensatz. Wenn die KI mit Dir trainiert

tagesschau 7/7/23 - Episode Page - 31m - PDF Transcript

Transcript
Show Notes

Stell dir vor, du bist in einem Museum. Du gehst von Raum zu Raum, schaust dir die Bilder

an den Wänden an und dann, plötzlich, hängt da ein Porträt, das du hier nicht erwartet

hättest. Ein Porträt von dir.

Hier geht es nicht um ein klassisches Museum, sondern um ein virtuelles, um einen riesigen

Datensatz aus Bildern. Nur wie ist dein Bild da überhaupt gelandet? Mit diesen Datensätzen

werden künstliche Intelligenzen trainiert. Die kreieren daraus dann neue Bilder. Nur darf

eine Firma einfach ohne dich zu fragen, dein Bild für KI-Training nutzen und in welcher Gesellschaft

ist da dein Bild? In dieser Folge 11KM werfen wir einen Blick in dieses digitale Museum mit

Elisa Haarland von BRdata und BRAiLam. Sie hat dazu recherchiert zusammen mit Katharina Brunner.

Ihr hört 11KM, der Tagesschau-Podcast. Abonniert uns oder folgt uns, wenn ihr Montag bis Freitag

eine neue Folge hören wollt. Mein Name ist Victoria Michalsack. Heute ist Freitag, der 7. Juli.

Elisa, herzlich willkommen. Ja, vielen Dank. Ich freue mich total, dass ich hier bin.

Du hast dein eigenes Bild gefunden in einem Datensatz. Was war das für ein Moment? Das war

natürlich erstmal eine große Überraschung, weil ich damit nicht gerechnet hatte, weil eigentlich

denkt man ja so, man wird gefragt, wenn man in so was, wie wir es jetzt nennen, Trainingsdatensatz,

also in dieser Sammlung von Bildern drin ist. Und dann haben wir uns letztendlich auf die Suche

gemacht, wie bin ich denn da eigentlich reingekommen. Und wenn wir jetzt von einem Datensatz von Bildern

sprechen, was heißt das eigentlich? Also man braucht zum Beginn eigentlich eine Technik,

die erstmal dieses Material zusammenstellt. Eine Firma, die das macht, ist eine NGO,

eine US NGO, die heißt Common Crawl, und die versucht eben möglichst viele Webseiten aus dem

Internet zu crawlen. Und die fließen dann praktisch alle ein in einen Trainingsdatensatz,

den man dann eben durchsuchen kann, in denen dann Milliarden von Bild-Textpaaren, so nennt man das

einfach, drin sind. Kurz mal erklärt, crawling, das bedeutet, dass da eine Software automatisch

Webseiten im Internet durchsucht, analysiert oder auch kopiert. Versuchmaschinen zum Beispiel,

oder eben für KI-Training. Was machen künstliche Intelligenzen mit Bildern und

warum habt ihr euch die angeschaut? Also wir haben uns das Thema angeschaut, das Thema

Trainingsdaten, weil es eben immer mehr Systeme gibt, die mit künstlicher Intelligenz arbeiten.

Und die Trainingsdaten, die sind praktisch der Rohstoff von dieser KI. Also das, was jetzt jeder

kennt, ist Chat-GPT oder aber auch Stable Diffusion gibt es ein. Es ist ein Bildgenerator,

da kann man Stichworte eingeben und dann kommt ein Bild oder mehrere Bilder raus. Und diese Systeme,

diese künstliche Intelligenzsysteme, die werden ja immer mehr eingesetzt und die werden auch immer

besser. Und was ist denn jetzt das Problem an diesem KI Training? Wieso ihr das euch überhaupt

angeschaut habt? Es kommt halt unfassbar viel, fließt in diese KI-Modelle ein und das ist praktisch

das ganze Internet, was da reinfließt. Und wie wir alle wissen im Internet ist eine Menge Zeug drin.

Das sind natürlich ganz viele harmlose Bilder, Bilder von Menschen, Tieren, Dingen, Orten,

Logos, auch Text natürlich. Aber wir wissen natürlich auch, dass da ganz viel z.B. Pornografie

drin steckt und auch ja Stereotype. Und das Problem ist, dass diese ganze Mische, die da drin ist,

ja, die steckt dann natürlich auch in diesen Endprodukten drin, also in dem KI-Modell,

was dann Bilder generiert. Das heißt, alles, was wir da an ja Vorurteilen drin haben, ja,

das steckt einfach auch in diesen KI-Modellen bis zu einem gewissen Grad auch drin. Ja,

könntest du uns da mal ein konkretes Beispiel für geben, was das heißen könnte?

Ja, also es ist so, dass da gibt es auch Forschung dazu, dass z.B. das Bild von Männern und Frauen ja

im Internet auch sehr stark, ich sag mal, geprägt ist von den Vorstellungen, die wir als Gesellschaft von

Männern und Frauen haben. Das geht dann z.B. dahin, dass man sagt, ja, wenn man jetzt in

diesem KI-Modell eingibt, gib mir doch mal ein Bild von einem Krankenpfleger, das dann halt ganz viele

weibliche Krankenpflegerinnen als Bild, als generiertes Bild entstehen, ja. Und dann ist

natürlich auch so, das wissen wir alle, das Netz ist voller Pornografie und auch diese Bilder haben

natürlich Einfluss auf das Bild, das wir von Frauen haben, ja. Und diese ganzen Faktoren,

es gibt noch unzählige weitere, auch z.B. der Blick, wie Minderheiten vielleicht angeguckt

werden, mit welchen Vorurteilen, die sich auseinandersetzen müssen, ja, auch das fließt eben

alles mit ein. Und ja, ein einziges Bild ist nur ein einziges, mini kleines Staubkorn, was in

dieses Modell hineinfließt und was wahrscheinlich einen ganz, ganz kleinen, kleinen Einfluss nur hat,

ja. Aber trotzdem in der Masse kann es eben dazu führen, dass diese Systeme stark gebeiist und

nennt man das, also verzerrt sind. Die Trainingsdaten sind der Grund dafür, dass es Verzerrungen in

den Bildern gibt, die die KI malt. Sie bilden also nicht die Welt ab, wie sie ist. Und wir haben

uns erst mal umgeschaut und haben geguckt, wo gibt es dann eigentlich diese Trainingsdaten? Wie

kommt man an die ran, ja? Und dann war ziemlich schnell klar, dass es eben große Firmen gibt,

z.B. Microsoft, Google, OpenAI. Dort ist es aber so, dass diese Trainingsdatensätze nicht besonders

transparent sind. Also man weiß einfach nicht besonders gut, was steckt da drin, wie verarbeiten

die das, wie speichern die das, welche Filter setzen die eventuell ein, um auf diese Trainingsdaten

zu gucken. Dann sind wir aber auf einen deutschen Verein gestoßen, der in Hamburg sitzt, Lyon

heißen die. Das ist ein Zusammenschluss von Forscherinnen aus Deutschland und den USA.

Jetzt habt ihr euch für diesen Datensatz namens Lyon entschieden. L-A-I-O-N. Warum

ausgerechnet der? Also das ist einer der Datensätze, Trainingsdatensätze, die eben transparent sind.

Und da konnten wir auch mit dem Gründer sprechen, dem Christoph Schumann, der uns dann auch so ein

bisschen erklärt hat, warum dieser Verein das eigentlich so macht, wie sie es eben machen.

Unter Demokratisieren verstehen wir, dass zugänglich machen. Nämlich so transparent und

open source und Forschungsbezogen. So dass im Prinzip einzelne Bürger, aber natürlich auch die

wissenschaftliche Community und natürlich auch kleine und mittelständische Firmen Zugriff darauf

bekommen. Aha, die Idee von Lyon, so einen KI-Bilddatensatz für alle zugänglich zu machen, kommt

also daher, weil sich die meisten eben keine eigenen Datensätze leisten können. Und ihr schaut euch

Lyon jetzt nicht an, weil ihr glaubt, dass der Datensatz im Vergleich zu anderen besonders

problematisch wäre, sondern weil er einer der wenigen großen wichtigen Trainingsdatensätze ist,

indem man überhaupt reinschauen kann. Ja. Und in dem hast du jetzt dein Foto gefunden. Weißt du,

wie dein Bild da drin gelandet ist? Also mein Bild kommt höchstwahrscheinlich genau dadurch

rein, dass eben diese Crawler das ganze Internet durchsucht haben und dabei auch mein Bild gefunden

haben. Mein Bild liegt beim BR, also mein Porträtbild liegt beim Bayerischen Rundfunk, weil ich dort

eben Reporterin bin und da ist es dann runtergecrawled worden quasi. Genau, dort ist es praktisch

runtergecrawled worden, exakt, und ist in diesem Trainingsdatensatz gelandet. Was wir dann gemacht

haben, wir haben gesagt, wir wollen natürlich unseren eigenen journalistischen Blick auch auf

diesen Trainingsdatensatz haben und meine Kollegin Katharina Brunner ist auch Data Scientist und

hat sich eben wirklich auch einen Teil konkret runtergeladen auf ihren Rechner. Das ist der

deutschsprachige Teil von diesem riesigen Lyon 5B-Datensatz und hat da einfach mal drin rumgewühlt

und hat geguckt, was ist da drin. Also mit dem deutschsprachigen Teil ist gemeint der Teil,

bei dem die Beschriftung der Bilder auf Deutsch ist. Wir haben uns dann aber auch so ein bisschen

konzentriert darauf, so Einzelbeispiele zu finden, die einfach total erschreckend oder markant

warm. Ich habe dir mal Bilder mitgebracht, die wir gefunden haben in diesem riesigen Trainingsdatensatz,

die gebe ich dir mal gerade. Bild 1, ein korpulenter Mann mit nacktem Oberkörper. Das Gesicht ist

verpixelt. Im Datensatz ist er nicht verpixelt, also da sieht man ihn. Es ist erkennbar und man

kommt auch relativ schnell auf seinen Namen. Also wenn man praktisch die Informationen von seinem

Bild ausliest, kommt man auch ziemlich schnell auch auf den Ort, wo er lebt oder auf die Regionen

und auch den Namen. Guck weiter. Ja, das ist eine Dame. Da ist jetzt eine Dame mit dunklen Haaren.

Sie trägt anscheinend eine Bluse und man sieht nicht so richtig, wo sie sitzt. Der Hintergrund ist

ein bisschen dunkel. Sie lächelt, glaube ich, auf dem Bild. Sieht ja eigentlich ziemlich unverfänglich

aus. Genau, das Bild stimme ich dir total zu. Das ist unverfänglich. Allerdings ist das von der

Dating-Plattform. Und da kann man natürlich auch die Frage stellen, ist dieser Frau das Recht,

dass sie jetzt auch in einem Trainingsdatensatz drin ist mit der Information dazu, dass das Bild

von einer Dating-Plattform stammt. Baby, da liegt ein kleines Kind auf einem Kissen. Im Anschnitt ist

noch so ein Teddy zu sehen. Der kleine hat eine Polizeimütze auf, allerdings in Menschengrößen ist

ganz niedlich. Aber Bilder von Kindern im Netz, immer eine schwierige Sache, ne? Absolut. Also da

konnten wir tatsächlich die Genese des Bildes relativ gut nachverfolgen, weil da eben auch

eine Website dabeistand. Das ist ein Papa, der das Bild seines Kindes ins Internet gestellt hat,

ein Polizist. Und auch da findet man sehr genaue Adressangaben bzw. die Regionen. Also man könnte

nachvollziehen, ja, wo dieses Bild eben aufgenommen wurde mit der Vermutung, dass es höchstwahrscheinlich

zu Hause war, ne? Weil man sieht ja, das Kind liegt irgendwie auf einer Decke oder in einem Bild oder so.

Ja, das muss man an dieser Stelle nochmal sagen. Das sind die sogenannten Metadaten, ne? Wenn man

ein Bild zum Beispiel runterlädt manchmal und dann kann man eben sehen, wo das aufgenommen wurde

oder wann. Und ja, das gibt manchmal schon ziemlich viel Aufschluss, wenn man es drauf

anlegt. Exakt. Also das sind diese sogenannten Exif-Daten heißen die. Das steht für exchangeable

image file format und fast eigentlich alle Informationen, wie du schon gesagt hast,

mit ein, die in diesen Bilddateien eben gespeichert sind. Das kann zum Beispiel der

genaue Standort sein. Das kann der Zeitpunkt von der Aufnahme sein, aber auch das Modell von

der Kamera. Und das ist so eine Art Anhängsel, ne? Also das immer mitkommt, wenn man ein Foto macht.

Das BSI, das Bundesamt für Sicherheit in der Informationstechnik, also die geben ganz klar die

Devise aus, dass wenn Bilder weiterverarbeitet werden, dass die dann eigentlich entfernt werden

müssen, diese Exif-Daten. Und wir haben eben in ca. 13 Prozent der Fälle in unserer Stichprobe dieser

Bilder solche Exif-Daten gefunden. Also das ist jetzt etwas, das dürfte eigentlich gar nicht sein,

dass wir jetzt diese Exif-Dateien mit den Bildern mitgeliefert bekommen und so können wir eben

nachvollziehen, wo beispielsweise dieser Mann mit dem nackten Oberkörper lebt oder das Baby mit der

Polizeimütze. Und das ist doch was, da müsste sich Leyen drüber Gedanken machen, wenn die das

Open Source einfach so anbieten. Was sagen die denn dazu? Ist denen das klar? Wir haben ja auch

Christoph Schumann den Gründer von Leyen e.V. mit unseren Ergebnissen konfrontiert und gesagt,

hey, wir haben das und das gefunden. Und gerade zu den Exif-Daten war er eigentlich eher überrascht.

Also da hat er gesagt, das würde er eben so mitnehmen und als Diskussionsgrundlage verwenden.

Diskussionsgrundlage klingt jetzt für mich eher so, als hätte sich der Leiengründer vorher vielleicht

noch nicht so viel mit dem Datenschutzproblem beschäftigt. Jetzt ist das mit den persönlichen

Informationen, die mit den Bildern verknüpft werden, das eine. Das andere ist, dass da dein Bild

zusammen mit anderen möglicherweise ziemlich problematischen Bildern in einem Datensatz ist.

Ihr habt mit einer Wissenschaftlerin darüber gesprochen, die ist am Trinity College in Dublin und

Vorstaat zu KI. Genau, AB bei Bahane heißt sie. Mit ihr hatten wir auch schon Kontakt für vergangene

Recherchen. Sie ist eine ganz ausgezeichnete Wissenschaftlerin in diesem Gebiet und die hat

sich eben auch konkret diesen Leiendatensatz vorgenommen und sagt, sie findet da eben genau

diese Dinge pornografisches Material, Szenen von Vergewaltigung, Stereotypen, Rassismus,

ethnische Verunklempfungen. So drückt sie sich aus und eben auch ganz viele weitere problematische

Inhalte. Und das ist natürlich auch was, was uns total hellhörig hat werden lassen.

Wir haben ja auch Gespräche eben mit Christoph Schumann geführt im Gründer von Leien und der

streitet es ja auch gar nicht ab. Also der sagt gar nicht, nö, das ist nicht so, sondern der sagt

klar, in diesen Trainingsdatensätzen, da ist wirklich auch viel Trash drin. So drückt er sich aus,

ganz konkret. Also ich persönlich bin schon ziemlich schockiert, wenn ich so zurückblicke,

wie viel Trash im Internet ist. Das kann ich Ihnen sagen. Ja, keine schöne Vorstellung. Wenn da die

eigenen Urlaubsfotos dann in so einem Datensatz drin sind oder ein Porträtbild, was man für den Job

hat machen lassen, zusammen mit dem ganzen Trash, wie Christoph Schumann das nennt. Jetzt würde

mich er interessieren, bin ich da auch drin in diesem Leiendatensatz? Wie kann ich das rausfinden?

Es gibt eine Website, das habe ich auch selber ausprobiert, die heißt Have I Been Trained bekommen.

Letztendlich ist es nichts anderes, als die Frage, wurde mit mir oder mit meinem Material,

mit meinem Bildmaterial trainiert. Und da kannst du einfach mal hingehen und gucken,

was passiert, wenn du zum Beispiel deinen Namen eingibst. Have I BeenTrain.com. Okay. Ich

gebe mir einfach mal einen Namen ein. Ektoria Michalsack. Es lädt. Es kommen so einige Bilder,

aber nichts davon bin ich. Okay, also was sagt man das jetzt? Diese Ergebnisse, das ist ein

Resultat letztendlich von so einer Art Ähnlichkeitssuche, wo wahrscheinlich einfach Frauen drauf sind,

die vielleicht Viktoria zum Beispiel heißen. Mein Bild habe ich ja auch erst gefunden,

als ich das konkrete Bild von mir hochgeladen habe. Also das ist ja der zweite Weg, den man

beschreiten kann, wenn man sich selber suchen möchte, also mit Bild. So, ich frage mich jetzt,

geht das mit rechten Dingen zu? Ist das überhaupt erlaubt? Ja, wir haben uns da wirklich in die

Tiefen dieser rechtlichen Lage begeben und das sind zwei Aspekte, die da zum Tragen kommen. Also

einmal Urheberrecht, also das Recht am eigenen Bild, aber eben auch Datenschutzespekte. Also selbst,

wenn man ein Bild von sich im Internet postet oder hoch lädt, ja, bedeutet es noch lange nicht,

dass man alles damit machen kann. Also, dass irgendwelche Anbieter oder Softwarefirmen,

dass die das praktisch hernehmen dürfen und damit alles machen können. Da gilt nämlich die DSGVO,

die Datenschutzgrundverordnung. So, und die nehmen wir in Deutschland sehr, sehr ernst. Deswegen meine

Frage, wie bist du denn eigentlich vorgegangen? Ich habe dann tatsächlich einfach nochmal diesen

nächsten Schritt gemacht und habe nach DSGVO die Löschung beantragt von dem Bild und habe

gesagt, ich möchte, dass mein Bild eben aus diesem Trainingsdatensatz von Lyon verschwindet.

Warum hast du dich dann so entschieden, dass das raus soll? Also erstens wollte ich wissen,

machen die das? Gibt es? Ja. Und dann ist es natürlich auch so ein diffuses Gefühl. Also erst

mal so dieser Gedanke daran, man hat mich gar nicht gefragt, ob ich da drin sein möchte. Und auch

der Gedanke daran, dass mein Bild auf irgendwelchen Rechnen runtergeladen liegt, mit denen dann

Modelle trainiert werden, wo ich gar keinen Einfluss mehr drauf habe, was mit denen eigentlich

gemacht wird. Und da hat es dann auch nochmal ein bisschen gedauert, bis dann die Antwort kam.

Aber Lyon hat mir dann zugesichert, dass sie das Bild auch gelöscht haben aus dem Trainingsdatensatz.

Okay, das hat geklappt. Wobei, es gibt da eben eine kleine Einschränkung. Es ist so,

dass mein Bild zwar aus diesem aktuellen großen Datensatz, der heißt eben Lyon 5B,

mit den 5,8 Milliarden Bildtextpaaren, dass mein Bild dort raus ist aus dieser aktuellen Version,

aber aus den ganzen vergangenen Versionen ist mein Bild natürlich nicht gelöscht worden. Und auch

diese Versionen, die sozusagen schon auf Rechnern irgendwo liegen, die Leute sich runtergeladen

haben, die vielleicht in Forschungsinstituten liegen, da liegen die natürlich lokal. Und da kann

mein Bild nie wieder raus, auch zum Beispiel in Stable Diffusion, in diesem Bildgenerator,

der seit einigen Monaten läuft. Auch da kann man praktisch aus dem Modell mein Bild nicht mehr

entfernen. Das ist schon so eine Art Kontrollverlust, weil eben der Trainingsdatensatz schon an ganz

vielen Orten liegen kann. Habt ihr denn eigentlich die Firmen, die diese KI's anbieten, mal konfrontiert

und mal gesagt, hallo, was macht ihr eigentlich mit Elisas Foto? Haben wir, also wir haben erst mal

ziemlich lange, sehr detaillreiche Anfragen geschickt an die großen Firmen, also an Microsoft,

Google und OpenAI. OpenAI hat ChatGPT gemacht, das ist ja dieser Textgenerator, mit dem man

inzwischen Bewerbungen und so weiter schreiben kann, wenn man möchte. Und aber auch Dali,

das ist ein Bildgenerator. Also bei all diesen großen Firmen, da weißt du ja noch gar nicht,

ob dein Bild wirklich mit drin ist in deren Datensätzen, da kannst du ja nicht einfach so reinschauen wie

in den Laien-Datensatz. Aber Fragen kann man die großen Anbieter ja auf alle Fälle. Was haben

die euch gesagt? Diese konkreten DSGV-Anfragen, also zu meiner Person, zu meinem Bild, die haben wir

eben an Laien geschickt, auch an OpenAI und an Mid journey, das ist nochmal so eine Firma, die auch

ein Bildgenerator betreibt und Laien hat geantwortet. OpenAI hat erst nach vielen Wochen auf eine

Pressennachfrage geantwortet und auch da einen Einzeiler mitgeschickt und Mid journey hat gar

nicht geantwortet. Also unser Eindruck ist, es herrscht da überhaupt keine Routine damit,

also mit der Bearbeitung von DSGV-Anfragen und letztendlich auch einfach wenig Bewusstsein dafür.

Jetzt frage ich mich, du hast es ja jetzt im Nachhinein gemacht und das ist dann eben auch nicht

so zu 100 Prozent wieder raus, kann man das auch im Vorhinein verhindern? Also es gibt auch noch

einen weiteren Weg, das ist auch dieser zweite Weg über das Urheberrecht. Wir haben zum Beispiel

so einen Fotografen getroffen, der Stockfotos macht und das ist ja dann meistens so, dass diese

Fotografinnen auch davon leben, einfach ganz viele Bilder zu machen von ähnlichen Situationen. Klar,

bei einem Berufsfotografen geht es ja um seine Lebensgrundlage, also der hat dann Konkurrenz

durch die KI-Bildgeneratoren und will die eben nicht mit seinen Bildern gratis füttern. Aber

aufs Urheberrecht könnten wir uns da theoretisch alle berufen. Wir sind ja auch die Urheber von

unseren Urlaubsfotos. Wie war das denn im Fall von dem Berufsfotografen, den ihr gesprochen habt?

Also der Robert Kneschke hat Anfang April klar gegen Layern eingereicht, weil er eben auch in

diesem Trainingsdatensatz Bilder gefunden hat, die er gemacht hat. Und er möchte, dass diese

Bilder, also dass er entweder eine Art Kompensation bekommt für diese Bilder oder dass die Bilder

dort rausgenommen werden. Und er bezieht sich dabei auf das Urheberrecht. Da haben wir aber

Expertinnen gefragt und einen ganz bestimmten, den Urheberrechtler Professor Raue von der Unitrie.

Wenn es so ist, wie in der Presse berichtet wird, dass Layern eben selbst diese Bilder nicht speichert,

sondern lediglich links darauf setzt, dann sehe ich wenig Erfolgsmöglichkeiten für diese Klage,

weil eben Layern in diesem Fall nicht selbst eine Vervielfältigungshandlung vornimmt.

Es ist total wichtig, Layern speichert diese Bilder nicht selbst, sondern es speichert nur die Links

auf diese Bilder, also die Verweise auf die Bilder. Und die können dann zum Beispiel Forschende,

können sich bei diese ganzen Links runterladen und haben dann auch wirklich einen konkreten

Datensatz, mit dem sie arbeiten können. Also das heißt im übertragenen Sinne, die nehmen nicht

das Bild, das Foto und legen es in ihre Schublade, sondern die schreiben auf, in welcher Schublade

das liegt. Aber ist es rechtlich, urheberrechtlich, echt kein Problem? Also wir haben dazu Experten

gefragt und es gibt eben auf EU-Ebene den Digital Single Market Ag, der ist aus dem Jahr 2019.

Und da gibt es so ein Stichwort Text and Data Mining und das beschreibt diesen ganzen Prozess

und das ist darin geregelt. Im Großen und Ganzen ist die sehr gelungen, weil die Voraussetzungen und

die Rechtsfolgen sehr klar formuliert sind und aus meiner Sicht deswegen ein guter Interessenausgleich

stattfindet, weil die Urheberinnen und Urheber eben die Möglichkeit haben, ein Widerspruch gegen

das Text und Data Mining und damit auch ein Widerspruch gegen das Trainieren von KI-Algorithmen

einzulegen. Und dieser Akt sagt, alles worauf Muster erkannt werden auf Bildern zum Beispiel oder

Datenanalysen oder Algorithmen trainiert werden, das ist erlaubt, das darf erst mal verarbeitet werden.

Und wenn man das eben nicht will, kann man dieses digitale Stop-Shield vorschieben, aber von diesem

gibt es jetzt eben auch noch keinen guten technischen Standard. Also da gibt es diese Anlaufstelle

hevabentrained.com und dort kann man eben dieses Stop-Shield praktisch aufstellen und sagen, hier

bitte dieses Bild nicht mehr verwenden in der Zukunft, aber das ist eine freiwillige Sache und

daran müssen die Firmen sich nicht zwingend halten. Wenn man in Sachen Datenschutz schon vom

guten Willen der großen Firmen abhängig ist, wie ist es denn damit der Verantwortung für das,

was auf den Bildern drauf ist? Also die Inhalte, aus denen die KI sich dann ein Weltbild macht und

das dann wieder ausspuckt, habt ihr da mal nachgefragt bei den Unternehmen, die KI herstellen? Also wir

wollten wissen, wie sammelt ihr die Trainingsdaten? Wie werden die verarbeitet? Wie werden die

gespeichert? Wie werden die eventuell gesäubert oder gefiltert? Und da kam tatsächlich gar keine

Antwort bis auf Microsoft. Die haben so ein bisschen geantwortet. Die haben einen Link geschickt zu einem

Blockbeitrag auf ihrer Webseite, aber auch dort steht wenig Konkretes. Das steht dann zum Beispiel

so was wie, sie wollen Trainingsdatensätze verwenden, die sehr divers sind, um eben diskriminierendes

Stereotypen zu verhindern. Okay. Jetzt frage ich mich, verstecken die sich da vor ihrer Verantwortung?

Das ist eine total gute Frage und das ist auch ein Punkt, weshalb wir diese Recherche auch

angetrieben haben, weil wir uns gefragt haben, wer trägt denn dann eigentlich Verantwortung dafür?

Dann gibt es eben auch Leute wie Christoph Schumann, der Leiter von Lyon, der dann sagt eigentlich

letztendlich, wer wirklich verantwortlich ist, sind die Endnutzer, die dann auch das KI-Modell

nutzen und bauen. Also Sie können mir glauben, ganz ehrlich, ich sage Ihnen von meinem Herzen,

es ist wirklich ganz wichtig für uns, dass wir diese Datensätze sich erhalten. Die Sache ist die,

wir leben in einer Welt, in der man ein noch so sicheres Modell bauen kann und anschließend kann

das jeder runterladen, der schlechte Intentionen hat. Da sieht man einfach, dass es da noch sehr

viel Diskussion drum gibt. Das spiegelt sicher auch so ein bisschen in dieser neuen Gesetzgebung,

dem AI-Act, die geplant ist auf EU-Ebene wieder, dass es da einfach ein großes Ringen-Praktisch

darung gibt, wo dann jetzt diese Verantwortung eigentlich genau angesiedelt werden soll.

Elisa, kannst du noch mal kurz erklären, was der AI-Act ist?

Also in der EU soll es ja für künstliche Intelligenzen neues Gesetz geben, der heißt AI-Act und der

wird auch schon seit einigen Jahren verhandelt und in Bezug auf die Trainingsdaten ist im Moment

der Plan schon, so dass dieser AI-Act mehr Transparenz vorschlägt, aber es ist eben unklar,

wie das genau ausgestaltet werden soll. Also inwieweit diese Transparenz nachgewiesen

werden muss, ob das auch immer wieder nachgewiesen werden muss und so weiter und so fort.

Und du hast gesagt, ihr habt ja jetzt euch Laien ausgewählt, weil man da überhaupt mal reingucken

kann. Die anderen sind ja gar nicht so transparent. Jetzt habe ich mir so gedacht, naja irgendwie ist

das nicht ein bisschen unfair, dass wir jetzt die ganze Zeit Laien kritisieren und die bekommen

das jetzt alles ab und eure DSGVO anfragen, obwohl die ja nur die einzigen sind, die da mal ein

bisschen transparent sind. Absolut, also das ist wirklich der Grund gewesen. Wir können da reingucken

und deswegen machen wir es auch. Und mein Eindruck zumindest ist auch der, dass die Laienmacherinnen

auch kein Problem damit haben, dass man sich das genauer anguckt, auch dankbar sind und auch

interessiert daran an Feedback aus der Wissenschaft, um einfach auch ihre Systeme besser zu machen.

Und ja, die sind dann wahrscheinlich schon in diesem Sinne da Vorreiter von dieser,

ich nenne sie jetzt einfach mal radikalen Transparenz, die da in diesem Trainingsdatensatz

von Laien eben gelebt wird, mit all ja den Schwierigkeiten eben, die wir gerade besprochen

haben. Ja, und das ist dann ja eben auch ein bisschen die Frage, also diese Transparenz ist ja gut

und auf der anderen Seite beißt sich das ja schon sofort wieder mit dem Datenschutz, ne?

Absolut, das ist ja auch ein Plan der EU, da Trainingsdatensätze etwas transparenter zu machen.

Aber genau, was du sagst, ist eben auch ein großes Problem. Dadurch werden eben Dinge sichtbar,

die eventuell vielleicht lieber nicht sichtbar werden sollten für alle.

Ja, und das ist natürlich so eine Frage auch für die Zukunft. Wie wollen wir es denn haben?

Entweder das passiert alles hinter verschlossenen Türen und keiner weiß was drin ist oder man weiß

was drin ist und man kann reingucken, ja, dann sieht man aber eben auch, wer oder was da gesammelt

wurde, ne? Also das sind ganz viele interessante Diskussionen, die da eben stattfinden. Man muss

aber auch sagen, die Planung ist, dass diese Regeln dann wahrscheinlich erst Ende nächsten Jahres oder

sogar erst 2025 in Kraft treten. Das bedeutet halt auch, dass diese Systeme bis dahin weiterlaufen.

Ja, danke, Elisa, dass ihr das gemacht habt. Ja, vielen Dank, dass ich hier sein konnte.

Elisa Haarlan und ihre Kollegin Katharina Brunner von BR Data und BRAI Lab erklären noch mehr

Hintergründe zu ihrer Recherche bei br24.de. Den Link zum Artikel packen wir euch in die Shownotes.

FKM findet ihr in der AID-Audiothek und wo ihr sonst Podcasts hört. Folgt uns, abonniert uns, empfiehlt uns

weiter, aber hey, nehmt bitte auf keinen Fall unsere Episodencover für irgendwelche KI-Trainings.

Folgenautor ist Hans-Christoph Böhringer. Mitgearbeitet haben Mark Hoffmann und Katharina

Hübel. Produktion, Christiane Gerhäuser-Kampf, Fabian Zweck und Hannah Brünnes. Redaktionsleitung,

Lena Gürtler und Fumiko Lipp. FKM ist eine Produktion von BR24 und NDR Info. Mein Name ist Victoria

Michaelzeit. Und ich hab noch einen Podcast-Tipp für euch. Ihr kennt auch bestimmt Banksy,

den berühmten Streetart-Künstler und seine Bilder. Banksy ist ein echtes Phantom. Es gibt viele Rätsel

um seine Person und niemand weiß, wer er ist. Die ganze Geschichte gibt's ab heute im Podcast

Banksy, Rebellion oder Kitsch. Exklusiv in der AID-Audiothek. Hört doch mal rein. Wir hören uns

nächste Woche wieder. Tschüss!

Er ist ein Prankster. Das ist eine sehr wichtige Art der Uvra.

Machine-generated transcript that may contain inaccuracies.

Was, wenn plötzlich ein privates Foto von Dir in einem Datensatz auftaucht, der benutzt wird, um Künstliche Intelligenz zu trainieren? Ein riesiger Datensatz, in dem nicht nur Deine Fotos, sondern auch alle möglichen anderen Bilder aus dem Internet versammelt sind. Auch pornographisches oder rassistisches Material. Spoiler: Das passiert bereits. Was Firmen, die KI trainieren, dürfen und was nicht, klären wir in dieser Folge 11KM mit Elisa Harlan von BR Data/AI Lab. Und wir erklären, wie man selbst herausfinden kann, ob das eigene Bild in so einem Datensatz aufzufinden ist.

Hier der Link zur Recherche von Elisa Harlan und Katharina Brunner von BR Data/AI Lab:

https://interaktiv.br.de/ki-trainingsdaten/

Und wenn ihr euch dafür interessiert, wie diskriminierend KI sein kann, dann findet ihr hier die 11KM Folge zu diesem Thema hier: “Zu sexy - wie Online-Algorithmen Frauen benachteiligen“:

https://www.ardaudiothek.de/episode/11km-der-tagesschau-podcast/zu-sexy-wie-online-algorithmen-frauen-benachteiligen/tagesschau/12361731/

Unser Podcast-Tipp: Banksy ist ein echtes Phantom. Es gibt viele Rätsel um seine Person und niemand weiß, wer er ist. Die ganze Geschichte gibt es ab heute im Podcast „Banksy – Rebellion oder Kitsch?“ exklusiv in der ARD Audiothek:

https://www.ardaudiothek.de/sendung/banksy-rebellion-oder-kitsch/94558198/

An dieser 11KM-Folge waren beteiligt:

Folgenautor: Hans Christoph Böhringer

Mitarbeit: Marc Hoffmann und Katharina Hübel

Produktion: Christiane Gerheuser-Kamp, Fabian Zweck und Hanna Brünjes

Redaktionsleitung: Fumiko Lipp und Lena Gürtler

11KM: der tagesschau-Podcast wird produziert von BR24 und NDR Info. Die redaktionelle Verantwortung für diese Folge trägt der NDR.