Insights der ChatGPT-Taskforce - Erwartungen der Datenschutzbehörden an Large Language Modellen

Der Europäische Datenschutzausschuss ("EDPB") hat am 24.5.2024 seinen Report zur laufenden Koordinierung der nationalen Datenschutzbehörden zu ChatGPT veröffentlicht. Einige Behörden hatten Untersuchungen gegen openAI eingeleitet. Da der Anbieter bis vor kurzem keine Niederlassung in der EU hatte, war keine Abstimmung über den One-Stop-Shop-Mechanismus mit einer Lead-Behörde möglich. Dementsprechend hat der EDPB im April 2023 eine Taskforce eingerichtet, die den Report erarbeitet hat.

Obwohl sich der Report konkret auf openAI bezieht, gibt er auch allgemeine Einblicke in die Erwartungshaltung der EU-Datenschutzbehörden beim Einsatz von Large Language Modellen ("LLM"). Insgesamt entspricht die Stoßrichtung weitgehend den bislang auf nationaler Ebene veröffentlichten Guidelines der Datenschutzbehörden, geht aber in einigen Punkten detaillierter auf Umsetzungsmaßnahmen ein:

Phasenbildung für die Rechtsmäßigkeitsprüfung: Der EDPB betont, dass folgende Phasen der Verarbeitungstätigkeiten beim Einsatz von ChatGPT unterschieden werden müssen: (i) Erhebung von Trainingsdaten (inkl Webscraping oder neue Nutzung bestehender Datensets), (ii) vorbereitende Datenverarbeitungen (inkl Filtern), (iii) Training, (iv) prompts und outputs, (v) Training mit Prompts.
Rechtfertigungsgründe: Die einzelnen Verarbeitungen müssen sodann nach Art 6 (bzw Art9) DSGVO gerechtfertigt werden. Dabei bergen die ersten drei Phasen die heikelsten Risiken für die Grundrechte und -freiheiten der Betroffenen. Die Rechtmäßigkeitsprüfung der einzelnen Phasen von ChatGPT ist noch Teil der Untersuchungen der nationalen Datenschutzbehörden. Insofern ist noch unklar inwieweit mit überwiegenden berechtigten Interessen bei LLMs wie ChatGPT argumentiert werden kann. Siehe dazu aber auch schon die Stellungnahme der DSB (siehe unten).
Maßnahmen zur Wahrung der Datenschutzrechte iZm der Rechtmäßigkeitsprüfung: Der EDPB streift knapp beispielhafte, angemessene Maßnahmen zur Wahrung der Grundrechte/-freiheiten in den einzelnen Phasen:

Phasen (i) bis (iii)

- Umsetzung technischer Maßnahmen, wie zB Löschung oder Anonymisierung der Daten nach ihrer Erhebung vor dem Training;
- Präzise Definition der Datenerhebungskriterien und Sicherstellung, sodass gewisse Datenkategorien bzw Daten aus bestimmten Quellen (wie zB öffentliche Social Media-Profile) nicht erhoben werden;
- Filtern von sensiblen Daten, damit diese nicht genutzt werden;

Phasen (iv) und (v)

- Klare, nachweisliche Information an Nutzer, dass die Nutzerinhalte für Trainingszwecke verwendet werden dürfen. Dieser Umstand fließt in die Interessensabwägung nach Art 6 Abs 1 lit f DSGVO ein.
- Fairness-Grundsatz: Weiters hebt der EDPB hervor, dass Daten nicht unrechtmäßig, diskriminierend, unerwartet oder irreführend verarbeitet werden dürfen. Der Fairness-Grundsatz besagt unter anderem, dass keine Überwälzung der Risiken eines Verantwortlichen auf die Betroffenen erfolgen darf (zB über entsprechende Vereinbarungen in AGB). Umgelegt auf openAI und ähnliche Anbieter bedeutet dies Folgendes: Verantwortliche von LLMs müssen zB davon ausgehen, dass die Nutzer derartiger Tools früher oder später personenbezogene Daten eingeben werden. Wenn diese Daten Teil des Modells werden, bleibt der Anbieter für die Einhaltung der DSGVO verantwortlich. Er soll sich nicht darauf berufen können, dass die Eingabe personenbezogener Daten dem Nutzer untersagt war.
- Transparenz-Grundsatz und Informationspflichten: Der EDPB räumt ein, dass bei der AI Systeme zu Grunde liegenden Datenfülle eine umfassende Information und Transparenz schwierig umzusetzen ist. Insofern kann die Informationspflicht nach Art 14 Abs 5 lit b DSGVO beschränkt sein, wenn die Informationserteilung sich als unmöglich erweist oder einen unverhältnismäßigen Aufwand erfordern würde. Das erleichtert die Informationserteilung über die Datenschutzhinweise. Unabhängig davon ist die Aufklärung der Betroffenen, dass ihre Daten für Trainingszwecke verwendet werden können, wichtig.
- Grundsatz der Datenrichtigkeit: Nicht erst seit dem Beschwerdeverfahren von noyb gegen OpenAI ist die Problematik der Datenrichtigkeit bei LLMs aufgrund möglicher Halluzinationen präsent. Der EDPB geht auf dieses Thema aber nicht ein. Er weist aber darauf hin, dass bei der Wahrung der Datenrichtigkeit zwischen Input und Output-Daten zu unterscheiden ist. Der Output basiere auf probabilistischen Methoden und sei naturgemäß nicht immer richtig. In diesem Zusammenhang hebt der EDPB die notwendige Information der Nutzer besonders hervor. Sie sollten darüber aufgeklärt werden, dass KI-generierten Texte synthetisch sind, bias enthalten oder erfunden sein können. Die diesbezüglichen Maßnahmen von openAI würden nicht ausreichen.
- Betroffenenrechte: Schließlich müssen auch bei KI-Nutzung die Betroffenenrechte wahrgenommen werden. Hier empfiehlt der EDPB openAI seine Maßnahmen weiter zu verbessern: Das betrifft insbesondere die Frage der Datenberichtigung: openAI rät Betroffenen statt einer Datenberichtigung von einer Datenlöschung Gebrauch zu machen, wenn erstere technisch nicht möglich sei. Dem hält der EDPB entgegen, dass das Argument der technischen Unmöglichkeit vor dem Hintergrund der "Privacy by Design" und "Privacy by Default" Anforderungen gemäß Art 25 DSGVO nicht greifen würde.

Der EDPB legt zum Schluss außerdem den an openAI im Zuge der Untersuchung übermittelten Fragenkatalog offen. Das gibt einen weiteren Einblick in die Denkweise der Behörden und wie sie bei Branchenprüfungen bei LLM-Nutzung vorgehen könnten.

Sie wollen wissen, wie sich die österreichische Datenschutzbehörde zum Thema "KI und Datenschutz" geäußert hat? Hier geht es zum Newsletter der DSB-FAQ.