Datenschutz: Machine Learning und die DSGVO
Ana Guerra
Datensätze sind für die Forschung und die Entwicklung von Modellen in den Bereichen der natürlichen Sprachverarbeitung (NLP) und des maschinellen Lernens (ML) unerlässlich. Mit der zunehmenden Nutzung, Sammlung und Speicherung von Daten nehmen jedoch auch die Bedenken hinsichtlich des Datenschutzes zu.
Um mit bewährten Methoden ("best practice") in Einklang zu stehen, ist es wichtig zu verstehen, was Datenschutz bedeutet und wie er geregelt wird. Dieser Beitrag bietet daher einen kurzen Überblick darüber, wie der Datenschutz in der Europäischen Union geregelt ist. Neben der Einhaltung der EU-Vorschriften müssen datengesteuerte Projekte auch ethisch verantwortungsvoll sein. Daher endet dieser Artikel mit einigen Worten zur Ethik bei der Verarbeitung personenbezogener Daten.
Datenschutz
Kurz gesagt kann der Datenschutz als das Recht einer Person beschrieben werden, zu entscheiden, ob und wie ihre persönlichen Daten von Unternehmen und/oder Organisationen manipuliert werden können. Er garantiert das Recht, seine Meinung privat zu äußern, ohne überwacht zu werden, und die Privatsphäre seiner persönlichen Daten zu wahren.
Im europäischen Rechtsrahmen wird der Datenschutz selbst als ein grundlegendes Menschenrecht betrachtet (Artikel 8 der Charta der Grundrechte der Europäischen Union). Er ist auch mit anderen Menschenrechten verbunden, wie dem Recht auf Privatsphäre und dem Recht auf freie Meinungsäußerung.
Bedenken hinsichtlich des Datenschutzes entstehen immer dann, wenn personenbezogene Daten von Unternehmen oder Organisationen erhoben, verwendet oder gespeichert werden. In diesem Sinne unterscheidet sich der Datenschutz von der Datensicherheit, bei der es um den Schutz personenbezogener Daten vor Angriffen von außen geht.
In Deutschland ist es die Europäische Verordnung, die definiert, was unter personenbezogenen Daten zu verstehen ist und unter welchen Umständen sie verarbeitet werden dürfen.
Europäische Vorschriften
Der Datenschutz wird nicht nur in der Europäischen Charta der Grundrechte als ein grundlegendes Menschenrecht angesehen, sondern auch durch die Allgemeine Datenschutzverordnung (DSGVO) geregelt. Sie ist eine der restriktivsten Verordnungen zum Datenschutz, die seit 2018 in Kraft ist.
Im Allgemeinen gilt die DSGVO, wenn mindestens eine der beiden folgenden Bedingungen erfüllt ist:
Die Daten werden von einer Organisation mit Sitz in der EU oder im Vereinigten Königreich erhoben oder verarbeitet.
Die personenbezogenen Daten gehören zu einer Person, die in einem der EU-Mitgliedstaaten oder im Vereinigten Königreich ansässig ist.
Punkt 2 ist von großer Bedeutung, da er der Verordnung einen extraterritorialen Geltungsbereich verleiht. Das bedeutet, dass auch ausländische Unternehmen und Organisationen der DSGVO unterliegen, wenn die von ihnen verarbeiteten personenbezogenen Daten von Personen stammen, die in der EU/im Vereinigten Königreich ansässig sind (Art. 3(2), DSGVO). In diesem Fall spielt es keine Rolle, wo das Unternehmen seinen Sitz hat oder wo die Daten gespeichert sind.
Wie Rogerts et al. betonen, ist eine unmittelbare Folge davon eine erweiterte Anwendung der europäischen Verordnung auf groß angelegte NLP-Modelle und -Ressourcen, die wahrscheinlich Daten aus dem Internet und sozialen Medien verwenden, die von in der EU oder im Vereinigten Königreich ansässigen Personen stammen.
Prinzipien
Die Datenschutz-Grundverordnung legt einige Grundsätze für den Datenschutz fest. Diese Grundsätze gelten für die Verwendung, Speicherung und Erhebung personenbezogener Daten.
Personenbezogene Daten werden in diesem Zusammenhang definiert als "alle Informationen, die sich auf eine bestimmte oder bestimmbare natürliche Person beziehen" (Art. 4(1), DSGVO). Dazu gehören natürlich Namen und Adressen, aber auch andere personenbezogene Daten, die mit einer Person in Verbindung gebracht werden können, wie Geschlecht, Web-Cookies und Standort.
Der allgemeine Gedanke hinter diesen Grundsätzen ist, dass Einzelpersonen in der Lage sein sollten, zu kontrollieren, wie und für welche Zwecke ihre personenbezogenen Daten verwendet werden. Sie sollten auch wissen und kontrollieren können, wer Zugang zu ihren Daten hat.
Nach der DSGVO sollten personenbezogene Daten (Art. 5, Grundsätze, DSGVO):
auf faire, rechtmäßige und transparente Weise verwendet werden;
für bestimmte Zwecke erhoben, gespeichert und verwendet werden;
nur so lange aufbewahrt werden, wie es für die Erreichung dieser spezifischen Zwecke erforderlich ist;
nur dann verarbeitet werden, wenn dies erforderlich ist, und in einer Weise, die mit den bei der Datenerhebung festgelegten Zwecken vereinbar ist;
auf dem neuesten Stand gehalten werden; und
vor unrechtmäßiger Verwendung geschützt werden.
Zusätzlich zu den oben genannten Grundsätzen ist es erforderlich, vor der Verarbeitung von Daten die Zustimmung der Betroffenen einzuholen..
Zustimmung
Die Einwilligung, die ebenfalls in der DSGVO (Artikel 7) geregelt ist, muss folgende Voraussetzungen erfüllen:
in Kenntnis der Sachlage und konkret: Sie enthält den Namen des für die Verarbeitung Verantwortlichen, der die Daten verarbeiten wird, wie und warum die personenbezogenen Daten verwendet werden und welche Informationen gespeichert und verarbeitet werden.
frei gegeben: Eine Person hat wirklich die freie Wahl, der Verwendung ihrer personenbezogenen Daten zuzustimmen oder sie abzulehnen. Es ist möglich, die Zustimmung nur für einige Datenverarbeitungen zu erteilen. Und die Einwilligung ist nicht an die Erfüllung eines Vertrags gebunden - es sei denn, sie ist für dessen Erfüllung notwendig (Erwägungsgrund 43, DSGVO).
leicht zu verweigern oder zurückzuziehen: Eine Person kann eine erteilte Einwilligung verweigern oder zurückziehen und die Löschung ihrer personenbezogenen Daten verlangen. Dies sollte ebenso einfach sein wie die Erteilung der Einwilligung und ergibt sich aus dem Recht des Einzelnen auf Vergessenwerden (Artikel 17, Erwägungsgrund 65 und 66, DSGVO). Dieses Recht ist jedoch nicht absolut, und die Datenschutz-Grundverordnung legt fest, wann das Recht auf Vergessenwerden nicht gilt (Erwägungsgrund 65).
klar und unmissverständlich: Die von dem für die Verarbeitung Verantwortlichen vorformulierte Einwilligungserklärung muss in verständlicher Form und in einfacher und klarer Sprache abgefasst sein.
Im Allgemeinen dürfen personenbezogene Daten nur nach Einwilligung erhoben werden. Einige besondere Kategorien personenbezogener Daten, wie z. B. Daten über die öffentliche Gesundheit, können jedoch von der Notwendigkeit, eine Einwilligung einzuholen, ausgenommen werden, wenn die Datenverarbeitung aus Gründen des öffentlichen Interesses erfolgt.
Ethik und bewährte Methoden
In einem früheren Artikel haben wir über Ethik in NLP-Projekten gesprochen und darüber, wie Sampling NLP-Modelle beeinflussen kann. Ergänzend zu diesen Informationen sollten datengesteuerte Projekte, bei denen personenbezogene Daten verwendet werden, auch ethischen Grundsätzen folgen.
Die vielen Datenschutzskandale der letzten Jahre haben gezeigt, wie gefährlich die unsachgemäße Verwendung privater Daten sein kann und wie schädlich dies für den Ruf eines Unternehmens ist.
In diesem Zusammenhang und unter Berücksichtigung der Datenschutz-Grundverordnung muss ein Unternehmen oder eine Organisation vor dem Aufbau eines datengesteuerten Modells mit personenbezogenen Daten die spezifischen Zwecke für die Nutzung dieser Daten festlegen und eine informierte Zustimmung einholen. Darüber hinaus ist es wichtig, eine ehrliche und offene Datenschutzpolitik zu formulieren. In einigen Fällen können Lösungen, die eine De-Identifizierung personenbezogener Daten ermöglichen, ebenfalls nützlich sein, um den Datenschutz zu gewährleisten.
Leider gibt es kein Patentrezept für die Umsetzung von Datenschutzstandards bei ML- und NLP-Projekten. Während einige Projekte nicht auf personenbezogene Daten angewiesen sind, müssen andere Lösungen finden, um den Datenschutz zu gewährleisten. In diesen letzteren Fällen sollte eine offene und transparente Strategie für den Umgang mit privaten Informationen entsprechend den Projektanforderungen entwickelt werden. Eines ist jedoch sicher: Jede Datenlösung muss nicht nur den EU-Standards entsprechen, sondern sollte auch ethisch vertretbar sein.