Üblicherweise werden personenbezogene Daten aufgrund der Anforderungen des Datenschutzes pseudonymisiert oder anonymisiert. Dadurch können sie von anderen Abteilungen, externen Drittunternehmen oder Forschungseinrichtungen weiterverarbeitet werden. Allerdings gelten auch Daten, die zum Beispiel automatisch erfasst wurden, als anonymisierte Daten, ohne dass jemals ein Bezug zu einer Person bestand.
In meinem Artikel konzentriere ich mich auf die technischen Möglichkeiten und betrachte die rechtlichen Anforderungen des Datenschutzes nicht weiter.
Pseudonymisierung
Definition nach dem Bundesdatenschutzgesetz (BDSG) § 3 (6a): „Pseudonymisieren ist das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren.“ [1]
Bei der Pseudonymisierung werden eindeutige Merkmale zur Identifikation wie Benutzernamen, E-Mail-Adresse oder der reale Namen durch ein Pseudonym ersetzt. Dieses Pseudonym besteht meist aus einer Kombination aus Buchstaben und Zahlen, entweder gleichmäßig verteilt oder zufällig gewählt. Schwache Pseudonyme wie zum Beispiel eine Kombination aus den Initialen und dem Geburtsdatum sollten dabei nicht verwendet werden, da diese vielen Personen bekannt ist und einfach rekonstruiert werden kann.
Wichtig sind bei der Pseudonymisierung neben eindeutigen Merkmalen wie beispielsweise dem Namen auch alle anderen Daten, die eine einfache Identitätsfeststellung ermöglichen, wie zum Beispiel die Anschrift. Entweder müssen diese Merkmale entfernt oder in Gruppen zusammenfasst werden, die zu unscharf für eine Zuordnung sind.
Eine Instanz, die dazu berechtigt ist, mit personenbezogenen Daten umzugehen, besitzt eine Liste mit Zuordnungen der Pseudonyme zu den entfernten Identifikatoren, um eine Wiederherstellung der eindeutigen Identifizierung nach der Verarbeitung realisieren zu können. Ein bekanntes Beispiel hierfür ist die Bearbeitung von medizinischen Untersuchungen in Laboren. Die Labore arbeiten nur mit Pseudonymen und nur durch die Arztpraxis kann das Ergebnis dann wieder einer eindeutigen Person zugeordnet werden.
Anonymisierung
Im Bundesdatenschutzgesetz (BDSG) § 3 (6) steht: „Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.“ [1]
Im Gegensatz zur Pseudonymisierung werden bei der Anonymisierung die identifizierten Merkmale komplett entfernt, so dass auch später keine Zuordnung mehr durchgeführt werden kann. Auch hierbei gilt, dass alle potentiellen Identifikatoren entfernt werden müssen oder durch Pseudonymisierung in allgemeine Gruppen überführt werden müssen. Die komplette Entfernung aller Merkmale wird auch als „rücknahmefest“ bezeichnet.
Werden zum Beispiel bei den Ergebnissen einer Klausur die Namen der Teilnehmer entfernt, können die Ergebnisse präsentiert werden, ohne dass bekannt wird, welcher Teilnehmer wie abgeschnitten hat.
Deanonymisierung
Erfolgt eine unzureichende Pseudonymisierung bzw. Anonymisierung, können diese Daten mit einer anderen Datenquelle kombiniert werden und so kann eine eindeutige Zuordnung wiederhergestellt werden. Hierbei wird auch von k-Anonymität gesprochen. „Unter k-Anonymität“ versteht man, dass jedes Attribut bei mindestens k Nutzern im anonymisierten Datenbestand vorhanden sein muss. Dies garantiert noch nicht notwendigerweise Privatsphäre, da ein Angreifer über wichtige Zusatzinformationen verfügen kann, die dennoch eine Identifizierung ermöglichen.“ [2] Die Re-Identifikation erfolgt durch Verknüpfung von korrelierenden Informationen.
Werden zum Beispiel in einer Datenbank von Konferenzteilnehmern nur die Namen entfernt und ansonsten die komplette Teilnehmerliste veröffentlicht, könnten die restlichen Daten wie Position und Firma zur Deanonymisierung verwendet werden. Dazu könnte ein Web-Crawler, das ist eine Software, die Inhalte von Websites herunterlädt und untersucht, automatisch einschlägige Netzwerke wie Xing und die entsprechenden Websites der Firmen nach den vorhandenen Daten durchsuchen und so eine erste Verknüpfung erstellen. Sind noch weitere Daten wie beispielsweise das Geburtsjahr vorhanden, können diese Informationen entweder auch gesucht oder anhand von veröffentlichen Fotos mit Algorithmen geschätzt werden. So könnte dann wieder eine Deanonymisierung der Teilnehmerliste entstehen.
Aber nicht nur Daten, die anonymisiert wurden, können von einer Deanonymisierung betroffen sein. Sondern auch Daten, die vermeintlich keiner Person zugeordnet sind, können durch Kombinationen mit mehreren Datenbanken am Ende wieder einer Person zugeordnet werden. Dadurch können auch Datensätze relevant sein, die auf den ersten Blick problemlos veröffentlicht werden können.
Artikelserie „Deanonymisierung“
Dieser Artikel ist Teil meiner Artikelserie „Deanonymisierung“, die ich als Vorbereitung auf meinen Vortrag auf der Konferenz „Internet Security Days 2017“ begonnen habe. Die Artikelserie umfasst folgende Beiträge:
[1] Bundesdatenschutzgesetz (BDSG), § 3 Weitere Begriffsbestimmungen, https://www.gesetze-im-internet.de/bdsg_2018/
[2] De-Anonymisierung, Norbert Schmitz, 2010, http://home.norbert-schmitz.de/files/Norbert_Schmitz_Deanonymisierung_paper.pdf
Die Links/Zitate zum BDSG scheinen nicht mehr aktuell zu sein.