Pseudonymisierung, Anonymisierung und Deanonymisierung

Um personenbezogene Daten weiter verarbeiten zu können, werden Daten zur Feststellung der Identität unkenntlich gemacht – entweder durch Pseudonymisierung oder Anonymisierung. Der Versuch, diese Daten wieder einer bestimmten Person zuzuordnen, wird Deanonymisierung genannt.

Freitag, 08. September 2017

1 Kommentar

Cyber Security

Konferenz, Vortrag, Deanonymisierung, Pseudonymisierung, Anonymisierung

Üblicherweise werden personenbezogene Daten aufgrund der Anforderungen des Datenschutzes pseudonymisiert oder anonymisiert. Dadurch können sie von anderen Abteilungen, externen Drittunternehmen oder Forschungseinrichtungen weiterverarbeitet werden. Allerdings gelten auch Daten, die zum Beispiel automatisch erfasst wurden, als anonymisierte Daten, ohne dass jemals ein Bezug zu einer Person bestand.

In meinem Artikel konzentriere ich mich auf die technischen Möglichkeiten und betrachte die rechtlichen Anforderungen des Datenschutzes nicht weiter.

Pseudonymisierung
Definition nach dem Bundesdatenschutzgesetz (BDSG) § 3 (6a): „Pseudonymisieren ist das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren.“ [1]

Bei der Pseudonymisierung werden eindeutige Merkmale zur Identifikation wie Benutzernamen, E-Mail-Adresse oder der reale Namen durch ein Pseudonym ersetzt. Dieses Pseudonym besteht meist aus einer Kombination aus Buchstaben und Zahlen, entweder gleichmäßig verteilt oder zufällig gewählt. Schwache Pseudonyme wie zum Beispiel eine Kombination aus den Initialen und dem Geburtsdatum sollten dabei nicht verwendet werden, da diese vielen Personen bekannt ist und einfach rekonstruiert werden kann.

Prinzip der Pseudonymisierung
Prinzip der Pseudonymisierung

Wichtig sind bei der Pseudonymisierung neben eindeutigen Merkmalen wie beispielsweise dem Namen auch alle anderen Daten, die eine einfache Identitätsfeststellung ermöglichen, wie zum Beispiel die Anschrift. Entweder müssen diese Merkmale entfernt oder in Gruppen zusammenfasst werden, die zu unscharf für eine Zuordnung sind.

Eine Instanz, die dazu berechtigt ist, mit personenbezogenen Daten umzugehen, besitzt eine Liste mit Zuordnungen der Pseudonyme zu den entfernten Identifikatoren, um eine Wiederherstellung der eindeutigen Identifizierung nach der Verarbeitung realisieren zu können. Ein bekanntes Beispiel hierfür ist die Bearbeitung von medizinischen Untersuchungen in Laboren. Die Labore arbeiten nur mit Pseudonymen und nur durch die Arztpraxis kann das Ergebnis dann wieder einer eindeutigen Person zugeordnet werden.

Anonymisierung

Im Bundesdatenschutzgesetz (BDSG) § 3 (6) steht: „Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können.“ [1]

Im Gegensatz zur Pseudonymisierung werden bei der Anonymisierung die identifizierten Merkmale komplett entfernt, so dass auch später keine Zuordnung mehr durchgeführt werden kann. Auch hierbei gilt, dass alle potentiellen Identifikatoren entfernt werden müssen oder durch Pseudonymisierung in allgemeine Gruppen überführt werden müssen. Die komplette Entfernung aller Merkmale wird auch als „rücknahmefest“ bezeichnet.

Werden zum Beispiel bei den Ergebnissen einer Klausur die Namen der Teilnehmer entfernt, können die Ergebnisse präsentiert werden, ohne dass bekannt wird, welcher Teilnehmer wie abgeschnitten hat.

Deanonymisierung

Erfolgt eine unzureichende Pseudonymisierung bzw. Anonymisierung, können diese Daten mit einer anderen Datenquelle kombiniert werden und so kann eine eindeutige Zuordnung wiederhergestellt werden. Hierbei wird auch von k-Anonymität gesprochen. „Unter k-Anonymität“ versteht man, dass jedes Attribut bei mindestens k Nutzern im anonymisierten Datenbestand vorhanden sein muss. Dies garantiert noch nicht notwendigerweise Privatsphäre, da ein Angreifer über wichtige Zusatzinformationen verfügen kann, die dennoch eine Identifizierung ermöglichen.“ [2] Die Re-Identifikation erfolgt durch Verknüpfung von korrelierenden Informationen.

Werden zum Beispiel in einer Datenbank von Konferenzteilnehmern nur die Namen entfernt und ansonsten die komplette Teilnehmerliste veröffentlicht, könnten die restlichen Daten wie Position und Firma zur Deanonymisierung verwendet werden. Dazu könnte ein Web-Crawler, das ist eine Software, die Inhalte von Websites herunterlädt und untersucht, automatisch einschlägige Netzwerke wie Xing und die entsprechenden Websites der Firmen nach den vorhandenen Daten durchsuchen und so eine erste Verknüpfung erstellen. Sind noch weitere Daten wie beispielsweise das Geburtsjahr vorhanden, können diese Informationen entweder auch gesucht oder anhand von veröffentlichen Fotos mit Algorithmen geschätzt werden. So könnte dann wieder eine Deanonymisierung der Teilnehmerliste entstehen.

Aber nicht nur Daten, die anonymisiert wurden, können von einer Deanonymisierung betroffen sein. Sondern auch Daten, die vermeintlich keiner Person zugeordnet sind, können durch Kombinationen mit mehreren Datenbanken am Ende wieder einer Person zugeordnet werden. Dadurch können auch Datensätze relevant sein, die auf den ersten Blick problemlos veröffentlicht werden können.

Artikelserie „Deanonymisierung“

Dieser Artikel ist Teil meiner Artikelserie „Deanonymisierung“, die ich als Vorbereitung auf meinen Vortrag auf der Konferenz „Internet Security Days 2017“ begonnen habe. Die Artikelserie umfasst folgende Beiträge:

[1] Bundesdatenschutzgesetz (BDSG), § 3 Weitere Begriffsbestimmungen, https://www.gesetze-im-internet.de/bdsg_2018/

[2] De-Anonymisierung, Norbert Schmitz, 2010, http://home.norbert-schmitz.de/files/Norbert_Schmitz_Deanonymisierung_paper.pdf

Artikel teilen:

Über Tobias Scheible

Hallo, mein Name ist Tobias Scheible. Ich bin begeisterter Informatiker und Sicherheitsforscher mit den Schwerpunkten Cyber Security und IT-Forensik. Mein Wissen teile ich gerne anhand von Fachartikeln hier in meinem Blog und in meinem Fachbuch. Als Referent halte ich Vorträge und Workshops für Verbände und Unternehmen u. a. auch offene Veranstaltungen für den VDI und die IHK.

Kommentare

Jens Allmer am 6. Mai 2019 um 15:35 Uhr

Die Links/Zitate zum BDSG scheinen nicht mehr aktuell zu sein.

Schreibe einen Kommentar!

Hilfe zum Kommentieren und Hiweise

Um kommentieren zu können, geben sie bitte mindestens ihren Namen und ihre E-Mail-Adresse an. Bitte nutzen Sie die Kommentarfunktion nicht dazu, andere zu beleidigen oder Spam zu verbreiten. Trolle und Spammer sind hier unerwünscht! Unangemessene Kommentare, die zum Beispiel gegen geltendes Recht verstoßen, eine Gefährdung anderer Besucher darstellen oder keinen sinvollen Inhalt beinhalten, werden gelöscht oder angepasst.

Name: Ihr Name, der oberhalb des Kommentars steht, gerne auch Ihren echten Namen, das erleichtert die Kommunikation für alle. Sollte ein Spam-Keyword als Name verwendet werden, kann dieses entfernt oder korrigiert werden.

E-Mail: Ihre E-Mail Adresse dient zur Identifizierung weiterer Kommentare und damit ich direkt Kontakt aufnehmen kann. Die E-Mail Adresse wird natürlich nicht veröffentlicht und nicht weitergegeben.

Website: Hier können Sie ihren eigenen Blog bzw. ihre eigene Website eintragen, dadurch wird Ihr Name und Ihr Avatar-Bild verlinkt. Werden rein kommerzielle Angebote offensichtlich beworben, setze ich den Link auf nofollow und unangemessene werden einfach entfernt.

Erlaubte HTML-Tags: <a href="" title=""> <abbr title=""> <acronym title=""> <blockquote cite=""> <cite> <code> <del datetime=""> <q cite=""> <strike> <hr> <big>