Distanzerhaltende Verschlüsselung von Geodaten für sozialwissenschaftliche Scientific-Use-Files
Final Report Abstract
Geokodierung bezeichnet das Anreichern eines Datensatzes mit räumlichen Informationen. Ziel des Projektes war es, ein Verfahren zu entwickeln, welches jedem Geopunkt „neue Koordinaten“ zuordnet, die so beschaffen sind, dass die folgenden beiden Forderungen erfüllt sind: 1. die Anonymität der zu den einzelnen Datenzeilen zugeordneten Untersuchungseinheiten sollte gewährleistet sein und 2. die Distanzen zwischen je zwei Untersuchungseinheiten sollten möglichst genau erhalten bleiben. Dabei sollte insbesondere ein vom Antragsteller im Projektantrag vorgeschlagenes Verfahren im Hinblick auf die Gewährleistung der Eigenschaften (1) und (2) untersucht werden. Um das vorgeschlagene Verfahren zu überprüfen, wurde ein Angriffsszenario formuliert und in R und C++ implementiert. Dieser in diesem Projekt entwickelte Angriff ist bislang der einzige publizierte Deanonymisierungsangriff auf Distanzmatrizen. Das Szenario geht von einem Angreifer aus, der selbst über einen Datensatz mit Personendaten aus der Population und gegebenenfalls weitere Informationen verfügt. Dieses sogenannte Identifikations-File enthielt unter anderem Informationen über Alter und Geschlecht von Individuen der zu reidentifizierenden Population. Im Projekt wurde eine Variante einer Lipschitz-Einbettung in R implementiert. Die Einbettung hängt von zwei Parametern ab: Dem Dimensionsparameter d ∈ N und dem Kardinalitätsparameter k ∈ N. Die Möglichkeit eines Angreifers, die Datenzeilen zu reidentifizieren, sinkt mit höherer Kardinalität k und geringerer Dimensionalität d. Gleichzeitig verringert sich die Qualität der Approximation der Abstände zwischen den Geopunkten bei geringerem d und höherem k. Somit muss die Parameterwahl der Lipschitz-Einbettung einen geeigneten Kompromiss zwischen besserer Schutzwirkung und besseren approximativen Abständen gewährleisten. Die Testdatensätze enthielten keine Fehler und fehlende Werte, sodass die Situation des Angreifers in dem getesteten Szenario besser war als in der Realität. Da zudem der Rechenaufwand des Angriffs exponentiell zur Größe des Produktgraphen steigt, wird dieser Angriff bei großen Datenmengen deutlich erschwert. Das neu entwickelte Verfahren ist für die Veröffentlichung von Scientific-Use-Files von erheblichem Interesse, da nun approximative Distanzberechnungen zwischen den Geokoordinaten der Zeilen eines Datensatzes ohne den direkten Austausch der Koordinaten möglich gemacht wurden.