Die Wissenschaft kann mit Daten unser Leben besser machen: Sie entwickelt neue Medikamente, analysiert soziale Trends oder schafft Smart Citys. Auch Verwaltung und Unternehmen sind auf Daten angewiesen, etwa um den ÖV oder das Stromnetz zu planen.
Private Daten können aber sensibel sein, deshalb dürfen sie nicht so einfach gesammelt und geteilt werden.
Daten sammeln, ohne gleichzeitig die Privatsphäre zu verletzen? Das klingt wie ein unlösbarer Widerspruch. Doch es gibt die Quadratur des Kreises.
Synthetisch statt anonym
Traditionell werden Daten anonymisiert, damit sie Forschende sicher auswerten können. Aus «Frau Schmid» wird «Frau Meier», die Telefonnummer wird zu «079 *** ** **». Doch die Anonymisierung stösst an Grenzen: Zu jedem Menschen gibt es heute zahlreiche Daten, die man ohne viel Aufwand mit Informationen aus dem Internet verknüpfen kann, um eine Person zu identifizieren.
Abhilfe schaffen synthetische Daten. Eine künstliche Intelligenz (KI) schaut sich die Ursprungsdaten an und lernt, wie sie aussehen. Dann generiert sie einen neuen, erfundenen Datensatz, der gleich aussieht: Die Telefonnummern haben immer noch 10 Ziffern und das Verhältnis zwischen Frauen und Männern ist dasselbe wie in den Originaldaten.
Forschende können synthetischen Daten verwenden, um Statistiken zu erstellen. Informatiker nutzen sie, um eine Software oder Datenbank zu bauen.
Komplett verschlüsselt
Eine weitere Möglichkeit, wie Daten geschützt werden können, ist Verschlüsslung. Daten können so gespeichert oder versandt werden, ohne dass sie Unbefugte anschauen können. Das Problem: Damit Forschende mit den Daten arbeiten können, müssen sie entschlüsselt werden – und sind währenddessen ungeschützt.
Nicht so bei der homomorphen Verschlüsslung. Dieser mathematische Trick ermöglicht, dass man mit so veränderten Daten weiterhin rechnen kann: Addiert man zwei homomorph verschlüsselte Zahlen, ergeben sie das richtige Resultat – in ebenfalls verschlüsselter Form.
Nutzen ohne zu sammeln
Wenn es um seltene Krankheiten geht oder um genetische Analysen, reichen die Daten eines einzelnen Spitals nicht aus – die Spitäler müssen Daten zusammenlegen.
Das ist möglich, ohne die Daten zu teilen. Statt die Spital-Daten an Forschende zu schicken, schicken die Forschenden ihre Modelle an die Spitäler. Diese rechnen vor Ort und schicken nur die Resultate zurück. Die Forschenden rechnen dann die Modelle aus den Spitälern zusammen.
-
Bild 1 von 3. Beispiel Smart Meter. Ein intelligenter Strommesser sendet regelmässig meine Daten an den Stromanbieter. So könnte der herausfinden, wann ich nach Hause komme und wann ich zu Bett gehe. Besser ist es, wenn der Strommesser nur das schickt, was der Anbieter wirklich wissen muss: Den durchschnittlichen Stromverbrauch zum Beispiel oder den Spitzenverbrauch pro Tag. Bildquelle: imago images.
-
Bild 2 von 3. Beispiel Röntgen. Eine künstliche Intelligenz kann auf Röntgenbilder erkennen, was der Mensch übersieht. Um das zu lernen, braucht sie aber erstmal eine Menge Bilder. Statt diese heiklen Daten an den KI-Entwickler zu schicken, trainieren die Spitäler das Modell lokal. Der Entwickler setzt nur noch die Modelle aus den verschiedenen Spitälern zusammen. Bildquelle: imago images.
-
Bild 3 von 3. Beispiel Tastatur. Das Smartphone macht Vorschläge, was wir als Nächstes schreiben wollen. Diese Vorschläge stammen aus einem KI-Modell, das auf den Daten der Nutzer trainiert wurde. Was die Nutzer schreiben, wird aber nicht an das Unternehmen geschickt. Stattdessen wird das Modell auf den Geräten der Nutzer trainiert und vom Anbieter nur aggregiert. Bildquelle: imago images.
Das Prinzip funktioniert nicht nur für simple Statistik, sondern auch für maschinelles Lernen und künstliche Intelligenz. Beim sogenannten Federated Learning trainieren die Spitäler ein Modell. Eine zentrale Stelle führt die einzelnen Modelle zusammen und sendet das so entstandene Hauptmodell wiederum zu den Spitälern. Der Prozess geht so lange hin und her, bis die KI fertig trainiert ist.
Die Zukunft des Datenschutzes
Alle diese Techniken sind sogenannte PET, «Privacy Enhancing Technologies». Sie werden bereits heute eingesetzt, doch es gibt noch einige Hürden: Es fehlt an Know-How, Ressourcen und regulatorischen Richtlinien.
Doch die Zukunft ist vielversprechend: Dank PET können Daten geschützt und trotzdem genutzt werden. So können bald mehr Daten sicher geteilt und für die Forschung eingesetzt werden.