Jörn Müller-Quade
Privatsphäre gesucht!
Neue Big-Data-Techniken auf dem Vormarsch
Eigentlich sind wir ganz gut darin, den Übergang vom Privaten ins Öffentliche zu erkennen. Doch im Umgang mit dem Internet versagt dieses Einschätzungsvermögen – angesichts der von Unternehmen und Geheimdiensten verwendeten Big-Data-Techniken. In diesem Essay geht es um den Wandel, den öffentliches Auftreten durch das Internet erfährt. Weil Daten dort lange gespeichert, elektronisch gesammelt und verarbeitet und aus unterschiedlichen Quellen korreliert werden, können wir intuitiv nicht mehr abschätzen, wie viel von unserer Privatsphäre dadurch verloren geht und wie öffentlich wir sie schon gemacht haben. Beispiele sollen dies im Folgenden verdeutlichen. Es wird aber auch die Rede sein von Datenschutzprinzipien, die verhindern sollen, dass unsere Privatsphäre bedroht wird, eben weil die Grenze zwischen Privatem und Öffentlichem nicht mehr erfahrbar ist.
Für den Umgang mit großen Datenmengen und neuartigen Big-Data-Techniken ist noch kein gesellschaftlicher Konsens gefunden, weitgehend unklar ist, für welche Zwecke wie tief in die Privatsphäre eingegriffen werden darf. Die in Zukunft unbedingt nötige Diskussion darüber, wo und inwieweit wir Big-Data-Techniken zulassen wollen, gewinnt an Präzision und Klarheit, wenn man das Ausmaß der Verletzung der Privatsphäre in formalen Modellen beschreiben und messen kann.
Der Unterschied zwischen realer und digitaler Öffentlichkeit
Die Spuren, die wir in der gelebten Öffentlichkeit hinterlassen, sind eher flüchtig. Gesichter, die man sieht, sind meist schnell wieder vergessen, und unser Verhalten hat sich daran angepasst, dass das meiste, was wir tun, zwar gesehen werden kann, aber ebenso schnell wieder aus dem Gedächtnis verschwindet. Nicht alles, was einmal öffentlich war, bleibt ewig öffentlich. Ist die eigene Erinnerung an erlebte öffentliche Situationen vergangen, kann man davon ausgehen, dass auch sonst sich niemand mehr daran erinnert, und wenn, betrifft es immer nur einen sehr kleinen Lebensausschnitt einer Person, einen kleinen Splitter aus ihrem Gesamtbild. Ganz anders im Internet. Dort werden unsere Spuren lange gespeichert, sortiert und verarbeitet, dort können wenige viele beobachten, und diese wenigen können zudem sehr viele der kleinen Personensplitter, die hinterlassen werden, zusammentragen und so ein wenn nicht vollständiges, so doch festes Bild erzeugen. Online verfügbare Bildersammlungen können beispielsweise mit Gesichtserkennungssoftware durchsucht und Bekanntschaftsbeziehungen aus längst vergessenen Schnappschüssen abgeleitet werden. Mit anderen Daten abgeglichen ergibt sich aus dem, was früher flüchtig war, ein bleibendes Bild.
Selbst das, was wir nicht getan haben, hinterlässt Spuren im Internet. Der Link, den wir nicht angeklickt haben, oder der Einkaufsvorgang, der abgebrochen wurde, ist häufig besonders interessant für eine Datenanalyse und für die zukünftige Gestaltung von Webseiten und Angeboten. In der realen Welt befinden wir uns beim Einkauf zwar in der Öffentlichkeit, bleiben in der Masse aber dennoch anonym, und das Verlassen eines Geschäftes, ohne einen Einkauf getätigt zu haben, wird kaum bleibende Spuren hinterlassen. Im Internet verfolgen uns sogenannte Ad-Tracker über viele Webseiten hinweg. Die Anzeigen auf den verschiedenen Webseiten, die wir besuchen, stammen häufig von einem Anbieter, der unseren Browser wiedererkennen kann und so weitreichende Nutzerprofile erstellt. Bei den Nutzern von Printmedien kann niemand verfolgen, wie weit oder wie gründlich ein Artikel gelesen wird. In Online-Medien dagegen werden längere Artikel bewusst auf mehrere Seiten aufgeteilt, um am Klick-Verhalten sehen zu können, ob ein Leser den Artikel überhaupt zu Ende liest, ob sich also längere Artikel und gründliche Recherche überhaupt noch lohnen.
Erstaunlicherweise wandelt sich durch das Internet nicht nur mein Bild in der Öffentlichkeit, sondern auch das Bild, das ich von der Öffentlichkeit habe. Personalisierte Suchergebnisse bei Google und personalisierte Nachrichtenportale bedeuten in der äußersten Konsequenz, dass nur noch das zum Profil des Benutzers Passende berichtet wird. Dass dessen Vorstellung des öffentlichen Geschehens nur sehr partiell bleibt, ist die andere Seite dieser benutzerdefinierten Information. Sogenannte »Privacy Bubbles« isolieren ihn von der wirklichen Welt.
Analytics
Wo beim Entdecken von Auffälligkeiten in Datenbeständen früher detektivisches Vorgehen nötig war, leisten heute Algorithmen Erstaunliches. Sie ermöglichen die vollautomatische Analyse immenser Datenbestände. Dieses automatisierte Extrahieren von Mustern und Korrelationen aus großen Datenmengen nennt man »Analytics«. Moderne Algorithmen befördern aus den scheinbar flüchtigen Momenten und den vielen partiellen Einsichten, die man der Öffentlichkeit des Internets gewährt, Erkenntnisse, die zu umfassenden Benutzerprofilen angelegt werden. Datenspuren werden systematisch auf Korrelationen geprüft und – unbemerkt von den Benutzern – zu einem »schlüssigen« Bild gefügt.
Eine große Herausforderung für die Analyse ist nicht nur die schiere Menge an Daten, sondern insbesondere auch die unstrukturiert vorliegenden Daten, etwa frei formulierte Texte oder Bild- und Tonmaterial. Solche Daten sind der klassischen Datenanalyse nicht zugänglich. Analytics kombiniert daher viele Ansätze. Zum Einsatz kommen unter anderem Bilderkennungsverfahren, statistische Verfahren, Verfahren der Textanalyse sowie Prognoseverfahren, um fehlende oder noch unbekannte Attributswerte zu schätzen.
Wurden die Daten in eine strukturierte Form gebracht, so darf man sich einen Datensatz wie einen Punkt in einem hochdimensionalen Merkmalsraum vorstellen. Der Abstand der Punkte in diesem abstrakten Raum ist nun ein Maß für die Ähnlichkeit der Datensätze. Moderne Algorithmen de...
