Offene Plattform für fortschrittliche Verkehrsprognosen aus heterogenen Daten

Was ist die Demokratisierung von Daten und wie baut OPA_TAD darauf auf? Was sind die Bestandteile einer Plattform, die die Daten ihrer Nutzer wirklich schützt?

Das Konzept

Die Demokratisierung von Daten

Was heißt „Demokratisierung von Daten“?

Daten beschreiben Vorgänge in der echten oder der virtuellen Welt und werden durch Aktionen von Menschen oder Maschinen erzeugt. Als Beschreibung der Welt kommt ihnen ein Wert zu, da aus ihnen ein Verständnis über die Welt und unsere Aktionen abgeleitet werden kann. So kann zum Beispiel aus den gesammelten GPS-Daten, die unsere Navis nebenbei aufzeichnen, eine hervorragende Stauprognose erstellt werden.

In der normalen Arbeitswelt ist es so, dass man die Früchte seiner Arbeit selbst erntet, sei es in Form eines Gehalts oder de Früchte selbst. In der digitalen Welt zeichnen unsere Smartphones und die Server dieser Welt unsere Aktionen auf, aber die Früchte – die Daten – gehören dann anderen: meistens dem, der die Software geschrieben hat oder den Dienst betreibt, der die Aktion aufzeichnet. Dadurch verlassen die Daten unseren Einfluss, sodass wir nicht mehr entscheiden können, wofür sie eingesetzt werden.

In der realen Welt entscheiden wir mittels demokratischer Wahlen, was mit dem Anteil der von uns erarbeiteten Früchte passiert, die wir als Steuer abführen. In der digitalen Welt haben wir bisher weniger Möglichkeiten zur Teilhabe und Einflussnahme.

Demokratisierung der Daten heißt daher zunächst einmal, den Einfluss über die eigenen Daten zurückzugewinnen. Im Idealfall können wir gezielt entscheiden, wer unsere Daten für welche Zwecke einsetzt. Denn neben enorm hilfreichen und wertvollen Analysezwecken, wie zum Beispiel dem Erstellen einer guten Stauprognose, die hilft, Lebenszeit zu sparen, können Daten ebenfalls genutzt werden, um gezielte Meinungsmanipulation zu betreiben.

Warum wollen wir eine Demokratisierung?

Die Errichtung einer Demokratie hat es weiten Kreisen der Bevölkerung ermöglicht, Einfluss auf das allgemeine Geschehen zu nehmen, mitzubestimmen, wofür Steuermittel eingesetzt werden und auf welchen Fundamenten unsere Gesellschaft aufgebaut sein soll. Da dadurch die Interessen vieler Menschen vertreten werden, ist es wahrscheinlicher, dass auch viele Interessen gewahrt werden können. Aus dem gleichen Grund wollen wir eine Demokratisierung der Daten: Wenn viele Menschen mitreden können, können auch viele Interessen vertreten werden. Im Moment folgt die Verwertung der Daten vor allem den Interessen der großen Sammler, die nicht notwendigerweise die Interessen der Mehrheit der Bevölkerung im Sinn haben. Es geht uns also darum, uns als Gesellschaft abzusichern, dass die Interessen mindestens der Mehrheit der Bevölkerung gewahrt bleiben.

Was sind offene Daten?

Offene Daten sind tatsächlich ein Ergebnis der Demokratisierung, aber der Demokratisierung der echten Welt: Die öffentlichen Institutionen der Staaten erheben beständig Daten als Beschreibung der Welt, um diese zu regeln. Dafür führen ihre Bürger jeweils Steuern ab, mit denen unter anderem auch jene Daten erhoben werden. Viele Staaten haben erkannt, dass es sinnvoll ist, diese sowieso schon erfassten Daten als öffentliches Gut zu betrachten. Da wir in der digitalen Welt beliebige Kopien erstellen können, ist dies nur zum Vorteil. Denn der originäre Zweck, aus dem die Datenerhebung erfolgt ist, wurde erfüllt, nun kann sich aber jeder, der dieselben Daten für andere Zwecke benutzen möchte, eine Kopie erstellen.

Gesamtgesellschaftlich kommt das allen zugute, da niemandem etwas verloren geht. Im besten Fall gibt es eine sinnvolle Analyse mehr in der Welt, und da die öffentlichen Institutionen keine personenbeziehbaren Daten veröffentlichen, ist auch eine nicht erstrebenswerte Verwertung der Daten so gut wie unmöglich.

Was haben die verschiedenen Akteure davon?

Die konsequente Umsetzung von offenen Daten würde eine allgemeine Verfügbarkeit von Informationen ermöglichen, auf deren Grundlage wir Verschiedenstes lernen könnten. Neben neuen Dienstleistungen und der Optimierung bestehender Dienste könnte es eine Grundlage für Entscheidungen in einer von Diskontinuität und Brüchen geprägten Zeit sein. Je mehr Informationen zusammengetragen werden können, desto genauer lassen sich Auswirkungen von Entscheidungen absehen. Das betrifft alle Akteure von öffentlichen Institutionen und Unternehmen, über die Presse, den Citizen Data Scientist bis hin zu Bürgern, die von verbesserten Busverbindungen profitieren.

Das Potenzial von Open Data entfaltet sich allerdings erst in Kombination mit einer konsequent standardisierten Digitalisierung weiter Teile der Institutionen sowie dem Gedanken der Open Source. Dann ist es möglich, eine Open-Source-Lösung für eine Institution an einem Ort zu erschaffen, die dank der allgemeinen Standards ohne weiteren Aufwand von allen anderen Institutionen mit dem gleichen oder mit ähnlichen Problemen weltweit angewandt, angepasst und verbessert werden kann.

Was hat das mit der Demokratisierung von Daten zu tun?

Bei Open Data reden wir bereits von per se allgemein verfügbaren Daten. Demokratisierte Daten stehen unter der Kontrolle ihrer jeweiligen Erschaffer und sind damit erstmal nicht offen. Nun könnten die Erschaffer aber ihre Daten zur Verfügung stellen, wenn sich das Analyseziel mit ihren Interessen deckt. Wenn ich häufig den Nahverkehr benutze, wäre ich höchstwahrscheinlich an einer Optimierung interessiert, vor allem, wenn meine Daten und damit meine Bedürfnisse direkt miteinspielen. Damit ich die Daten aber weiterhin unter demokratischer Kontrolle habe, muss gewährleistet sein, dass die Erlaubnis zur Nutzung reversibel ist. Ich muss die Nutzung also wieder verbieten können, was durch die Möglichkeit der Erstellung beliebiger digitaler Kopien technisch nicht ganz einfach realisiert werden kann. Die Demokratisierung von Daten und die Nutzung dieser Daten zur Ergänzung von nicht personenbezogenen Open Data erfordern also eine technisch machbare und sozial akzeptable Lösung. Einen ersten Entwurf möchten wir dazu mit OPA_TAD vorstellen.

Bestandteile einer demokratischen Plattform für Datenanalyse

Um eine Demokratisierung von Daten und deren Analyse zu ermöglichen, benötigt es eine Lösung für mehrere Probleme:

Daten müssen erfasst, sicher gespeichert, zur Verwendung in Analysen freigegeben und letztlich analysiert werden können. Diese Analysen müssen möglichst zugänglich formuliert sein, um Transparenz über die Verwendung der Daten zu schaffen.

Die OPA_TAD-Plattform versucht, die verschiedenen Aspekte durch spezifische, zusammenspielende Komponenten abzubilden.

Die Komponenten von OPA_TAD im Überblick

  1. Die Client Library ermöglicht es Android®-Apps, Daten zu erfassen und komfortabel auf der Plattform zur speichern. Die Client Library ermöglicht der App dabei den transparenten Umgang mit den verschlüsselten Daten. Ergänzend wurde eine prototypische Client App zur Erfassung der eigenen Bewegungsdaten mittels GPS als Referenzimplementierung auf Grundlage der Library erstellt. Sie demonstriert ebenfalls, wie der Benutzer seine eigenen Daten verwalten und selbstwirksam für Analysezwecke freigeben kann. Die Library übernimmt ebenfalls die Erstellung und Verwaltung der notwendigen kryptografischen Schlüssel, mit denen die Daten gesichert werden. Die App kann als Open Source für eigene Anwendungen angepasst und weiterverbreitet werden.
  2. Das zentrale Herzstück bildet die Datenplattform. Nach außen bietet sie eine Schnittstelle, über die Clients mit der Plattform kommunizieren können. Verschiedene Endpunkte ermöglichen den Bezug und die Bereitstellung von Open Data sowie von Secure Data, die verschlüsselt hochgeladen werden. Die Plattform speichert letztere so, dass auch für die Plattform selbst keine Verbindung zu einem Benutzer herstellbar ist. Dadurch werden die Benutzer sowohl vor Missbrauch der Plattform als auch vor möglicherweise erfolgreichen Cyberangriffen geschützt. Nur über den beim Nutzer gespeicherten kryptografischen Schlüssel kann die Beziehung zu den Daten wiederhergestellt werden.
    Daten liegen dabei immer in bestimmten Tabellenformaten vor, den sogenannten Datentypen. Die Plattform stellt ein Metadatenverzeichnis mit Beschreibungen der Daten und ihren Nutzungslizenzen bereit. Sie verwaltet ebenfalls die Anfragen und Freigaben von Daten zu Analysezwecken, die dem Benutzer über Clients präsentiert werden.
  3. Eine Big-Data-Analyseengine bildet die Beine des Ensembles: Erst durch die Analyse wird aus Daten Nutzen gezogen. Da Daten zu Analysezwecken niemals die Plattform verlassen dürfen, da sie dann beliebig kopierbar wären und die Einhaltung der Nutzungsvereinbarungen technisch nicht mehr durchsetzbar wäre, muss die Plattform in der Lage sein, Analysen selbst durchzuführen. Das kann natürlich nicht irgendein Analyseprogramm sein, da dieses die eigentlich geschützten Daten ableiten könnte. Daher werden Analysen aus vorbereiteten Bausteinen zusammengesetzt und als Beschreibung an die Plattform gesendet. Erst die Plattform setzt diese Beschreibung dann in Code um, sodass ein Datenabfluss durch entsprechend gehärtete Implementierungen der Bausteine verhindert werden kann.
    Soll Secure Data für Analysen verwendet werden, benötigt die Plattform während der Laufzeit allerdings Schlüssel, um die betroffenen Daten zu entschlüsseln, was einen möglichen Angriffspunkt darstellt. Möglichkeiten, dieses Problem zu adressieren, werden gerade im mFUND-Projekt SPAA erarbeitet.
  4. Um die Analyse zu demokratisieren und möglichst niedrigschwellig zu ermöglichen, wurde eine Erweiterung zu der Open-Source-Analysesoftware RapidMiner entwickelt. Mit dieser Erweiterung ist es möglich, ohne Programmierkenntnisse mit der Plattform zu interagieren. Sie stellt alle Möglichkeiten bereit, um Daten zu importieren oder wieder herunterzuladen und Analysen zu erstellen, die dann auf der Plattform laufen können und daher auch Secure Data verwenden können.
    Durch die Integration in eine bekannte, als Open Source zur Verfügung stehende Plattform, kann ein breites Spektrum von Institutionen, Unternehmen und Privatpersonen die Daten zugreifen und sie verwenden. Die Erweiterung kann kostenfrei über den Marketplace von RapidMiner bezogen werden.