re:log: Hintergrund zur Auswertung der W-LAN-Nutzung auf der re:publica 2013

In der Anwendungen lassen sich Gruppen markieren und über die Zeit verfolgen
In der Anwendungen lassen sich Gruppen markieren und über die Zeit verfolgen

Rund 100 Access-Points sorgten für die Netzabdeckung im Veranstaltungsort „Station“ in Berlin. Wann ein Gerät sich während der re:publica 2013 bei welchem Zugriffspunkt anmeldete, wurde festgehalten und diese Daten nutzt unsere Web-App re:log. Wir bekamen von den re:publica Veranstaltern einen pseudonymisierten Datensatz. Da die Macher einen detailliertes Mitschneiden des W-LAN nicht angekündigt hatten – etwa die Aufzeichnung der gesamten Hardware/MAC-Adressen oder des Traffics auf einem Gerät – kann aus Datenschutzgründen nur der Aspekt Verbindungsdauer und -ort ausgewertet werden.

Fürs kommende Jahr, so wird angekündigt, wolle man aber „ gerne vom ‚Aluhut-‚ in den ‚Spackeria-Modus‘ wechseln“ und eine tiefergehende Analyse ermöglichen.

Die Anwendung re:log, die bei OpenDataCity maßgeblich Michael Kreil entwickelt hat, kann deshalb bspw. nicht die Funktionalität bieten, dass jeder die MAC-Adresse seines Laptops, Smartphones oder Tablets eingeben kann. Es ist also nicht möglich, sich (oder zumindest seinem Gerät) zuzusehen, wo es sich auf der Konferenz wann ungefähr aufgehalten hat.  

relog_prototyp1b
Screenshot des ersten Prototyps der interaktiven Visualisierung

Die Logdateien sind recht grob; etwa alle 15 Minuten wurden die Verbindungen festgehalten.  Einige Access Points auf dem Gelände sind in dem Datensatz nicht enthalten; beispielsweise fehlt der auf der Terrasse am Eingangsbereich. Zur Spitzenzeiten waren circa 2500 Geräte eingewählt; insgesamt wurden gut 6700 verschiedene Geräte (bzw. MAC-Adressen) im Netz über die drei Tage gemessen. Die Daten, so wie sie bei re:log verwendet werden, gibt es hier zum Download als csv (zip, 1,5MB).

Eine Ahnung, welche Auswertungen anhand solcher Netzwerkdaten möglich sind, zeigt folgende Abbildung (bitte klicken für die Komplettansicht): Um so mehr Geräte in einer Session verbunden waren, um so größer die Kreise. Und um so ähnlicher das Publikum zweier Sessions war, um so enger sind die Sessionkreise miteinander verbunden. In der Komplettansicht ist oben gut die re:campaign-Konferenz zu erkennen, die parallel zu den ersten beiden Tagen der re:publica lief.

re_log_sessions_kl

Eins ist klar: Die Anwendung zeigt die Zweischneidigkeit solcher Datensätze. Einerseits wird deutlich, welche Datenspuren man hinterlässt, oft auch unbewusst. Deshalb hoffen wir, dass die Anwendung dazu beiträgt, für den Schutz der eigenen Privatsphäre zu sensibilisieren. Und vielleicht erst einmal darüber nachgedacht wird, warum jemand „Free Wifi“ anbietet, bevor man sich einloggt.

Anderseits zeigt die Anwendung aber auch, wie nicht zuletzt auf Konferenzen rund um Web & IT direkt mit der Kommunikationsinfrastruktur neue Perspektiven auf die Veranstaltung selbst  geboten werden können. Sie könnte während einer Konferenz oder Veranstaltung auch nahezu in Echtzeit („Neartime“) laufen. Oder als Dokumentation und Illustration im Journalismus Einsatz finden. Weiter könnte ein Tool wie re:log Veranstaltern direkt Feedback und einen Überblick über Auslastung und Besucherströme auf einem Event geben; es sind Analyse- und Auswertungsmöglichkeiten denkbar, die in die Planung kommender Veranstaltungen einfließen können.

Wir freuen uns jedenfalls schon jetzt auf die nächste re:publica.

15 Gedanken zu „re:log: Hintergrund zur Auswertung der W-LAN-Nutzung auf der re:publica 2013“

  1. Auch ohne MAC-Adressen kann ich allein durch die Abfolge von Zeit und Ort durch z.B. Korrelation mit Tweets jede ID einer Person zuordnen. Ähnliches geht auch mit Bewegungsdaten z.B. durch Funkzellen; schon vor Jahren habe ich das mal mit Testdaten eines Location Based Service ausprobiert, wo ich auch ganz ohne irgendeine Personen-Referenz klare Benutzerprofile erstellen konnte, teilweise sogar bis zur Heimatadresse. Ich halte das für datenschutzrechtlich höchst bedenklich, was hier ohne Ankündigung und Einwilligung geschehen ist.

      1. AH, du meinst die Gerätenr. Halte ich in dem Fall für sehr schwierig, weil Tweets im Gebäude kaum eine genaue Geolocation haben können; per händischer Inhaltsanalyse mag das möglich sein.

        1. Du brauchst keine Geolocation, die #stageX-Hashtags reichen schon. Oder du kannst manuell oder per CV/ML Instagram-Fotos und Twitpics matchen und Referenzen auf Speaker oder Inhalte extrahieren, wenn du sophisticated sein willst. Aber ein loose fit auf Tweets mit #rp13 und #stageX funktioniert schon ganz ok.

          1. Wenn jemand twittert, auf welcher Stage er/sie gerade auf der rp13 ist, scheint er ja erstmal kein „Aluhut“ zu sein. Dass ich ihm/ihr nun per dieses Anwendung ggf. komplett über die Konferenz folgen kann, soll die Anwendung ja letztlich verdeutlichen. Man könnte sagen, dass das in einer gewissen Weise die Privatsphäre verletzt, wobei ich das im Fall einer solchen halb-öffentlichen Veranstaltung für diskussionswürdig halten (und auch nicht dramatisch). Auch angesichts von hunderten Kameras etc. die permanent fotografierten und filmten.

            Ich finde jedenfalls eine Debatte über so etwas gut. Ich gehe davon aus, dass so ein Datensatz der W-LAN Nutzung von den jeweiligen Dienstleistern zumindest aus technischen Analysegründen in einem gewissen Rahmen immer erhoben wird. AGB oder Versicherungen, dass keine Speicherung der Nutzung des W-LANS vorkommt, ist mir bei Konferenzen o.ä. bislang nicht untergekommen. Vielleicht ändert sich das jetzt ja.

  2. Ich habe die Geräte an den Stages mit der Tweet-Suche „#rp13 #stageX“ verglichen und kann mit einer gewissen Wahrscheinlichkeit Twitter-Usernamen zu Gerätenummern zuordnen. Gibt sicherlich noch einige weitere Datenquellen mit denen sich der Datensatz deanonymisieren kann.

      1. 1. Es reichen im Schnitt 7 Datenpunkte zur Personenzuordnung.
        2. Es geht nicht um Tweets mit GPS-Koordinaten; auch Inhalte, Referenzen auf Vorträge, #stageX hashtags und Fotos von Slides können ausreichen.
        3. Tweets sind aktiv, ich entscheide, meine Position zu sharen. Hiermit kann ich nachsehen, wo jemand war, als sie nicht getweetet hat. Um wie viel Uhr kam jemand zur rp13, nach Tag geordnet? Wie viel Zeit hat sie in Raucherpausen verbracht? Wie lang war sie auf der Party? Wann auf dem Klo? Aus welchen Sessions ging er verfrüht raus? Etc.pp.

        Ich habe persönlich kein Problem damit, meine Daten so auszuwerten oder auswerten zu lassen, so viel Spackeria bin ich dann doch. Aber ich halte es für fahrlässig, *anderer Leute Daten* so zu veröffentlichen. Für ein Beispiel der Deanonymisierung sei nur an die AOL-Suchanfragen-Sache erinnert.

Schreibe einen Kommentar zu Anonymous Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert