Archiv für den Autor: Lorenz Matzat

Die Vermessung des TV-Programms

Das „TV Meter“ – ein nicht realisiertes Datenjournalismusprojekt aus meiner Schublade

Gefühlt besteht das Angebot des öffentlich-rechtlichen Fernsehens aus Quizshows, Krimis, Sport und Schlagersendungen plus etwas Nachrichten, Politiksendungen sowie Talkshows.

Derlei Gefühle ließe sich recht einfach mit Zahlen unterfüttern: Das Fernsehprogramm kommt seit eh und je in Tabellenform daher. Vor allem die ARD macht es einfach, ihr Programm auszulesen:

http://programm.ard.de/TV/Programm/Sender?datum=09.01.2018&hour=0&sender=28106

Unter dieser URL findet sich das Programm der ARD für einen Tag. Die Struktur der URL macht deutlich, dass es simpel sein dürfte, zurückliegende Tage bzw. zukünftige aufzurufen. Offenbar scheint das komplette Programm über den Parameter „datum“ seit 2011 und 40 Tage im Voraus abrufbar zu sein.

Auch deutet der Parameter „sender“ in der URL an, dass sich andere Sender abrufen lassen: Neben allen 3. Programmen finden sich auch die Programme von Phoenix, arte, Kika, One, ARD-alpha und tagesschau24.

Weiterlesen

Algorithmic Accountability: Der nächste Schritt für den Datenjournalismus

Algorithmic Accountability ist ein im Entstehen begriffenes Subgenre des Datenjournalismus. Der Ausdruck wurde durch den Journalismusforscher Nicholas Diskopoulus etabliert. Sein Bericht „Algorithmic Accountability Reporting: On the Investigation of Black Boxes“ erschien Anfang 2014. Er skizziert eine neue Aufgabe für Journalisten: Sie sollten Softwaresysteme als Gegenstände der Berichterstattung verstehen. Dabei kann reine Transparenz nicht das Ziel sein – meistens hilft es nicht, nur auf den Programmiercode der Software so genannter Künstlicher Intelligenz (AI) oder Machine Learning zu schauen. Ohne die Datensätze, mit denen diese Systeme trainiert werden, kann ihre Funktionsweise nicht verstanden werden. Deshalb setzt Algorithmic Accountability auf Nachvollziehbarkeit.

Im Unterschied zu „traditionellem“ Datenjournalismus, der mit manuell oder automatisiert gesammelten Datensätzen operiert, kümmert sich Algorithmic Accountability darum, wie Daten verarbeitet und/oder generiert werden. Ein gutes Beispiel ist die Arbeit von Pro Publica in der Serie „Machine Bias“ aus dem Jahr 2016. Unter anderen untersuchte die Redaktion eine im Strafprozesserfahren der USA weitverbreitetete Software, die bestimmt, ob ein Verurteilter Bewährung erhalten sollte. Sie fand heraus, dass diese Software Rassismus reproduziert. Die verantwortliche private Softwarefirma war nicht bereit, die Funktionsweise der Software im Detail offenzulegen. Pro Publica gelang es durch eine Informationsfreiheitsanfrage, Daten zu Verurteilen zu erhalten und betrieb auf dieser Grundlage eine Art „Reverse Engineering“ (Nachkonstruktion) des Softwaresystems.

Algorithmic Accountability ist der nächste logische Schritt in einer Welt des automatisierten Entscheidens (Automated Decision Making – ADM): Demokratische Gesellschaften, die vermehrt durch und mit Software regiert werden, müssen in der Lage sein, solche „Maschinen“ zu verstehen und kontrollieren.

Deutsche Fassung meines englischsprachigen Beitrags im Data-Driven Advent Calender von Journocode. Ein ausführlicher Text von mir zu Algorithmic Accountability findet sich bei der Bayerischen Landesmedienanstalt: „Rechenschaft für Rechenverfahren

Wie es dem Gesichtserkennungs-Stück des Morgenpost-Interaktivteam misslingt, großartig zu sein

 

Die eigentlich gut gemachte Auseinandersetzung mit Gesichterkennungs-Algorithmen krankt an einer mangelnden Beschäftigung mit dem Datenschutz des eingesetzten Microsoft-Dienstes (UPDATE: Mittlerweile wird deutlich auf die Datenübermittlung hingewiesen). 

Es könnte wegweisend für ein ein neues Genre des Datenjournalismus sein:  Mit einem Stück zur Gesichtserkennung greift das Interaktiv-Team den Hype um „Künstliche Intelligenz“ auf und macht sie praktisch erfahrbar. Dabei kommt eben auch die lokale Komponente des Kameraüberwachung mit Gesichterkennung der Bundespolizei am Bahnhof Berlin Südkreuz zum tragen, die in der Hauptstadt für einige Debatte sorgt.

Die Präsentation, bei der rund 80 Mitglieder der Morgenpost-Redaktion sich mit ihrem Gesicht (und Alter) für einen Selbstversuch hergeben, ist schlicht eine gute Idee: Sie erlaubt anhand der Portraits zu erahnen, warum der verwendete Gesichterkennungs-Algorithmus möglicherweise Probleme hatte, das Alter der Person richtig einzuschätzen.

Der Höhepunkt des Beitrags ist aber die Möglichkeit, über die eigene Webcam/Smartphone-Kamera sein eigenes Gesicht zu übermitteln und eine Alterseinschätzung zu erhalten. Damit wird der Ansatz, dass für die Wirkung eines datenjournalistischen Werks die Ermöglichung des persönlichen Bezugs wichtig ist, gelungen eingelöst.

Leider ist es diese eigentlich tolle Idee, an der das Stück scheitert: Die Morgenpost setzt einen Dienst von Microsoft ein. Das ist an sich nicht verwerflich. Doch klärt die Redaktion an dieser Stelle kaum auf, was eigentlich mit den Daten des „Daten-Selfies“ geschieht, die dort über die Kamera erfasst werden. Zwar wird gleich unterhalb des Aufnahmeknopfs auf die Datenschutzerklärung des Microsoft-Dienstes verwiesen. Doch die scheint nicht mal die Redaktion gänzlich verstanden zu haben. Weiterlesen

Ein Genre wird erwachsen

Dieser Beitrag erschien zuerst in „M – Menschen Machen Medien“ (dju/ver.di) im März 2017.

Es ist sieben Jahre her, dass M erstmalig Datenjournalismus als Titelthema brachte. Unter der Überschrift „Spannende Recherche im Netz” wurde von damals noch exotisch klingenden Begriffen wie „Open Data” und „Datenbank-Journalismus” berichtet. Seither ist aus einem Nischenthema ein Genre erwachsen.

Indidikator für die Entwicklung dieses Genres ist etwa, dass das Reporterforum seit zwei Jahren in seinem Reporterpreis Auszeichnungen für Datenjournalismus vergibt. Oder die langsam aber stetig steigende Zahl der Stellenanzeigen, wie sie unlängst die Süddeutsche Zeitung veröffentlichte: Der mittlerweile vierte Datenjournalist für die Redaktion wird gesucht.

Die Datenjournalisten der SZ hatten ihren Anteil an den „Panama Papers”, der Recherche der SZ und anderer Redaktionen über die Steueroase in Mittelamerika 2016. An ihrer Herangehensweise lässt sich gut zeigen: Die eine Definition von Datenjournalismus gibt es nicht. Oder besser gesagt, dass Selbstverständnis darüber, was Datenjournalismus genau ist, variiert. Die Panama Papers etwa könnte man auch schlicht als „Computer Assisted Reporting” (CAR, computergestützte Recherche) verstehen – eine jahrzehntealte Methode im investigativen Bereich. Datenvisualisierungen spielten bei der Veröffentlichung des preisgekrönten Werks über die Steueroase keine zentrale Rolle. Doch ist es dieser Faktor, den manche als wesentlichen Aspekt für Datenjournalismus oder data-driven journalism (#ddj) verstehen: Die zugrundeliegenden Daten spielen nicht nur in der Recherche, sondern auch in dem veröffentlichen Werk in Form visueller Elemente eine wichtige Rolle. So oder so, einig dürften sich alle sein: Datensätze sind beim Datenjournalismus wesentlich. Mittels manueller Auswertung, etwa per Tabellen-Kalkulationsprogrammen wie Excel, oder halb- oder ganz automatischen Verfahren durch Softwarebibliotheken oder selbstgeschriebenem Programmcode werden die Datensätze ausgewertet und nach Auffälligkeiten abgeklopft. Als Faustregel bei einem datenjournalistischen Stück kann gelten: 70 Prozent der Arbeit steckt in der Datenbeschaffung, -säuberung und -validierung. Bevor die Daten überhaupt veröffentlichungsreif sind – in welcher Form auch immer – liegt viel Arbeit hinter den Datenredakteuren. Das fängt an beim „Befreien” der Daten aus Schriftstücken oder pdf-Dateien inklusive Lesefehlern bei der Umwandlung, reicht über die Vereinheitlichung von Formaten bis hin zu zahllosen weiteren Fallstricken, die sich während des Prozesses auftun. Sprich: Wer sich mit Datenjournalismus befasst, sollte eine hohe Frustationsschwelle und eine gewisse Affinität für Statistik mitbringen.

Die Belohnung für hartnäckiges Graben in Daten­bergen sind Erkenntnisse und Perspektiven auf Sachverhalte, die bei klassischen Recherchemethoden verborgen blieben. Und diese lassen sich pointiert an die Leser_innen dank einer mittlerweile erklecklichen Anzahl an Visualisierungmethoden und -formaten unmittelbar weitergeben.

Weiterlesen

Automatisier‘ Dich, Lokaljournalismus

Die Stärke des Lokaljournalismus lag immer auch in einer groben ortsbasierten Personalisierung. Im Digitalen nutzt er die vielfältigen Möglichkeiten dafür kaum. Das liegt wesentlich am Print-Paradigma, das sich in den Content Managment Systemen (CMS) manifestiert und Weiterentwicklung verhindert. Stattdessen braucht es Herangehensweisen, die kleinteilig Alltagsinformationen in einzelne Datenpunkte zerlegt und abrufbar macht.

Manchmal träume ich davon, es gäbe zeitgemäßen Lokaljournalismus. Als digitalen Service, der mir morgens oder ad hoc punktgenau wesentliche Informationen für den Alltag bezüglich meines Wohn- und Arbeitsorts mitteilt. Der mich über die Verkehrssituation (S-Bahnausfall in der ganzen Stadt), Politik (Hotelneubau in deiner Nachbarstraße beschlossen), Kultur (Theaterstück X läuft kommende Woche zum ersten Mal), Infrastruktur (Sperrung des Schwimmbads wg. Renovierung), Angebote (Supermarkt an der Ecke: 10% auf alles), Bildung (wieder Kitaplätze frei), Nachbarschaft (wer hilft mit bei Renovierung des Grillplatzes), Sport (die B-Jugend hat 3:5 verloren), Alltag (morgen ist Sperrmüll) usw. usf. informiert. Gerne darf dieses Angebot auch „lernen“, was mich interessiert und mich auf Hintergrundstücke sowie Reportagen mit weiterem lokalen Bezug hinweisen.

Es ist schwer verständlich, warum Lokalzeitungen immer noch nicht hyperlokale oder sublokale Angebote dieser Art anbieten: Ein personalisierter Bericht – egal ob per Mail, App, Website, Messenger, Spracherzeugung (z.B. Amazon Echo) übermittelt. Die Daten dafür sind vorhanden, mehr und mehr davon. Aus ihren Strömen lassen sich kurze und knappe Informationshappen straßen- und interessengenau automatisch generieren. Es wird wahrlich keine Raketentechnologie mehr dafür benötigt, um klein damit anzufangen.

Weiterlesen

Die unterschätzte Ressource: Wie sich die OpenStreetMap für Journalismus nutzen lässt

Nach einem Überblick über die reichhaltige Datenquelle für geographische Informationen werden Nutzungsszenarien skizziert und einige Tools sowie Anwendungen vorgestellt. Schließlich wird ein Karteneditor präsentiert, an dem der Autor derzeit arbeitet.

Eine Antwort auf diese Frage lautet: Die Basis dafür kann nur die OpenStreetMap sein. Es ist eine der faszinierendsten offenen Datenquellen, die sich im Netz finden lässt. Die OpenStreetMap, 2006 gestartet, ist nach der Wikipedia das wohl größte gemeinschaftliche Werk, das das Netz hervorgebracht hat. In derzeit knapp 740 GB Rohdaten (XML äquivalent) liegt wahres Open Data vor – genauso frei für die kommerzielle Nachnutzung wie für gemeinnützige und private Zwecke (OpenDatabaseLicense, ODbL). Es gibt diverse daran angeschlossene Projekte, die Schwerpunkte etwa auf Fahrradfahrer, ÖPNV oder die Nutzung auf See legen.

Wikipedia für Geoinformation

Wie gelangen Informationen in die OpenStreetMap (OSM)? Jeder kann sich wie bei der Wikipedia einen Account bei der OSM anlegen und Daten beitragen sowie ändern. Neben automatisierten Importen von offenen Daten (zum Beispiel die Hausnummern Berlins) lassen sich manuelle Änderungen vornehmen. Oder Aufzeichnungen aus GPS-Geräten können importieren und die so gesammelten Punkte und Linien entsprechend markiert werden. Im Wiki der OSM ist die komplexe Taxonomie des Projekts nachzuvollziehen, die sich in ständiger Weiterentwicklung und Verbesserung durch tausende Freiwillige befindet. Die OpenStreetMap ist international über eine Stiftung mit Sitz in UK organisiert. Die „Wochennotizen“ des deutschsprachigen OSMblog vermitteln einen guten Eindruck der vielfältigen Aktivitäten rund um OSM. Und bei learnosm.org findet sich in diversen Sprachen eine ausführliche Einführung für die Mitarbeit an der freien Weltkarte.

Alle Änderungen der OSM lassen sich nachvollziehen (sogar live). In kurzer Zeit, üblicherweise nach einigen Minuten, sind die Änderungen auf der zentralen OpenStreetMap-Karte openstreetmap.org zu sehen. Die Datenbank, aus der sich jeder bedienen darf, die „planet.osm“ erfährt einmal pro Woche ein Update.

Es hilft sich zu verdeutlichen, dass eine Kartendarstellung eine Datenvisualisierung ist. Doch mit Geodaten lässt sich selbstredend einiges mehr anstellen als sie nur zu visualisieren: Das fängst damit an, Streckenführung für Navigationsgeräte zu errechnen (Routing) oder Flächenberechnung für statistische Zwecke vorzunehmen (per Geoinformationssystem, GIS). Einen eigener Artikel wert wäre das Potential, das derzeit durch das Wikidata-Projekt entsteht: Es verknüpft die Inhalte der OSM mit der Wikimedia (Wikipedia, Wikivoyage usw.) zu „Linked Data“.

Im journalistischen Kontext dürfte dem Kartenmaterial auf OSM-Basis derzeit allerdings am meisten Bedeutung zukommen. Das folgende Beispiel zeigt Karten von Google und OSM (per Griff in der Mitte lässt sich der Slider nach rechts und links bewegen). Zu sehen ist die Position des so genannten Jungles im französischen Calais, der bis vergangenen Herbst immer wieder in den Nachrichten auftauchte: Über einige Jahre hinweg hatten sich in einer improvisierten Siedlung zeitweise tausende Geflüchtete aufgehalten, um über den nahen Eingang des Eisenbahntunnels nach Großbritannien eben dorthin zu gelangen.

Weiterlesen

Buch für Einsteiger: Datenjournalismus – Methode einer digitalen Welt

ddj_buch3Ab kommenden Montag, den 11. Juli 2016, ist mein Buch „Datenjournalismus – Methode einer digitalen Welt“ erhältlich. Die UVK Verlagsgesellschaft hatte mich vergangenes Jahr gefragt, ob ich einen Einführungsband schreiben möchte. Das mochte ich. Die Zusammenarbeit mit dem Verlag, konkret mit Frau Sonja Rothländer, hat sich als angenehm und konstruktiv erwiesen. Vielen Dank dafür!

Es ist ein knappes Buch geworden. Wie gesagt, es richtet sich an Einsteiger und soll eine erste Orientierung bieten. Wer einen Blick in das Buch werfen mag, findet einen Auszug auf der Website des Verlags – unterhalb des Abbilds des Covers muss dafür auf den Button „Buch öffnen“ geklickt werden.

Die Kosten für das E-Book betragen 15, für das gedruckte Buch 18 Euro.

Hier folgt jetzt das Ankündigungstext und darunter wird das Inhaltsverzeichnis aufgelistet. Falls jemand das Buch lesen sollte, freue ich mich über Kritik, Anregungen und generell Feedback.

Rezensionen:

Menschen Machen Medien – Link
„Buchtipp: „Datenjournalismus ist gekommen um zu bleiben“

Fachjournalist – Link
„Buchrezension von “Datenjournalismus”: Das Datendickicht als Geschichte“

Weiterlesen

Data Journalism Awards 2016 & Unconference

DJA-Header-Long+new-deadline

Am 14. April (die Frist wurde verlängert) In zehn Tagen, am 10. April 2016, endet die Einreichungsfrist für die Data Journalism Awards 2016. Eingereicht werden können Werke, die zwischen dem 10. April 2015 und 4. April 2016 erschienen sind. Die Einreichung muss auf Englisch geschehen; dies bedeutet für deutschsprachige Datenjournalismusstücke, dass Übersetzungen angefertigt werden müssen.

dju-square_299x299Es werden in zwölf Kategorien Preise von jeweils 1000 Euro vergeben; verliehen werden diese in Wien auf dem diesjährigen „Summit“ des Global Editors Networks, das die Awards zum fünften Mal ausrichtet. Termin der Preisverleihung ist der 16. Juni 2016.

Zuvor wird die Shortlist der Awards am 10. Mai auf der „Data Journalism Unconference“ bekannt gegeben. Es gibt 80 Plätze auf die sich beworben werden kann. Die Veranstaltung in New York selbst ist kostenfrei; Reisekosten müssen allerdings selbst getragen werden.

datenjournalist.de ist Medienpartner der Data Journalism Awards 2016

Die betretbare Infografik

Wie wir Virtual Reality im Lokaljournalismus einsetzen wollena100_flug2b

Seit Ende vergangenen Jahres arbeiten wir an einem Virtual Reality-Projekt zum geplanten Autobahnausbau in Berlin. Wir denken, VR ist ein großartiges Medium für die Auseinandersetzung mit städtebaulichen Vorhaben. Denn es lässt eine Situationen weit vor der eigentlichen Realisierung räumlich erfahrbar machen. Insofern sollte man VR nicht nur als „Empathie-Maschine“ verstehen, sondern eben auch als Zeit- und Raummaschine.

 [Article in English]

Mit unserem Vorhaben „A100 VR“ wollen wir zeigen, wie der 17. Bauabschnitt der Stadtautobahn ausschauen könnte. Wir setzen dafür ein 3D-Stadtmodell der deutschen Hauptstadt ein und kombinieren 360-Grad Fotos mit computergenerierten Bildern. Es geht also nicht um einen 360 Grad-Film, sondern wir realisieren ein non-lineares interaktives Stück auf Basis von 3D-Grafik.

Das besondere an besagtem Bauabschnitt ist, dass er durch einen dicht besiedelten Teil von Berlin führen soll; knapp ein Kilometer davon als doppelstöckiger Tunnel, der in einer recht engen Wohnstraße wohl von oben im Boden versenkt werden soll. Zwar ist der Baubeginn nicht vor 2022 zu erwarten (wenn überhaupt, denn er ist wie der Autobahnausbau zuvor umstritten). Doch dürfte eine endgültige Entscheidung über seinen Bau deutlich früher fallen.

Weiterlesen

Datenjournalismus 2015: Ein Rückblick

2016 wird das vorerst beste Jahr für Datenjournalismus in Deutschland werden. Diese Prognose kann ich mit gutem Gewissen abgeben. Denn folgen wir dem Bild des “hype cycle” ist der “Pfad der Erleuchtung” erreicht – der “Gipfel der überzogenen Erwartungen” und das folgende “Tal der Enttäuschungen” liegen hinter uns: Es geht langsam aber stetig bergauf, was z.B. im Datenjournalismuskatalog zu betrachten ist.

Einige der in diesem Beitrag erwähnten Arbeiten.

Es zeigt sich aber auch anhand folgender Faktoren:

Mit BR Data hat der erste öffentlich-rechtliche Sender nun ein explizites Datenjournalismusteam (in der Schweiz gibt es das schon etwas länger mit SRF Data). Es besteht derzeit aus sieben Personen. Nach dem Sommer kamen die ersten Werke und insgesamt lässt sich sagen: Das sieht vielversprechend aus. Eine Serie zum Thema Geflüchtete widmete sich u.a. der Frage, wer eigentlich die staatlichen Gelder einstreicht, die in diesem Sektor verteilt werden. Für so etwas ist Datenjournalismus perfekt und sollte öfter angewandt werden. Denn viel zu selten wird sich der Frage gewidmet, wohin denn öffentliche Gelder eigentlich fließen, die “weg” sind. Das jüngste Werk anlässlich des Klimagipfels wagt einen Blick in die Zukunft der Skigebiete: So sollte regionaler Datenjournalismus aussehen. Im Bereich Design/Usability ist aber noch Luft nach oben.

Hoffen wir, dass noch mehr Öffentlich-Rechtliche in Datenjournalismus investieren. Allerdings nicht so wie das ZDF: Angeblich über 150.000 Euro sollen in das Lobbyradar geflossen sein – das hätte für eine kleine NGO ein Jahr lang gereicht oder für 2-3 Stellen in einem Datenjournalismusteam. Doch nun wird das Vorhaben nach gut einem halben Jahr eingestellt, heißt es bei Zeit Online. In gleichem Text wird geraunt, Grund dafür könnte politische Einflussnahme gewesen sein – vielleicht ist er aber auch schlicht die Erkenntnis, dass es sich um eine Fehlkonstruktion handelte. Die Daten und den Code gibt es jedenfalls hier.

Frauen leiten

Das Datenjournalismusteam bei Spiegel Online wurde dieses Jahr auf 2,2 Stellen aufgestockt: Christina Elmer wurden Patrick Stotz und 1/5 Achim Tack zur Seite gestellt. Daraus ergab sich zum Beispiel der Schwerpunkt Betongold, den ich für eines der gelungensten ddj-Werke im deutschsprachigen Raum in diesem Jahr halte. Bleibt die Frage, wie sich der angekündigte 20-prozentige Stellenabbau beim Spiegel auf den Datenjournalismus dort auswirkt. Hinsichtlich von Design und Usability könnten die Hamburger jedenfalls auch noch Verstärkung gebrauchen.

Übrigens: Ein interessantes Phänomen in der doch kleinen deutschsprachigen Datenjournalismuswelt ist, dass von den wenigen Abteilungen die meisten von Frauen geleitet werden (Christina Elmer bei SpOn, Sylke Gruhnwald bei SRF, Ulrike Köppen beim BR).

Weiterlesen