Kategorie-Archiv: Datenjournalismus

Bundestagswahl: Wie gut waren die Vorhersagen der Umfrageinstitute?


Wie gut sind die Prognosen der Umfrageinstituten? Kurz gesagt: Solala. Betrachtet man die jeweils letzten Umfragen vor den vergangenen vier Bundestagswahlen, zeigt sich, dass es deutliche Unterschiede bei der Vorhersagegenauigkeit der Demoskopen gibt. (Richtigerweise muss man sagen: Es handelt sich nicht um Prognosen oder Vorhersagen im eigentlichen Sinne – die Umfragen sollen Abbild einer politischen Stimmung sein.) Update: Dank eines Hinweises von @zoonpolitikon sei hier noch auf die Fehlertoleranz/ Standardabweichung aufmerksam gemacht. Die Zahlen der Umfrageinstitute lagen meist innerhalb der üblichen +/- 2,5 bis 3 Prozentpunkte. Mehr dazu hier.

Durch die Bank weg haben alle der sechs hier betrachteten Umfrageinstitute bei der Wahl in 2005 deutlich daneben gelegen: CDU/CSU sahen alle bei 41 oder 42 Prozent – tatsächlich kamen die auf 35,2 Prozent. Anderseits lag Forsa im Jahr 2002 deutlich näher als die anderen Institute am Endergebnis: Mit insgesamt nur 2,7 Prozentpunkten Abstand. Bei der Bundestagswahl 1998 war Allensbach noch besser: Insgesamt lag man nur 2,4 Prozentpunkte vom Wahlergebnis weg.

Betrachtet werden bei diesem Vergleich die Zahlen für die Parteien im Bundestag (CDU/CSU, SPD, Grüne, FDP, Linke/PDS). Die Abweichung der Vorhersage für jede Partei – egal ob positiv oder negativ – wurden zusammengezählt. So ergibt die Gesamtabweichung beim folgenden Beispiel 6,4 Prozentpunkte.


Die letzten Umfragergebnisse der Institute vor der jeweiligen Wahl wurden bei wahlrecht.de gefunden. Hier die Datei mit den Umfrageergebnissen pro Partei und Wahl bei Google Docs.

Im Überblick ganz oben ist zu sehen, dass Allensbach und Forsa zumindest bei zwei von vier Wahlen die genausten Prognosen gebracht haben. Mal sehen, wie richtig sie am Wahlabend im September liegen. Wenn die Vorhersagen so fehlerhaft sind wie 2005, könnte der Wahlabend doch spannend werden.

Siehe die Kritik an diesem Beitrag: „Was Wahlumfragen (nicht) sagen“

und auch: „Warum Wahlprognosen mehr können als Umfragen – am Beispiel Hamburg-Mitte“ bei hamburger-wahlbeobachter.de

 

Datenjournalismus im Sommer 2013

Eine Auswahl von Links, Materialien, Tools und Terminen

Bildschirmfoto 2013-08-18 um 10.39.05

Das beeindruckende Projekt eines internationalen offenen Handelsregisters, Open Corporates, bietet nun die Option, die Netzwerke der Firmen zu visualisieren. Für einige Beispiele haben sie die wahnsinnig verschachtelten Firmenkonstrukte extra visualisiert. Oben ist ein Auschnitt des Netzes von Goldmann-Sachs zu sehen. Umgesetz haben die Visualisierung Kiln aus Italien, die ein Making-of veröffentlicht haben.

Auf visualisingdata.com findet sich eine große Sammlung von Websites, die Zugang zu unterschiedlichsten Open Data-Datensätzen von NGO, Regierungen usw. bereitstellen. Ebenfalls ist dort ein Überblick über „10 significant visualisation developments: January to June 2013″ zu finden.

Am Knight Center for Journalism in the Americas läuft noch bis Mitte September ein Massive Open Online Course (MOOC) zu den Grundlagen des Datenjournalismus.

Marcus Anhäuser hat im Juli ein Interview zu Hacks/Hackers in Berlin geführt. Und auch Björn Schwentker zu seinem Projekt „Zensus unzensiert“ befragt.

Weiterlesen

Wie Zeit Online mit „Wahlistik“ Stimmung macht

Es ist nicht Verkehrtes daran, von erfolgreichen Konzepten zu lernen. Zeit Onlines „Wahlistik“ ist offensichtlich von Nate Silvers viel gelobter Statistikauswertung zur vergangenen US-Präsidentenwahl für die NYT inspiriert. Nun ist es in einem de facto Zweiparteien-System einfacher Vorhersagen zu treffen, als in einem Vielparteien-System wie in Deutschland.

Zeit Online hat ein Verfahren mit Statistikern der Uni München entwickelt: Es nimmt die Durchschnittswerte der jeweils aktuellsten Umfragewerte von vier Instituten als Ausgangsgrundlage. 10.000 Mal werden dann Ergebnisse generiert, die von den Ausgangswerten im Rahmen statistischer Ungenauigkeit zufällig abweichen. Bspw. können in 3524 der simulierten Fälle CDU/CSU und FDP mit ihren erreichten Sitzen eine Koalition bilden. Das wird als 35% Wahrscheinlichkeit für die Möglichkeit einer Koalitionsbildung Schwarz-Gelb gewertet. Da derzeit trotz simulierter Abweichung Schwarz-Rot und Schwarz-Grün 10.000 Mal möglich sind, erhalten beide Koalitionsoptionen jeweils 100%.

Vielleicht wäre es ratsam gewesen, die Methode auch in einem wiederverwendbaren Schaubild oder in einem Erklärvideo darzulegen. Bis ich jedenfalls verstanden habe, was genau Zeit Online überhaupt mit der Wahlistik sagen will, musste ich mir erst einmal den Kopf zerbrechen. Das liegt zum einen an solch einer Überschrift nebst Vorspann:

Bildschirmfoto 2013-08-17 um 10.05.29
Das ist mindestens missverständlich formuliert: Richtiger wäre die Überschrift, wie es auch im letzten Satz des Vorspanns steht: „Welche Koalition ist am möglichsten?“ Wahrscheinlichkeit und Möglichkeit sind zwei grundverschiedene Dinge. Die Wahlistik kann eben nur zeigen, wie hoch die Chancen für verschiedene Konstellationen von Koalitionen sind, zustande zu kommen.

Auch diese in der Serie wiederkehrende jeweils aktualisierte Grafik hilft nicht weiter: Sie ist mit „Rechnerische Wahrscheinlichkeiten der Koalitionen“ überschrieben. Hier der Stand vom 16.8.2013:

Bildschirmfoto 2013-08-17 um 10.33.21

Weiterlesen

Datenpopulismus

Bildschirmfoto 2013-07-23 um 09.32.50

Anfang des Monats machten wir ein Experiment. Wir von OpenDataCity hatten seit Tagen schon an einer Webapp zu Prism/Tempora gearbeitet. Unser Eindruck war, dass das Thema „untervisualisiert“ war; gleichzeitig aber Visualisierungen in dem stark technisch geprägten Komplex von Nutzen sein könnten. Bei den Überwachungssystemen geht es erst einmal um Daten – was liegt näher, als sich ihnen per Datenjournalismus zu nähern?

Die App, die anhand einiger Beispiele mittels des Tools „Traceroute“ zeigt, wie Internetanfragen durchs Netz geleitet werden, war fast fertig. Die Idee, der von wenig Sachverstand geprägten Aussage des Bundespräsidenten, der einen Vergleich von Stasi und NSA kategorisch von sich wies, etwas entgegenzusetzen, kam recht spontan. Innerhalb weniger Stunde war eine App fertig. Sie vergleicht letztlich nur zwei Zahlen: Nämlich die Möglichkeiten der Speichermengen der Geheimdienste. Am frühen Abend des Donnerstages (4.7.2013) veröffentlichten wir „Stasi vs NSA“ und zwei Stunden später „Prism/Traceroute“.

Bald bezeichneten wir die Stasi vs NSA-Webapp intern als „Datenpopulismus“. Sie ist mittlerweile – vor allem weil wir die App zum Einbetten anbieten – fast 500.000 Mal geklickt worden (siehe Graph oben). Etwa Achtmal soviel, wie die Traceroute-Geschichte. Das zeigt eindrücklich, dass Datenboulevard funktionieren kann. Zumindest wenn es um die „Eyeballs“ geht, also Klicks generiert werden sollen.

Weiterlesen

Land unter beim Onlinejournalismus – Verpasste Chancen beim Hochwasser

Hin und her gingen die Überlegungen. Wäre „Deichbruch am Bildschirm“ nicht passender gewesen oder noch origineller „Im Web im Regen stehen gelassen“? Aber es geht ja nicht um einen Wettbewerb in dämlichen Überschriften, sondern um eine Bestandsaufnahme: Wie wird das Hochwasser, das seit zehn Tagen bestimmendes Thema in Deutschland ist, von den „Qualitätsmedien“ im Netz erzählt und berichtet?

Kurz zusammengefasst: Entäuschend. Bildstrecken, Texte, kärgliche Infografiken. Dabei sind die Nachrichten voll mit Namen von Orten, Flüssen und Deichen. Aber wo sind die? Welchen Gebieten droht in absehbarer Zeit Hochwasser? Wann kommt die Scheitelwelle? Was wurde überflutet, welche Schäden wurden angerichtet?

Eigentlich ein Fest für Datenvisualisierung. Man denke nur an Werke wie den Storm Tracker. Oder interaktive Grafiken der NYT rund um Unwetter und Naturkatastrophen (die NYT hat immerhin eine Karte mit überfluteten Gebieten in Dtl.). Inspiration gibt es genug. Und noch dazu gibt es Daten. Pegel Online veröffentlicht faktisch Open Data, also frei verwendbare Daten über die Pegelstände. Sogar per Schnittstelle, API.

Weiterlesen

Datenjournalismus im Mai 2013

Eine Auswahl von Links, Materialien, Tools und Termine

Bildschirmfoto 2013-06-06 um 16.57.17

Eine Zeitleiste, die bis zu den Anfängen der Menschheitsgeschichte reicht, zeigt Meilensteine der Visualisierung (s.o.).

Nicht alle teilen die Begeisterung über Hochglanz-Slideshows wie Snowfall oder Firestorm. Neben inhaltlicher Kritik äußert Choire Sicha vor allem Bedauern, dass sich wieder das mehr Öberflächliche gegenüber dem faktenbasierten „Nate Silver model“ in der Debatte über die Zukunft des Journalismus durchgesetzt zu haben scheint. (In dem Zusammenhang: siehe auch die Parodie „Icefall„)
Weiterlesen

Volkszählung #zensus2011: Vorschau auf die Zensuskarte

Die Zensuskarte hat etwas von einem Experiment.

Morgen, Freitag um 11 Uhr, veröffentlichen die Statistischen Ämter die erste Marge an Daten der im Jahr 2011 durchgeführten Volkszählung. Die erste seit 1987(BRD) bzw. 1981(DDR). Es geht dabei auch um viel Geld; z.B. die Bemessungsgrundlage des Länderfinanzausgleichs, die auch auf Einwohnerzahlen beruht.

Im Auftrag der Bundeszentrale für politische Bildung haben wir von OpenDataCity das Angebot zensuskarte.de entwickelt. Dort steht eine Vorschau bereit Mittlerweile läuft die Karte – sie ist noch recht Beta; wird nach und nach mehr Funktionalität bieten.

Die Anwendung ist unter CC:by lizenziert und erlaubt allen das Einbetten von Karten – siehe oben.

Die Idee ist: Morgen so schnell wie möglich, die Daten des Zensus in die Karte einfließen zu lassen. Das Experiment macht aus, dass nur ungefähr bekannt ist, wie genau die Daten darherkommen. Zwar wurde eine Shapefile, also die Grenzen der Gemeinden, von Anfang 2011 zur Verfügung gestellt. Aber ob sich die Daten für die gut 11.000 Gemeinden einfach hineinpassen lassen, bleibt abzuwarten.

Aktuelle Infos gibt es dann morgen auch auf Twitter unter @zensuskarte.

[Update: Die Vorschau ist von der Einfärbung her nicht sehr schlau – sie zeigt die absoluten Einwohnerzahlen; besser wären bspw. Einwohner pro Quadratkilometer. (Jetzt zeigt die Karte wirkliche Zensusdaten). Siehe dazu Take Care of your Choropleth Maps]

Weiterlesen

re:log: Hintergrund zur Auswertung der W-LAN-Nutzung auf der re:publica 2013

In der Anwendungen lassen sich Gruppen markieren und über die Zeit verfolgen

In der Anwendungen lassen sich Gruppen markieren und über die Zeit verfolgen

Rund 100 Access-Points sorgten für die Netzabdeckung im Veranstaltungsort „Station“ in Berlin. Wann ein Gerät sich während der re:publica 2013 bei welchem Zugriffspunkt anmeldete, wurde festgehalten und diese Daten nutzt unsere Web-App re:log. Wir bekamen von den re:publica Veranstaltern einen pseudonymisierten Datensatz. Da die Macher einen detailliertes Mitschneiden des W-LAN nicht angekündigt hatten – etwa die Aufzeichnung der gesamten Hardware/MAC-Adressen oder des Traffics auf einem Gerät – kann aus Datenschutzgründen nur der Aspekt Verbindungsdauer und -ort ausgewertet werden.

Fürs kommende Jahr, so wird angekündigt, wolle man aber „ gerne vom ‚Aluhut-‚ in den ‚Spackeria-Modus‘ wechseln“ und eine tiefergehende Analyse ermöglichen. Weiterlesen

Datenjournalismus im April 2013

Eine Auswahl von Links, Materialien, Tools und Termine

Bildschirmfoto 2013-05-04 um 08.28.53

Ein Mammutprojekt: Unter Leitung von Julius Tröger hat die Berliner Morgenpost den Flugverkehr über Berlin visualisiert. Die 3D-Ansicht ist sehenswert. Sie zeigt, welche Lärmbelastung für eine jeweilige Adresse anfällt. Ein weiteres Beispiel für die Nachhaltigkeit von Datenjournalismus: Die Anwendung bleibt aktuell und zieht neueste Daten automatisiert ein. Hintergründe finden sich hier im making of.

Die Flugroutengeschichte ist eines der 72 Projekte, die für den internationalen Data Journalism Award nominert wurden. Die Preisverleihung ist Mitte Juni in Paris. Auch unter den Nominierten beim Grimme-Online-Award finden sich einige datenlastige oder gar datenjournalistische Projekte. Am 21. Juni werden dafür die Preise vergeben.

Was der Wechsel der Chefredaktion bei der Spiegel/SpOn für den Datenjournalismus dort im Haus bringen wird, muss sich noch zeigen. Jedenfalls gibt es dort nun das Blog „Datenlese„. Auch ist gerade die Datenjournalistin Christina Elmer vom Investigativ-Ressort des Sterns zu SpOn gewechselt.

Weiterlesen

Es fehlt an Ausbildungsmöglichkeiten für Datenjournalismus

Trifft ein Journalismustrainer einen anderen. Bericht der eine: „Frag‘ ich die Studierende, was wollt ihr denn später im Journalismus machen? Und nicht wenige sagen, Seite 3 in der SZ oder FAZ schreiben.“ Schüttelt der zweite den Kopf: „Ja, dann frag‘ sie mal, wie viele von ihnen ein Zeitungsabo haben.“ „In der Regel keiner“, antwortet der erste. Beide lachen.

Zeitungsreporter ist der schlechteste Job, den man in den USA zur Zeit anstreben kann. Holzfäller und Militärangestelle kommen auf Platz 2 und 3 der Studie eines Jobportals, das solch ein Ranking seit vielen Jahren anbietet und Kriterien wie Einkommen, Aufstiegschancen und Stress anlegt.

Die sogenannte Zeitungskrise in den Vereinigten Staaten spielt zwar in einer anderen Liga, aber auch hierzulande sind die rosigen Zeiten längst vorbei. Die IVW-Zahlen für das erste Quartal 2013 geben eine Ahnung davon, dass die gedruckte Zeitungslandschaft in Deutschland in naher Zukunft weiter schrumpfen dürfte.

Die eingangs geschilderte Unterhaltung zeigt die seltsame Lage: Diejenigen, die heute Journalismus lernen, sind geprägt von Klischees, Vorbildern und Legenden, die ihnen in der Realitität ihres zukünftigen Berufsfeldes wenig bis gar nicht begegnen werden. Es ist das Dilemma, dass sie nicht selten Ausbildern gegenüber sitzen, die ebenfalls von diesen Bildern in ihrem Selbstverständnis geprägt sind und alten Zeiten hinterhängen.

Der Pariastatus, aus dem sich Onlinejournalismus nur langsam lösen kann, hat nicht zuletzt für Leerstellen in der Ausbildung gesorgt. Ausbildungswege in diesem Bereich hecheln, wenn überhaupt, der rapiden Fortentwicklung des Netzes hinterher. In den USA dagegen verlassen demnächst die ersten Absolventen des Studiengangs „Journalism & Computer Science“ die Columbian Journalism School.

Weiterlesen