Dilemma schema.org

Was der neue semantische Web-Standard der Suchmaschinen für Onlinejournalismus bedeutet

Ausschnitt aus der Liste mit Auszeichnungselementen von schema.org

Zeitungssterben ist mittlerweile ein alter Hut. Was aber auf uns zukommt ist Webseitensterben. Onlinemedien, Nachrichten- und Zeitungswebsites werden es zukünftig noch schwerer haben. Das faktische Ableben von netzeitung.de vor einiger Zeit war davon nur ein Vorbote. Die Zwickmühle, tragfähige Erlösmodelle zu entwickeln, bevor sie Ertrag bringen; die Notwendigkeit, in Vorleistung zu gehen, wird noch größer durch schema.org.

Diese neue Auszeichnungssprache haben Anfang Juni Google, Bing und Yahoo Anfang in ungewohnter Allianz etabliert. Sie besteht bislang aus rund 300 Elementen, mit denen sich im HTML-Code der Seite Informationen wie Orte, Personen, Veranstaltungen, Produkte auszeichnen lassen. Der Besucher der Website selbst sieht das nicht, aber die Suchmaschinen, die in regelmässigen Abständen große Teile des Internets immer wieder indexieren, kartieren, „crawlen“ – sie profitieren davon.

schema.org könnte sich als wirklicher Startschuss für das Semantic Web, das Web 3.0 erweisen, das der WWW-Entwickler Tim Berners-Lee bereits 2001 skizzierte. (Allerdings freuen sich Aktivisten des semantic web nur bedingt über schema.org, das neben RDFa und den Microformats von HTML5 einen weiteren Standard etabliert. Mehr dazu in dem lesenwerten Artikel What schema.org means for SEO and beyond. Übrigens gibt es für Online-News auch ein extra RDF-Gerüst: rNews)

Es ginge den Suchmaschinenbetreibern darum, bessere Ergebnisse zu liefern, verharmlosen sie selbst ihre Intention. Faktisch dürfte ihre Motivation aber sein, noch besser automatisiert Content aus Webseiten auslesen zu können und als eigenen Inhalt in den Suchergebnissen zu zeigen. Und damit die User auf ihrer eigenen Seite zu halten und ihnen so länger die Werbung der eigenen Anzeigenkunden präsentieren zu können.

Eric Schmidt, mittlerweile im Verwaltungsrat von Google, sagte unlängst auf einer Konferenz: „Wir haben jetzt genug Künstliche-Intelligenz-Technologie und können ausreichend genug skalieren und so weiter, dass wir ihnen beispielsweise die richtige Antwort im wörtlichen Sinne berechnen können.“

In Ansätzen ist das seit einiger Zeit in den SERPs von Google schon zu erkennen (SERPS – Search Engine Result Pages). Suchen sie heute in einer großen Stadt nach „Kino & Stadtname“, bekommen sie bereits das Kinoprogramm angezeigt. Ähnliches gilt für Wetterinformationen, Wechselkurse oder Börsenkurse. Auch Preisvergleiche hat Google schon längst im Programm (Stichwort „rich snippets“). Auch wies der Kauf der Flugverbindungs-Website ITA Software durch Google im vergangen Jahr daraufhin, dass sie Flüge bald direkt in der Suchmaschine suchen können.

Was heißt das nun für den Onlinejournalismus? Wenn Google News demnächst nicht nur eine Übersicht über Nachrichtenartikel präsentiert, sondern automatisiert zusammengestellt die Nachricht selbst?

Für Medienanbieter bedeutet schema.org zuerst einmal mehr Arbeit und Kosten. Sie müssen ihre Webseiten und Redaktionssysteme (CMS) anpassen, damit diese möglichst automatisch diese Auszeichnungen á la schema.org der Artikel und anderer Inhalte vornehmen. SEO, Suchmaschinenoptimierung, von den großen Nachrichtenwebsites ohnehin betrieben, bekommt somit eine weitere Dimension. Letztlich sind die meisten Newsseiten klickabhängig, da sie einen Teil des Traffics ihrer Seite über die unmittelbaren Suchergebnisse von Suchmaschinen generieren (die so genannten „organischen“ Ergebnisse). Ihnen bleibt nichts anderes übrig, als bei schema.org mitzumachen, wenn ihnen die „Einschaltquoten“ wichtig sind. Denn ein gemeinsamer Boykott aller journalistischen Angebote von schema.org wird es wohl kaum geben: Fängt einer an mitzumachen, müssen die anderen folgen. Und wenn nicht: Das Netz ist vielfältig genug, die faktische Unsichtbarkeit eines Teils der bestehenden Onlinemedien zu verkraften.

Das Dilemma: Journalistische Angebote sägen damit an dem Ast, auf dem sie zur Zeit sitzen. Wenn die Suchmaschinen Informationen gleich in mundgerechten Stücken geliefert bekommen, warum sollte der User die ursprüngliche Website, die Quelle der Nachricht, dann überhaupt noch besuchen und dort auf Anzeigen klicken?  Eine Folge könnte sein – vielleicht nicht die schlechteste -, dass Onlinejournalismus, wie er zur Zeit besteht, absehbar der Vergangenheit angehören wird. Das bloße Reinpumpen von Content, das einfache Wiedergeben von Beiträgen der Nachrichtenagenturen, mit dem das eigene Angebot aufgebläht werden soll, wird nichts mehr bringen. (Siehe dazu auch die Analyse von Stefan Niggemeier über die Inhalte von stern.de: „Anatomie einer Attrappe“. Für diverse andere großen Nachrichtenseiten dürfte sich das ähnlich darstellen.)

Will man nun Suchmaschinen wie Google oder spezielle Angeboten wie Wolfram Alpha als Onlinemedium in Zukunft Paroli bieten, gibt es aber einen gangbaren Weg: Neben eigenem genuinen Content wie Reportagen, Analysen und Kommentaren gilt es, selber gute semantische Logiken zu entwickeln. Diese finden automatisiert neue Informationen, Wissen und Nachrichten auf anderen Seiten (auch in anderen Sprachen), bereiten diese auf und organisieren sie schlüssig. Es geht also um das derzeit gerne im Mund geführte „kuratieren“ von Informationen. Redakteure wird es weiterhin geben, aber ihre Arbeitsweise wird sich weiter verändern: Ihnen wird obliegen, die Parameter der Redaktionsrobotor zu justieren und die dann von Softwaremaschinen vorbereiteten Stücke mit einer eigenen Note zu versehen. (Siehe dazu auch: What does the journalist of the future look like?)

Dabei wird Datenjournalismus eine große Rolle spielen. Das junge Genre bringt die Werkzeuge und Methoden mit, um große Datenmenge zu erfassen, zu verknüpfen, zu filtern, zu strukturieren und in neuen Erzählformaten abzubilden. Das kommende Webseitensterben kann also zum Verschwinden der Dinosaurier des Internets führen. Schlimm für manches Geschäftsmodell. Der User aber kann dadurch gewinnen.

 

19 Gedanken zu „Dilemma schema.org“

  1. Wenn sich die journalistische Online-Medien auf Reportagen, Kommentare und andere weniger einfach auszulesende Formate konzentrieren – wieso sollten sie überhaupt noch den Anschein erwecken, Nachrichten zu bringen?
    Wenn sie selbst zu Datenkuratoren werden, stehen sie in der Kette der Aufbereiter so weit hinten, dass sie zur Recherche selbst nichts mehr beitragen. Wieso dann noch die Illusion erwecken, dass aus dem Netz zusammen gepflückter Nachrichten-Content journalistische Inhalte sind?

    1. Ist die Aufgabe des Journalisten nicht vielmehr Neues, Zusammenhänge, Interessantes, andere Sichtweisen und auch Unangenehmes, etc. mitzuteilen. Und zwar an möglichst viele Leute, nicht nur an die, die genau danach suchen… ? Mir ist der Kern dieser ganzen Diskussion über die Zukunft des Journalismus ohnehin zweifelhaft. Natürlich brauchen wir Journalisten. Denn ein Facebook liefert sicher keine Recherche. Bloß Miniausschnitte aus Meinungen. Und das Sammeln und Weiterleiten von Informationen ist sicherlich kein Journalismus…

    1. Ich finde diese Entwicklung eher positiv, weil auf Dauer viel von dem Misch-Masch heutiger Seiten verschwindet. Die regionalen Tageszeitungen hatten/haben im Print-Bereich eine Funktion, eine Übersicht über die Welt zu bieten.

      Im Web funktioniert das so ja schon länger nicht mehr, siehe die mehr als 1000 oder 2000 Artikel, die auf mehr oder minder ähnlich lautende Nachrichten zu ein und demselben Thema verweisen. Davon sind dann viele nur Varianten der Agentur-Meldungen.

      Warum können die Zeitungen nicht regional bzw. themen-spezifisch arbeiten? Es gibt so viele spannende Multimedia-Formen, die so nur im Web funktionieren, aber bisher selten ernsthaft genutzt werden. Durch bessere Metadaten bzw. schema.org entsteht ja auch ein Anreiz, so etwas überhaupt erst mal zu versuchen.

  2. Eine ähnliche Frage könnte man sich schon früher stellen, nämlich beim Anbieten von Feeds. Auch dort wird serviert, aggregiert, geschnipselt und schließlich das Besuchen der Webseite zur Nebensache. mspro machte sich dazu auch schon Gedanken.

    Ich selbst schließe mich Anja an; der große Agenturmeldungskurator Fefe beansprucht übrigens auch nicht für sich, Qualitätsjournalismus zu produzieren.

  3. Das Internet, insbesondere das Web, eignet sich hervorragend zum Informationen verbreiten, aber nicht zum Geldverdienen mit Informationsverbreitung. (Keine Ahnung wo man damit überhaupt Geld verdienen kann, ist mir aber auch egal.)

    Von mir aus können alle die sich im Netz äußern, nicht weil sie was sagen wollen, sondern um Geld zu verdienen, draußen bleiben. Ich würde nichts vermissen. Ich lese dort wo Leute Sachen von sich geben weil es ihnen ein Bedürfnis ist. Hier hab ich grad gelesen.

  4. Eindeutige Identifier und eine uniforme Strukturierung/Austauschformate sind notwendig um den Informationsmengen der Gegenwart/Zukunft Herr zu werden. Für kleine Anbieter mag das problematisch sein, allerdings würden diese ohne intelligente Suchverfahren auch untergehen – nämlich in eben jener Informationsflut…
    Des weiteren kann ich Ihrer Argumentation nur zustimmen: Wer weiterhin ein Stück vom Kuchen abhaben will muss etwas leisten und dann kann er (wenn er mit der Zeit geht) auch überleben. Die einzigen, die darunter leiden werden sind diejenigen die sowieso keiner braucht.

  5. Warum nutzt Google eigentlich nicht das Flattr Konzept und läßt dem Content-Ersteller direkt Geld zukommen – sagen wir x Cent pro Click / Suche / Maßeinheit.

    Ohne Content Ersteller kein Content, ohne Content kein Google.

  6. Sind sie noch zu retten? Hier geht es nicht um eine „semantic web“ Raubzug Revolution der großen pösen Internet-Konzerne. Man will nur endlich aus HTML das machen, was es von Anfang an hätte sein sollen: strukturierter Informationsträger. Tags wie waren nie dafür da, fürs Webdesign missbraucht zu werden, sondern sie hatte eine inhärente semantische Aussage. Das das bei 100KiB+ HTML für eine einzige News-Seite natürlich nicht sinnvoll umgesetzt wurde, ist die Misere, die man hier beseitigen will.

  7. „Wenn die Suchmaschinen Informationen gleich in mundgerechten Stücken geliefert bekommen, warum sollte der User die ursprüngliche Website, die Quelle der Nachricht, dann überhaupt noch besuchen und dort auf Anzeigen klicken?“

    Also ich frage mich ja, was manche Anbieter gerne hätten. Niemand darf so genau wissen, was auf ihren Websites drauf ist, denn wenn die Leute das schon wissen, dann kommen sie ja nicht mehr. Andererseits sollen die Suchmaschinen uns listen, und zwar bitteschön ganz oben auf Seite 1, sonst kommen die Leute natürlich auch nicht. Diese Geisteshaltung hat zu lange zu gut funktioniert, es ist absolut verständlich, daß die Suchmaschinenbetreiber darauf keinen Bock mehr haben.

    Davon abgesehen können sich gerade die Betreiber von journalistischen Angeboten – die naturgemäß nicht gerade aus hochstrukturierten Daten bestehen – ja auch mal Gedanken machen, ob’s ihnen nicht *innerhalb* ihrer eigenen Website, *innerhalb* ihrer eigenen Contentsysteme nützen könnte, wenn sie bspw. Personen- und Ortsnamen als solche markieren, statt sie unausgezeichnet im Fließtext stehen zu lassen. Die Idee gibt’s schon lange genug. An der Motivation hat es bisher offenbar vielerorts gefehlt. Nun denn …

  8. Verstehe die Argumentation nicht. Google kann dank Schema.org noch einfacher Content klauen und printet statt der Snippets gleich den kompletten Artikel aus, was Journalisten aber durch genuinen Content umgehen können?

    Und wenn ich die letzten beiden Absätze richtig verstehe, dann besteht die Chance des Datenjournalismus‘ ausgerechnet darin, so wie Google zu werden. Ich zitiere mal aus dem Text: selber gute semantische Logiken entwickeln – automatisiert neue Informationen finden – aufbereiten und schlüssig organisieren – Redaktionsrobotor justieren.

    Sorry, ich versteh’s nicht.

    1. @Dirk S. – Argumentation ist: schema.org wird dafür sorgen, dass das Geschäftsmodell von Nachrichtenagentur- und Pressemitteilungs-Wiederkäuer verschwindet. Ein Weg für Onlinemedien wäre, neben eigenem Content wie Reportagen, die auch per Auszeichnungssprache kaum automatisch auszuwerten sind, selber Dienste zu entwickeln. Die finden zukünftig in dem zunehmenden Angebot von semantisch ausgezeichnetem Content im Netz automatisiert dem eigenen Medienprofil entsprechend (Sport, Finanzen etc.) nützliche Informationen; wertet die aus und bereitet die auf. So wird das eigene Wegangebot sinnvoll ergänzt und dem Leser Arbeit abgenommen. Der kommt dann wieder, weil er entgegen der Suchmaschinen bei dem Webangebot einen ansprechenden Mix aus eigenen Inhalten und automatisierter Anreicherungen findet. Datenjournalismus bringt unter anderem dafür die Werkzeuge mit. Dieses Modell ist aber nicht seine alleinige Chance – das steht im letzten Absatz auch nicht, sondern dass er dabei eine große Rolle spielen kann.

      1. Damit fiele aber nicht das Geschäftsmodell von Nachrichtenagenturen weg, sondern Google würde einfach selbst eine. Der Schnellste beim Zusammenfassen, Kategorisieren und Verbreiten zu sein, das ist doch heute schon das Geschäftsmodell von denen. Nur der Kunde wechselt bzw. der Zwischenhändler fällt weg.

  9. Interessant ist in diesem Kontext doch die Diskussion ums Leistungsschutzrecht. Zwar wird dieses (teilweise zurecht) gerade in der Netzcommunity stark kritisiert, es ist aber eine Möglichkeit, zumindest die monetären Konsequenzen der Monopolisierung des Zugangs zu Informationen von Google und co. für die Informationserzeuger, also in letzter Konsequenz die Journalisten, abzufedern. In der öffentlichen Diskussion wird es zwar als Versuch der Verlage dargestellt, noch mehr Profit aus ihrem Content zu schlagen, indem sie der Politik ein unzeitgemäßes Vergütungsmodell einflüstern. Tatsächlich sind die Verlage aber schon längst selbst zu gejagten geworden und Google ist das gefährlichste Raubtier im Ring.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert