Neo Tech Blog

NEO TECH LBLOG - Praxis-Techblog für IT, Web und Mobile
News Stream 3.0

Big Data für Journalisten –
Twitter Analyse der britischen Unterhauswahlen

1 Kommentar

Twitter ist für viele Journalisten eine der primären Informationsquellen, wenn es um die Analyse von Social-Media-Inhalten oder Breaking-News-Ereignisse geht. Im Rahmen des Forschungsprojektes „News-Stream 3.0“ wurde ein Demonstrator entwickelt, der Twitter-Analysen auf einfache Weise ermöglicht.

Damit Journalisten und Redakteuren den kontinuierlich, ständig wachsenden Daten- und Informationsstrom in Echtzeit bändigen können, entstehen im Forschungsprojekt „News-Stream 3.0″ Recherchetools, die große Datenmengen aus Videos, sozialen Netzwerken, Blogs und Archiven bündeln und die wichtigsten Informationen gezielt bereitstellen. Twitter stellt in diesem Zusammenhang eine erste Datenquelle dar.

Zu den britischen Unterhauswahlen 2015 wurde ein erster Demonstrator umgesetzt, mit dem sich die Twitter-Reaktionen auf die Wahldebatten verfolgen lassen. Das Kopf-an-Kopf-Rennen der Parteien lässt sich an einem Zeitstrahl ablesen, auf dem die Anzahl der Tweets von Labour und Tories verglichen wird.
GE2015_UK

Die Big Data Infrastruktur

Aus journalistischer Sicht sollte sich der Demonstrator unbedingt von starren Datendashboards lösen und Journalisten mehr Flexibilität bei der Datenaufbereitung, -analyse und -visualisierung geben. Interessant sind an dieser Stelle deshalb weniger die Ergebnisse der Analyse, sondern die verwendeten Technologien. Hinter dem Demonstrator steht eine ausgewachsene Big-Data-Infrastruktur: ein Hadoop-Cluster mit 16 Nodes und einer Speicherkapazität von insgesamt 100 Terabyte, auf dem Clouderas Open-Source-Distribution betrieben wird, die sowohl eine verteilte Stapelverarbeitung als auch die Echtzeitanalyse mit Apache Spark ermöglicht. Für die performante Auslieferung von Daten bindet Cloudera die verteilte Open-Source-Suchlösung Apache Solr an.

Logfile-Analyse setzt sich durch

Das verwendete Dashboard stammt aus einem anderen Kontext, nämlich der Logfile-Analyse. Während Big Data für viele Unternehmen bisher noch kein Thema ist, hat sich im IT-Betrieb die kollaborative Auswertung von großen Mengen von Logfiles durchgesetzt – auch dank des interaktiven Dashboards “Kibana”, das ursprünglich als Demo-Applikation für die Open-Source-Suche Elasticsearch entwickelt wurde. Ebenso wie Twitter ist auch bei Logfiles die Zeit die wichtigste Dimension: hier geht es z.B. um die Anzahl der Nutzer oder der Fehlermeldungen pro Zeiteinheit. Mit wenigen Klicks lässt sich bei Kibana ein neues Dashboard als Kopie erstellen oder ein Widget hinzufügen.

Die Auswahl reicht von Säulen- und Tortendiagrammen über Kartendarstellungen bis zu Tagclouds und Listen. Flexibilität ist für die Nutzer von Loganalyse-Tools zentral: wenn z.B. zusätzliche Informationen geloggt werden, muss es einfach möglich sein, auf diese Informationen zuzugreifen und sie im Dahsboard anzuzeigen. Eine gute Benutzbarkeit ist angesichts der hektischen Arbeitsbedingungen im IT-Betrieb ebenfalls von großer Bedeutung.

Die Ähnlichkeit zu den Anforderungen von Redakteuren sind frappierend. Es lag daher nahe, ein Dashboard wie “Kibana” für die Twitter-Analyse zu verwenden. Um eine nahtlose Integration in Clouderas CDH zu ermöglichen, wurde auf einen Entwicklungszweig von Kibana mit Namen “Banana” zurückgegriffen.

Textanalyse soll ausgeweitet werden

Die Twitter-Analyse ist nur der Anfang. Im nächsten Schritt wird es darum gehen, eine Vielzahl von Quellen anzubinden und die Nutzungsmuster der Redakteure zu untersuchen. Ergebnisse der im Projekt entwickelten Textanalyse-Algorithmen werden an die Stelle der vom Datenanbieter wie Twitter gelieferten Metadaten treten. Durch die semantische Analyse von Texten und die anschließende automatisierte Verschlagwortung der Texte kann der Redakteur in Sekundenschnelle verfolgen, was auf Blogs, über Twitter oder in anderen sozialen Medien berichtet oder diskutiert wird. Der aktuelle Demonstrator dient dabei als Baukasten. Eine Aufgabe wird der Export von Widgets bzw. der ermittelten Datensätze für die Nutzung in anderen Formaten und Applikationen sein. Auch die visuelle Weiterentwicklung spielt eine Rolle – auch hier ist für eine einfache Erweiterbarkeit gesorgt, da die gewählte Lösung auf der im Datenjournalismus beliebten Open-Source-Bibliothek D3.js basiert.

 

Das vom Bundes­ministerium für Bildung und Forschung (BMBF) geförderte Forschungsvorhaben „News-Stream 3.0“ wird durch das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS und Neofonie unter Beteiligung von Deutsche Welle und der dpa Tochter dpa-infocom umgesetzt.

Mehr auf http://newsstreamproject.org/

Peter Adolphs

Autor: Peter Adolphs

Peter Adolphs hat an der Humboldt-Universität zu Berlin Informatik und Linguistik studiert. Er hat sechs Jahre beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) an den Themenbereichen Informationsextraktion und automatische Frage-Beantwortung gearbeitet. Heute ist er Head of Research bei Neofonie, wo er unter anderem Big Data und NLP Technologien praxisbezogen zusammenführt.

Ein Kommentar

  1. Ich freue mich schon, wenn es das Tool auf den Markt gibt. Es würde genau meine Bedürfnis abdecken, als Redakteurin bei ecommerce-software.rocks

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.