Neo Tech Blog

NEO TECH LBLOG - Praxis-Techblog für IT, Web und Mobile
Theresa Grotendorst und Julia Bode beim Content Hack Day

Wie sich mit TXT Werk Twitter beherrschen lässt

Keine Kommentare


Um im Zeitalter des Datenüberflusses relevante Informationen extrahieren zu können, sind neue Tools notwendig. Beim Hackathon-Event „Content Hack Day“ Ende November trafen sich Entwickler, um binnen 48 Stunden geeignete Tools zu entwickeln. Theresa Grotendorst und Julia Bode haben auf Basis der TXT Werk API eine Anwendung für Twitter entwickelt. Die Anwendung „My Twitter Bacon“ analysiert und kategorisiert die in den Tweets verlinkten Webseiten unter semantischen Gesichtspunkten. Der Nutzer kann so die für ihn relevanten Informationen einfacher und schneller erfassen. Neo Tech Blog hat die Entwicklerinnen interviewt.

Wie entstand die Idee für „My Twitter Bacon“?

Die Idee ist durch einen tatsächlichen Bedarf entstanden. Ähnlich wie wir, nutzen viele Leute Twitter vornehmlich zum Medienkonsum, denn es werden viele Links zu interessanten (Fach-)Artikeln gepostet. Allerdings fehlt meist der Kontext. Da jeder Tweet nur 140 Zeichen hat, reicht der Platz oft nicht aus, um in knappen Worten zu beschreiben, um welches Thema es überhaupt geht und warum der verlinkte Content interessant ist. Hinzu kommt, dass aktive Twitter-Nutzer im Schnitt über 100 anderen Nutzern folgen, da verliert man schnell den Überblick – Stichwort „Information Overload“. Wir hatten die Idee ein Tool zu entwickeln, dass die verlinkten Inhalte aus unserer Twitter-Timeline automatisch extrahiert und kategorisiert. So, dass wir als Nutzer einen schnelleren Überblick über die für uns relevanten Inhalte bekommen. 

Wie funktioniert die Anwendung?

Unsere Anwendung parst alle Tweets aus der Twitter-Timeline die einen Link enthalten und extrahiert den Content „hinter“ dem Link. Der Content wir dann über die TXT Werk API semantisch analysiert, automatisch getagged und kategorisiert (Politik, Kultur, Reise, Internet, Wissenschaft etc.). Unsere Anwendung zeigt schließlich einen Feed aller Inhalte die deine Twitter-Freunde geteilt und empfohlen haben. Diese Inhalte können dann mittels der Kategorien gefiltert werden, z.B.: „Zeige mir nur Inhalte zum Thema Internet und Wissenschaft“. Anhand der zusätzlichen Tags, erkennt man außerdem noch schneller, ob ein Artikel interessant ist oder nicht. So ist es nicht mehr nötig, die eigene “überflutete” Twitter-Timeline nach interessanten Inhalten/Artikeln zudurchforsten und immer wieder auf Links zu klicken, welche dann doch nicht interessant oder relevant für einen sind.

Zusätzlich haben wir noch begonnen, eine Schnittstelle zu einem Beacon einzubauen. Dadurch sollte es möglich sein, je nach Lokalität und Zeit nur Inhalte bestimmter Kategorien anzuzeigen. So wird man z.B. im Büro nur arbeitsspezifische Inhalte/Tweets sehen. In Anlehnung an das Wort „Beacon“ sind wir auch auf den Namen unseres Tools gekommen „Twitter Bacon“.

Extraktion von Content Links in der Twitter Timeline

Screenshot von My Twitter Bacon
Extraktion, Kategorisierung und Taggen

Extraktion von Content Links in der Twitter Timeline

Screenshot von My Twitter Bacon
Auswahl Kategorie Reise und Kultur

 

 

Warum habt Ihr Euch für die TXT Werk API entschieden?

Wir fanden die TXT Werk API sehr spannend, da sie es uns ermöglicht hat, den unstrukturierten Inhalten einen semantischen Kontext zu geben. Wir waren erstaunt, wie gut Kategorie-Klassifikation und Keyword-Extraktion (Tagging) funktioniert haben. In Zukunft wird die semantische Analyse und Auszeichnung von Inhalten eine zunehmend wichtige Rolle spielen, da so die Bedeutung von Informationen für Computer verwertbar gemacht werden kann. Dadurch ergeben sich spannende neue Anwendungsszenarien, wie z.B. semantische Empfehlungssysteme oder die automatische Anreicherung mit Zusatzinformationen durch Linked Open Data.

Wie seid Ihr technisch vorgegangen?

Zunächst haben wir uns überlegt welche Funktionen unser Tool umfassen soll. Bei der Konzeption stellte sich heraus, dass viele Funktionen in so kurzer Zeit nicht realisierbar sind. Das heißt, wir mussten Abstriche machen und priorisieren. Nur die Funktionen, die unbedingt nötig sind, um den eigentlichen Zweck des Anwendung zu ermöglichen, wurden eingebaut – ähnlich wie bei einem „Minimum Viable Product“ in der Lean Startup Methodik. Julia hat dann das Backend mit Javascript und PHP entwickelt, um die Twitter-API und TXT Werk API anzubinden, Theresa hat parallel das Frontend in HTML/CSS umgesetzt. Die größte Herausforderung lag beim Einbinden der Twitter-API. Das “Rate Limit” war beim Testen immer sehr schnell aufgebraucht, daher mussten wir einen Cache einbauen, der nur alle 10 min die Tweets erneut abruft und die alten zwischenspeichert.

Habt Ihr Ideen, wie das Tool weiter optimiert werden kann?

Julia hätte gerne die Beacon-Schnittstelle weiter ausgebaut, um die Inhalte kontext-sensitiv darzustellen. Außerdem wäre es wichtig, die Performance zu verbessern. Man muss im Moment doch einige Sekunden warten, bevor der Request zurück kommt und die Inhalte angezeigt werden. Theresa hätte gerne alle durch die TXT Werk API identifizierten Entitäten (Personen, Orte und Organisationen etc.) mit den URIs aus dem Freebase Knowledge Graph verlinkt, um sie als Linked Open Data zu vernetzen. Das wäre eine tolle semantische Anreicherung der Inhalte, damit sich der Anwender bei Interesse noch tiefergehend mit einer Thematik beschäftigen kann. Aber leider hat die Zeit beim Hackathon für diese Optimierungen nicht mehr gereicht, es gibt also noch einiges zu tun. Man könnte das Tool außerdem so erweitern, dass nicht nur die eigene Twitter-Timeline bzgl. geteilter Inhalte analysiert wird, sondern auch andere Social Media Dienste. Das User Interface könnte natürlich auch noch schöner gestaltet werden!

Was hat Euch an der Teilnahme am Content Hack Day gereizt?

Wir sind immer wieder begeistert, wie sich auf einem Hackathon innerhalb von 48 Stunden innovative Ideen zu einem fertigen Prototypen entwickeln. Dabei ist es toll zu sehen, welche Synergien sich zwischen Designern, Entwicklern und anderen Teilnehmern ergeben. Die Gruppendynamik und die Ergebnisse sind oft beeindruckend und das, obwohl der Zeitdruck hoch ist und sich die meisten Leute vorher nicht kennen. Im Berufsalltag arbeiten die Leute einzelner Fachbereiche leider selten so intensiv zusammen.

Wie kam Euer Team zustande?

Wir haben uns letztes Jahr bei einem anderen Hackathon in Berlin kennengelernt. Seitdem treffen wir uns immer mal wieder auf Veranstaltungen und Konferenzen in Hamburg und Berlin. Da wir beide von unserer Idee begeistert waren, war schnell klar, dass wir gemeinsam daran arbeiten möchten.

 

Mehr zum Textanalyse Tool – TXT Werk API

Mit TXT Werk können beliebige Texte nach semantischen Gesichtspunkten analysiert und automatisch mit Schlagworten und Metadaten angereichert werden. Die Texte werden thematisch klassifiziert, Schlagworte werden automatisch extrahiert, Daten und Zeiträume sowie Namenserwähnungen von Orten, Personen und Organisationen (Named Entities) werden erkannt und mit URIs aus dem Freebase Knowledge Graph verlinkt. Entwickler sind mit Hilfe der sehr schlanken JSON Rest API in der Lage, in ihren Anwendungen unstrukturierte Texte anzureichern und in die Linked Open Data Welt zu vernetzen.
Entwickler sind eingeladen, auf Basis der API eigene Ideen umzusetzen und können dazu bis zu einem bestimmten Datenvolumen die API kostenfrei nutzen.

 

Weitere Artikel zum Thema:
Wie mit Hilfe von TXT Werk ein Movie Game entstand

Autor: Theresa Grotendorst und Julia Bode

Theresa Grotendorst arbeitet als Beraterin für Content Management und begeistert sich rund um die Themen Content Strategie und Digital Publishing. Julia Bode ist Webentwicklerin und arbeitet bei der hmmh multimediahaus AG. Wenn sie sich nicht gerade auf Hackathons herumtreibt, strickt sie leidenschaftlich gerne und berichtet davon auf ihrem Blog Alpaka Me.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.