Neo Tech Blog

NEO TECH LBLOG - Praxis-Techblog für IT, Web und Mobile
Ausschnitt des Web Annotation Demonstrator

Challenge zur Textanalyse – ERD-Challenge 2014

Keine Kommentare


In der von Microsoft und Google ausgeschriebenen ERD-Challenge 2014 traten mehrere Teams aus der ganzen Welt an, um ihre jeweilige Textanalyse-Technologie zu demonstrieren. Bewertet wurde die Genauigkeit, mit der die verschiedenen sog.  „Entity Recognition and Disambiguation“ Lösungen (ERD) arbeiten.

ERD-Systeme erkennen in Texten Entitäten, die wichtige Träger von inhaltlichen Informationen und ein Anknüpfungspunkt in die reale Welt sind. Zu den Hauptentitätstypen gehören neben Personen und Organisationen auch Orte. Das System erkennt dabei, dass es sich bei Peter Müller um eine Person handelt, und bei DPA um eine Organisation und bei Berlin um einen Ort. Viele Begriffe sind aber ambigue, d.h. sie sehen zwar gleich aus, bezeichnen aber unterschiedliche Dinge. So kann Berlin natürlich ein Ort sein, aber eben auch die Musikband Berlin. Hinzukommt, dass es sogar für Berlin verschiedene Orte gibt, die im Text gemeint sein können. Dieses Mapping auf die realen Entitäten bezeichnet man Entity Linking oder, um den Begriff der Auflösung der Ambiguität aufzugreifen,  Entity Disambiguation.  Aufgabe in der Challenge war das Finden der Entitäten, das Disambiguieren und das Verlinken in eine Wissensbasis. Als Wissensbasis war Freebase gefordert. Eine Jury aus Mitarbeitern von Google, Yahoo und Microsoft werteten die konkurrierenden Systeme der teilnehmenden Teams durch von Hand annotierte Textdokumente aus.

Bis zum Ende der Testphase am 10. Juni konnten die teilnehmenden Teams ihre Systeme testen (einige hatten schon mit der Anbindung Probleme) sowie technische und inhaltliche Anpassungen vornehmen. Dazu konnten die Teams Testläufe über eine von Microsoft bereitgestellte Oberfläche initiieren und den eigenen Webservice mit Testdokumenten anfragen. Als Ergebnis wurden diese Testläufe in einer Übersicht dargestellt.29.05.14 - 1 Man bekam in einem Leaderboard angezeigt, welche Precision und welchen Recall man mit dem jeweiligen Durchlauf erreicht hat.

Unser Neofonie Entity Recognition Team aus der Research-Abteilung hat für diese ERD-Challenge  das erste Mal unser brandneues englisch-sprachiges Named Entity and Disambiguation System (NERD) Ende Mai an den Start gebracht und zunächst beim ersten Einreichen sofort die Führung von 27 Konkurrenten im Leaderboard übernommen. Eigentlich war dieser erste Test dafür gedacht, unsere technische Anbindung an die API, die durch Microsoft gefordert wurde, zu testen. Natürlich gab es bis zum Ende der Testphase noch Verschiebungen, dazu aber später mehr.

Man konnte an zwei unterschiedlichen Tasks arbeiten: kurze oder lange Texte. Das Ziel im ersten Fall ist, in kurzen Texten – typischerweise sind das Suchanfragen von Usern an eine Suchmaschine – sogenannte Entitäten wie Personen, Orte, Organisationen usw. zu erkennen und, wenn sie unterschiedliche Bedeutung haben, die exakte Bedeutung zu bestimmen. So kann die Anfrage „Golf“ die Suche nach dem Auto, dem Meeresteil, der Sport oder einer Abkürzung sein. Bei „Schläger Golf“ ist das schon wieder eindeutiger. Wichtig ist dies für das Ausliefern von Suchergebnissen. Hier kommt der zweite Teil der Challenge ins Spiel. Das Annotieren von längeren Texten (typischerweise Webseiten) wird benötigt, um die richtigen Treffer für die Suche auszuliefern. Man will natürlich bei der Anfrage „Golf“ möglichst unter den ersten zehn Treffern Dokumente mit allen Varianten von Golf ausliefern, im anderen Fall „Schläger Golf“ Texte mit Golfschlägern oder dem Sport Golf. Das ist natürlich nur ein Anwendungsfall für das Entdecken von Named Entities in Texten.  Unsere Teilnahme beschränkte sich auf den Task mit den langen Texten oder wie es im englischen dann heißt: „Long Track“.

Ausschnitt des Web Annotation Demonstrator

Ausschnitt des Web Annotation Demonstrator

Egal, wer vor der Deadline in der Testphase die Nase vorn hatte – den ersten Platz haben wir dann auch relativ schnell abgeben müssen, denn die Konkurrenz war hart und die Ergebnisse sehr eng beieinander-, Ernst wurde es erst, als die Jury nicht nur die immer gleichen 100 Testdokumente durch unseren Dienst schickte, sondern die echte Evaluation mit ganz anderen Dokumente durchführte.

Am 24. Juni wurde das Endergebnis bekannt gegeben:

Top scoring team: MS_MLI: Silviu Cucerzan, Microsoft **

Winner of the first prize : MLNS: Marek Lipczak, Arash Koushkestani and Evangelos Milios, Dalhousie University.

Winner of the second prize : Seznam Research: Jan Prochazka, Alan Eckhardt, Juraj Hresko and Otakar Smrž, Seznam Research

** One member of the MS_MLI team and one member of the SMAPH team are affiliated with the same companies as the organizers of the ERD Challenge. The challenge organizers have decided that such teams are allowed to participate in the competition and be ranked alongside other teams, but are not eligible for monetary prizes.

Zum drittplatzierten, Seznam Research, muss man wissen, dass www.seznam.cz eine tschechische Suchmaschine mit ca 55 % Marktanteil ist.

Wir haben einen ganz passablen 6. Platz erreicht und waren zudem die zweitschnellsten.

Mehrere Nebeneffekte werden bleiben: Wir haben jetzt mit einem Schlag ein englischsprachiges NERD, den wir durch einen externen Wettbewerb auf Qualität prüfen lassen konnten. Wir haben bei der Adaption von unserem deutschen NERD-System ins Englische einen Wissenstransfer zwischen KollegInnen erreicht und konnten die Algorithmen nochmal validieren und alle Stellen des Prozesses reviewen. Außerdem hat es allen Beteiligten Spaß gemacht und der Wettbewerb war Herausforderung und Ansporn. Und eine Veröffentlichung auf einer Konferenz ist auch dabei herausgekommen.

Heiko Ehrig

Autor: Heiko Ehrig

Heiko Ehrig ist Head of Research und befasst sich intensiv mit Themen wie Data Mining, NLP, Semantic Search und automatischen Textanalysen.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.