Wissen

Roboter lernen mit Wikipedia

Online-Enzyklopädie ist zur Schnittstelle zwischen natürlicher und künstlicher Intelligenz geworden

Hans-Arthur Marsiske
02.02.2013
Lesedauer: 4 Min.

Die Wissensressource Wikipedia, zusammengetragen von Millionen Internetnutzern weltweit, hat auch im 13. Jahr ihrer Existenz die Anrüchigkeit noch nicht ganz abgestreift. Zwar ist die Qualität der hier versammelten Beiträge weithin anerkannt, doch berufen mögen sich nur wenige darauf. In Universitätsseminaren und Zeitungsredaktionen sind Zitate aus dem Internet-Lexikon ebenso unerwünscht wie bei Juristen, obwohl Wikipedia bei Recherchen häufig der erste Anlaufpunkt ist. Was bei personalisierten, urheberrechtlich geschützten Texten schon Bundesminister gestürzt hat, ist demnach bei Wikipedia nicht nur erlaubt, sondern häufig sogar ausdrücklich gefordert: Man nutzt es, ohne die Quelle zu nennen.

Der kollektiv zusammengetragene Wissensspeicher bekommt jetzt aber Unterstützung von unerwarteter Seite. Seit etwa Mitte des vergangenen Jahrzehnts, als Wikipedia einen gewissen Umfang in mehreren Sprachen erreicht und eine stabile Form entwickelt hatte, beschäftigen sich mehr und mehr Forschungsteams mit deren Potenzial als Schnittstelle zwischen natürlicher und künstlicher Intelligenz (KI). Die Fachzeitschrift »Artificial Intelligence« (Vol. 194) hat diesem Thema jetzt sogar ein komplettes Heft gewidmet. Dessen Herausgeber sehen eine »Renaissance wissensgeprägter Ansätze in der KI«, die sie maßgeblich auf Wikipedia zurückführen.

Denn wenn Computerprogramme auch sehr schnell Suchbegriffe im Internet finden können, so sind Worte für sie doch erst mal lediglich Kombinationen von Buchstaben ohne jede Bedeutung. Ob mit »Bank« ein Sitzgerät oder ein Kreditinstitut gemeint ist, wissen sie nicht. Genau hier hilft Wikipedia. Was die Wissenschaftler an der Online-Enzyklopädie so begeistert, ist die dort vorgenommene »semistrukturelle« Aufbereitung des Wissens: Die Artikel sind nach einem Schema verfasst, untereinander verlinkt und einem hierarchischen Kategoriensystem zugeordnet. Das bietet viele Ansatzpunkte, um mit statistischen Verfahren Wortbedeutungen auf die Spur zu kommen und gezielt Informationen herauszufiltern.

Das an der University of North Texas bereits im Jahr 2007 entwickelte System »Wikify!« etwa ermittelt in einem Textdokument durch den Abgleich mit Titeln von Wikipedia-Artikeln und darin verlinkten Passagen zunächst Schlüsselwort-Kandidaten. Um diese Kandidaten hinsichtlich ihrer Bedeutung für den jeweiligen Text zu bewerten und in eine Rangfolge zu bringen, zählt »Wikify!« dann, in wie vielen Wikipedia-Artikeln ein Begriff bereits als Schlüsselwort genutzt wird, und teilt diese Zahl durch die Anzahl aller Dokumente, in denen der Begriff auftaucht. Bereits dieses einfache Verfahren erzielt eine höhere Trefferquote als etablierte statistische Methoden.

»Wikify!« ist von vielen Forschungsgruppen aufgegriffen und von den texanischen Forschern weiterentwickelt worden. Ihr Algorithmus erkennt nicht nur Schlüsselwörter, sondern auch inhaltliche Übereinstimmungen, selbst wenn unterschiedliche Begriffe verwendet werden. Mehr und mehr nutzen Forscher neben den Wikipedia-Kategorien und Artikeltiteln auch die erweiterten Abstracts oder Tabellen. Auf diese Weise soll es bald möglich sein, auch in stärker »verrauschten« Alltagstexten wie Chats und Online-Foren automatisch deren Kerninhalte zu identifizieren.

Damit Computer automatisch auf Wissen zugreifen können, muss es maschinenlesbar aufbereitet werden. Solche hochgradig strukturierten Wissensspeicher werden als Ontologien bezeichnet. Sie erfassen nicht nur Begriffe, sondern auch deren Eigenschaften und Beziehungen untereinander. Da sie bislang noch weitgehend von Hand erzeugt werden, decken sie zumeist nur einen schmalen, für die jeweilige Anwendung erforderlichen Bereich ab, etwa bei medizinischen Diagnosehilfen. Wikipedia erlaubt jetzt die automatische Erstellung von Ontologien und erschließt ihnen das allgemeine, in der englischsprachigen Wikipedia in über vier Millionen Artikeln enthaltene Wissen.

In die am Max-Planck-Institut für Informatik in Saarbrücken entwickelte Ontologie »YAGO« sind neben Wikipedia allerdings auch die lexikalische Datenbank »WordNet« und die geografische Datenbank »GeoNames« eingeflossen. Gegenwärtig umfasst »YAGO« zehn Millionen Einträge mit über 120 Millionen Fakten und ist damit der in internationaler Kooperation erzeugten Ontologie »DBPedia« ebenbürtig. Anders als »YAGO«, das sich auf die englische Sprache konzentriert, liegt »DBPedia« allerdings in 111 Sprachen vor. Die Mehrsprachigkeit von Wikipedia macht sich auch die am Heidelberger Institut für Theoretische Studien entwickelte Wissensdatenbank »WikiNet« zunutze und erreicht damit gute Ergebnisse bei der Identifizierung von Eigennamen: Die sind im Englischen gut an der Großschreibung zu erkennen und lassen sich von dort in andere Sprachen übertragen.

Für Roboter und andere intelligente Maschinen ist Wikipedia damit zum unverzichtbaren Wörterbuch geworden, mit dessen Hilfe sie nach und nach nicht nur das gesamte übrige Internet, sondern auch die reale Welt immer besser verstehen werden. Jan W. Amtrup, Computerlinguist bei der Firma Kofax, erwartet als Folge dieser Entwicklung, »dass das Internet immer weniger als eine passive Informationsquelle angesehen werden muss, sondern dass man quasi mit ihm kooperiert«. Bei Reisevorbereitungen könnte es dann bald passieren, dass der Computer empfiehlt: »Das Hotel ist in einer Gegend mit hoher Kriminalität. Ich weiß, es ist billig, aber vielleicht solltest Du doch besser dieses hier nehmen.«

Das »nd« bleibt. Dank Ihnen.

Die nd.Genossenschaft gehört unseren Leser*innen und Autor*innen. Mit der Genossenschaft garantieren wir die Unabhängigkeit unserer Redaktion und versuchen, allen unsere Texte zugänglich zu machen – auch wenn sie kein Geld haben, unsere Arbeit mitzufinanzieren.

Wir haben aus Überzeugung keine harte Paywall auf der Website. Das heißt aber auch, dass wir alle, die einen Beitrag leisten können, immer wieder darum bitten müssen, unseren Journalismus von links mitzufinanzieren. Das kostet Nerven, und zwar nicht nur unseren Leser*innen, auch unseren Autor*innen wird das ab und zu zu viel.

Dennoch: Nur zusammen können wir linke Standpunkte verteidigen!

Mit Ihrer Unterstützung können wir weiterhin:

→ Unabhängige und kritische Berichterstattung bieten.
→ Themen abdecken, die anderswo übersehen werden.
→ Eine Plattform für vielfältige und marginalisierte Stimmen schaffen.
→ Gegen Falschinformationen und Hassrede anschreiben.
→ Gesellschaftliche Debatten von links begleiten und vertiefen.

Seien Sie ein Teil der solidarischen Finanzierung und unterstützen Sie das »nd« mit einem Beitrag Ihrer Wahl. Gemeinsam können wir eine Medienlandschaft schaffen, die unabhängig, kritisch und zugänglich für alle ist.