»Sie ha-ben ein-e neu-e Nach-richt«
Wie Computer sprechen lernen: Arndt Riester sucht neue Wege, Spracherkennung und Verarbeitung zu programmieren
Stuttgart. »Sie ha-ben ein-e neu-e Nach-richt«, so holprig-hölzern hören sich Computer- oder Roboter-Stimmen oft an. Diese Maschinen sind mit Spracherkennung und Sprachverarbeitungs-Programmen gefüttert - doch nicht immer geben sie den gemeinten Inhalt wieder. Der Stuttgarter Computerlinguist Arndt Riester sucht neue Wege, um der Elektronik das richtige Sprechen beizubringen.
Texte in Gesprochenes verwandeln, das leisten beispielsweise Vorlesegeräte, die vor allem Blinde häufig nutzen. Für den umgekehrten Weg, Worte in Schriftliches umwandeln, kann man zu Diktierprogrammen greifen. Sprechende Tablets und Navi-Geräte sowie Anwendungen auf Smartphones sind weitere Einsatzgebiete für Sprachtechnologien. »Diese Maschinen-Stimmen sollen natürlicher klingen«, nennt Riester, Mitarbeiter beim Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart, als Ziel. Das gelingt, indem der monotone Sprachfluss durch Klangfarben, wie etwa hohe oder tiefe Stimmlagen, ersetzt wird. Gleichzeitig bilden sich so inhaltliche Schwerpunkte heraus.
»Man geht mit der Stimme nach oben, wenn etwas betont wird«, erläutert der Wissenschaftler. Wobei durch das hervorgehobene Wort Unterschiedliches ausgesagt wird. Denn wird im Satz »Das Geschenk brachte Paul« das Geschenk hervorgehoben, soll deutlich gemacht werden, um welches Objekt es geht: also um ein Geschenk und nicht etwa um Gepäck. Hat dagegen das Wort am Satzende mehr Bedeutung, zielt diese Betonung auf die Person ab: Gemeint ist Paul und nicht etwa Peter.
»Die Betonung muss an die richtige Stelle gesetzt werden«, sagt der Linguist. Dafür braucht eine Software Regeln. Eine Regel lautet: Neue Information finden und verstärken. »Es werden die vorherigen Text- oder Sprachstellen durchsucht. War beispielsweise schon mehrfach von Paul die Rede, ist das neue und damit zu betonende Wort ‘Geschenk’«, sagt Riester.
Doch die Sache ist komplizierter. Beispielsweise bei Angela Merkel. Steht an anderen Textstellen Bundeskanzlerin oder CDU-Politikerin, »übersieht« der Rechner, dass dieselbe Person gemeint ist. »Dieses Wissen hat jeder von uns im Kopf. Damit aber eine Software die Zusammenhänge erkennt, muss ihr diese Hintergrundinformation mitgeliefert werden, etwa durch Datenbanken wie Wikipedia.«
Fachleute sprechen dann von »Wissensquellen«, mit denen eine Software ausgestattet wird. Durch diese lassen sich auch Gemeinsamkeiten finden und in Klassen einordnen. Obst (Äpfel, Birnen usw.) ist eine Klasse, die sich von anderen Klassen wie Orte (Markt, Geschäft) unterscheidet. Hat eine Software diesen Schritt geschafft, greift eine weitere Regel: Gegensätze werden betont.
Ab den späten 50er Jahren startete die Computerlinguistik in den USA. Damals hoffte man auf automatische, also maschinelle Übersetzungen. Die Resultate waren schlecht, die Förderung wurde eingestellt. Seit den 70er Jahren wird der Begriff Computerlinguistik offiziell verwendet. Die ersten entsprechenden Studiengänge in Deutschland bot neben dem Institut für Maschinelle Sprachverarbeitung der Universität Stuttgart die Universität des Saarlandes an. Heute kann man das Fach unter anderem in Potsdam, München oder Zürich studieren.
Im Vergleich zu den Anfängen können Computerlinguisten wie Riester heute auf große Datenmengen zugreifen, die durchs Internet zugänglich sind. Aber es gibt noch viel tun. Denn damit eine Roboter-Stimme natürlicher wirkt, müssen auch Gespräche analysiert werden. Riester wird etwa deutsche und französische Dialoge vergleichen: Er will klären, welche Rolle Pausen bei der Akzentuierung in der jeweiligen Sprache spielen. Ein weiteres Feld sind Fragen. Denn ein »Gehen wir in den Zoo?« (Nachfrage), »Wir gehen in den Zoo?« (Entsetzen) oder »Wir gehen in den Zoo, oder?« (Unsicherheit) sagt Verschiedenes aus - und das spiegelt sich in unterschiedlichen Tonlagen.
Riester nutzt für seine Forschungen 60 Interviews des Radiosenders SWR 2. Die Auswertung dieser spontan gesprochenen Worte ist noch in vollem Gange. Nach einem Jahr abgeschlossen ist der zweite Basis-Datensatz, vorgelesene und abgetippte Radionachrichten des Deutschlandfunks. Langfristig visiert er an, Texte vom Computer so gut in ihren Feinheiten und Komplexitäten zu erfassen, dass sich genaue Regeln aufstellen lassen. Klappt das, wird die Maschinenstimme wie ein guter Vorleser funktionieren: Sie versteht den Inhalt, betont richtig - und sagt korrekt, was gesagt werden soll. epd/nd
Mehr Infos auf www.dasnd.de/genossenschaft
Das »nd« bleibt gefährdet
Mit deiner Hilfe hat sich das »nd« zukunftsfähig aufgestellt. Dafür sagen wir danke. Und trotzdem haben wir schlechte Nachrichten. In Zeiten wie diesen bleibt eine linke Zeitung wie unsere gefährdet. Auch wenn die wirtschaftliche Entwicklung nach oben zeigt, besteht eine niedrige, sechsstellige Lücke zum Jahresende. Dein Beitrag ermöglicht uns zu recherchieren, zu schreiben und zu publizieren. Zusammen können wir linke Standpunkte verteidigen!
Mit deiner Unterstützung können wir weiterhin:
→ Unabhängige und kritische Berichterstattung bieten.
→ Themen abdecken, die anderswo übersehen werden.
→ Eine Plattform für vielfältige und marginalisierte Stimmen schaffen.
→ Gegen Falschinformationen und Hassrede anschreiben.
→ Gesellschaftliche Debatten von links begleiten und vertiefen.
Sei Teil der solidarischen Finanzierung und unterstütze das »nd« mit einem Beitrag deiner Wahl. Gemeinsam können wir eine Medienlandschaft schaffen, die unabhängig, kritisch und zugänglich für alle ist.