Leibniz-WissenschaftsCampus „Empirical Linguistics and Computational Language Modeling“

Das Internet ist heutzutage zweifellos ein wichtiger Bestandteil des modernen Lebens und nimmt eine ständig wachsende Bedeutung in vielen Bereichen ein, so z.B. in der Wirtschaft, Politik, Kultur, Bildung, Umwelt, und als Kommunikationstechnologie. Auch die Wissenschaft hat das Potenzial des World Wide Web mit seinem Zugang zu umfangreichen und mit einer an jedem Tag wachsenden Menge an Sprachdaten in Form von geschriebenen Texten, Audios und Videodaten entdeckt.

Projektsteckbrief

Ansprechpartner:

Antonina Werthmann
Leibniz-WissenschaftsCampus
„Empirical Linguistics and Computational Language Modeling“ (LiMo)
werthmann@ids-mannheim.de

Website:
http://wisscamp.de/

In der Sprachwissenschaft werden zum Beispiel Webdaten zur computergestützten Analyse von natürlichsprachlichen Texten genutzt, um neue Erkenntnisse über die Sprache zu gewinnen. Die Sozial- und Kulturwissenschaften sind in der Lage, unter Nutzung von Webdaten die Grundfunktionen der Sprache und Kommunikation in ihren kulturellen Kontexten mit funktionalen, sozialen und regionalen Differenzierungen zu untersuchen. Aber auch in der Praxis sind Sprachdaten aus dem WWW unverzichtbar geworden, so z.B. für die Entwicklung von Systemen zur Sprachsteuerung und Spracherkennung oder zur automatischen Extraktion von Informationen.

Die große Herausforderung für die Nutzung von Sprachdaten aus dem Web besteht darin, große Datenmengen effizient zu bearbeiten, elektronisch zu speichern und für weitere Verarbeitungsschritte anwendungsbezogen aufzubereiten. Ein wesentliches Problem dabei ist, dass oft geeignete Methoden, Verfahren und Werkzeuge fehlen, um umfangreiche Sprachdaten für weitere Anwendungen nutzbar zu machen; oder – wenn diese doch vorhanden sind – so sind sie oft sprachspezifisch und für die Anwendung in einer anderen Zielsprache nicht geeignet. Beispielsweise können viele für das Englische entwickelte Methoden, Modelle und Werkzeuge nicht oder nur mit einem hohen Performanzverlust auf die deutsche Sprache angewendet werden. Selbst Methoden, die ursprünglich für das Deutsche entwickelt wurden, sind meist auf die Verarbeitung von geschriebener Standardsprache wie z.B. Zeitungstexte zugeschnitten und haben, wenn sie zur Verarbeitung von gesprochener Sprache oder von Sprache aus anderen Domänen angewendet werden, nur eine geringe Akkuratheit.

Abb. 1: Forschungsfeld des LiMo Projekts

Der Leibniz-WissenschaftsCampus „Empirical Linguistics and Computational Language Modeling“ (LiMo) ist eine seit September 2015 laufende interdisziplinäre Forschungskooperation zwischen dem Institut für Deutsche Sprache in Mannheim und dem Institut für Computerlinguistik der Universität Heidelberg, die sich der Entwicklung neuer Methoden, Modelle und Werkzeuge widmet, mit denen digitale Sprachbestände effizient erfasst und analysiert werden können.  Zu den Forschungsthemen des Campus zählen die Aufbereitung und statistische Analyse der Sprachressourcen, mit denen innovative Sprachverarbeitungsmodelle für das Deutsche entwickelt werden. Außerdem gehören die korpusbasierte Induktion linguistischer, insbesondere semantischer Sprachmodelle, die Verknüpfung von Textkorpora mit linguistischen Ontologien und Wissensbasen und die korpus- und computerlinguistische Analyse von Sprache unterschiedlicher Genres und Varietäten zu den Themen im Projekt.  Im Zentrum des Interesses steht die Entwicklung von schwach überwachten und unüberwachten Lernmethoden, die in der Lage sind, mit Hilfe sehr kleiner Datenmengen oder ganz selbstständig sinnvolle Konzepte abzuleiten und sie bei der automatischen Verarbeitung deutscher Sprachkorpora unterschiedlicher Genres und Domänen nutzbar zu machen. Zu den Zielen des Campus gehört die Erstellung umfangreicher und qualitativ hochwertiger Sprachkorpora der deutschen Gegenwartssprache, angereichert mit syntaktischen und semantischen Annotationen, sowie die Bereitstellung von effizienten Sprachverarbeitungsmodellen.

Abb. 2: Entdeckung und Verlinkung von Wissen zwischen Begriffen der automatischen Sprachverarbeitung am Beispiel von ACL-Publikationen

Das Konzept des WissenschaftsCampus beruht auf einer Initiative der Leibniz-Gemeinschaft, die sich zum Ziel gesetzt hat, die langfristige strategische Zusammenarbeit zwischen den Leibniz-Einrichtungen, wie z.B. dem Institut für Deutsche Sprache, mit vor allem regionalen Kooperationspartnern an den Hochschulen und in anderen Forschungsorganisationen zu unterstützen, sowie außeruniversitäre und universitäre interdisziplinär orientierte Forschung zu stärken. Der Leibniz-WissenschaftsCampus „Empirical Linguistics and Computational Language Modeling“ ist bislang der einzige WissenschaftsCampus, der sich der Erstellung von Methoden, Modellen und Ressourcen für die Verarbeitung und Analyse von deutschen Sprachdaten widmet. Mit diesem Projekt wird die erste mittelfristige Vernetzung mit regionalen Partnern im Bereich Sprachdaten und Sprachtechnologien gebildet, die sich durch hohe wissenschaftliche Qualität und fachliche Expertise auszeichnet sowie das Potenzial hat, Kooperationen aktiv weiterzuentwickeln und Ressourcen nachhaltig nutzbar zu machen. Neben der Leibniz-Gemeinschaft wird der Leibniz-WissenschaftsCampus „Empirical Linguistics and Computational Language Modeling“ vom Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg finanziell gefördert.

Abb. 3: Charakterisierung von Genres durch stilistische Textmerkmale

Sowohl der Präsident der Leibniz-Gemeinschaft, Prof. Dr. Matthias Kleiner, als auch die Wissenschaftsministerin Theresia Bauer bekräftigten ihre Unterstützung für das Projekt Leibniz-WissenschaftsCampus. Anlässlich des Eröffnungsfestakts im November 2015 sprachen sie dem Projekt hohe wissenschaftliche Relevanz sowie ein großes Potential für die Anwendung seiner Arbeitsergebnisse zu,   mit denen  interdisziplinäre Zusammenarbeit von universitärer und außeruniversitärer Forschung gestärkt werden könne.