Partner

Wortschatz Leipzig

Deutscher Wortschatz / Leipzig Corpora Collection

Das Projekt Deutscher Wortschatz sammelt regelmäßig frei verfügbare Dokumente im Internet und bereitet diese auf. Das Ergebnis sind korpusbasierte Wörterbücher für über 250 Sprachen, in denen zu jedem Wort statistische Angaben, Beispielsätze und Links zu verwandten Wörtern enthalten sind. Das Angebot zählt zu den umfangreichsten Informationssystemen zur deutschen Sprache und stellt für viele weitere Sprachen die jeweils größten frei verfügbaren Datenmengen bereit. Es werden Korpora aus der Leipzig Corpora Collection / Projekt Deutscher Wortschatz zur Verfügung gestellt, basierend auf Zeitung, Wikipedia und Webtext. Die Suche nach und der Zugriff auf die Daten kann mithilfe der zentralen CLARIN-Suchfunktionen Virtual Language Observatory und Federated Content Search erfolgen. Darüber hinaus stehen Webservices zur Verfügung, mit denen verschiedene NLP-relevante Aufgaben in der CLARIN-Forschungsinfrastruktur ausgeführt werden können.

CLARIN-ERIC

European Research Infrastructure Consortium

CLARIN stellt Wissenschaftlern, Forschern, Studenten und Bürgerwissenschaftlern aller Disziplinen, insbesondere der Geistes- und Sozialwissenschaften, digitale Sprachressourcen über Single-Sign-On-Zugriff zur Verfügung. CLARIN bietet langfristige Lösungen und Technologiedienstleistungen für die Bereitstellung, Verbindung, Analyse und Pflege digitaler Sprachdaten und -anwendungen. Das CLARIN-Zentrum Leipzig arbeitet insbesondere auf technischer Ebene eng mit dem entsprechenden ERIC zusammen. Das Leipziger Zentrum ist an der Entwicklung der zentralen Suchsysteme Virtual Language Observatory (VLO) und Federated Content Search (FCS) beteiligt und betreibt das technische Monitoring der CLARIN-Infrastruktur.

Serbski institut / Sorbisches Institut

Das Serbski institut / Sorbische Institut mit Sitz in Bautzen und einer Zweigstelle in Cottbus erforscht die Sprache, Geschichte und Kultur der Sorben (Wenden) in der Ober- und der Niederlausitz in Vergangenheit und Gegenwart. Es sammelt und archiviert die dafür notwendigen Materialien, bereitet sie für die Forschung auf und macht sie zugleich der Öffentlichkeit zugänglich. Darüber hinaus richten sich die interdisziplinären Forschungen des Instituts auf die aktuelle Situation, die Spezifik und den Vergleich kleiner Sprachen und Kulturen in Europa. Die Arbeitsschwerpunkte des Instituts sind in drei standortübergreifenden Abteilungen Kulturwissenschaften, Sprachwissenschaft sowie Regionalentwicklung und Minderheitenschutz organisiert. Jede Abteilung erschließt ihr spezifisches Aufgabenfeld in interdisziplinärer Perspektive und vielfältiger Kooperation.

Verba Alpina

LMU München

Das Projekt erschließt den einzelsprachlich und dialektal stark fragmentierten Alpenraum in seiner kultur- und sprachgeschichtlichen Zusammengehörigkeit selektiv und analytisch und überwindet dadurch die traditionelle Beschränkung auf im wesentlichen aktuelle politische Einheiten (Nationalstaaten). Die ausgewählten Sachgebiete betreffen die Natur, die Kulturgeschichte und die kulturelle Gegenwart.

Sonderforschungsbereich (SFB) 1199

Verräumlichungsprozesse unter Globalisierungsbedingungen

Der Sonderforschungsbereich stützt sich auf ein breites Spektrums an Area Studies und sozial- und geisteswissenschaftlichen Disziplinen. Mit seinen zentralen Kategorien Raumformat und Raumordnung erarbeitet er eine Systematik, die sowohl eine Typologie der Raumformate erlaubt als auch ein historisches Narrativ zum Wandel von Raumordnungen unter Globalisierungsbedingungen ermöglicht. SFB 1199 und das CLARIN/Text+ Zentrum Leipzig kollaborieren, um die im Projekt entwickelten Ressourcen den wissenschaftlichen Communities zugänglich zu machen.

Open Source International Arabic News (OSIAN)

Das Open Source International Arabic News Korpus wurde auf Basis internationaler arabischer Nachrichten-Websites wie CNN, DW, RT und Aljazeera zusammengestellt. Das OSIAN-Korpus besteht aus 477.556 Artikeln mit 2.861.944 Sätzen und rund 157 Millionen Wörtern. Es liegt in XML vor, wobei jeder Artikel mit Metadaten versehen ist, die Informationen über seinen Ursprung samt Datum enthalten. Darüber hinaus ist jedes Wort mit Lemma- und Wortartinformationen versehen. Das CLARIN-Zentrum Leipzig unterstützte die Autoren beim Beschaffen und Verarbeiten der Korpora und bietet über sein Repositorium freien Zugriff auf die Daten.

Canonical Text Services (CTS)

Das Canonical Text Services-Protokoll definiert Dienste zum Identifizieren und Abfragen von Textfragmenten. Das CLARIN-Zentrum Leipzig hostet eine Instanz eines CTS-Repositories mit mehreren digitalen Textsammlungen.

Der Digitale Muqtabas

Der Digitale Muqtabas ist die digitale Ausgabe (im Format TEI XML) der arabischen Monatszeitschrift al-Muqtabas, die zwischen 1906 und 1917/18 von Mu Cairammad Kurd ʿAlī in Kairo und Damaskus herausgegeben wurde. Das Leipziger Repositorium hostet den Digitalen Muqtabas auf seinem CTS-Server und stellt interessierten Forschern Daten und Metadaten zur Verfügung.