Das Projekt Wortschatz Leipzig stellt Textkorpora für eine Vielzahl verschiedener Sprachen als Downloads zur Verfügung, in normierten Größen und unter Verwendung gleicher Formate und vergleichbarer Quellen. Die Daten sind für die wissenschaftliche Anwendung der Korpuslingustik, als Eingabematerial für Verfahren der Wissensextraktion und als Trainingsdaten geeignet.
Die Korpora enthalten zufällig ausgewählte Sätze der jeweiligen Sprache und sind in Größen von 10.000 bis 1.000.000 Sätzen verfügbar. Als Quellen werden typischerweise entweder Nachrichtentexte oder die Ergebnisse allgemeiner Webcrawls verwendet. Die verwendeten Texte sind jeweils in einzelne Sätze zerlegt und zufällig sortiert, so dass eine Wiederherstellung des Ursprungstextes nicht möglich ist. Ungrammatische Sätze und fremdsprachliches Material wurden bestmöglich entfernt. Weil Informationen zu Wortkookkurrenzen für viele Anwendungen hilfreich sind, wurden diese Angaben vorberechnet und sind ebenfalls enthalten. Für jedes Wort werden dabei die signifikantesten Nachbarschafts- (links und rechts) als auch Satzkookkurrenzen aufgeführt. Weitere Details zur Erstellung der Korpora liefert diese Veröffentlichung. Weitere Informationen zum Format und Inhalt der Korpusdateien finden sich hier.