Das Projekt Wortschatz Leipzig sammelt seit Mitte der 1990er Jahre digitale Texte und stellt diese seit 1998 online zur Verfügung. Es unterhält seit über 20 Jahren eine der größten deutschsprachigen Online-Textsammlungen mit Fokus auf Nachrichten im Umfang von zuletzt rund 100 Mrd. Token bereinigten Fließtexts jährlich. Dazu werden kontinuierlich frei verfügbare Dokumente im Internet gesammelt und aufbereitet. Das Ergebnis sind unter anderem korpusbasierte Wörterbücher mit einer Vielzahl linguistischer und sprachstatistischer Annotationen sowie umfangreiche Textkorpora, die für viele der gesammelten Sprachen die jeweils größten frei verfügbaren Datenmengen darstellen.
Durch den großen Umfang der zugrunde liegenden Datenbestände von bis zu mehreren hundert Millionen Sätzen je Sprache (nach Deduplizierung) finden sich in den Ressourcen des Projektes statistische Angaben für fast alle Wörter und linguistischen Phänomene. Das Angebot zählt zu den umfangreichsten Informationssystemen zur deutschen Sprache und wird kontinuierlich um weitere Sprachen erweitert. Mittlerweile liegen Daten für mehr als 250 Sprachen vor, die größtenteils online über das Webportal, Webservices oder im Rahmen der Leipzig Corpora Collection (LCC) als Normgrößenkorpora per Download abgefragt werden können.