Gujarati news subcorpus from 2014 (guj_newscrawl_2014_1M)

Textkorpus
Identifikator: 11022/0000-0000-7F62-4 Link icon

Beschreibung

Gujarātī Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2014 (1.000.000 Sätze) erstellt im Rahmen des Projektes "Deutscher Wortschatz" bzw. "Wortschatz Leipzig".
Das Projekt sammelt regelmäßig (meist jährlich) frei verfügbare Dokumente im Internet und aus anderen Quellen und bereitet diese auf. Das Ergebnis sind Korpora und korpusbasierte Wörterbücher für über 250 Sprachen, in denen zu jedem Wort statistische Angaben, Beispielsätze und Links zu verwandten Wörtern verfügbar sind. Das Angebot zählt zu den umfangreichsten Informationssystemen zur deutschen Sprache und stellt für viele weitere Sprachen die jeweils größten frei verfügbaren Datenmengen bereit.

Anwendungen

Suchportal
Suchportal
Suchportal
CLARIN Föderierte Inhaltssuche (FCS)
Text+ Föderierte Inhaltssuche (FCS)
Anzeigen im Virtual Language Observatory

Downloads

Metadaten

Details

Typ/Media Type: Written corpus, text/tab-separated-values, application/zstd
Lizenz: CC BY-NC
Sprache: Gujarati (ISO 639-3: guj)
Zeitliche Abdeckung: 2014-02-27 - 2014-03-14
Keywords: Gujarati, newscrawl, Corpus

Größe

Anzahl Sätze: 1000000
Anzahl Types: 583642
Anzahl Token: 13988086

Kontakt

Icon Envelope Administrativer Kontakt
Technischer Kontakt

Zitieren

Icon Quote Leipzig Corpora Collection: Gujarati news subcorpus from 2014 (guj_newscrawl_2014_1M). Leipzig Corpora Collection. Dataset. Identifier: 11022/0000-0000-7F62-4.

Seitenstruktur

Seitenanfang

Beschreibung
Anwendungen
Downloads
Details
Größe
Kontakt
Zitieren

Angeboten in