Modern Greek news subcorpus from 2013 (ell_newscrawl_2013_1M)

Textkorpus
Identifikator: 11022/0000-0000-7F5C-CLink icon

Beschreibung

Neugriechisches Nachrichten-Teilkorpus basierend auf Texten gecrawlt 2013 (1.000.000 Sätze) erstellt im Rahmen des Projektes "Deutscher Wortschatz" bzw. "Wortschatz Leipzig".
Das Projekt sammelt regelmäßig (meist jährlich) frei verfügbare Dokumente im Internet und aus anderen Quellen und bereitet diese auf. Das Ergebnis sind Korpora und korpusbasierte Wörterbücher für über 250 Sprachen, in denen zu jedem Wort statistische Angaben, Beispielsätze und Links zu verwandten Wörtern verfügbar sind. Das Angebot zählt zu den umfangreichsten Informationssystemen zur deutschen Sprache und stellt für viele weitere Sprachen die jeweils größten frei verfügbaren Datenmengen bereit.

Metadaten

Details

Typ/Media Type: Written corpus, text/plain, application/gzip
Lizenz: CC BY-NC
Sprache: Modern Greek (ISO 639-3: ell)
Zeitliche Abdeckung: 2012-11-27 - 2012-12-05
Keywords: Modern Greek, newscrawl, Corpus

Größe

Anzahl Sätze: 1000000
Anzahl Types: 602467
Anzahl Token: 19214003

Kontakt

Icon Envelope Administrativer Kontakt
Icon Envelope Technischer Kontakt

Zitieren

Icon Quote Leipzig Corpora Collection: Modern Greek news subcorpus from 2013 (ell_newscrawl_2013_1M). Leipzig Corpora Collection. Dataset. Identifier: 11022/0000-0000-7F5C-C.