Arabisches Nachrichten-Korpus (Vereinigte Arabische Emirate) basierend auf Texten gecrawlt 2018 erstellt im Rahmen des Projektes "Deutscher Wortschatz" bzw. "Wortschatz Leipzig".
Das Projekt sammelt regelmäßig (meist jährlich) frei verfügbare Dokumente im Internet und aus anderen Quellen und bereitet diese auf. Das Ergebnis sind Korpora und korpusbasierte Wörterbücher für über 250 Sprachen, in denen zu jedem Wort statistische Angaben, Beispielsätze und Links zu verwandten Wörtern verfügbar sind. Das Angebot zählt zu den umfangreichsten Informationssystemen zur deutschen Sprache und stellt für viele weitere Sprachen die jeweils größten frei verfügbaren Datenmengen bereit.
Typ/Media Type:
Written corpus,
text/plain,
application/gzip
Lizenz:
CC BY-NC
Sprache:
Arabic (ISO 639-3: ara)
Zeitliche Abdeckung: 2018-03-06 - 2018-03-08
Keywords:
Arabic,
newscrawl-OSIAN,
Corpus
Anzahl Sätze: 35128
Anzahl Types: 114764
Anzahl Token: 795451
Administrativer Kontakt
Technischer Kontakt
Leipzig Corpora Collection: Arabic news corpus (United Arab Emirates) from 2018 (ara-ae_newscrawl-OSIAN_2018). Leipzig Corpora Collection. Dataset. Identifier: 11022/0000-0007-C65C-3.