Inhalt dieser Seite
Dieses Dokument enthält Richtlinien für Ressourceneinreicher, die ihre Ressourcen im Repositorium der SAW
Leipzig / CLARIN Center Leipzig archivieren möchten. Einreicher sollten dieses Dokument sorgfältig lesen und
prüfen, ob sie in der Lage sind, alle unten aufgeführten Kriterien zu erfüllen. Zu allen Punkten bietet das
Repositorium gern Unterstützung an. Bei Fragen kontaktieren Sie uns bitte über
clarin@saw-leipzig.de.
Der Archivierungsprozess nimmt digitale Ressourcen (einschließlich Daten und Werkzeuge) zur Hinterlegung im
Repositorium entgegen und folgt einem definierten Workflow zu ihrer Hinterlegung.
Akzeptierte Ressourcen
Das Repositorium konzentriert sich auf geschriebene Textkorpora, Referenzkorpora, allgemeine lexikalische
Ressourcen und linguistische Ressourcen für Sprachen mit geringerem Ressourcenbestand ("under-resourced
languages"). Vorzugsweise werden Ressourcen aus diesen Bereichen in das Repositorium integriert. Das
Repositorium nimmt unter Umständen auch linguistische Ressourcen aus anderen Bereichen auf, sofern sie für die
jeweiligen Fachbereiche von hohem wissenschaftlichem Wert sind. In allen anderen Fällen ist das Repositorium
gerne bei der Suche nach einer geeigneten Archivierungsmöglichkeit an einer anderen Institution
behilflich.
Das Repositorium akzeptiert nur Ressourcen, die
- Ergebnisse von Forschungprojekten sind,
- für die umfangreiche Metadaten existieren,
- die in einem etablierten und standardiserten Datenformat vorliegen oder für dessen Datenformat
umfangreiche Dokumentation vorhanden ist,
- für die Informationen zu ihrer Erstellung und zu ihrer rechtlichen Situation vorliegen.
Darüber hinaus:
- Metadaten sollten im CMDI-Format oder zumindest als Dublin Core Metadaten vorliegen,
- Datenformate in der Einreichung sollten den SAW-Formatsempfehlungen
folgen,
- muss eine umfangreiche Dokumentation der Daten bereitgestellt werden, falls kein empfohlenes Datenformat
genutzt wird,
- werden nur Daten in das Repositorium aufgenommen, die für jedermann frei verfügbar sind oder mit einer
Lizenz ausgestattet sind, die mindestens Forschenden deren Nutzung erlaubt. Der Zugriff auf Metadaten
darf in keiner Weise eingeschränkt werden.
Wir ermutigen Ressourceneinreichern außerdem:
- Verweise auf Veröffentlichungen über die Ressource in den Metadaten bereitzustellen und/oder diese
Veröffentlichungen zu einem Teil des im Repositorium archivierten Ressourcenbündels zu machen.
- eine Liste von Nutzungsszenarien bereitzustellen, für die die Ressource verwendet werden soll bzw.
geeignet ist.
Metadaten müssen im
CMDI-Format oder zumindest in
Dublin Core bereitgestellt werden. Es gibt umfassende Dokumentationen
zum Erstellen von CMDI-konformen Metadatenprofilen und -instanzen. Metadaten werden auf Konformität gemäß der
CMDI-Standards auf folgende Weise geprüft:
- Sind die Metadaten wohlgeformat und valide?
- Liegen die verwendeten CMDI-Komponenten und -Profile in der Component Registry vor und sind öffentlich
verfügbar?
- Sind die verwendeten Datenkategorien/Konzepte in der CLARIN Concept
Registry oder ähnlichen Plattformen registriert?
- Enthalten die Metadaten ausreichende und konsistente Informationen für deren Publikation im Rahmen von
Suchplattformen wie dem CLARIN VLO? Schauen Sie bitte auch auf unsere Metadatenanforderungen für eingereichte
Ressourcen.
Die Metadaten müssen Angaben zum Datengeber und/oder Erzeuger (Name und URL der Person/Institution,
Kontaktdaten) und eine Aussage zum rechtlichen Status der Ressource enthalten.
Der Datengeber erklärt sich damit einverstanden, die Metadaten öffentlich über technische Schnittstellen des
Repositoriums wie OAI-PMH verfügbar zu machen und die Nutzung, Wiederverwendung und Weiterverbreitung dieser
Metadaten durch Dritte zu erlauben.
Es wird empfohlen, Formate zu verwenden, die im
Eintrag der SAW des Standards Information
System aufgeführt sind.
Das CLARIN-D Zentrum Leipzig nutzt und fördert derzeit aktiv folgende Formate:
- zur Dokumentation: DCMI, CMDI, PDF/A, XHTML/HTML5
- als Datenformate: Plaintext, CoNLL-X/U, Formate basierend auf den TEI-Richtlinien, RDF (RDF/XML, Turtle) auf der Basis von
standardisierten Ontologien wie OntoLex-Lemon und Lexinfo
Falls kein empfohlenes, standardisiertes und dokumentiertes Format verwendet wird, muss eine umfassende
Dokumentation zur Syntax und Semantik der Daten (z. B. bei Datenbank-Dumps: Namen von Tabellen und Spalten;
Spezifikationen und Beispiele zum Inhalt jeder Spalte; Beispiele zum Abrufen verschiedene Arten von Daten)
bereitgestellt werden. Diese Dokumentation (Englisch, PDF) wird zusammen mit den Daten und Metadaten im
Repositorium gespeichert und jedem zur Verfügung gestellt, der die Ressource herunterladen bzw. auf sie
zugreifen möchte.
Zugriffsrechte
Das Repositorium akzeptiert nur Ressourcen die für jedermann frei verfügbar sind oder mit einer Lizenz
ausgestattet sind, die mindestens Forschenden deren Nutzung erlaubt. Der Zugriff auf Metadaten darf in keiner
Weise eingeschränkt werden.
In Zukunft könnte die Einschränkung des technischen Zugriffs auf Ressourcen unterstützt werden, um den Zugriff
auf Benutzer zu beschränken, die in Forschungseinrichtungen arbeiten. Hierfür wird die Softwarelösung Shibboleth
eingesetzt und nur Anmeldungen von Benutzern innerhalb der CLARIN-AAI / DFN-AAI akzeptiert.
Falls die Privatsphäre beteiliger Personen betroffen ist, muss dies durch von diesen Personen unterzeichnete
Verträge geregelt werden (z.B. durch eine ausdrückliche Erklärung dass die Daten Forschern bzw. zu Lehrzwecken
frei zur Verfügung gestellt werden können).
Einreichung
Die Einreichung von Ressourcen zur Ablage im Repositorium umfasst die folgenden Schritte:
- Vorlage des ausgefülten Antragsformular für Ressourcenübernahme (RDRF) an clarin@saw-leipzig.de durch die
Einreichenden, mit möglichen Feedbackrunden und Neuvorlagen.
- Nach Annahme des RDRF: Zurkenntnisnahme und Unterzeichnung des Depositor's Agreement durch die Einreichenden.
- Vorbereitung des Submission Information Package (SIP) durch die Einreichenden. Dieses sollte bestehen
aus:
- dem unterschriebenen Depositor's Agreement,
- sich auf die eingereichten Daten beziehende Metadaten,
- eine Archivdatei, welche die Daten beinhaltet und dem BagIt-Format folgt.
- Begutachtung und Verifikation des SIP durch das Datenzentrum, mit möglichen Feedbackrunden und
Neuvorlagen.
- Vorbereitung und Ingest des Archival Information Package (AIP), bestehend aus der BagIt-Archivdatei und
den Metadaten der Ressource.
Weiterführende Informationen bezüglich Datenhosting- und Ingest-Prozesse können unter
Prozesse gefunden
werden.
Dokumente
Die folgenden Dokumente enthalten alle relevanten Informationen im Detail. Falls Sie Fragen haben, senden Sie
uns eine E-Mail an
clarin@saw-leipzig.de.