Datenhosting

Inhalt dieser Seite

Dieses Dokument enthält Richtlinien für Ressourceneinreicher, die ihre Ressourcen im Repositorium der SAW Leipzig / CLARIN Center Leipzig archivieren möchten. Einreicher sollten dieses Dokument sorgfältig lesen und prüfen, ob sie in der Lage sind, alle unten aufgeführten Kriterien zu erfüllen. Zu allen Punkten bietet das Repositorium gern Unterstützung an. Bei Fragen kontaktieren Sie uns bitte über clarin@saw-leipzig.de.

Der Archivierungsprozess nimmt digitale Ressourcen (einschließlich Daten und Werkzeuge) zur Hinterlegung im Repositorium entgegen und folgt einem definierten Workflow zu ihrer Hinterlegung.

Akzeptierte Ressourcen

Das Repositorium konzentriert sich auf geschriebene Textkorpora, Referenzkorpora, allgemeine lexikalische Ressourcen und linguistische Ressourcen für Sprachen mit geringerem Ressourcenbestand ("under-resourced languages"). Vorzugsweise werden Ressourcen aus diesen Bereichen in das Repositorium integriert. Das Repositorium nimmt unter Umständen auch linguistische Ressourcen aus anderen Bereichen auf, sofern sie für die jeweiligen Fachbereiche von hohem wissenschaftlichem Wert sind. In allen anderen Fällen ist das Repositorium gerne bei der Suche nach einer geeigneten Archivierungsmöglichkeit an einer anderen Institution behilflich.
Das Repositorium akzeptiert nur Ressourcen, die
  • Ergebnisse von Forschungprojekten sind,
  • für die umfangreiche Metadaten existieren,
  • die in einem etablierten und standardiserten Datenformat vorliegen oder für dessen Datenformat umfangreiche Dokumentation vorhanden ist,
  • für die Informationen zu ihrer Erstellung und zu ihrer rechtlichen Situation vorliegen.
Darüber hinaus:
  • Metadaten sollten im CMDI-Format oder zumindest als Dublin Core Metadaten vorliegen,
  • Datenformate in der Einreichung sollten den SAW-Formatsempfehlungen folgen,
  • muss eine umfangreiche Dokumentation der Daten bereitgestellt werden, falls kein empfohlenes Datenformat genutzt wird,
  • werden nur Daten in das Repositorium aufgenommen, die für jedermann frei verfügbar sind oder mit einer Lizenz ausgestattet sind, die mindestens Forschenden deren Nutzung erlaubt. Der Zugriff auf Metadaten darf in keiner Weise eingeschränkt werden.
Wir ermutigen Ressourceneinreichern außerdem:
  • Verweise auf Veröffentlichungen über die Ressource in den Metadaten bereitzustellen und/oder diese Veröffentlichungen zu einem Teil des im Repositorium archivierten Ressourcenbündels zu machen.
  • eine Liste von Nutzungsszenarien bereitzustellen, für die die Ressource verwendet werden soll bzw. geeignet ist.

Metadaten

Metadaten müssen im CMDI-Format oder zumindest in Dublin Core bereitgestellt werden. Es gibt umfassende Dokumentationen zum Erstellen von CMDI-konformen Metadatenprofilen und -instanzen. Metadaten werden auf Konformität gemäß der CMDI-Standards auf folgende Weise geprüft:
  • Sind die Metadaten wohlgeformat und valide?
  • Liegen die verwendeten CMDI-Komponenten und -Profile in der Component Registry vor und sind öffentlich verfügbar?
  • Sind die verwendeten Datenkategorien/Konzepte in der CLARIN Concept Registry oder ähnlichen Plattformen registriert?
  • Enthalten die Metadaten ausreichende und konsistente Informationen für deren Publikation im Rahmen von Suchplattformen wie dem CLARIN VLO? Schauen Sie bitte auch auf unsere Metadatenanforderungen für eingereichte Ressourcen.
Die Metadaten müssen Angaben zum Datengeber und/oder Erzeuger (Name und URL der Person/Institution, Kontaktdaten) und eine Aussage zum rechtlichen Status der Ressource enthalten. Der Datengeber erklärt sich damit einverstanden, die Metadaten öffentlich über technische Schnittstellen des Repositoriums wie OAI-PMH verfügbar zu machen und die Nutzung, Wiederverwendung und Weiterverbreitung dieser Metadaten durch Dritte zu erlauben.

Daten & Formate

Es wird empfohlen, Formate zu verwenden, die im Eintrag der SAW des Standards Information System aufgeführt sind.

Das CLARIN-D Zentrum Leipzig nutzt und fördert derzeit aktiv folgende Formate:
  • zur Dokumentation: DCMI, CMDI, PDF/A, XHTML/HTML5
  • als Datenformate: Plaintext, CoNLL-X/U, Formate basierend auf den TEI-Richtlinien, RDF (RDF/XML, Turtle) auf der Basis von standardisierten Ontologien wie OntoLex-Lemon und Lexinfo
Falls kein empfohlenes, standardisiertes und dokumentiertes Format verwendet wird, muss eine umfassende Dokumentation zur Syntax und Semantik der Daten (z. B. bei Datenbank-Dumps: Namen von Tabellen und Spalten; Spezifikationen und Beispiele zum Inhalt jeder Spalte; Beispiele zum Abrufen verschiedene Arten von Daten) bereitgestellt werden. Diese Dokumentation (Englisch, PDF) wird zusammen mit den Daten und Metadaten im Repositorium gespeichert und jedem zur Verfügung gestellt, der die Ressource herunterladen bzw. auf sie zugreifen möchte.

Zugriffsrechte

Das Repositorium akzeptiert nur Ressourcen die für jedermann frei verfügbar sind oder mit einer Lizenz ausgestattet sind, die mindestens Forschenden deren Nutzung erlaubt. Der Zugriff auf Metadaten darf in keiner Weise eingeschränkt werden.

In Zukunft könnte die Einschränkung des technischen Zugriffs auf Ressourcen unterstützt werden, um den Zugriff auf Benutzer zu beschränken, die in Forschungseinrichtungen arbeiten. Hierfür wird die Softwarelösung Shibboleth eingesetzt und nur Anmeldungen von Benutzern innerhalb der CLARIN-AAI / DFN-AAI akzeptiert.

Falls die Privatsphäre beteiliger Personen betroffen ist, muss dies durch von diesen Personen unterzeichnete Verträge geregelt werden (z.B. durch eine ausdrückliche Erklärung dass die Daten Forschern bzw. zu Lehrzwecken frei zur Verfügung gestellt werden können).

Einreichung

Die Einreichung von Ressourcen zur Ablage im Repositorium umfasst die folgenden Schritte:
  1. Vorlage des ausgefülten Antragsformular für Ressourcenübernahme (RDRF) an clarin@saw-leipzig.de durch die Einreichenden, mit möglichen Feedbackrunden und Neuvorlagen.
  2. Nach Annahme des RDRF: Zurkenntnisnahme und Unterzeichnung des Depositor's Agreement durch die Einreichenden.
  3. Vorbereitung des Submission Information Package (SIP) durch die Einreichenden. Dieses sollte bestehen aus:
    • dem unterschriebenen Depositor's Agreement,
    • sich auf die eingereichten Daten beziehende Metadaten,
    • eine Archivdatei, welche die Daten beinhaltet und dem BagIt-Format folgt.
  4. Begutachtung und Verifikation des SIP durch das Datenzentrum, mit möglichen Feedbackrunden und Neuvorlagen.
  5. Vorbereitung und Ingest des Archival Information Package (AIP), bestehend aus der BagIt-Archivdatei und den Metadaten der Ressource.
Weiterführende Informationen bezüglich Datenhosting- und Ingest-Prozesse können unter Prozesse gefunden werden.

Dokumente

Die folgenden Dokumente enthalten alle relevanten Informationen im Detail. Falls Sie Fragen haben, senden Sie uns eine E-Mail an clarin@saw-leipzig.de.