Inhalt
sprungmarken_marker_3982
Ziele
RADAR4KIT - Research Data Repository for KIT - ist ein disziplinübergreifendes Forschungsdatenrepositorium für die Archivierung und Publikation von Forschungsdaten aus wissenschaftlichen Studien und Projekten von Forschenden des KIT. Unter Forschungsdaten werden in RADAR4KIT digitale Daten verstanden, die im Forschungsprozess entstehen.
RADAR4KIT speichert Forschungsdaten grundsätzlich in Form von Datensätzen, die aus einer oder mehreren Dateien bestehen können. Diese enthalten die eigentlichen Forschungsdaten sowie beschreibende Metadaten. Im Folgenden wird eine solche Zusammenstellung als „Datenpaket“ bezeichnet.
Betreiber
RADAR4KIT wird vom Karlsruher Institut für Technologie angeboten („Betreiber“) und setzt auf dem von FIZ Karlsruhe angebotenen Dienst RADAR auf. Die Speicherung der Daten findet ausschließlich auf IT-Infrastruktur des KIT am Scientific Computing Center (SCC) statt. Der Dienst richtet sich primär an Forschende des KIT („Datengeber”), welche ihre Daten archivieren oder publizieren wollen. In RADAR4KIT können Daten für Dritte („Datennutzer“) zugänglich gemacht oder im Internet publiziert werden.
Registrierung und Benutzerprofile
RADAR4KIT ist ein Onlinedienst und kann ausschließlich über das Internet genutzt werden. Alle Forschenden des KIT können sich über Ihren KIT-Account (Shibboleth) bei RADAR4KIT anmelden. Zusätzlich können in besonderen Fällen weitere Accounts für KIT-Externe angelegt werden.
Rollen und Rechte
Um Forschungsdaten hochladen zu können, muss zunächst durch die KIT-Bibliothek (Administrator) ein Arbeitsbereich eingerichtet werden. Bitte wenden Sie sich hierzu direkt an die KIT-Bibliothek (Kontaktdaten siehe Footer unten).
Der Administrator kann dann für verschiedene Nutzergruppen (z. B. Forschungsgruppen, Projekte, Institute) voneinander getrennte Arbeitsbereiche einrichten. Folgend kann der Administrator weitere bei RADAR4KIT registrierte Nutzer über den Onlinedienst mit Rechten als Datengeber für einen oder mehrere dieser Arbeitsbereiche versehen („Kurator“ oder „Subkurator“). Üblicherweise wird der Administrator dabei Mitarbeiter/innen der eigenen Institution als Kurator bestimmen; bei Bedarf kann er jedoch auch institutionsfremde Personen entsprechend berechtigen. In RADAR4KIT können Kuratoren ausschließlich in die für sie vom Administrator bestimmten Arbeitsbereiche Forschungsdaten hochladen, bearbeiten, archivieren und gegebenenfalls publizieren. Vom Administrator bestimmte Kuratoren können wiederum andere, bei RADAR4KIT registrierte Nutzer als Subkuratoren für ihren Arbeitsbereich berechtigen. Subkuratoren sind ebenfalls Datengeber, haben jedoch nicht die Möglichkeit, Datenpakete zu archivieren bzw. zu publizieren oder andere Nutzer als Subkuratoren zu bestimmen.
Dienstleistungen
RADAR4KIT kann über eine webbasierte Benutzungsoberfläche mit aktuellen Webbrowsern oder über eine REST-basierte Programmierschnittstelle (API) genutzt werden. Der Datengeber kann innerhalb des ihm zugewiesenen Arbeitsbereichs Datenpakete anlegen und diesen einzelne Dateien oder ZIP-Dateien mit mehreren enthaltenen Dateien zuordnen, die er über das Internet zu RADAR4KIT transferiert. Über die Benutzungsoberfläche bzw. über die REST API kann er einzelne Daten hinzufügen oder löschen.
Die Datenpakete können auch WebDAV-unterstützt erstellt werden. Dazu können die Daten über einen WebDAV-Client hochgeladen und organisiert werden. Währenddessen ist keine laufende RADAR4KIT-Sitzung notwendig. Nach dem Import des WebDAV-Verzeichnisses in RADAR4KIT sind Änderungen nur noch direkt in RADAR4KIT möglich.
Der Datengeber kann Datenpakete mit Metadaten beschreiben. Dazu stellt der Dienst auf der RADAR4KIT-Plattform ein Formular bereit. Alternativ ist es möglich, die Metadaten offline als XML-Datei zu erstellen und dann auf die RADAR4KIT-Plattform hochzuladen. Datengeber können über die RADAR4KIT-Plattform eine Vorlage für eine entsprechende XML-Datei sowie ein XML-Schema zum Validieren der Metadaten in der jeweils aktuellsten Version herunterladen. Der Kurator hat darüber hinaus die Möglichkeit, für Arbeitsbereiche Default-Werte für beschreibende Metadaten zu hinterlegen. Diese werden dann Datengebern beim Erstellen der beschreibenden Metadaten vorgeschlagen.
Ist die Zusammenstellung eines Datenpakets und dessen Beschreibung mit Metadaten abgeschlossen, kann der Kurator zwischen zwei Optionen wählen: Archivierung oder Publikation der Forschungsdaten. Subkuratoren können eine automatische E-Mail an Kuratoren auslösen und so über den Publikations-/Archivierungswunsch informieren.
Die Archivierung erlaubt die optionale Beschreibung des Datenpakets mit deskriptiven Metadaten. Üblicherweise werden weder Daten noch Metadaten öffentlich zugänglich gemacht, dies kann jedoch durch den Kurator eigenständig durch entsprechende Rechtevergabe über das Onlinesystem verändert werden. Die Daten erhalten in diesem Fall keinen Persistenten Identifier. Der Kurator muss die gewünschte Aufbewahrungsfrist festlegen.
Für die Publikation eines Datenpakets sind dessen valide Beschreibung in Form deskriptiver Metadaten sowie die Vergabe einer Lizenz durch den Datengeber erforderlich. Grundsätzlich sind Metadaten und Daten öffentlich recherchier- und zugreifbar. Für die Daten kann der Kurator optional einen Embargozeitraum bestimmen, innerhalb dessen nur die Metadaten öffentlich recherchier- und zugreifbar sind. Nach Ablauf der Embargofrist werden auch die Daten automatisch öffentlich zugreifbar. RADAR4KIT vergibt für jedes publizierte Datenpaket einen Persistenten Identifier (hier: Digital Object Identifier, kurz DOI) und registriert diesen bei DataCite. Über diesen DOI ist das publizierte Datenpaket persistent identifizierbar, zitierfähig und kann mit einer herkömmlichen wissenschaftlichen Publikation z. B. bei KITopen verknüpft werden. Gleichzeitig werden die deskriptiven Metadaten an DataCite übertragen. Der Datengeber muss sie dazu zwingend unter Creative Commons Zero (CC0) 1.0 Universell lizensieren. Für die Übertragung erfolgt eine automatische Umwandlung der deskriptiven Metadaten vom RADAR-Format in das DataCite-Format. Weiterhin werden die deskriptiven Metadaten sowohl im RADAR- als auch im DublinCore-Format über einen OAI-Provider öffentlich zum Harvesting angeboten.
Für publizierte und archivierte Datenpakete muss eine Lizenz aus einer vorgegebenen Liste von empfohlenen Lizenzen ausgewählt werden. Die Liste umfasst alle Creative Commons 4.0 International Lizenzen (inklusive der CC0 1.0 Universell), eine „All rights reserved“-Lizenz sowie die Möglichkeit, eine proprietäre Lizenz anzugeben. Der Betreiber behält sich vor, die Liste um weitere Lizenzen zu ergänzen.
Temporärer Speicher
Für die Zusammenstellung und Beschreibung von Datenpaketen stellt der Betreiber sogenannten temporären Speicher zur Verfügung. Ist der insgesamt verfügbare temporäre Speicher gefüllt, können so lange keine weiteren Daten durch die berechtigten Datengeber mehr hinzugefügt werden, bis Dateien gelöscht, Datenpakete archiviert bzw. publiziert wurden oder der temporäre Speicher vergrößert wurde. Im Fall einer Archivierung oder Publikation wandern die Datenpakete aus dem temporären Speicher in den permanenten Speicher. Diese Datenpakete belegen danach im temporären Speicher keinen Speicherplatz mehr. RADAR4KIT beschränkt die Nutzung des temporären Speichers zeitlich. Die maximale Nutzungsdauer des temporären Speichers wird dabei pro Datenpaket überprüft. Datenpakete können maximal sechs Monate im temporären Speicher belassen werden. Danach müssen sie entweder archiviert, publiziert oder gelöscht werden. Einen Monat vor Ende der Speicherfrist versendet RADAR4KIT eine E-Mail mit einem Hinweis auf das baldige Ende der Speicherfrist an den Datengeber. Im wöchentlichen Rhythmus sendet RADAR4KIT daraufhin eine Erinnerung per E-Mail mit dem Hinweis auf das nahende Ende der Speicherfrist. Wurde das Datenpaket nach sechs Monaten durch den Datengeber weder gelöscht noch archiviert bzw. publiziert, löscht RADAR4KIT das Datenpaket.
Quotas
In RADAR4KIT ist die maximal nutzbare Größe des temporären Speichers, des für archivierte Datenpakete und des für publizierte Datenpakete genutzten permanenten Speichers begrenzt. Die für die einzelnen Kategorien zur Verfügung stehenden Speichermengen pro Mitarbeiter sind in der IT-Grundausstattung geregelt.
Haltefristen und Unveränderlichkeit von Datenpaketen
RADAR4KIT ermöglicht die dauerhafte und unverfälschte Aufbewahrung von Datenpaketen über eine definierte Zeitspanne („Aufbewahrungsfrist“). Für archivierte Datenpakete legt der Datengeber eine Aufbewahrungsfrist fest. Die tatsächliche Dauer der Speicherung für archivierte Datenpakete kann kürzer sein, wenn der Dienst RADAR4KIT vor Ablauf der Aufbewahrungsfrist eingestellt wird. Für publizierte Datenpakete muss keine Aufbewahrungsfrist ausgewählt werden, sie ist prinzipiell unbeschränkt. Das KIT garantiert eine tatsächliche Aufbewahrung von mindestens 10 Jahren für archivierte Daten. Für publizierte Daten wird eine tatsächliche Aufbewahrung von mindestens 25 Jahren garantiert. Während der Aufbewahrungsfrist verändert RADAR4KIT die gespeicherten Datenpakete nicht mehr, sondern sichert ausschließlich deren physischen Erhalt („bitstream preservation“). Entsprechend garantiert RADAR4KIT weder die dauerhafte Nutzbarkeit noch die Interpretierbarkeit der in einem Datenpaket enthaltenen Daten, da diese von der Verfügbarkeit der vom Datengeber gewählten Datenformate und entsprechender Programme zu deren Interpretation abhängen.
Datenpakete im permanenten Speicher können nicht mehr verändert werden. In begründeten Ausnahmefällen können Datenpakete durch den Administrator gesperrt werden. Zu begründeten Ausnahmefällen gehören z. B. Rechtsverstöße oder fehlerhafte Daten. Bei einer Sperre wird der Zugriff auf die hochgeladenen Daten gesperrt, nicht aber die beschreibenden Metadaten. Diese enthalten einen Hinweis, dass die Daten gesperrt wurden.
Begutachtung von Forschungsdaten
RADAR4KIT unterstützt einen Review-Prozess vor einer Datenpublikation. Dazu kann ein Datenpaket vor der Publikation in den Status „in Begutachtung“ versetzt werden. In diesem Zustand ist das Datenpaket nicht mehr editierbar. RADAR4KIT erzeugt einen eindeutigen Link, den der Datengeber an den zuständigen Verlag bzw. die Gutachter weitergeben kann. Dieser Link ermöglicht einen Zugriff auf das noch nicht veröffentlichte Datenpaket ohne vorherige Authentifizierung. Nach Abschluss der Begutachtung kann der Kurator den Status für das Arbeitspaket entweder wieder in den Bearbeitungsmodus überführen oder aber das Datenpaket publizieren. In beiden Fällen wird der erzeugte eindeutige Link ungültig, so dass Gutachter nicht mehr auf das Datenpaket zugreifen können. Der Datengeber kann ein Datenpaket mehrfach hintereinander in den Status „in Begutachtung“ versetzen. Der Betreiber führt darüber hinaus keine weitere inhaltliche Qualitätssicherung der eingestellten Forschungsdaten durch. Hierfür sind die Datengeber selbst verantwortlich.
Technische und organisatorische Maßnahmen zur Datensicherheit
Daten im temporären Speicher befinden sich auf Magnetplatten, die über einen RAID6-Verbund gegen Datenverlust durch Ausfälle einzelner Platten abgesichert sind. Zusätzlich werden die gespeicherten Daten täglich einmal inkrementell als Sicherheitskopie (Backup) auf Band geschrieben. Die Sicherheitskopie erfolgt auf Dateiebene und wird in zwei Generationen aufbewahrt.
Die Speicherung archivierter und publizierter Datenpakete erfolgt auf Magnetbändern in sogenannten Tape Libraries. RADAR4KIT speichert alle Datenpakete, die in den permanenten Speicher verschoben werden, in zwei Kopien an unterschiedlichen, räumlich getrennten Standorten auf unterschiedlichen Bändern. Die Speicherung erfolgt am Scientific Computing Center (SCC) des Karlsruher Instituts für Technologie (KIT) an zwei Standorten. Datenpakete werden vor der Speicherung mit einer Prüfsumme („checksum“) versehen, die nach jedem Kopiervorgang automatisch kontrolliert wird. Damit können Fehler während der Datenübertragung entdeckt und beseitigt werden („Ende-zu-Ende-Überprüfung“). Beim Zugriff auf ein Datenpaket wird erneut die Prüfsumme berechnet und mit dem gespeicherten Wert verglichen, um eventuelle Datenkonsistenzfehler zu identifizieren. Sollte hierbei ausnahmsweise ein Fehler erkannt werden, greift RADAR4KIT auf die zweite Kopie des Datenpakets zu. Regelmäßige Überprüfungen der Kopien auf eventuelle Bitfehler („fixity checks“) finden aktuell nicht statt. Das SCC hält seine jeweiligen Speicherinfrastrukturen stets auf dem aktuellen Stand der Technik. Dies führt dazu, dass in einem Zeitraum zwischen ca. fünf bis acht Jahren alle Daten auf neue Datenträger migriert werden. Bei jedem Lesevorgang und spätestens im Rahmen dieser Datenmigration findet eine Überprüfung auf Bitfehler statt.
Die für die Archivierung oder Publikation vorgesehenen Datenpakete werden vor der Übertragung in den permanenten Speicher in eine der BagIt-Spezifikation entsprechende Struktur überführt, die neben den eigentlichen Forschungsdaten in ihrer Original-Anordnung mit allen Dateien und Verzeichnissen auch technische und deskriptive Metadaten sowie ein der Spezifikation entsprechendes Manifest enthält. Die BagIt-Struktur wird in einer TAR-Datei zusammengefasst und als Archivinformationspaket (AIS) gemäß OAIS-Standard gespeichert.
Zugriffe auf den temporären Speicher erfolgen synchron, d. h. die Auslieferung der angefragten Daten startet ohne merkliche Verzögerung. Zugriffe auf den permanenten Bandspeicher erfolgen asynchron, d. h. es können in manchen Fällen einige Minuten zwischen Anforderung und Auslieferung vergehen. In Zeiten hoher Zugriffszahlen kann die Wartezeit ausnahmsweise auch im Stundenbereich liegen. Häufig zugegriffene Datenpakete werden, auch wenn sie bereits im permanenten Speicher gespeichert sind, regelmäßig über einen Cache schnell (d. h. synchron) ausgeliefert. Eine Zusicherung über eine schnelle Auslieferung aus dem permanenten Speicher kann nicht gegeben werden.
Vergabe von Zugriffsrechten und Embargos
Datenpakete, die bislang noch nicht archiviert oder publiziert wurden, sich also im Bearbeitungszustand befinden, sind nur für die Datengeber sowie die Administratoren einsehbar. Für die Begutachtung gibt es eine Ausnahmeregelung für die Gutachter (siehe Abschnitt „Begutachtung von Forschungsdaten“). Ein Kurator kann im eigenen Arbeitsbereich jederzeit an weitere bei RADAR4KIT registrierte Nutzer das Recht vergeben, als Datengeber (Subkurator) zu agieren. Die Berechtigung, als Kurator zu agieren, kann nur durch einen Administrator erteilt werden.
Archivierte Datenpakete sind normalerweise nur für Datengeber sowie Administratoren zugreifbar. Der Datengeber kann weiteren bei RADAR4KIT registrierten Nutzern das Recht einräumen, die beschreibenden Metadaten einzusehen und die archivierten Datenpakete abzurufen. Diese Rechtevergaben sind jederzeit durch den Kurator änderbar. Falls gewünscht, kann ein Datengeber einen Datensatz alternativ auch „öffentlich“ archivieren, so dass dieser auf dem RADAR4KIT-Portal uneingeschränkt zur Verfügung steht.
Archivierte Daten (sofern sie der Kurator nicht vollständig oder teilweise öffentlich zugänglich gemacht hat) sind weder über die Suche noch über OAI auffindbar. Dritte können weder die Daten noch die Metadaten einsehen oder recherchieren. „Öffentlich“ archivierte Datenpakete stehen nicht zum Harvesting zur Verfügung und sind nicht auf www.datacite.org einsehbar. Die beschreibenden Metadaten sind aber in der Benutzungsoberfläche durchsuchbar.
Publizierte Datenpakete können von allen bei RADAR4KIT angemeldeten und anonymen (nicht angemeldeten) Datennutzern abgerufen werden. Die beschreibenden Metadaten sind in der Benutzungsoberfläche durchsuchbar und werden zusätzlich über einen OAI-Provider zum Harvesting angeboten. Weiterhin sind sie auf www.datacite.org öffentlich einsehbar. Dies trifft auch zu, wenn die eigentlichen Forschungsdaten noch unter Embargo stehen. Der Kurator kann für die eigentlichen Forschungsdaten eine zeitlich begrenzte oder unbegrenzte Embargofrist einrichten, in der lediglich die Metadaten such- und abrufbar sind, nicht jedoch die Forschungsdaten. Nach Ablauf der Embargofrist sind dann auch die Forschungsdaten allgemein abrufbar. Die gewählten Embargo-Zeiträume können auch nach der Publikation durch den Datengeber geändert, also verlängert bzw. verkürzt werden.