Datenhaltung und Archivierung am IfM

Die zunehmende Menge der anfallenden Daten aus Beobachtungen und Modellsimulationen erfordert eine organisierte Verwaltung dieser Daten, um zum einen die Konsistenz zu sichern und andererseits Ressourcen zu schonen. Zu diesem Zweck wird vorrangig der zentrale Speicherpool, bestehend aus mehreren leistungsfähigen RAID Systemen, kontinuierlich ausgebaut. Die dort gelagerten Daten lassen sich in folgende Kategorien aufteilen:
  1. Bei zentralen Nutzerdaten handelt es sich um die Homebereiche und einen persönlichen Arbeitsbereich, der als Scratch bezeichnet wird. Beide Bereiche sind benutzerbezogen quotiert.
  2. Der Arbeitsbereich für Datenprojekte spaltet sich in sehr viele unabhängige Datenprojektbereiche auf. Der Zugang zu diesen Datenprojekten wird über die Gruppen geregelt.
  3. Einen Teilbereich all dieser Datenprojektbereiche stellen die intern freigegebenen Datensätze dar. Diese Datensätze stehen in der Regel allen Mitarbeitern am Institut zur Verfügung.

Aktuelle Informationen zur Verwaltung der Datenbereiche werden auch im Hilfe-Wiki gepflegt.

Hinweis zur Sicherung der Datenprojekte:
Aus Kapazitätsgründen sind nur die zentralen Nutzerdaten des Homebereiches im täglichen Backup und werden als Sicherheitskopie im ZEDAT Backup-System abgelegt.


Verwendung der Daten


Jeder der Daten am Institut im Rahmen von Qualifizierungsarbeiten und/oder Projekten benutzt, sollte sich mit den Nutzungsbedingungen zu den Daten vertraut machen. Die meisten Datenquellen liefern Daten auf der Grundlage von Verträgen und verpflichten die Nutzer. Dementsprechend muss vor der Verwendung von Daten eine Erklärung zur Datennutzung persönlich mit Unterschrift vorgelegt werden. Erst dann wird der Zugang für Anwender im Intranet freigeschaltet.

Publikation von Forschungsdaten

Die Publikation von Forschungsdaten parallel zu wissenschaftlichen Veröffentlichungen erlangt zunehmend an Bedeutung. Die Organisation von Forschungsdaten sollte Findable Accessible Interoperable Reusable gestaltet werden, also FAIR erfolgen (siehe dazu auch Wilkinson et al.). Als weiteren Anlaufpunkt für Informationen dazu empfiehlt sich @FORCE11. Konkrete Unterstützung bei der Veröffentlichung von Forschungsdaten gibt es beim FID GEO, dem Fachinfirmationsdienst Geowissenschaften der festen Erde, angesiedelt am GFZ und gefördert von der DFG (2016-2019).

Langzeitarchivierung

Um der Forderung der DFG nach 10-jährigem Erhalt von Forschungsdaten nachzukommen, bedarf es einer Infrastruktur zur Langzeitarchivierung. Für Klimadaten und Klimamodelldaten bietet sich an, den Dienst des WDCC in Anspruch zu nehmen.

Wie bringe ich Daten ins LTA?

Der Ingest-Prozess beginnt mit dem Einpflegen von Metadaten über die LZA-Webschnittstelle am DKRZ. Dafür benötigt man einen CERA Account, den man am DKRZ bekommt. Wenn die Daten im Ergebnis eines DKRZ-Projektes erzeugt wurden, müssen die Kosten über das beantragte Volumen für ARCH abgedeckt sein. Als externer Nutzer des LZA-Dienstes sind Kosten im Rahmen einer Übergabevereinbarung auszuhandeln.

Datenpublikation

Wenn die Daten über den Rahmen des LZA verfügbar gehalten werden sollen, gibt es die Möglichkeit eine Datenveröffentlichung mit DOI zu erstellen. Dafür bietet das WDCC die Begleitung des Redaktionsprozesses und das Redaktionstool atarrabi. Die wissenschaftliche und technische Beschreibung der Daten erfolgt während des Redaktionsprozesses und am Ende bekommt man eine DOI für den Datensatz. Die Daten sind dann weltweit zugreifbar und nachnutzbar. Eine Liste mit DOIs am WDCC enthält beispielsweise auch die CMIP5 Daten des Hamburger Modells.

Wie greife ich auf die Daten zu?

Nachdem die Daten im LZA des WDCC eingetragen wurden, sind diese in der CERA Datenbank zugänglich. Wenn der Prozess mit einer Datenveröffentlichung abgeschlossen wurde, dann sind die Daten über DataCite öffentlich zugänglich. Das WDCC als Partner von DataCite stellt die Daten dann bereit.