Big Data an der Universität Heidelberg

Forschungsdaten als Herausforderung und Chance

In der öffentlichen Debatte um die Digitalisierung und den damit verbundenen technologischen und gesellschaftlichen Wandel ist Big Data ein gern verwendetes Schlagwort, das in seiner ganzen Bedeutung und Tragweite jedoch immer etwas undurchsichtig bleibt. In der Forschung hingegen ist Big Data längst eine alltägliche Realität.

Projektsteckbrief

Ansprechpartner:

Dr. Martin Baumann
E-Mail: it-service@uni-heidelberg.de
Telefon: 06221/54 117

Die digital gestützte Wissenschaft erzeugt mehr und mehr Daten. So liefern moderne Mikroskope Bildmaterial in immer höheren Auflösungen, generieren dreidimensionale Darstellungen oder bilden zeitliche Verläufe in höchster Qualität ab. Ein menschliches Genom lässt sich mittlerweile innerhalb weniger Stunden sequenzieren und speichern. Numerische Simulationen auf Hochleistungsrechnern erschaffen in kürzester Zeit gigantische Datenmengen. In diesen und anderen Prozessen entstehen Forschungsdaten, die gespeichert, organisiert, verarbeitet und schließlich archiviert werden müssen. Eine großartige Chance für Innovation und Erkenntnisgewinn, aber auch eine logistische Herausforderung.

Die Datenflut gemeinsam meistern
Das Universitätsrechenzentrum (URZ) Heidelberg will die Wissenschaft dabei unterstützen, diese Flut an Daten zu bewältigen und bietet an allen Stationen des typischen Lebenszyklus von Forschungsdaten passende Dienstleistungen und Support an. Für diesen Zweck wurde gemeinsam mit der Universitätsbibliothek Heidelberg das Kompetenzzentrum Forschungsdaten gegründet, das Wissenschaftlerinnen und Wissenschaftler im Laufe des Forschungsprozesses unterstützt und von der Projektplanung über die Analyse bis hin zur Veröffentlichung und Archivierung Hilfestellung bei der Arbeit mit Forschungsdaten leistet.
Dieser Support stützt sich auch auf Erkenntnisse, die durch das Landesprojekt bwFDM-Communities gewonnen wurden, an dem das URZ mitgewirkt hat. Über das Projekt wurde im Austausch mit Wissenschaftlerinnen und Wissenschaftlern der konkrete Bedarf an Diensten, Infrastruktur und Unterstützung beim Umgang mit Forschungsdaten ermittelt. Im noch laufenden Folgeprojekt bwFDM-Info sollen nun auf Grundlage dieses Austauschs konkrete Handlungsempfehlungen für die Rechenzentren, Bibliotheken und andere wissenschaftliche Einrichtungen in Baden-Württemberg entwickelt werden. Dass zum Thema Forschungsdaten auch bundesweit ein Vernetzungs- und Austauschbedarf bei Bildungs- und Forschungseinrichtungen besteht, zeigten die im März 2017 vom URZ veranstalteten E-Science-Tage zum Thema „Forschungsdaten managen“, die mit über 220 Teilnehmerinnen und Teilnehmern aus dem gesamten Bundesgebiet auf große Resonanz stießen.

Bessere Hardware und Services für immer mehr Daten
Parallel zu diesen Support- und Austauschmaßnahmen baut das URZ auch die technische Infrastruktur für die Arbeit mit Forschungsdaten weiter aus. Derzeit wird der Dienst SDS@hd (Scientific Data Storage @ Heidelberg) etabliert, der eine einfache, zentrale Speicherung großer wissenschaftlicher Daten ermöglicht. Für die Speicherung und den Austausch von Forschungsdaten auf Landesebene steht das neu eingerichtete Speichersystem LSDF2 (Large Scale Data Facility) zur Verfügung, das sich durch hohe Sicherheit, Performance und Verfügbarkeit auszeichnet. Das System wird durch das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg (MWK) und durch die Deutsche Forschungsgemeinschaft (DFG) finanziert.

Die Large Scale Data Facility ist Teil des baden-württembergischen Umsetzungskonzepts bwDATA für datenintensive Dienste an den Hochschulen im Land. In der ersten Ausbaustufe hat das Speichersystem eine nutzbare Kapazität von 5,8 Petabyte und soll in Zukunft noch erweitert werden. Durch den Einsatz von Solid-State-Disks (SSDs) als Ergänzung zu hoch kapazitiven Festplatten sind ein hoher Lese- und Schreibdurchsatz von mehreren Gigabytes je Sekunde auch bei der Verarbeitung sehr kleiner Dateien möglich. Sämtliche Daten werden stets verschlüsselt gespeichert.

Kooperation trotz großer Daten und Distanzen
LSDF2 ist mit hoher Bandbreite auch an den Hochleistungsrechner bwForCluster in Heidelberg und Mannheim angebunden. Durch die schnelle Verbindung von 100 Gbit/s in das Netz der wissenschaftlichen Einrichtungen in Baden-Württemberg (BelWü bzw. Baden-Württembergs extended LAN) ist eine landesweite Nutzung ohne Performanceeinbußen möglich. Die gute Performance der Verbindung ermöglicht Forschungskooperationen zwischen Projektpartnern, die überregional auch mit besonders großen Dateien und Datenbeständen arbeiten wollen.
Big Data und E-Science eröffnen in vielen Forschungsdisziplinen neue Arbeitsfelder und Möglichkeiten des Erkenntnisgewinns. Das Universitätsrechenzentrum will – in Kooperation mit inner- und außeruniversitären Partnern – diese Möglichkeiten für die Wissenschaft greif- und nutzbar machen und dazu beitragen, dass das Thema Forschungsdaten vor allem als Chance und nicht als Herausforderung gesehen wird.