26.10.2020

Dr. Thilo Muth, Referatsleiter eScience an der BAM

Dr. Thilo Muth, Referatsleiter eScience an der BAM

Quelle: BAM

Thilo Muth leitet den Bereich eScience an der BAM – eine interdisziplinär aufgestellte Organisationseinheit, die gemeinsame wissenschaftliche, digitale Themen BAM-weit zusammenführt und nachhaltig bearbeitet. Sein Team berät Wissenschaftlerinnen und Wissenschaftler zu Forschungsdatenmanagement und Data Science, also der Datenanalyse, und stellt entsprechende Werkzeuge bereit. Denn Forschung hat sich verändert: Während bislang Experimente oder Datenerhebungen im Fokus standen, so rückt die Analyse der Daten mehr und mehr in den Vordergrund. Bedingt durch die Verfügbarkeit unterschiedlicher digitaler Daten und Verarbeitungsmöglichkeiten quer durch die Disziplinen wächst die Bedeutung datengetriebener Wissenschaft, um Wissen aus den enormen Datenmengen zu gewinnen. Im Interview erzählt er, wie sein Interesse für Datenmanagement geweckt wurde und warum Forschungseinrichtungen wie die BAM dieses Thema verstärkt in den Fokus rücken.

Welche Chancen ergeben sich für Forscherinnen und Forscher durch die datengetriebene Wissenschaft?

Wenn Forschungseinrichtungen über ein effizientes Datenmanagement mit entsprechenden Werkzeugen und Leitlinien, verfügen, dann schaffen sie eine bessere Auffindbarkeit der Daten. Das bringt einen Mehrwert für die gesamte Community. Forscherinnen und Forscher müssen nicht immer bei Null im Forschungsprozess beginnen: basierend auf verfügbaren Daten können sie auf dem Wissen anderer aufbauen. So lassen sich aufwendige Experimente reduzieren und Forschungsfragen effizienter bearbeiten. Und wenn mit Hilfe des Forschungsdatenmanagements mehr gut annotierte Datensätze publiziert werden, erzeugt das auch eine erhöhte Sichtbarkeit für die Forschungseinrichtung.

Wie sieht das konkret in der Anwendung aus?

Mit Datenanalyse-Werkzeugen, z.B. auf Basis Künstlicher Intelligenz (KI), können viele Daten in einer kürzeren Zeit ausgewertet werden. Damit können Zusammenhänge erfasst werden, die nicht auf den ersten Blick erkennbar sind oder vielleicht auch durch die schiere Menge nicht zu erfassen sind. Im Bereich der zerstörungsfreien Prüfung wird beispielsweise Computertomografie (CT) zur Erforschung von Brückenschäden genutzt. Für die Auswertung der CT-Bilder kann ein Computerprogramm mit einem Lern-Algorithmus automatisch die Scans mit Rissen erkennen. Das macht die Arbeit von Forscherinnen und Forscher effizienter, denn sie brauchen weniger Zeit, ihre Daten auszuwerten und können sich so voll und ganz auf weitere spannende Forschungsfragen konzentrieren.

Stichwort Nachhaltigkeit und Open Source: Welche Rolle spielt das im Bereich Forschungsdatenmanagement?

Forschungseinrichtungen setzen verstärkt auf Open Source, um nachhaltige Softwarelösungen, die langfristig nutzbar und weiterentwickelbar sind, zu schaffen. Die BAM setzt bereits auf Open Source „by default“ für die Eigenentwicklung. Diesem Weg folgen wir im Referat eScience: Das Datenmanagementsystem, das wir einsetzen wollen, ist Open Source und soll entsprechend weiterentwickelt bzw. an die Bedürfnisse der Wissenschaftlerinnen und Wissenschaftler angepasst werden.

Darüber hinaus wollen wir auch die Bereitstellung von Quellcode und Dokumentation von Werkzeugen zur Datenanalyse gewährleisten. Open Source ist da der natürliche Weg: Wissenschaft wird aus öffentlichen Geldern gefördert und die sich daraus ergebenden Methoden und Ergebnisse sollten daher auch der Gesellschaft wieder zugänglich gemacht werden. Gerade bei globalen Herausforderungen, wie aktuell bei COVID-19, zeigt sich, wie wichtig es ist, Daten und Werkzeuge zeitnah verfügbar zu haben, um gemeinsam nach Lösungen zu suchen und so effizient einen Mehrwert für die Gesellschaft zu generieren.

Vor welchen Herausforderungen steht datengetriebene Wissenschaft?

Zum einen gibt es massiv ansteigende Mengen an Forschungsdaten. Und an der BAM werden viele komplexe Fragestellungen auf Basis relativ kleiner, jedoch heterogener Daten behandelt. Das bedeutet, dass viele Datensätze verteilt – durch Erhebungen mit unterschiedlichen Instrumenten – und wenig standardisiert vorliegen. Zugleich sollen Daten aber auch über das Ende der Projektlaufzeit auffindbar, zugänglich, interoperabel und wiederverwendbar sein (gemäß der FAIR Data Prinzipien). Das bedeutet, dass die Daten und Metadaten strukturiert und entsprechende Tools bereitgestellt werden müssen, um den kompletten Lebenszyklus von Forschungsdaten bis hin zur Publikation abzudecken. Hier wird das Referat eScience ansetzen, laufende Aktivitäten bündeln und BAM-weit effektive Lösungen etablieren.

Früher Berufswunsch oder später Wandel: Wann wussten Sie, dass „Datenmanager“ Ihr Traumberuf ist?

Ich bin seit jeher am Thema Informatik und Datenmanagement interessiert – also sozusagen ein klassischer Nerd. Über mein Bioinformatik-Studium und die Promotion im Bereich Datenanalyse und Bioanalytik habe ich mich auf medizinische Fragestellungen spezialisiert. Während meiner Zeit am Robert-Koch-Institut bin ich dann über die bioinformatischen Proteinanalytik auf das spannende Thema Forschungsdatenmanagement und seine Herausforderungen gestoßen. Ich habe dort den Bereich Datenmanagement in der Genomanalyse mitaufgebaut. Der Umgang mit Daten sowie das interdisziplinäre Arbeiten zusammen mit Wissenschaftlerinnen und Wissenschaftlern aus unterschiedlichen Bereichen finde ich ungemein spannend.