Projektbeschreibung
Angesichts der wachsenden Möglichkeiten zur Datenerhebung und den aktuellen Fortschritten in den Bereichen der künstlichen Intelligenz und der Datenanalyse gewinnen Daten für Unternehmen aus nahezu allen Wirtschaftsbereichen zunehmend an Bedeutung. Durch den Einsatz datengetriebener Analysetechniken, wie beispielsweise Methoden des Data Minings und des maschinellen Lernens, können Unternehmen Erkenntnisse und Wissen aus den Daten gewinnen, welche dann zur Optimierung von Geschäftsprozessen und Produkten beitragen können. Zu diesem Zweck müssen diese Unternehmen jedoch große Mengen an Daten sammeln, verarbeiten und auf strukturierte Weise verwalten, wofür sich in den letzten Jahren unterschiedliche Arten von Datenplattformen etabliert haben. Zu den modernsten Vertretern zählen dabei die sogenannten Data Lakehouses, welche die Vorteile von Data Warehouses und Data Lakes zu kombinieren versuchen und bereits weiträumig Einzug in die industrielle Praxis gefunden haben. Allerdings beschränken sich die im Zuge der Data Lakehouses aufgekommenen Weiterentwicklungen größtenteils auf technische Aspekte, wie beispielsweise die Gewährleistung von ACID-Eigenschaften auf hochskalierbaren Speichersystemen, während umfassende Konzepte und Methoden zur Unterstützung des Betriebs und der Verwaltung dieser Datenplattform fehlen. Angesichts des steigenden Umfangs und der wachsenden Komplexität dieser Datenplattformen, insbesondere in Hinblick auf die Anzahl und Heterogenität der zu verwaltenden Datensätze, der Pipelines zur Datenverarbeitung, der eingesetzten Technologien und der involvierten Benutzergruppen mit ihren unterschiedlichen Aufgaben und Kenntnissen, stellt dies Unternehmen vor große Herausforderungen.
Das Ziel dieses Projekts besteht darin, Konzepte zu entwickeln und prototypisch zu implementieren, welche die Verwaltung und den Betrieb moderner Datenplattformen unterstützen. Dabei soll ein semantischer Ansatz verfolgt werden, bei dem Informationen über die Datenplattform, wie beispielsweise in Bezug auf ihre Daten- und Technologie-Architektur, die Domäne, in der sie betrieben wird, sowie die darauf verwalteten Datensätze und deren Nutzung in einem gemeinsamen, holistischen Wissensgraph gesammelt werden. Ein solcher Wissensgraph kann dann als zentrale Anlaufstelle zur Unterstützung und Abwicklung vieler Aktivitäten auf der Datenplattform dienen. Um dies zu ermöglichen, wird im Rahmen dieses Projekts untersucht, welche Akteure und Aktivitäten bei der Verwaltung und dem Betrieb von Datenplattformen eine Rolle spielen, wie der Wissensgraph die unterschiedlichen Benutzergruppen bei der Durchführung ihrer Aktivitäten auf der Datenplattform unterstützen kann und wie dieser Graph dafür strukturiert sein muss. Da die Aktivitäten je nach Domäne und Anwendungskontext stark variieren können und daher mit unterschiedlichen Arten von Informationen operieren können müssen, sollen die zu entwickelnden Konzepte einen Schwerpunkt und Erweiterbarkeit und Modularität legen.
Jan Schneider
M.Sc.Wissenschaftlicher Angestellter
Holger Schwarz
Prof. Dr. rer. nat.Apl. Professor
Bernhard Mitschang
Prof. Dr.-Ing. habil.Institutsleiter