Direkt zu


Informationen für Studierende

zur Startseite

Masterarbeit

Metadatenmanagement in der Data-Lake-Architektur
Betreuer M.Sc. Corinna Giebler
Prüfer Prof. Dr.-Ing. habil. Bernhard Mitschang
Ende2019/05/29
Beschreibung

Ausgangssituation

Als neues Konzept zur Speicherung von Big Data ist der Data Lake in das Zentrum der Aufmerksamkeit gerückt. Es handelt sich dabei um einen großen, skalierbaren Rohdatenspeicher, dessen Inhalte explorativ analysiert werden können, um neue Erkenntnisse zu generieren [1]. Dabei reicht es allerdings nicht, die Daten selbst zu speichern, da der Data Lake sich sonst schnell zu einem Data Swamp entwickelt [2], [3]. Um dies zu verhindern, braucht der Data Lake ein ausgebautes Metadatenmanagement. Die Metadaten beschreiben, wie Daten aufgebaut sind, woher sie kommen, wie sie untereinander zusammenhängen und vieles mehr. Mit ihrer Hilfe kann der Data Lake durchsucht, Governance umgesetzt und Verständnis für den Endnutzer erleichtert werden.

Kommerzielle Katalogisierungstools bieten hierfür Unterstützung. Allerdings ist die konkrete Umsetzung innerhalb des Tools nicht einzusehen, eigene Governance- und Organisationskonzepte sind schwer umzusetzen. Benötigt wird darum ein allgemeines Metadatenmanagementkonzept, das die gesamte Data-Lake-Architektur abdeckt.

Ziel und Aufgabenstellung

Ziel dieser Arbeit ist die Erstellung eines solchen Metadatenmanagementkonzepts. Die zugrundeliegende Data-Lake-Architektur erstreckt sich über fünf Ebenen, von der konkreten Speicherumsetzung bis hin zu den Prozessen, in denen der Data Lake verwendet wird. Die Aufgabe ist es, das Metadatenmanagement auf jeder dieser Ebenen zu definieren und so konkrete Use Cases zu ermöglichen.

Zu bearbeitende Teilaufgaben

  • Erstellung mehrerer Use Cases aus dem Self-Service-Bereich, die Metadatenmanagement erforderlich machen und Ableitung von Anforderungen
  • Betrachtung und Evaluation existierender Metadatenmanagementkonzepte auf den verschiedenen Ebenen der Data-Lake-Architektur
  • Entwurf eines Metadatenmanagementkonzepts auf den verschiedenen Ebenen
  • Implementierung und Validierung der erstellten Use Cases

Notwendige Abgaben

  • Vollständige Dokumentation des Lösungsansatzes und der Ergebnisse der Arbeit.
  • Vollständige, gut dokumentierte und weiterverwendbare Implementierung des Prototyps.
  • Vorstellung des Lösungsansatzes und der Ergebnisse der Arbeit in einem Vortrag im Rahmen des Abteilungskolloquiums.

Organisatorisches

Art der Arbeit

Master-Arbeit

Titel

Metadatenmanagement in der Data-Lake-Architektur

Englischer Titel

Metadata management in the data lake architecture

Betreuer

Corinna Giebler M.Sc. Informatik

Prüfer

Prof. Bernhard Mitschang

 

Literatur

[1]         C. Mathis, “Data Lakes,” Datenbank-Spektrum, vol. 17, no. 3, pp. 289–293, Nov. 2017.

[2]         IBM Analytics, “The governed data lake approach,” IBM, 2016.

[3]         M. Chessell, F. Scheepers, N. Nguyen, R. van Kessel, and R. van der Starre, Governing and Managing Big Data for Analytics and Decision Makers. IBM, 2014.