zur Startseite

Masterarbeit

Fleißiges Provenance Sammeln und Visualisieren
Betreuer M.Sc. Ralf Diestelkämper
Prüfer Prof. Dr. rer. nat. Melanie Herschel
Ende22.05.2019
Beschreibung

Durch zunehmende Digitalisierung sammeln sich immer mehr Daten an. Besonders das Analysieren dieser zunehmend heterogenen Datenmengen bedarf skalierbarer Techniken um Zusammenhänge zwischen Analyseschritten und Datenmanipulationen nachvollziehen zu können. Hierzu wird vermehrt Datenherkunft (engl. data provenance) genutzt. Sie beschreibt den Verlauf einzelner Datenelemente in datenverarbeitenden Prozessen[1].

Im Kontext von verteilten, skalierbaren Big Data Analyse Lösungen wie Apache Spark, Flink oder Hadoop, ermöglicht Provenance häufig einzelne Ausgabedaten zu den erzeugenden Eingabedaten zurückzuverfolgen[2]. Die in unserer Arbeitsgruppe entwickelte Provenance Lösung für strukturelle Provenance auf geschachtelten Daten erlaubt das Zurückverfolgen von geschachtelten Datenelementen in Apache Spark. Sie kann Provenance sowohl eager durch Sammeln von Annotationen während der eigentlichen Programmausführung sammeln, als auch lazy zur Anfragezeit berechnen. Während der lazy Ansatz weniger Speicherplatz benötigt, ist der eager Ansatz wesentlich schneller bei der Berechnung der Herkunft einzelner Datenelemente.

Deshalb bietet sich gerade der eager Ansatz für interaktive Anfragen an die strukturelle Provenance durch Nutzer an. Um dies zu ermöglichen, sollen in dieser Arbeit sowohl automatisierte Verfahren zur Speicherung der strukturellen Provenance als auch dessen Visualiserung betrachtet werden. Das visuelle Interface soll Anwendungsentwicklern ermöglichen, strukturmanipulierende Operatoren in Big Data Analyse Programmen ausfindig zu machen, die Änderungen an den Daten vornehmen. Damit erleichtert sie die Fehlersuche und beschleunigt die Programmentwicklung[3].

Ziel dieser Masterarbeit ist es, die vorhandene Lösung für strukturelle Provenance zu erweitern, (1) sodass diese eager berechnete Provenance automatisch speichert, und (2) anschließend im Browser visualisiert wird. Bei letzterem ist besonders die Darstellung der strukturellen Manipulationen der Schwerpunkt.

Die Arbeit umfasst folgende Aufgaben:

  • Die Abgrenzung der Arbeit zu existierenden Ansätzen mittels Literaturrecherche
  • Die Erweiterung der existierenden Provenance Lösung für strukturelle Provenance in Apache Spark, sodass diese auch automatisiert zur eigentlichen Programmausführung gesammelt wird (eager Ansatz) und später angefragt werden kann
  • Das Erstellen und Vergleichen von Visualisierungskonzepten für die strukturelle Provenance. Ein wichtiges Ziel dabei ist gleichartige Strukturmanipulationen zusammenzufassen, formell zu beschreiben und eine geeignete Visualisierung zu erstellen.
  • Die Implementierung der oben genannten Visualisierung als web-basierte Lösung.
  • Die Evaluation des Prototypen. Hierzu gehört der Laufzeitvergleich zwischen der lazy und eager Provenance Anfragen, ebenso wie das Messen des Speicherbedarfs für die eager gesammelten Provenance Daten.


[1] Herschel, Melanie, Ralf Diestelkämper, and Houssem Ben Lahmar. "A survey on provenance: What for? What form? What from?." The Journal on Very Large Data Bases (VLDBJ), 26.6 (2017)

[2] Matteo Interlandi,Kshitij Shah,Sai Deep Tetali,Muhammad Ali Gulzar, Seunghyun Yoo, Miryung Kim, Todd Millstein, and Tyson Condie. “Titian: data provenance support in Spark.“ Proceedings of the VLDB Endowment (PVLDB) 9.3 (2015)

[3] Fotis Psallidas, and Eugene Wu. “ Smoke: Fine-grained Lineage at Interactive Speed.“ Proceedings of the VLDB Endowment (PVLDB) 11.6 (2018)