Direkt zu


Informationen für Studierende

zur Startseite

Bachelorarbeit

Interaktive Sampling-Verfahren im Kontext von Data-Mashup-Werkzeugen
Betreuer Dipl.-Inf. Michael Behringer
M.Sc. Manuel Fritz
Prüfer
Ende16.05.2019
Beschreibung

Ausgangssituation/Motivation

Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Da diese jedoch ohne Auswertung und Verknüpfung wertlos sind, existieren verschiedenste Analysemethoden, welche entweder manuell, semi-automatisch oder automatisch verwendet werden. Manuelle Verfahren erlauben eine tiefgehende Interaktionsmöglichkeit für den Datenanalyst, sind jedoch bei heute auftretenden Datenmengen nicht praktikabel auf Grund des explorativen Charakters der Datenanalyse und der benötigten Rechenleistung. Automatische Verfahren hingegen können große Datenmengen verarbeiten, sind meistens jedoch eine undurchsichtige Black-Box, da zwischen Eingabe von Parametern und Ausgabe des Resultates keine Steuerungsmöglichkeiten bestehen. Automatische Verfahren können somit das spezifische Domänenwissen des Datenanalysten nicht in den Prozess integrieren bzw. nur durch wiederholte Ausführung der kompletten Black-Box ohne Verständnisgewinn für die ablaufenden Prozesse zu ermöglichen. Einen Zwischenweg gehen semiautomatische Verfahren, bei welchen der Analyst das vorhandene Domänenwissen an geeigneten Interaktionspunkten einbringen, Zwischenergebnisse evaluieren und somit tiefere Einblicke in den Analyseprozess gewinnen kann. Semi-automatische Verfahren müssen somit (a) geeignete Interaktionspunkte identifizieren, (b) den aktuellen Fortschritt kommunizieren und (c) den Datenanalysten bei der Interpretation und Steuerung durch geeignete Interaktionskonzepte unterstützen. Existierende Analysewerkzeuge (etwa Knime und RapidMiner) bieten zwar die Möglichkeiten den Prozess feingranular zu spezifizieren, jedoch keine Unterstützung bei der intuitiven Steuerung durch Datenanalysten.

Ziele

In Vorarbeiten wurden bereits verschiedene Verfahren für die Datenanalyse, etwa Clustering- oder Sampling-Algorithmen [1], auf Spark implementiert. Bisher existiert für diese Verfahren jedoch noch keine Nutzeroberfläche, um diese aus FlexMash [2], einem an der Universität Stuttgart entwickelten Data Mashup-Werkzeug [3], anzusprechen. Demzufolge soll in dieser Arbeit zunächst die vorhandenen Implementierungen in FlexMash integriert werden. Dies umfasst eine Anpassung an die verwendete Architektur sowie die Entwicklung einer geeigneten Benutzeroberfläche zur Spezifikation der Parameter. Da ein typischer Domänenexperte jedoch keine Kenntnisse über die Bedeutung und Auswirkungen von Parametern auf das Resultat besitzt ist es wünschenswert diesen zusätzlich bei der Bewertung zu unterstützen. Hierzu soll ein geeignetes semi-automatisches Interaktionskonzept für ein beispielhaftes Verfahren (Sampling) entwickelt und prototypisch umgesetzt werden.

Die Arbeit umfasst dazu folgende Aufgaben:

◇ Integration der existierenden Verfahren in FlexMash

◇ Literaturrechereche zu Konzepten für manuelle und (semi-)automatisierte Steuerung von Sampling-Verfahren

◇ Literaturrechereche zu geeigneten Metriken für die Evaluation erzeugter Samples

◇ Entwicklung und prototypische Implementierung eines geeigneten semi-automatisierten Verfahrens

◇ Evaluation der Konzepte

◇ Präsentation der Zwischenergebnisse in einem Vortrag

◇ Präsentation der Ergebnisse in einem Vortrag

Literatur

[1] H. Wang, S. Parthasarathy, A. Ghoting, S. Tatikonda, G. Buehrer, T. Kurc, and J. Saltz, “Design of a next generation sampling service for large scale data analysis applications,” in Proceedings of the 19th annual international conference on Supercomputing. ACM, 2005, pp. 91–100.

[2] P. Hirmer and B. Mitschang, FlexMash - Flexible Data Mashups Based on Pattern-Based Model Transformations. Cham: Springer International Publishing, 2016, ch. 2, pp. 12–30. [Online]. Available: http://dx.doi.org/10.1007/978-3-319-28727-0{_}2

[3] F. Daniel and M. Matera, Mashups - Concepts, Models and Architectures, 1st ed. Berlin Heidelberg: Springer-Verlag, 2014. [Online]. Available: http://link.springer.com/10.1007/978- 3-642-55049-2