Kontakt
+49 711 685 88242
+4971168578242
E-Mail
Visitenkarte (VCF)
Universitätsstraße 38
D-70569 Stuttgart
Deutschland
Raum: 2.467
Sprechstunde
Nach Vereinbarung
Fachgebiet
Projektbereich: Daten, Metadaten und Analyse
Im Rahmen des Dissertationsprojektes "Interaktive Assistenzsysteme im Kontext der explorativen und anwenderfokussierten Datenanalyse" beschäftige ich mich mit interaktiven Verfahren, welche es Domänenexperten erlauben zusätzliche und nicht durch Standardabfragen abgedeckte Analysen durchzuführen und dadurch neue Hypothesen und Erkenntnisse zu ermöglichen.
Herkömmliche Anwendungen aus den Bereichen Visual Analytics bzw. Self-Service Business Intelligence fokussieren sich entweder auf die Analyse einer spezifischen Problemstellung oder folgen vordefinierten Analysepfaden. Da ein Domänenexperte nur in seltenen Fällen über tiefere technische Kenntnisse verfügt müsste eine tiefergehende Analyse durch die IT-Abteilung kostenintensiv umgesetzt werden. Dies ist jedoch nur im Falle absehbarer wirtschaftlicher Relevanz wahrscheinlich. Insbesondere im Hinblick auf explorative Analyseszenarien ist ein derartiger Wettbewerbsvorteil zu Beginn möglich, jedoch nicht quantifizierbar.
Es ist folglich wünschenswert den Domänenexperten in die Lage zu versetzen erste explorative Analysen selbstständig durchführen zu können, um Hypothesen zu verifizieren. Hierzu muss in jedem Schritt der Analyse der notwendige Detailgrad abstrahiert werden. Dies soll über eine ausgewogene Interaktion zwischen visuellen und automatisierten Verfahren umgesetzt werden und den Domänenexperten in jeden Schritt der Analyse einbinden. Um hier umfangreichere Analysepfade zu ermöglichen ist ein generischerer Ansatz – etwa mit Hilfe von Data-Mashup-Werkzeugen – erforderlich. Diese ermöglichen eine weitgehend freie Kombination von Datenquellen und Operatoren mittels einer intuitiven grafische Oberfläche und eignen sich folglich für die Spezifikation von Analyseprozessen im Hinblick auf die schnelle Exploration der Daten ohne Programmierkenntnisse.
Das Ziel dieses Projektes ist es, Verfahren zu entwickeln, um einen Domänenexperten in der explorativen Analyse zu unterstützen. Dies beinhaltet etwa eine Vorselektion von Datenquellen, die Entlastung von Routineaufgaben sowie Interaktionskonzepte im Bereich Datenaufbereitung. Durch diese Fokusverschiebung auf die Integration eines oder mehrerer Domänenexperten in den Analyseprozess und den dadurch steigenden Freiheitsgrad kann auf die zeitraubende und kostenintensive Implementierung einer (neuen) Analyse durch die IT-Abteilung in vielen Fällen verzichtet werden und sich in der Konsequenz neue unternehmerische Chancen eröffnen.
- Manuel Fritz, Osama Muazzen, Michael Behringer, and Holger Schwarz (2019). "ASAP-DM: a framework for automatic selection of analytic platforms for data mining". SICS Software-Intensive Cyber-Physical Systems.
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
The plethora of analytic platforms escalates the difficulty of selecting the most appropriate analytic platform that fits the needed data mining task, the dataset as well as additional user-defined criteria. Especially analysts, who are rather focused on the analytics domain, experience difficulties to keep up with the latest developments. In this work, we introduce the ASAP-DM framework, which enables analysts to seamlessly use several platforms, whereas programmers can easily add several platforms to the framework. Furthermore, we investigate how to predict a platform based on specific criteria, such as lowest runtime or resource consumption during the execution of a data mining task. We formulate this task as an optimization problem, which can be solved by today’s classification algorithms. We evaluate the proposed framework on several analytic platforms such as Spark, Mahout, and WEKA along with several data mining algorithms for classification, clustering, and association rule discovery. Our experiments unveil that the automatic selection process can save up to 99.71% of the execution time due to automatically choosing a faster platform.
BibTeX:
@article{Fritz2019b, author = {Fritz, Manuel and Muazzen, Osama and Behringer, Michael and Schwarz, Holger}, day = 17, doi = {10.1007/s00450-019-00408-7}, issn = {2524-8529}, journal = {SICS Software-Intensive Cyber-Physical Systems}, month = aug, title = {ASAP-DM: a framework for automatic selection of analytic platforms for data mining}, url = {https://doi.org/10.1007/s00450-019-00408-7}, year = 2019 }
- Manuel Fritz, Michael Behringer, and Holger Schwarz (2019). "Quality-driven early stopping for explorative cluster analysis for big data". SICS Software-Intensive Cyber-Physical Systems - Advancements of Service Computing: Proceedings of SummerSoC 2018. Volume 34, Issue 2-3, pp. 129–140
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
Data analysis has become a critical success factor for companies in all areas. Hence, it is necessary to quickly gain knowledge from available datasets, which is becoming especially challenging in times of big data. Typical data mining tasks like cluster analysis are very time consuming even if they run in highly parallel environments like Spark clusters. To support data scientists in explorative data analysis processes, we need techniques to make data mining tasks even more efficient. To this end, we introduce a novel approach to stop clustering algorithms as early as possible while still achieving an adequate quality of the detected clusters. Our approach exploits the iterative nature of many cluster algorithms and uses a metric to decide after which iteration the mining task should stop. We present experimental results based on a Spark cluster using multiple huge datasets. The experiments unveil that our approach is able to accelerate the clustering up to a factor of more than 800 by obliterating many iterations which provide only little gain in quality. This way, we are able to find a good balance between the time required for data analysis and quality of the analysis results.
BibTeX:
@article{Fritz2019a, author = {Manuel Fritz and Michael Behringer and Holger Schwarz}, title = {Quality-driven early stopping for explorative cluster analysis for big data}, journal = {{SICS} Softw.-Intensive Cyber Phys. Syst.}, volume = {34}, number = {2-3}, pages = {129--140}, year = {2019}, url = {https://doi.org/10.1007/s00450-019-00401-0}, doi = {10.1007/s00450-019-00401-0}, biburl = {https://dblp.org/rec/journals/ife/FritzBS19.bib} }
- Michael Behringer, Pascal Hirmer, and Bernhard Mitschang (2018). "A Human-Centered Approach for Interactive Data Processing and Analytics". In Enterprise Information Systems : 19th International Conference on Enterprise Information Systems, ICEIS 2017, Porto, Portugal, April 26-29, 2017, Revised Selected Papers, Slimane Hammoudi, Michał Śmiałek, Olivier Camp and Joaquim Filipe (eds.). Springer International Publishing, pp. 498–514.
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
In recent years, the amount of data increases continuously. With newly emerging paradigms, such as the Internet of Things, this trend will even intensify in the future. Extracting information and, consequently, knowledge from this large amount of data is challenging. To realize this, approved data analytics approaches and techniques have been applied for many years. However, those approaches are oftentimes very static, i.e., cannot be dynamically controlled. Furthermore, their implementation and modification requires deep technical knowledge only technical experts can provide, such as an IT department of a company. The special needs of the business users are oftentimes not fully considered. To cope with these issues, we introduce in this article a human-centered approach for interactive data processing and analytics. By doing so, we put the user in control of data analytics through dynamic interaction. This approach is based on requirements derived from typical case scenarios.
BibTeX:
@inproceedings{Behringer2018, author = {Behringer, Michael and Hirmer, Pascal and Mitschang, Bernhard}, title = {A Human-Centered Approach for Interactive Data Processing and Analytics}, booktitle = {Enterprise Information Systems -- 19th International Conference on Enterprise Information Systems, ICEIS 2017, Porto, Portugal, April 26-29, 2017, Revised Selected Papers}, editor = {Hammoudi, Slimane and {\'{S}}mia{\l}ek, Micha{\l} and Camp, Olivier and Filipe, Joaquim}, address = {Cham}, isbn = {978-3-319-93375-7}, pages = {498--514}, publisher = {Springer International Publishing}, year = {2018} }
- Pascal Hirmer, Michael Behringer, and Bernhard Mitschang (2018). "Partial execution of Mashup Plans during modeling time". SICS Software-Intensive Cyber-Physical Systems - Advancements of Service Computing: Proceedings of SummerSoC 2017. Volume 33, Issue 3-4, pp. 341–352
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
Workflows and workflow technologies are an approved means to orchestrate services while supporting parallelism, error handling, and asynchronous messaging. A special case workflow technology is applied to are Data Mashups. In Data Mashups, workflows orchestrate services that specialize on data processing. The workflow model itself specifies the order data is processed in. Due to the fact that Data Mashups aim for usability of domain-experts with limited IT and programming knowledge, they oftentimes offer a layer on top that abstracts from the concrete workflow model and technology. This model is then transformed into an executable workflow model. However, transforming and executing the model as a whole leads to efficiency issues. In this paper, we introduce an approach to execute part of this model during modeling time. More precisely, once a specific part is modeled, it is transformed into an executable workflow fragment and executed in the backend. Consequently, once the user created the whole model, the execution time seems to be much shorter for the user because most of the model has already been processed. Furthermore, through our approach, access to intermediate results is enabled at modeling time already.
BibTeX:
@article{Hirmer:2018do, author = {Hirmer, Pascal and Behringer, Michael and Mitschang, Bernhard}, title = {{Partial execution of Mashup Plans during modeling time}}, journal = {Computer Science - Research and Development}, year = {2018}, volume = {33}, number = {3-4}, pages = {341--352}, publisher = {Springer Berlin Heidelberg}, doi = {10.1007/s00450-017-0388-x}, language = {English} }
- Pascal Hirmer and Michael Behringer (2017). "FlexMash 2.0 – Flexible Modeling and Execution of Data Mashups". Rapid Mashup Development Tools : Second International Rapid Mashup Challenge, RMC 2016, Lugano, Switzerland, June 6, 2016, Revised Selected Papers, Florian Daniel and Martin Gaedke (eds.). Springer International Publishing, pp. 10–29.
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
In recent years, the amount of data highly increases through cheap hardware, fast network technology, and the increasing digitization within most domains. The data produced is oftentimes heterogeneous, dynamic and originates from many highly distributed data sources. Deriving information and, as a consequence, knowledge from this data can lead to a higher effectiveness for problem solving and thus higher profits for companies. However, this is a great challenge – oftentimes referred to as Big Data problem. The data mashup tool FlexMash, developed at the University of Stuttgart, tackles this challenge by offering a means for integration and processing of heterogeneous, dynamic data sources. By doing so, FlexMash focuses on (i) an easy means to model data integration and processing scenarios by domain-experts based on the Pipes and Filters pattern, (ii) a flexible execution based on the user’s non-functional requirements, and (iii) high extensibility to enable a generic approach. A first version of this tool was presented during the ICWE Rapid Mashup Challenge 2015. In this article, we present the new version FlexMash 2.0, which introduces new features such as cloud-based execution and human interaction during runtime. These concepts have been presented during the ICWE Rapid Mashup Challenge 2016.
BibTeX:
@incollection{Hirmer2017, author = {Hirmer, Pascal and Behringer, Michael}, title = {{FlexMash 2.0 {\textendash} Flexible Modeling and Execution of Data Mashups}}, booktitle = {Rapid Mashup Development Tools}, year = {2017}, editor = {Daniel, Florian and Gaedke, Martin}, pages = {10--29}, publisher = {Springer International Publishing}, address = {Cham}, doi = {10.1007/978-3-319-53174-8_2} }
- Michael Behringer, Pascal Hirmer, and Bernhard Mitschang (2017). "Towards Interactive Data Processing and Analytics - Putting the Human in the Center of the Loop". Proceedings of the 19th International Conference on Enterprise Information Systems, ICEIS 2017, Porto, Portugal, April 26-29, 2017. pp. 87–96
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
Today, it is increasingly important for companies to evaluate data and use the information contained. In practice, this is however a great challenge, especially for domain users that lack the necessary technical knowledge. However, analyses prefabricated by technical experts do not provide the necessary flexibility and are oftentimes only implemented by the IT department if there is sufficient demand. Concepts like Visual Analytics or Self-Service Business Intelligence involve the user in the analysis process and try to reduce the technical requirements. However, these approaches either only cover specific application areas or they do not consider the entire analysis process. In this paper, we present an extended Visual Analytics process, which puts the user at the center of the analysis. Based on a use case scenario, requirements for this process are determined and, later on, a possible application for this scenario is discussed that emphasizes the benefits of our approach.
BibTeX:
@inproceedings{Behringer:2017, author = {Behringer, Michael and Hirmer, Pascal and Mitschang, Bernhard}, title = {{Towards Interactive Data Processing and Analytics - Putting the Human in the Center of the Loop}}, booktitle = {Proceedings of the 19th International Conference on Enterprise Information Systems, ICEIS 2017, Porto, Portugal, April 26-29, 2017}, year = {2017}, editor = {Hammoudi, Slimane and {\'{S}}mia{\l}ek, Micha{\l} and Camp, Olivier and Filipe, Joaquim}, pages = {87--96}, publisher = {SCITEPRESS - Science and Technology Publications}, doi = {10.5220/0006326300870096}, isbn = {978-989-758-247-9} }
- Michael Behringer (2016). "Visual Analytics im Kontext der Daten- und Analysequalität am Beispiel von Data Mashups". Diplomarbeit. Universität Stuttgart
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
Viele Prozesse und Geschäftsmodelle der Gegenwart basieren auf der Auswertung von Daten. Durch Fortschritte in der Speichertechnologie und Vernetzung ist die Akquisition von Daten heute sehr einfach und wird umfassend genutzt. Das weltweit vorhandene Datenvolumen steigt exponentiell und sorgt für eine zunehmende Komplexität der Analyse. In den letzten Jahren fällt in diesem Zusammenhang öfter der Begriff Visual Analytics. Dieses Forschungsgebiet kombiniert visuelle und automatische Verfahren zur Datenanalyse. Im Rahmen dieser Arbeit werden die Verwendung und die Ziele von Visual Analytics evaluiert und eine neue umfassendere Definition entwickelt. Aus dieser wird eine Erweiterung des Knowledge Discovery-Prozesses abgeleitet und verschiedene Ansätze bewertet. Um die Unterschiede zwischen Data Mining, der Visualisierung und Visual Analytics zu verdeutlichen, werden diese Themengebiete gegenübergestellt und in einem Ordnungsrahmen hinsichtlich verschiedener Dimensionen klassifiziert. Zusätzlich wird untersucht, inwiefern dieser neue Ansatz im Hinblick auf Daten- und Analysequalität eingesetzt werden kann. Abschließend wird auf Basis der gewonnenen Erkenntnisse eine prototypische Implementierung auf Basis von FlexMash, einem an der Universität Stuttgart entwickelten Data Mashup-Werkzeug, beschrieben. Data Mashups vereinfachen die Einbindung von Anwendern ohne technischen Hintergrund und harmonieren daher ausgezeichnet mit Visual Analytics.
BibTeX:
@mastersthesis{Behringer:2016, author = {Behringer, Michael}, title = {{Visual Analytics im Kontext der Daten- und Analysequalit{\"a}t am Beispiel von Data Mashups}}, school = {Universit{\"a}t Stuttgart}, year = {2016}, publisher = {Universit{\"a}t Stuttgart}, doi = {10.18419/opus-9325}, language = {German} }
- Markus Funk, Stefan Schneegass, Michael Behringer, Niels Henze, and Albrecht Schmidt (2015). "An Interactive Curtain for Media Usage in the Shower". In Proceedings of the 4th International Symposium on Pervasive Displays, PerDis 2015, Saarbrücken, Germany, June 10-12, 2015. pp. 225–231
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
Smartphones besitzen eine immer größere Funktionsvielfalt und sorgen dadurch für zunehmende Abhängigkeit. Entsprechend fühlen sich viele Menschen unwohl, wenn kein Zugriff auf dieses möglich ist. Insbesondere in einer Umgebung wie dem Badezimmer kann dies einerseits zu technischen Defekten an der Hardware, andererseits auch zu hygienischen Problemen führen. Im Rahmen dieser Studienarbeit wurde zunächst eine Online-Umfrage durchgeführt, um nähere Informationen über die vorhandene Ausstattung und die Anwendungsfülle zu erhalten. Auf Basis dieser Ergebnisse wurde ein Prototyp zur Mediennutzung in der Duschkabine entwickelt. Dieser bietet verschiedene Anwendungen wie Musik- und Videoplayer oder auch einen Überblick über zukünftige Termine und den Wetterbericht. Weiter wurden drei verschiedene Algorithmen entwickelt, welche sich in Komplexität, Geschwindigkeit und Fehlertoleranz unterscheiden. Sowohl das System, als auch die Algorithmen, wurden in einer Nutzerstudie vorgestellt und evaluiert. In dieser zeigte sich, dass die Probanden einem solchen System sehr positiv gegenüber stehen und die Erkennung gut funktioniert.
BibTeX:
@inproceedings{DBLP:conf/perdis/FunkSBH015, author = {Funk, Markus and Schneegass, Stefan and Behringer, Michael and Henze, Niels and Schmidt, Albrecht}, title = {{An Interactive Curtain for Media Usage in the Shower}}, booktitle = {Proceedings of the 4th International Symposium on Pervasive Displays, PerDis 2015, Saarbr{\"u}cken, Germany, June 10-12, 2015}, year = {2015}, pages = {225--231}, organization = {ACM}, publisher = {ACM Press}, address = {New York, New York, USA}, affiliation = {ACM}, doi = {10.1145/2757710.2757713}, isbn = {9781450336086}, language = {English} }
- Michael Behringer (2014). "Erforschung der Interaktionsmöglichkeiten mit flexiblen und unebenen Oberflächen". Studienarbeit. Universität Stuttgart
[Kurzzusammenfassung] [Zitieren] [Link] [PDF]Kurzzusammenfassung:
Smartphones besitzen eine immer größere Funktionsvielfalt und sorgen dadurch für zunehmende Abhängigkeit. Entsprechend fühlen sich viele Menschen unwohl, wenn kein Zugriff auf dieses möglich ist. Insbesondere in einer Umgebung wie dem Badezimmer kann dies einerseits zu technischen Defekten an der Hardware, andererseits auch zu hygienischen Problemen führen. Im Rahmen dieser Studienarbeit wurde zunächst eine Online-Umfrage durchgeführt, um nähere Informationen über die vorhandene Ausstattung und die Anwendungsfülle zu erhalten. Auf Basis dieser Ergebnisse wurde ein Prototyp zur Mediennutzung in der Duschkabine entwickelt. Dieser bietet verschiedene Anwendungen wie Musik- und Videoplayer oder auch einen Überblick über zukünftige Termine und den Wetterbericht. Weiter wurden drei verschiedene Algorithmen entwickelt, welche sich in Komplexität, Geschwindigkeit und Fehlertoleranz unterscheiden. Sowohl das System, als auch die Algorithmen, wurden in einer Nutzerstudie vorgestellt und evaluiert. In dieser zeigte sich, dass die Probanden einem solchen System sehr positiv gegenüber stehen und die Erkennung gut funktioniert.
BibTeX:
@phdthesis{Behringer:2014, author = {Behringer, Michael}, title = {{Erforschung der Interaktionsm{\"o}glichkeiten mit flexiblen und unebenen Oberfl{\"a}chen}}, school = {Universit{\"a}t Stuttgart}, year = {2014}, publisher = {Universit{\"a}t Stuttgart}, doi = {10.18419/opus-3336}, language = {German} }
wird derzeit überarbeitet
Bachelorarbeiten:
➣ Datenqualitätsmetriken zur Unterstützung von Domänenexperten bei interaktiven Analysen
Bachelorarbeit
Datenqualitätsmetriken zur Unterstützung von Domänenexperten bei interaktiven Analysen
Ausgangssituation/Motivation
Heutzutage werden große Datenmengen erfasst und gespeichert. Diese Daten müssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen und es ist meist domänenspezifisches Wissen vonnöten. Eine Anwendung, die diesen Anforderungen entspricht, muss folglich auch für Nutzer ohne umfangreichen technischen Hintergrund, sogenannte Domänenexperten, verständlich sein. Data-Mashup-Plattformen zielen auf eine solche flexible, ad hoc-Integration und Analyse von heterogenen Daten[1]. An der Universität Stuttgart wurde mit FlexMash[2] ein derartiges Data-Mashup-Werkzeug entwickelt, welches eine interaktive, grafische Modellierung von Datenverarbeitungs- und Analyseszenarien erlaubt. Die Modellierung basiert dabei auf dem Pipes-and-Filters-Pattern, bei welchem modulare Services mit einheitlichen Schnittstellen sowie einem einheitlichen Datenaustauschformat beliebig miteinander verbunden werden können. Diese Services repräsentieren entweder die Extraktion von Daten, die Verarbeitung von extrahierten Daten oder die Visualisierung der Resultate.
Ziele
Ziel dieser Arbeit ist es, FlexMash so zu erweitern, dass ein Feedback über die Datenqualität an den Domänenexperten übermittelt wird. Dies umfasst die Implementierung eines Repositories, welches mögliche Datenqualitätsmetriken und Implementierung vorhält, eine Erweiterung im Kontext der Spezifikation einer neuen Datenquelle (Offline-Phase), sowie eine kontextabhängige Spezifikation durch den Domänenexperten während der Laufzeit (Online-Phase).
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche, Zusammenfassung und Abgrenzung aktueller Forschungsergebnisse zu Datenqualität und deren Integration in Data-Mashup-Werkzeuge
- Entwicklung eines Konzeptes zur Integration in FlexMash
- Prototypische Implementierung des entwickelten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
- [2] Hirmer, P., Behringer, M. (2017). FlexMash 2.0 – Flexible Modeling and Execution of Data Mashups. In F. Daniel, M. Gaedke (Eds.), Rapid Mashup Development Tools (Vol. 696, pp. 10–29). Cham: Springer International Publishing
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Datenqualitätsmetriken zur Unterstützung von Domänenexperten bei interaktiven Analysen |
Titel der Arbeit (englisch): | Data quality metrics to support domain experts in interactive analysis |
Betreuer: | Dipl.-Inf. Michael Behringer |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | In Arbeit |
Masterarbeiten:
➣ Nutzung von Provenance-Daten zur Analyse personenbezogener Daten gemäß der DSGVO-Richtlinien
Masterarbeit
Nutzung von Provenance-Daten zur Analyse personenbezogener Daten gemäß der DSGVO-Richtlinien
Ausgangssituation/Motivation
Heute erfassen Unternehmen bei fast jeder Interaktion mit dem Internet personenbezogene Daten. Diese beinhalten etwa den Namen, die Anschrift und die Zahlungsmethode beim Online-Handel, gehen aber weit darüber hinaus, selbst wenn man auf Seiten von Drittanbietern surft. Seit Mai 2018 räumt die EU den Verbrauchern weitreichende Rechte ein um die Nutzung dieser Daten durch Unternehmen einzuschränken. Wenn ein Unternehmen gegen diese Rechte verstößt, kann der Verstoß mit zu 4\% des Jahresumsatzes geahndet werden. Folglich besteht bei Unternehmen ein großes Interesse, die Vorschriften einzuhalten.
Ziele
Ziel dieser Arbeit ist es, eine provenance-basierte Lösung zu entwickeln, welche die obigen Herausforderungen adressiert. Provenance beschreibt die Datenherkunft und den Verarbeitungsprozess von Daten. In Vorarbeiten wurden bereits Werkzeuge zum Sammeln der Provenance-Daten (\textit{Pebble}[1]) und zur Modellierung von Analyseprozessen entwickelt (\textit{FlexMash}[2]). Diese Werkzeuge sollen im Rahmen dieser Abschlussarbeit im Hinblick auf den Anwendungsfall der europäischen Datenschutzgrundverordnung (DSGVO) erweitert werden. Hierzu muss zunächst ein Verfahren entwickelt werden, welches den Einfluss einer Datenquelle auf das Analyseergebnis ermittelt und eine effiziente Neuberechnung ermöglicht. In einem zweiten Schritt soll dieses Verfahren in FlexMash integriert werden.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche, Zusammenfassung und Abgrenzung aktueller Forschungsergebnisse zu Data Provenance[3], GDPRProv[4], Interaktive Datenverarbeitung, etc.
- Konzeptionierung und Implementierung einer Indexstruktur, die über mehrere Anfragen hinweg den Einfluss gelöschter Eingabeelemente auf die Ergebnisse erfasst. Die Indexstruktur basiert auf Erkenntnissen, die durch das Sammeln von Provenance-Daten erfasst wurden. Hierdurch reduziert sich die Neuberechnung auf diejenigen Teile des Ergebnisses, welche tatsächlich durch Änderungen in der Eingabe beeinflusst werden.
- Entwicklung und Implementierung eines Algorithmus zur Entscheidung, ob es günstiger ist die Analyseergebnisse partiell oder vollständig neuzuberechnen.
- Evaluation der Indexstruktur und der Neuberechnungsmetriken über verschieden Workloads auf Echtdaten.
- Implementierung des entwickelten Verfahrens in FlexMash
Literatur
- [1] Diestelkämper, R., Herschel, M. (2019). Capturing and Querying Structural Provenance in Spark with Pebble. SIGMOD Conference, 1893–1896
- [2] Hirmer, P., Behringer, M. (2017). FlexMash 2.0 – Flexible Modeling and Execution of Data Mashups. In F. Daniel, M. Gaedke (Eds.), Rapid Mashup Development Tools (Vol. 696, pp. 10–29). Cham: Springer International Publishing
- [3] Herschel, M., Diestelkaemper, R., Ben Lahmar, H. (2017). A survey on provenance: What for? What form? What from? VLDB Endowment, 26(6), 881–906.
- [4] GDPRov - The GDPR Provenance Ontology, https://openscience.adaptcentre.ie/ontologies/GDPRov/docs/ontology
Organisatorisches
Art der Arbeit: | Masterarbeit |
Titel der Arbeit (deutsch): | Nutzung von Provenance-Daten zur Analyse personenbezogener Daten gemäß der DSGVO-Richtlinien |
Titel der Arbeit (englisch): | Using provenance data to explore personal data with GDPR compliance |
Betreuer: | Dipl.-Inf. Michael Behringer Ralf Diestelkämper, M. Sc. |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | In Arbeit |
Bachelorarbeiten:
➣ Automatisierte kontext-sensitive Visualisierung von Datenquellen unter Verwendung von Data Mashups
Bachelorarbeit
Automatisierte kontext-sensitive Visualisierung von Datenquellen unter Verwendung von Data Mashups
Ausgangssituation/Motivation
In der heutigen Zeit werden große Mengen an unstrukturierten, semistrukturierten und heterogenen Daten produziert. Diese Daten muüssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen sowie eine ad hoc-Integration auf Basis von Echtzeitdaten ermöglichen. Eine Anwendung, die diesen Anforderungen entspricht, muss auch für Nutzer ohne umfangreichen technischen Hintergrund verständlich sein. Data Mashup-Plattformen zielen auf eine flexible, ad hoc-Integration von heterogenen Daten[1].
Ziele
In dieser Arbeit sollen verschiedene Konzepte zur automatisierten Charakterisierung von Daten, sowie hierfür geeignete Visualisierungen recherchiert werden und im Hinblick auf die Anwendung im Bereich Data Mashups evaluiert werden. Weiterhin soll ein geeignetes Konzept speziell für die Anforderungen des Tools FlexMash in diesem Zusammenhang erstellt und prototypisch implementiert werden. Abschließend sollen die gewonnenen Erkenntnisse evaluiert werden.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrechereche über Konzepte der automatisierten Charakterisierung von Daten
- Literaturrechereche über geeignete Visualisierungen für unterschiedliche Daten
- Prototypische Implementierung eines geeigneten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer. http://doi.org/10.1007/978-3-642-55049-2
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Automatisierte kontext-sensitive Visualisierung von Datenquellen unter Verwendung von Data Mashups |
Titel der Arbeit (englisch): | Automatic context-sensitive visualization of data sources using data mashups |
Betreuer: | Dipl.-Inf. Michael Behringer |
Prüfer: | Prof. Dr.-Ing. habil. Bernhard Mitschang |
Beginn: | Abgeschlossen |
➣ Feature-getriebene Darstellung von Clustering-Resultaten
Bachelorarbeit
Feature-getriebene Darstellung von Clustering-Resultaten
Ausgangssituation/Motivation
Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Da diese jedoch ohne Auswertung und Verknüpfung wertlos sind, existieren verschiedenste Algorithmen und Analysemethoden. Diese Verfahren sind meistens eine undurchsichtige Black-Box, da zwischen Eingabe von Parametern und Ausgabe des Resultats keine Steuerungsmöglichkeiten bestehen. Häufig ist hierbei unklar, weshalb und unter welchen Voraussetzungen ein bestimmtes Ergebnis zustande kommt[1]. Ein Analyst muss dieses Ergebnis unter Berücksichtigung seines Domänenwissens beurteilen und Rückschlüsse ziehen. Insbesondere bei Clustering-Verfahren (etwa k-Means) ist dieses Resultat darüber hinaus stark von den initial gewählten Parametern abhängig. Ziel eines Clustering-Verfahrens ist es ähnliche Elemente zu einem Cluster zusammenzufassen, sowie unterschiedliche Elemente möglichst zu separieren. Dabei gestaltet sich die Kommunikation der Ergebnisse häufig schwierig.
Ziele
Für zweidimensionale (und mit Abstrichen dreidimensionale) Datensätze ist eine Visualisierung der Ergebnisse möglich und leicht verständlich. Für höher dimensionale Datensätze kommen typischerweise Dimensionsreduktionsverfahren, etwa PCA[2] oder t-SNE[3], zum Einsatz. Hierbei ist jedoch die Übersichtlichkeit/Verständlichkeit des Clustering-Ergebnisses nur selten gegeben. Aus diesem Grund werden für diese Datensätze andere, leichter verständliche Darstellungen benötigt. Mögliche Ansätze hierfür sind textuelle Repräsentationen der Cluster-Eigenschaften.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrechereche zu geeigneten Metriken für die Identifikation der relevantesten Features
- Literaturrechereche zu Konzepten für die Präsentation multidimensionaler Clustering-Ergebnisse
- Entwicklung und prototypische Implementierung geeigneter Konzepte
- Evaluation der Konzepte
Literatur
- [1] Jain, A. K., Dubes, R. C. (1988). Algorithms for clustering data. Upper Saddle River, NJ, USA: Prentice-Hall, Inc.
- [2] Wold, S., Esbensen, K., Geladi, P. (1987). Principal Component Analysis. Chemometrics and Intelligent Laboratory Systems, 2(1-3), 37–52
- [3] Maaten, L. V. D., Hinton, G. (2008). Visualizing Data using t-SNE. Journal of Machine Learning Research, 9(Nov), 2579–2605.
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Feature-getriebene Darstellung von Clustering-Resultaten |
Titel der Arbeit (englisch): | Feature-Driven Representation of Clustering Results |
Betreuer: | Dipl.-Inf. Michael Behringer Manuel Fritz, M. Sc. |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
➣ Interaktive Sampling-Verfahren im Kontext von Data-Mashup-Werkzeugen
Bachelorarbeit
Interaktive Sampling-Verfahren im Kontext von Data-Mashup-Werkzeugen
Ausgangssituation/Motivation
Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Da diese jedoch ohne Auswertung und Verknüpfung wertlos sind, existieren verschiedenste Analysemethoden, welche entweder manuell, semi-automatisch oder automatisch verwendet werden. Manuelle Verfahren erlauben eine tiefgehende Interaktionsmöglichkeit für den Datenanalyst, sind jedoch bei heute auftretenden Datenmengen nicht praktikabel auf Grund des explorativen Charakters der Datenanalyse und der benötigten Rechenleistung. Automatische Verfahren hingegen können große Datenmengen verarbeiten, sind meistens jedoch eine undurchsichtige Black-Box, da zwischen Eingabe von Parametern und Ausgabe des Resultates keine Steuerungsmöglichkeiten bestehen. Automatische Verfahren können somit das spezifische Domänenwissen des Datenanalysten nicht in den Prozess integrieren bzw. nur durch wiederholte Ausführung der kompletten Black-Box ohne Verständnisgewinn für die ablaufenden Prozesse zu ermöglichen.
Ziele
In Vorarbeiten wurden bereits verschiedene Verfahren für die Datenanalyse, etwa Clustering- oder Sampling-Algorithmen[1], auf Spark implementiert. Bisher existiert für diese Verfahren jedoch noch keine Nutzeroberfläche, um diese aus FlexMash[2], einem an der Universität Stuttgart entwickelten Data Mashup-Werkzeug[3], anzusprechen. Demzufolge soll in dieser Arbeit zunächst die vorhandenen Implementierungen in FlexMash integriert werden. Dies umfasst eine Anpassung an die verwendete Architektur sowie die Entwicklung einer geeigneten Benutzeroberfläche zur Spezifikation der Parameter.
Die Arbeit umfasst dazu folgende Aufgaben:
- Integration der existierenden Verfahren in FlexMash
- Literaturrechereche zu Konzepten für manuelle und (semi-)automatisierte Steuerung von Sampling-Verfahren
- Literaturrechereche zu geeigneten Metriken für die Evaluation erzeugter Samples
- Entwicklung und prototypische Implementierung eines geeigneten semi-automatisierten Verfahrens
- Evaluation der Konzepte
Literatur
- [1] Wang, H., Parthasarathy, S., Ghoting, A., Tatikonda, S., Buehrer, G., Kurc, T., Saltz, J. (2005). Design of a next generation sampling service for large scale data analysis applications (pp. 91–100). Proceedings of the 19th International Conference on Supercomputing, New York, New York, USA
- [2] Hirmer, P., Mitschang, B. (2016). FlexMash – Flexible Data Mashups Based on Pattern-Based Model Transformation. In F. Daniel, C. Pautasso (Eds.), Rapid Mashup Development Tools (Vol. 591, pp. 12–30). Cham: Springer, Cham
- [3] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Interaktive Sampling-Verfahren im Kontext von Data-Mashup-Werkzeugen |
Titel der Arbeit (englisch): | Interactive sampling techniques in the context of data mashup tools |
Betreuer: | Dipl.-Inf. Michael Behringer Manuel Fritz, M. Sc. |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
Bachelorarbeit
Interaktive kontextsensitive Integration und Aufbereitung heterogener Datenquellen unter Verwendung von Data Mashups
Ausgangssituation/Motivation
In der heutigen Zeit werden große Mengen an unstrukturierten, semistrukturierten und heterogenen Daten produziert. Diese Daten muüssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen sowie eine ad hoc-Integration auf Basis von Echtzeitdaten ermöglichen. Eine Anwendung, die diesen Anforderungen entspricht, muss auch für Nutzer ohne umfangreichen technischen Hintergrund verständlich sein. Data Mashup-Plattformen zielen auf eine flexible, ad hoc-Integration von heterogenen Daten[1].
Ziele
In dieser Arbeit soll das bestehende Tool FlexMash durch ein Konzept zur Integration und Aufbereitung von Datensätzen zur nachgelagerten Analyse erweitert werden.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche über Konzepte und Algorithmen zur automatisierten Schema-Integration
- Entwicklung eines Konzeptes zur Integration in FlexMash
- Prototypische Implementierung des entwickelten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Interaktive kontextsensitive Integration und Aufbereitung heterogener Datenquellen unter Verwendung von Data Mashups |
Titel der Arbeit (englisch): | Interactive context-sensitive integration and cleaning of heterogenous data sources using data mashups |
Betreuer: | Dipl.-Inf. Michael Behringer Dipl.-Inf. Pascal Hirmer |
Prüfer: | Prof. Dr.-Ing. habil. Bernhard Mitschang |
Beginn: | Abgeschlossen |
➣ Interaktive und inkrementelle Visualisierung im Kontext von Big Data
Bachelorarbeit
Interaktive und inkrementelle Visualisierung im Kontext von Big Data
Ausgangssituation/Motivation
In der heutigen Zeit werden große Mengen an unstrukturierten, semistrukturierten und heterogenen Daten produziert. Diese Daten müssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen sowie eine ad hoc-Integration auf Basis von Echtzeitdaten ermöglichen. Eine Anwendung, die diesen Anforderungen entspricht, muss auch für Nutzer ohne umfangreichen technischen Hintergrund verständlich sein. Data Mashup-Plattformen zielen auf eine flexible, ad hoc-Integration von heterogenen Daten[1].
Ziele
In dieser Arbeit soll eine Anwendung entwickelt werden, durch welche der Anwender in die Lage versetzt wird beliebige Attribute des Datensatzes zu spezifizieren und eine für das Verständnis hilfreiche Visualisierung generiert werden. Da dies insbesondere im Kontext von Big Data zu größeren Latenzzeiten für die Erstellung der Visualisierung führen kann, soll weiterhin evaluiert werden inwiefern eine inkrementelle Berechnung[2] hierbei unterstützen kann.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrechereche über geeignete Visualisierungen für unterschiedliche Daten
- Literaturrechereche über Konzepte der inkrementellen Visualisierung
- Prototypische Implementierung eines geeigneten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
- [2] Schulz, H.-J., Angelini, M., Santucci, G., Schumann, H. (2016). An Enhanced Visualization Process Model for Incremental Visualization. IEEE Transactions on Visualization and Computer Graphics, 22(7), 1830–1842
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Interaktive und inkrementelle Visualisierung im Kontext von Big Data |
Titel der Arbeit (englisch): | Interactive and incremental visualization in the context of Big Data |
Betreuer: | Dipl.-Inf. Michael Behringer Manuel Fritz, M. Sc. |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
➣ Metriken zur Evaluation von Teilschritten in Data Mining-Analysen
Bachelorarbeit
Metriken zur Evaluation von Teilschritten in Data Mining-Analysen
Ausgangssituation/Motivation
Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Da diese jedoch ohne Auswertung und Verknüpfung wertlos sind, existieren verschiedenste Algorithmen und Analysemethoden. Diese Verfahren sind aus der Sicht von Einsteigern, aber auch für erfahrene Anwender eine undurchsichtige Black-Box, da zwischen Eingabe von Parametern und Ausgabe des Resultats keine Steuerungsmöglichkeiten oder Zwischenschritte möglich sind. Daher ist häufig unklar, weshalb und unter welchen Voraussetzungen ein bestimmtes Ergebnis zustande kommt[1]. Diese Verfahren sind geprägt von iterativen Algorithmen, jedoch sind für einen Anwender diese Zwischenschritte nicht einsehbar.
Ziele
In dieser Arbeit sollen für ein spezifisches Analyseverfahren (Clustering, z.B. k-means[2] und DBSCAN[3]) geeignete Zeitpunkte zur Berechnung von Zwischenergebnissen bestimmt werden. Hierfür soll eine manuelle bzw. (semi-)automatisierte Auswahl von Metriken stattfinden, welche verdeutlicht zu welchem Zeitpunkt ein geeignetes Zwischenergebnis zu visualisieren ist. Diese Metriken sollen im weiteren Verlauf dazu verwendet werden, um die Clustering-Ergebnisse zu approximieren, wenn bereits eine ausreichende Qualität erreicht wurde. Eine Implementierung soll diese Ergebnisse visualisieren.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche über Clustering-Algorithmen
- Literaturrecherche über Metriken und Konvergenzkriterien
- Entwicklung und prototypische Implementierung eines geeigneten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Jain, A. K., Dubes, R. C. (1988). Algorithms for clustering data. Upper Saddle River, NJ, USA: Prentice-Hall, Inc.
- [2] MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations (Vol. 1, pp. 281–297). Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, University of California Press
- [3] Ester, M., Kriegel, H. P., Sander, J., Xu, X. (1996). A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Proceedings of the 2nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Metriken zur Evaluation von Teilschritten in Data Mining-Analysen |
Titel der Arbeit (englisch): | Metrics for the evaluation of partial steps in data mining analyses |
Betreuer: | Manuel Fritz, M. Sc. Dipl.-Inf. Michael Behringer |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
Masterarbeiten:
➣ Dynamische Teilausführung von Workflows zur Modellierungszeit
Masterarbeit
Dynamische Teilausführung von Workflows zur Modellierungszeit
Ausgangssituation/Motivation
In der heutigen Zeit werden große Mengen an unstrukturierten, semistrukturierten und heterogenen Daten produziert. Diese Daten müssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen sowie eine ad hoc-Integration auf Basis von Echtzeitdaten ermöglichen. Eine Anwendung, die diesen Anforderungen entspricht, muss auch für Nutzer ohne umfangreichen technischen Hintergrund verständlich sein. Data Mashup-Plattformen zielen auf eine flexible, ad hoc-Integration von heterogenen Daten [1]. An der Universität Stuttgart wurde mit FlexMash ein Data Mashup Tool entwickelt, welches neben einer domänenspezifischen, grafischen Modellierung von Datenverarbeitungs- und Integrationsszenarien auch deren Ausführung durch sogenannte Mashup Plans ermöglicht. Die Art der Ausführung hängt hierbei von den nicht-funktionalen Anforderungen des Nutzers ab, d.h. die für die Ausführung verwendeten Komponenten werden dynamisch bestimmt. Die Modellierung basiert dabei auf dem Pipes and Filters Pattern, bei welchem modulare Services mit einheitlichen Schnittstellen, sowie einem einheitlichen Datenaustauschformat beliebig miteinander verbunden werden können. Diese Services repräsentieren entweder die Extraktion von Daten, die Verarbeitung von extrahierten Daten oder die Visualisierung der Resultate. Ein bisher ungelöstes Problem von FlexMash ist es, dass selbst bei minimalen Änderungen der Modellierung der gesamte Mashup Plan erneut ausgeführt wird, was bei großen Datenmengen zu stark erhöhter Laufzeit und entsprechend eingeschränkter Usability führt. Um diesem Problem zu begegnen ist eine teilweise Ausführung der modellierten Abläufe, d.h. des Mashup Plans, wünschenswert. In diesem Zusammenhang ist die Anwendung verschiedener Konzepte - wie beispielsweise ’smart’ re-runs [2] oder Model-as-you-go [3] - denkbar, sodass auf diese Weise die Antwortzeit des Systems reduziert werden kann.
Ziele
In dieser Arbeit sollen die verschiedenen Konzepte für die teilweise Ausführung von Workflows recherchiert werden und im Hinblick auf die Anwendungsmöglichkeiten im Bereich Data Mashups evaluiert werden. Weiterhin soll ein geeignetes Konzept speziell für die Anforderungen des Tools FlexMash in diesem Zusammenhang erstellt und prototypisch implementiert werden. Die daraus gewonnenen Erkenntnisse sollen abschließend gegenüber den formulierten Anforderungen evaluiert werden.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche über Konzepte der teilweisen Ausführung von Workflows
- Entwicklung eines geeigneten Konzeptes für das Tool FlexMash
- Protoypische Implementierung des entwickelten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
- [2] Ludäscher, B., Altintas, I., Berkley, C., Higgins, D., Jaeger, E., Jones, M., et al. (2006). Scientific workflow management and the Kepler system. Concurrency and Computation: Practice and Experience, 18(10), 1039–1065
- [3] Sonntag, M., Karastoyanova, D., Karastoyanova, D. (2013). Model-as-you-go: An Approach for an Advanced Infrastructure for Scientific Workflows. Journal of Grid Computing, 11(3), 553–583
Organisatorisches
Art der Arbeit: | Masterarbeit |
Titel der Arbeit (deutsch): | Dynamische Teilausführung von Workflows zur Modellierungszeit |
Titel der Arbeit (englisch): | Dynamic Execution of Workflows Parts During Modeling Time |
Betreuer: | Dipl.-Inf. Pascal Hirmer Dipl.-Inf. Michael Behringer |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
➣ Bewertung von Vorhersagemechanismen von Parametern für Data-Mining-Algorithmen
Masterarbeit
Bewertung von Vorhersagemechanismen von Parametern für Data-Mining-Algorithmen
Ausgangssituation/Motivation
Der Begriff "Data Analytics" beschreibt einen Prozess, der Informationen von Rohdaten in Wissen verwandelt. Heutzutage existieren mehrere Referenzprozessmodelle, wie z.B. KDD oder CRISP-DM. Diese Referenzmodelle reichen im Allgemeinen von (1) Datenauswahl, (2) Datentransformation, (3) Data Mining bis hin zu (4) Auswertung und (5) Anwendung der Mining-Ergebnisse. Obwohl die logische Reihenfolge der einzelnen Schritte nachvollziehbar und gut etabliert ist, gibt es noch keine konkreten Vorschläge, wie die einzelnen Schritte durchgeführt werden sollen. Im Allgemeinen müssen Analysten den Lösungsraum untersuchen, um gültige Optionen im Verlauf des Analyseprozesses zu finden. Domänenwissen über den spezifischen Kontext kann dabei nützlich sein, doch es ist mühsam, einen solchen Prozess durchzuführen. Der Hauptgrund dafür ist eine immer größer werdende Menge an zu analysierenden Daten, die zu großen zeitlichen Abständen zwischen den einzelnen Schritten des Prozesses führt und somit die Exploration erschwert. Im Schritt "Data Mining" werden Algorithmen und statistische Ansätze auf dem Datensatz ausgeführt, um neue Muster zu erkennen. Typischerweise stammen diese Algorithmen aus dem Bereich des maschinellen Lernens und benötigen vor der eigentlichen Ausführung der analytischen Algorithmen einen Satz von Parametern. Diese Parameter sind von entscheidender Bedeutung für die Qualität des Ergebnisses, da falsche Parameter zu falschen oder gar keinen Ergebnissen führen können. Die Mining-Algorithmen müssen jedoch vollständig ausgeführt werden, bis es möglich ist, die Eignung des Algorithmus und seiner Parameter abzuschätzen. Daher muss ein Analytiker über verschiedene Varianten von Algorithmen und Parametern wiederholt und vollständig iterieren, was zu einem sehr zeitaufwändigen Zyklus führt. Selbst eine kleine Änderung der Parameter führt zu langen Laufzeiten und offenbart damit, dass die Erkundung des Lösungsraumes der Parameter für einen Analytiker sehr mühsam ist.
Ziele
Derzeit gibt es nur wenige Heuristiken [1] und bewährte Verfahren [2] zur Bestimmung von Parametern für einige Mining-Algorithmen. Diese sind für jeden einzelnen Algorithmus sehr spezifisch und für eine allgemeinere Reihe von Algorithmen nicht unbedingt gut geeignet. Insbesondere bei großen Datenmengen sind einige bewährte Verfahren nicht durchführbar, da sie mehrmals auf dem gesamten Datensatz ausgeführt werden müssen, um zuverlässige Parameter zu approximieren. Space Partitioning-Algorithmen und Visualisierungen scheinen ein vielversprechender Ansatz zu sein. Binary Space Partioning-Algorithmen und Partitionierungsvisualisierungen sind geeignet, den Datenraum in kleinere, leichter zu verarbeitende Stücke zu zerlegen. Ziel dieser Arbeit ist es, Parameter mit einem solchen Raumpartitionierungsansatz, z.B. Voronoi-Tesselierung oder Delaunay-Triangulation, abzuschätzen. Beide Visualisierungen können z.B. aus Algorithmen gewonnen werden [3], bedürfen aber noch einer weiteren Feinabstimmung, um die Charakteristika von Mining-Algorithmen widerzuspiegeln, wie z.B. spezifische Dichte- oder Abstandsmetriken zur Schätzung vielversprechender Parameter. Diese Arbeit kann in unterschiedlichen Richtungen erfolgen: Von einer erschöpfenden Erforschung und Bewertung von Heuristiken und bewährten Verfahren zur zeitsparenden Parameterabschätzung für ein breites Spektrum von Mining-Algorithmen bis hin zur Entwicklung eines neuartigen Ansatzes unter Verwendung von Raumunterteilungskonzepten und einem grundlegenden Vergleich mit einer Heuristik für einen einzelnen Mining-Algorithmus sind möglich. Eine prototypische Implementierung der Ergebnisse soll die Vorteile dieser Arbeit für die Forschungsgemeinschaft hervorheben.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche über Heuristiken für häufig verwendete Data-Mining-Algorithmen
- Literaturrecherche und Evaluation von Space Partitioning-Verfahren
- Protoypische Implementierung
- Evaluation der Ergebnisse
Literatur
- [1] V. Birodkar and D. R. Edla, “Enhanced K -Means Clustering Algorithm using A Heuristic Approach”, Journal of Information and Computing Science, vol. 9, no. 4, pp. 277–284, 2014
- [2] D. Golovin, B. Solnik, S. Moitra, G. Kochanski, J. Karro, and D. Sculley, “Google Vizier: A Service for Black-Box Optimization,” in Proceedings of the SIGKDD Conference on Knowledge Discovery and Data Mining, 2017
- [3] S. Fortune, “A Sweepline Algorithm for Voronoi Diagrams,” in Proceedings of the secondannual symposium on Computational geometry, 1986, pp. 313–322
Organisatorisches
Art der Arbeit: | Masterarbeit |
Titel der Arbeit (deutsch): | Evaluation of Prediction Mechanisms of Parameters for Data Mining Algorithms |
Titel der Arbeit (englisch): | Bewertung von Vorhersagemechanismen von Parametern für Data-Mining-Algorithmen |
Betreuer: | Manuel Fritz, M.Sc. Dipl.-Inf. Michael Behringer |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |