Kontakt
+49 711 685 88242
+49 711 685 78242
E-Mail
Visitenkarte (VCF)
Universitätsstraße 38
D-70569 Stuttgart
Deutschland
Raum: 2.467
Sprechstunde
Nach Vereinbarung
Fachgebiet
Projektbereich: Daten, Metadaten und Analyse
Im Rahmen des Dissertationsprojektes "Interaktive Assistenzsysteme im Kontext der explorativen und anwenderfokussierten Datenanalyse" beschäftige ich mich mit interaktiven Verfahren, welche es Domänenexperten erlauben zusätzliche und nicht durch Standardabfragen abgedeckte Analysen durchzuführen und dadurch neue Hypothesen und Erkenntnisse zu ermöglichen.
Herkömmliche Anwendungen aus den Bereichen Visual Analytics bzw. Self-Service Business Intelligence fokussieren sich entweder auf die Analyse einer spezifischen Problemstellung oder folgen vordefinierten Analysepfaden. Da ein Domänenexperte nur in seltenen Fällen über tiefere technische Kenntnisse verfügt müsste eine tiefergehende Analyse durch die IT-Abteilung kostenintensiv umgesetzt werden. Dies ist jedoch nur im Falle absehbarer wirtschaftlicher Relevanz wahrscheinlich. Insbesondere im Hinblick auf explorative Analyseszenarien ist ein derartiger Wettbewerbsvorteil zu Beginn möglich, jedoch nicht quantifizierbar.
Es ist folglich wünschenswert den Domänenexperten in die Lage zu versetzen erste explorative Analysen selbstständig durchführen zu können, um Hypothesen zu verifizieren. Hierzu muss in jedem Schritt der Analyse der notwendige Detailgrad abstrahiert werden. Dies soll über eine ausgewogene Interaktion zwischen visuellen und automatisierten Verfahren umgesetzt werden und den Domänenexperten in jeden Schritt der Analyse einbinden. Um hier umfangreichere Analysepfade zu ermöglichen ist ein generischerer Ansatz – etwa mit Hilfe von Data-Mashup-Werkzeugen – erforderlich. Diese ermöglichen eine weitgehend freie Kombination von Datenquellen und Operatoren mittels einer intuitiven grafische Oberfläche und eignen sich folglich für die Spezifikation von Analyseprozessen im Hinblick auf die schnelle Exploration der Daten ohne Programmierkenntnisse.
Das Ziel dieses Projektes ist es, Verfahren zu entwickeln, um einen Domänenexperten in der explorativen Analyse zu unterstützen. Dies beinhaltet etwa eine Vorselektion von Datenquellen, die Entlastung von Routineaufgaben sowie Interaktionskonzepte im Bereich Datenaufbereitung. Durch diese Fokusverschiebung auf die Integration eines oder mehrerer Domänenexperten in den Analyseprozess und den dadurch steigenden Freiheitsgrad kann auf die zeitraubende und kostenintensive Implementierung einer (neuen) Analyse durch die IT-Abteilung in vielen Fällen verzichtet werden und sich in der Konsequenz neue unternehmerische Chancen eröffnen.
2023
- Michael Behringer (2023). "Interactive, Explorative and User-Centric Data Analysis: Concepts, Systems, Evaluations". Dissertation
[Abstract] [Cite] [Link] [PDF]Abstract:
The present era, oftentimes referred to as the data age, is characterized by an enormous volume of data across various sectors. Similar to how oil has shaped the industrial age in the 19th century, data are now the crucial resource for gaining competitive advantages. However, harnessing this potential requires thorough analysis and domain knowledge to extract valuable information from these data. To optimally leverage this knowledge, domain experts have to be involved in the entire analysis process. This doctoral thesis introduces the user-centric data analysis approach, empowering domain experts to navigate the full-featured analytical journey, from selecting data sources to data preprocessing, data mining, and reporting - without the need for extensive technical knowledge. This holistic approach encompasses not only a reference model for user-centric data analysis but furthermore includes concepts, prototypical implementations as well as comprehensive evaluations for several phases of the analysis. The user-centric data analysis approach is systematically compared to various state-of-the-art approaches, such as process models or visual analytics, based on six different dimensions. This comparison reveals that, through the introduced approach, domain experts are significantly better integrated into the analysis process, resulting in faster insights and competitive advantages.
BibTeX:
- Michael Behringer, Pascal Hirmer, Alejandro Gabriel Zacharias Villanueva, Jannis Rapp, and Bernhard Mitschang (2023). "Unobtrusive Integration of Data Quality in Interactive Explorative Data Analysis". Accepted: 25th International Conference on Enterprise Information Systems, ICEIS 2023, Prague, Czech Republic, April 24-26, 2023
[Abstract] [Cite] [Link] [PDF]Abstract:
The volume of data to be analyzed has increased tremendously in recent years. To extract knowledge from this data, domain experts gain new insights using graphical analysis tools for explorative analyses. Hereby, the reliability and trustworthiness of an explorative analysis are determined by the quality of the underlying data. Existing approaches require a manual inspection to ensure data quality. This inspection is frequently neglected, partly because domain experts often lack the necessary technical knowledge. Moreover, they might need many different tools for this purpose. In this paper, we present a novel interactive approach to integrate data quality into explorative data analysis in an unobtrusive manner. Our approach efficiently combines the strength of different experts, which is currently not supported by state-of-the-art tools, thereby allowing domain-specific adaptation. We implemented a fully working prototype to demonstrate the ability of our approach to support domain experts in explorative data analysis.
BibTeX:
- Michael Behringer, Dennis Treder-Tschechlov, Julius Voggesberger, Pascal Hirmer, and Bernhard Mitschang (2023). "SDRank - A Deep Learning Approach for Similarity Ranking of Data Sources to Support User-Centric Data Analysis". Accepted: 25th International Conference on Enterprise Information Systems, ICEIS 2023, Prague, Czech Republic, April 24-26, 2023
[Abstract] [Cite] [Link] [PDF]Abstract:
Today, data analytics is widely used throughout many domains to identify new trends, opportunities, or risks and improve decision-making. By doing so, various heterogeneous data sources must be selected to form the foundation for knowledge discovery driven by data analytics. However, discovering and selecting the suitable and valuable data sources to improve the analytics results is a great challenge. Domain experts can easily become overwhelmed in the data selection process due to a large amount of available data sources that might contain similar kinds of information. Supporting domain experts in discovering and selecting the best suitable data sources can save time, costs and significantly increase the quality of the analytics results. In this paper, we introduce a novel approach -- SDRank -- which provides a Deep Learning approach to rank data sources based on their similarity to already selected data sources. We implemented SDRank, trained various models on 4 860 datasets, and measured the achieved precision for evaluation purposes. By doing so, we showed that SDRank is able to highly improve the workflow of domain experts to select beneficial data sources.
BibTeX:
2022
- Michael Behringer, Manuel Fritz, Holger Schwarz, Bernhard Mitschang (2022). "DATA-IMP: An Interactive Approach to Specify Data Imputation Transformations on Large Datasets". Proceedings of the 28th International Conference on Cooperative Information Systems, CoopIS 2022, Bozen, Italy, October 04-07, 2022. Best Conference Paper Award.
[Abstract] [Cite] [Link] [PDF]Abstract:
In recent years, the volume of data to be analyzed has increased tremendously. However, purposeful data analyses on large-scale data require in-depth domain knowledge. A common approach to reduce data volume and preserve interactivity are sampling algorithms. However, when using a sample, the semantic context across the entire dataset is lost, which impedes data preprocessing. In particular data imputation transformations, which aim to fill empty values for more accurate data analyses, suffer from this problem. To cope with this issue, we introduce DATA-IMP, a novel human-in-the-loop approach that enables data imputation transformations in an interactive manner while preserving scalability. We implemented a fully working prototype and conducted a comprehensive user study as well as a comparison to several non-interactive data imputation techniques. We show that our approach significantly outperforms state-of-the-art approaches regarding accuracy as well as preserves user satisfaction and enables domain experts to preprocess large-scale data in an interactive manner.
BibTeX:
@inproceedings{Behringer2022coopis, abstract = {In recent years, the volume of data to be analyzed has increased tremendously. However, purposeful data analyses on large-scale data require in-depth domain knowledge. A common approach to reduce data volume and preserve interactivity are sampling algorithms. However, when using a sample, the semantic context across the entire dataset is lost, which impedes data preprocessing. In particular data imputation transformations, which aim to fill empty values for more accurate data analyses, suffer from this problem. To cope with this issue, we introduce DATA-IMP, a novel human-in-the-loop approach that enables data imputation transformations in an interactive manner while preserving scalability. We implemented a fully working prototype and conducted a comprehensive user study as well as a comparison to several non-interactive data imputation techniques. We show that our approach significantly outperforms state-of-the-art approaches regarding accuracy as well as preserves user satisfaction and enables domain experts to preprocess large-scale data in an interactive manner.}, address = {Cham}, author = {Behringer, Michael and Fritz, Manuel and Schwarz, Holger and Mitschang, Bernhard}, booktitle = {Cooperative Information Systems}, editor = {Sellami, Mohamed and Ceravolo, Paolo and Reijers, Hajo A. and Gaaloul, Walid and Panetto, Herv{\'e}}, isbn = {978-3-031-17834-4}, pages = {55--74}, publisher = {Springer International Publishing}, title = {DATA-IMP: An Interactive Approach to Specify Data Imputation Transformations on Large Datasets}, year = {2022}}
- Christoph Stach, Clémentine Gritti, Julia Bräcker, Michael Behringer, and Bernhard Mitschang (2022). "Protecting Sensitive Data in the Information Age: State of the Art and Future Prospects". Future Internet. Volume 14, Issue 11, pp. 302:1-302:43
[Abstract] [Cite] [Link] [PDF]Abstract:
The present information age is characterized by an ever-increasing digitalization. Smart devices quantify our entire lives. These collected data provide the foundation for data-driven services called smart services. They are able to adapt to a given context and thus tailor their functionalities to the user's needs. It is therefore not surprising that their main resource, namely data, is nowadays a valuable commodity that can also be traded. However, this trend does not only have positive sides, as the gathered data reveal a lot of information about various data subjects. To prevent uncontrolled insights into private or confidential matters, data protection laws restrict the processing of sensitive data. One key factor in this regard is user-friendly privacy mechanisms. In this paper, we therefore assess current state-of-the-art privacy mechanisms. To this end, we initially identify forms of data processing applied by smart services. We then discuss privacy mechanisms suited for these use cases. Our findings reveal that current state-of-the-art privacy mechanisms provide good protection in principle, but there is no compelling one-size-fits-all privacy approach. This leads to further questions regarding the practicality of these mechanisms, which we present in the form of seven thought-provoking propositions.
BibTeX:
@article{stach22fi, author = {Stach, Christoph and Gritti, Cl\'{e}mentine and Br\"{a}cker, Julia and Behringer, Michael and Mitschang, Bernhard}, journal = {Future Internet}, title = {{P}rotecting {S}ensitive {D}ata in the {I}nformation {A}ge: {S}tate of the {A}rt and {F}uture {P}rospects}, editor = {Giuli, Dino and Papavassiliou, Symeon and Bellavista, Paolo and Hudson-Smith, Andrew}, year = 2022, month = oct, volume = 14, number = 11, pages = {302:1--302:43}, publisher = {MDPI}, issn = {1999-5903}, doi = {10.3390/fi14110302}, }
- Manuel Fritz, Michael Behringer, Dennis Tschechlov, and Holger Schwarz (2022). "Efficient exploratory clustering analyses in large-scale exploration processes". The VLDB Journal. Volume 31, Issue 4, pp. 711-732
[Abstract] [Cite] [Link] [PDF]Abstract:
Clustering is a fundamental primitive in manifold applications. In order to achieve valuable results in exploratory clustering analyses, parameters of the clustering algorithm have to be set appropriately, which is a tremendous pitfall. We observe multiple challenges for large-scale exploration processes. On the one hand, they require specific methods to efficiently explore large parameter search spaces. On the other hand, they often exhibit large runtimes, in particular when large datasets are analyzed using clustering algorithms with super-polynomial runtimes, which repeatedly need to be executed within exploratory clustering analyses. We address these challenges as follows: First, we present LOG-Means and show that it provides estimates for the number of clusters in sublinear time regarding the defined search space, i.e., provably requiring less executions of a clustering algorithm than existing methods. Second, we demonstrate how to exploit fundamental characteristics of exploratory clustering analyses in order to significantly accelerate the (repetitive) execution of clustering algorithms on large datasets. Third, we show how these challenges can be tackled at the same time. To the best of our knowledge, this is the first work which simultaneously addresses the above-mentioned challenges. In our comprehensive evaluation, we unveil that our proposed methods significantly outperform state-of-the-art methods, thus especially supporting novice analysts for exploratory clustering analyses in large-scale exploration processes.
BibTeX:
@article{Fritz2022vldbj, author = {Fritz, Manuel and Behringer, Michael and Tschechlov, Dennis and Schwarz, Holger}, title = {{Efficient exploratory clustering analyses in large-scale exploration processes}}, journal = {The VLDB Journal}, year = {2022}, volume = {31}, number = {4}, pages = {711--732}, url = {https://doi.org/10.1007/s00778-021-00716-y} }
- Christoph Stach, Michael Behringer, Julia Bräcker, Clémentine Gritti, and Bernhard Mitschang (2022). "SMARTEN—A Sample-Based Approach towards Privacy-Friendly Data Refinement". Journal of Cybersecurity and Privacy. Volume 2, Issue 3, pp. 606-628
[Abstract] [Cite] [Link] [PDF]Abstract:
Two factors are crucial for the effective operation of modern-day smart services: Initially, IoT-enabled technologies have to capture and combine huge amounts of data on data subjects. Then, all these data have to be processed exhaustively by means of techniques from the area of big data analytics. With regard to the latter, thorough data refinement in terms of data cleansing and data transformation is the decisive cornerstone. Studies show that data refinement reaches its full potential only by involving domain experts in the process. However, this means that these experts need full insight into the data in order to be able to identify and resolve any issues therein, e.g., by correcting or removing inaccurate, incorrect, or irrelevant data records. In particular for sensitive data (e.g., private data or confidential data), this poses a problem, since these data are thereby disclosed to third parties such as domain experts. To this end, we introduce SMARTEN, a sample-based approach towards privacy-friendly data refinement to smarten up big data analytics and smart services. SMARTEN applies a revised data refinement process that fully involves domain experts in data pre-processing but does not expose any sensitive data to them or any other third-party. To achieve this, domain experts obtain a representative sample of the entire data set that meets all privacy policies and confidentiality guidelines. Based on this sample, domain experts define data cleaning and transformation steps. Subsequently, these steps are converted into executable data refinement rules and applied to the entire data set. Domain experts can request further samples and define further rules until the data quality required for the intended use case is reached. Evaluation results confirm that our approach is effective in terms of both data quality and data privacy.
BibTeX:
@Article{stach2022jcp, author = {Stach, Christoph and Behringer, Michael and Br\"{a}cker, Julia and Gritti, Cl\'{e}mentine and Mitschang, Bernhard}, journal = {Journal of Cybersecurity and Privacy}, title = {{SMARTEN}---{A} {S}ample-{B}ased {A}pproach towards {P}rivacy-{F}riendly {D}ata {R}efinement}, editor = {Rawat, Danda B. and Giacinto, Giorgio}, year = 2022, month = aug, volume = 2, number = 3, pages = {606--628}, publisher = {MDPI}, issn = {2624-800X}, doi = {10.3390/jcp2030031}, }
- Michael Behringer, Manuel Fritz, Holger Schwarz, Bernhard Mitschang (2022). "Increasing Explainability of Clustering Results for Domain Experts by Identifying Meaningful Features". Proceedings of the 24th International Conference on Enterprise Information Systems, ICEIS 2022, Online Streaming, April 25-27, 2022
[Abstract] [Cite] [Link] [PDF]Abstract:
Today, the amount of data is growing rapidly, which makes it nearly impossible for human analysts to comprehend the data or to extract any knowledge from it. To cope with this, as part of the knowledge discovery process, many different data mining and machine learning techniques were developed in the past. A famous representative of such techniques is clustering, which allows the identification of different groups of data (the clusters) based on data characteristics. These algorithms need no prior knowledge or configuration, which makes them easy to use, but interpreting and explaining the results can become very difficult for domain experts. Even though different kinds of visualizations for clustering results exist, they do not offer enough details for explaining how the algorithms reached their results. In this paper, we propose a new approach to increase explainability for clustering algorithms. Our approach identifies and selects features that are most meaningful for the clusteri ng result. We conducted a comprehensive evaluation in which, based on 216 synthetic datasets, we first examined various dispersion metrics regarding their suitability to identify meaningful features and we evaluated the achieved precision with respect to different data characteristics. This evaluation shows, that our approach outperforms existing algorithms in 93 percent of the examined datasets.
BibTeX:
@inproceedings{Behringer2022iceis, author = {Michael Behringer and Pascal Hirmer and Dennis Tschechlov and Bernhard Mitschang}, editor = {Joaquim Filipe and Michal Smialek and Alexander Brodsky and Slimane Hammoudi}, title = {Increasing Explainability of Clustering Results for Domain Experts by Identifying Meaningful Features}, booktitle = {Proceedings of the 24th International Conference on Enterprise Information Systems, {ICEIS} 2022, Online Streaming, April 25-27, 2022, Volume 2}, pages = {364--373}, publisher = {{SCITEPRESS}}, year = {2022}, url = {https://doi.org/10.5220/0011092000003179}, doi = {10.5220/0011092000003179} }
2020
- Manuel Fritz, Michael Behringer, and Holger Schwarz (2020). "LOG-Means: Efficiently Estimating the Number of Clusters in Large Datasets". Proceedings of the VLDB Endowment. Volume 13, Issue 12, pp. 2118-2131
[Abstract] [Cite] [Link] [PDF]Abstract:
Clustering is a fundamental primitive in manifold applications. In order to achieve valuable results, parameters of the clustering algorithm, e.g., the number of clusters, have to be set appropriately, which is a tremendous pitfall. To this end, analysts rely on their domain knowledge in order to define parameter search spaces. While experienced analysts may be able to define a small search space, especially novice analysts often define rather large search spaces due to the lack of in-depth domain knowledge. These search spaces can be explored in different ways by estimation methods for the number of clusters. In the worst case, estimation methods perform an exhaustive search in the given search space, which leads to infeasible runtimes for large datasets and large search spaces. We propose LOG-Means, which is able to overcome these issues of existing methods. We show that LOG-Means provides estimates in sublinear time regarding the defined search space, thus being a strong fit for large datasets and large search spaces. In our comprehensive evaluation on an Apache Spark cluster, we compare LOG-Means to 13 existing estimation methods. The evaluation shows that LOG-Means significantly outperforms these methods in terms of runtime and accuracy. To the best of our knowledge, this is the most systematic comparison on large datasets and search spaces as of today.
BibTeX:
@article{Fritz2020vldb, author = {Fritz, Manuel and Behringer, Michael and Schwarz, Holger}, title = {LOG-Means: Efficiently Estimating the Number of Clusters in Large Datasets}, publisher = {VLDB Endowment}, volume = {13}, number = {12}, issn = {2150-8097}, url = {https://doi.org/10.14778/3407790.3407813}, doi = {10.14778/3407790.3407813}, year = {2020}, issue_date = {August 2020}, journal = {Proc. VLDB Endow.}, month = {jul}, pages = {2118–2131}, numpages = {14} }
- Michael Behringer, Pascal Hirmer, Manuel Fritz, and Bernhard Mitschang (2020). "Empowering Domain Experts to Preprocess Massive Distributed Datasets". In Proceedings of the 23rd International Conference on Business Information Systems, BIS 2020, Colorado Springs, CO, USA, June 08-10, 2020.
[Abstract] [Cite] [Link] [PDF]Abstract:
In recent years, the amount of data is growing extensively. In companies, spreadsheets are one common approach to conduct data processing and statistical analysis. However, especially when working with massive amounts of data, spreadsheet applications have their limitations. To cope with this issue, we introduce a human-in-the-loop approach for scalable data preprocessing using sampling. In contrast to state-of-the- art approaches, we also consider conflict resolution and recommendations based on data not contained in the sample itself. We implemented a fully functional prototype and conducted a user study with 12 participants. We show that our approach delivers a significantly higher error correction than comparable approaches which only consider the sample dataset.
BibTeX:
@incollection{Behringer2020ba, author = {Behringer, Michael and Hirmer, Pascal and Fritz, Manuel and Mitschang, Bernhard}, title = {{Empowering Domain Experts to Preprocess Massive Distributed Datasets}}, booktitle = {Business Information Systems}, year = {2020}, editor = {Abramowicz, Witold and Klein, Gary}, pages = {61--75}, publisher = {Springer International Publishing}, address = {Cham}, doi = {10.1007/978-3-030-53337-3_5}, language = {English}, rating = {0}, date-added = {2021-05-11T17:09:51GMT}, date-modified = {2021-05-11T17:23:02GMT}, abstract = {In recent years, the amount of data is growing extensively. In companies, spreadsheets are one common approach to conduct data processing and statistical analysis. However, especially when working...}, url = {https://link.springer.com/chapter/10.1007/978-3-030-53337-3_5}, }
2019
- Manuel Fritz, Osama Muazzen, Michael Behringer, and Holger Schwarz (2019). "ASAP-DM: a framework for automatic selection of analytic platforms for data mining". SICS Software-Intensive Cyber-Physical Systems.
[Abstract] [Cite] [Link] [PDF]Abstract:
The plethora of analytic platforms escalates the difficulty of selecting the most appropriate analytic platform that fits the needed data mining task, the dataset as well as additional user-defined criteria. Especially analysts, who are rather focused on the analytics domain, experience difficulties to keep up with the latest developments. In this work, we introduce the ASAP-DM framework, which enables analysts to seamlessly use several platforms, whereas programmers can easily add several platforms to the framework. Furthermore, we investigate how to predict a platform based on specific criteria, such as lowest runtime or resource consumption during the execution of a data mining task. We formulate this task as an optimization problem, which can be solved by today’s classification algorithms. We evaluate the proposed framework on several analytic platforms such as Spark, Mahout, and WEKA along with several data mining algorithms for classification, clustering, and association rule discovery. Our experiments unveil that the automatic selection process can save up to 99.71% of the execution time due to automatically choosing a faster platform.
BibTeX:
@article{Fritz2019b, author = {Fritz, Manuel and Muazzen, Osama and Behringer, Michael and Schwarz, Holger}, day = 17, doi = {10.1007/s00450-019-00408-7}, issn = {2524-8529}, journal = {SICS Software-Intensive Cyber-Physical Systems}, month = aug, title = {ASAP-DM: a framework for automatic selection of analytic platforms for data mining}, url = {https://doi.org/10.1007/s00450-019-00408-7}, year = 2019 }
- Manuel Fritz, Michael Behringer, and Holger Schwarz (2019). "Quality-driven early stopping for explorative cluster analysis for big data". SICS Software-Intensive Cyber-Physical Systems - Advancements of Service Computing: Proceedings of SummerSoC 2018. Volume 34, Issue 2-3, pp. 129–140
[Abstract] [Cite] [Link] [PDF]Abstract:
Data analysis has become a critical success factor for companies in all areas. Hence, it is necessary to quickly gain knowledge from available datasets, which is becoming especially challenging in times of big data. Typical data mining tasks like cluster analysis are very time consuming even if they run in highly parallel environments like Spark clusters. To support data scientists in explorative data analysis processes, we need techniques to make data mining tasks even more efficient. To this end, we introduce a novel approach to stop clustering algorithms as early as possible while still achieving an adequate quality of the detected clusters. Our approach exploits the iterative nature of many cluster algorithms and uses a metric to decide after which iteration the mining task should stop. We present experimental results based on a Spark cluster using multiple huge datasets. The experiments unveil that our approach is able to accelerate the clustering up to a factor of more than 800 by obliterating many iterations which provide only little gain in quality. This way, we are able to find a good balance between the time required for data analysis and quality of the analysis results.
BibTeX:
@article{Fritz2019a, author = {Manuel Fritz and Michael Behringer and Holger Schwarz}, title = {Quality-driven early stopping for explorative cluster analysis for big data}, journal = {{SICS} Softw.-Intensive Cyber Phys. Syst.}, volume = {34}, number = {2-3}, pages = {129--140}, year = {2019}, url = {https://doi.org/10.1007/s00450-019-00401-0}, doi = {10.1007/s00450-019-00401-0}, biburl = {https://dblp.org/rec/journals/ife/FritzBS19.bib} }
- Michael Behringer, Pascal Hirmer, and Bernhard Mitschang (2018). "A Human-Centered Approach for Interactive Data Processing and Analytics". In Enterprise Information Systems : 19th International Conference on Enterprise Information Systems, ICEIS 2017, Porto, Portugal, April 26-29, 2017, Revised Selected Papers, Slimane Hammoudi, Michał Śmiałek, Olivier Camp and Joaquim Filipe (eds.). Springer International Publishing, pp. 498–514.
[Abstract] [Cite] [Link] [PDF]Abstract:
In recent years, the amount of data increases continuously. With newly emerging paradigms, such as the Internet of Things, this trend will even intensify in the future. Extracting information and, consequently, knowledge from this large amount of data is challenging. To realize this, approved data analytics approaches and techniques have been applied for many years. However, those approaches are oftentimes very static, i.e., cannot be dynamically controlled. Furthermore, their implementation and modification requires deep technical knowledge only technical experts can provide, such as an IT department of a company. The special needs of the business users are oftentimes not fully considered. To cope with these issues, we introduce in this article a human-centered approach for interactive data processing and analytics. By doing so, we put the user in control of data analytics through dynamic interaction. This approach is based on requirements derived from typical case scenarios.
BibTeX:
@inproceedings{Behringer2018, author = {Behringer, Michael and Hirmer, Pascal and Mitschang, Bernhard}, title = {A Human-Centered Approach for Interactive Data Processing and Analytics}, booktitle = {Enterprise Information Systems -- 19th International Conference on Enterprise Information Systems, ICEIS 2017, Porto, Portugal, April 26-29, 2017, Revised Selected Papers}, editor = {Hammoudi, Slimane and {\'{S}}mia{\l}ek, Micha{\l} and Camp, Olivier and Filipe, Joaquim}, address = {Cham}, isbn = {978-3-319-93375-7}, pages = {498--514}, publisher = {Springer International Publishing}, year = {2018} }
- Pascal Hirmer, Michael Behringer, and Bernhard Mitschang (2018). "Partial execution of Mashup Plans during modeling time". SICS Software-Intensive Cyber-Physical Systems - Advancements of Service Computing: Proceedings of SummerSoC 2017. Volume 33, Issue 3-4, pp. 341–352
[Abstract] [Cite] [Link] [PDF]Abstract:
Workflows and workflow technologies are an approved means to orchestrate services while supporting parallelism, error handling, and asynchronous messaging. A special case workflow technology is applied to are Data Mashups. In Data Mashups, workflows orchestrate services that specialize on data processing. The workflow model itself specifies the order data is processed in. Due to the fact that Data Mashups aim for usability of domain-experts with limited IT and programming knowledge, they oftentimes offer a layer on top that abstracts from the concrete workflow model and technology. This model is then transformed into an executable workflow model. However, transforming and executing the model as a whole leads to efficiency issues. In this paper, we introduce an approach to execute part of this model during modeling time. More precisely, once a specific part is modeled, it is transformed into an executable workflow fragment and executed in the backend. Consequently, once the user created the whole model, the execution time seems to be much shorter for the user because most of the model has already been processed. Furthermore, through our approach, access to intermediate results is enabled at modeling time already.
BibTeX:
@article{Hirmer:2018do, author = {Hirmer, Pascal and Behringer, Michael and Mitschang, Bernhard}, title = {{Partial execution of Mashup Plans during modeling time}}, journal = {Computer Science - Research and Development}, year = {2018}, volume = {33}, number = {3-4}, pages = {341--352}, publisher = {Springer Berlin Heidelberg}, doi = {10.1007/s00450-017-0388-x}, language = {English} }
- Pascal Hirmer and Michael Behringer (2017). "FlexMash 2.0 – Flexible Modeling and Execution of Data Mashups". Rapid Mashup Development Tools : Second International Rapid Mashup Challenge, RMC 2016, Lugano, Switzerland, June 6, 2016, Revised Selected Papers, Florian Daniel and Martin Gaedke (eds.). Springer International Publishing, pp. 10–29.
[Abstract] [Cite] [Link] [PDF]Abstract:
In recent years, the amount of data highly increases through cheap hardware, fast network technology, and the increasing digitization within most domains. The data produced is oftentimes heterogeneous, dynamic and originates from many highly distributed data sources. Deriving information and, as a consequence, knowledge from this data can lead to a higher effectiveness for problem solving and thus higher profits for companies. However, this is a great challenge – oftentimes referred to as Big Data problem. The data mashup tool FlexMash, developed at the University of Stuttgart, tackles this challenge by offering a means for integration and processing of heterogeneous, dynamic data sources. By doing so, FlexMash focuses on (i) an easy means to model data integration and processing scenarios by domain-experts based on the Pipes and Filters pattern, (ii) a flexible execution based on the user’s non-functional requirements, and (iii) high extensibility to enable a generic approach. A first version of this tool was presented during the ICWE Rapid Mashup Challenge 2015. In this article, we present the new version FlexMash 2.0, which introduces new features such as cloud-based execution and human interaction during runtime. These concepts have been presented during the ICWE Rapid Mashup Challenge 2016.
BibTeX:
@incollection{Hirmer2017, author = {Hirmer, Pascal and Behringer, Michael}, title = {{FlexMash 2.0 {\textendash} Flexible Modeling and Execution of Data Mashups}}, booktitle = {Rapid Mashup Development Tools}, year = {2017}, editor = {Daniel, Florian and Gaedke, Martin}, pages = {10--29}, publisher = {Springer International Publishing}, address = {Cham}, doi = {10.1007/978-3-319-53174-8_2} }
- Michael Behringer, Pascal Hirmer, and Bernhard Mitschang (2017). "Towards Interactive Data Processing and Analytics - Putting the Human in the Center of the Loop". Proceedings of the 19th International Conference on Enterprise Information Systems, ICEIS 2017, Porto, Portugal, April 26-29, 2017. pp. 87–96
[Abstract] [Cite] [Link] [PDF]Abstract:
Today, it is increasingly important for companies to evaluate data and use the information contained. In practice, this is however a great challenge, especially for domain users that lack the necessary technical knowledge. However, analyses prefabricated by technical experts do not provide the necessary flexibility and are oftentimes only implemented by the IT department if there is sufficient demand. Concepts like Visual Analytics or Self-Service Business Intelligence involve the user in the analysis process and try to reduce the technical requirements. However, these approaches either only cover specific application areas or they do not consider the entire analysis process. In this paper, we present an extended Visual Analytics process, which puts the user at the center of the analysis. Based on a use case scenario, requirements for this process are determined and, later on, a possible application for this scenario is discussed that emphasizes the benefits of our approach.
BibTeX:
@inproceedings{Behringer:2017, author = {Behringer, Michael and Hirmer, Pascal and Mitschang, Bernhard}, title = {{Towards Interactive Data Processing and Analytics - Putting the Human in the Center of the Loop}}, booktitle = {Proceedings of the 19th International Conference on Enterprise Information Systems, ICEIS 2017, Porto, Portugal, April 26-29, 2017}, year = {2017}, editor = {Hammoudi, Slimane and {\'{S}}mia{\l}ek, Micha{\l} and Camp, Olivier and Filipe, Joaquim}, pages = {87--96}, publisher = {SCITEPRESS - Science and Technology Publications}, doi = {10.5220/0006326300870096}, isbn = {978-989-758-247-9} }
- Michael Behringer (2016). "Visual Analytics im Kontext der Daten- und Analysequalität am Beispiel von Data Mashups". Diploma Thesis. Universität Stuttgart
[Abstract] [Cite] [Link] [PDF]Abstract:
Viele Prozesse und Geschäftsmodelle der Gegenwart basieren auf der Auswertung von Daten. Durch Fortschritte in der Speichertechnologie und Vernetzung ist die Akquisition von Daten heute sehr einfach und wird umfassend genutzt. Das weltweit vorhandene Datenvolumen steigt exponentiell und sorgt für eine zunehmende Komplexität der Analyse. In den letzten Jahren fällt in diesem Zusammenhang öfter der Begriff Visual Analytics. Dieses Forschungsgebiet kombiniert visuelle und automatische Verfahren zur Datenanalyse. Im Rahmen dieser Arbeit werden die Verwendung und die Ziele von Visual Analytics evaluiert und eine neue umfassendere Definition entwickelt. Aus dieser wird eine Erweiterung des Knowledge Discovery-Prozesses abgeleitet und verschiedene Ansätze bewertet. Um die Unterschiede zwischen Data Mining, der Visualisierung und Visual Analytics zu verdeutlichen, werden diese Themengebiete gegenübergestellt und in einem Ordnungsrahmen hinsichtlich verschiedener Dimensionen klassifiziert. Zusätzlich wird untersucht, inwiefern dieser neue Ansatz im Hinblick auf Daten- und Analysequalität eingesetzt werden kann. Abschließend wird auf Basis der gewonnenen Erkenntnisse eine prototypische Implementierung auf Basis von FlexMash, einem an der Universität Stuttgart entwickelten Data Mashup-Werkzeug, beschrieben. Data Mashups vereinfachen die Einbindung von Anwendern ohne technischen Hintergrund und harmonieren daher ausgezeichnet mit Visual Analytics.
BibTeX:
@mastersthesis{Behringer:2016, author = {Behringer, Michael}, title = {{Visual Analytics im Kontext der Daten- und Analysequalit{\"a}t am Beispiel von Data Mashups}}, school = {Universit{\"a}t Stuttgart}, year = {2016}, publisher = {Universit{\"a}t Stuttgart}, doi = {10.18419/opus-9325}, language = {German} }
- Markus Funk, Stefan Schneegass, Michael Behringer, Niels Henze, and Albrecht Schmidt (2015). "An Interactive Curtain for Media Usage in the Shower". In Proceedings of the 4th International Symposium on Pervasive Displays, PerDis 2015, Saarbrücken, Germany, June 10-12, 2015. pp. 225–231
[Abstract] [Cite] [Link] [PDF]Abstract:
Smartphones besitzen eine immer größere Funktionsvielfalt und sorgen dadurch für zunehmende Abhängigkeit. Entsprechend fühlen sich viele Menschen unwohl, wenn kein Zugriff auf dieses möglich ist. Insbesondere in einer Umgebung wie dem Badezimmer kann dies einerseits zu technischen Defekten an der Hardware, andererseits auch zu hygienischen Problemen führen. Im Rahmen dieser Studienarbeit wurde zunächst eine Online-Umfrage durchgeführt, um nähere Informationen über die vorhandene Ausstattung und die Anwendungsfülle zu erhalten. Auf Basis dieser Ergebnisse wurde ein Prototyp zur Mediennutzung in der Duschkabine entwickelt. Dieser bietet verschiedene Anwendungen wie Musik- und Videoplayer oder auch einen Überblick über zukünftige Termine und den Wetterbericht. Weiter wurden drei verschiedene Algorithmen entwickelt, welche sich in Komplexität, Geschwindigkeit und Fehlertoleranz unterscheiden. Sowohl das System, als auch die Algorithmen, wurden in einer Nutzerstudie vorgestellt und evaluiert. In dieser zeigte sich, dass die Probanden einem solchen System sehr positiv gegenüber stehen und die Erkennung gut funktioniert.
BibTeX:
@inproceedings{DBLP:conf/perdis/FunkSBH015, author = {Funk, Markus and Schneegass, Stefan and Behringer, Michael and Henze, Niels and Schmidt, Albrecht}, title = {{An Interactive Curtain for Media Usage in the Shower}}, booktitle = {Proceedings of the 4th International Symposium on Pervasive Displays, PerDis 2015, Saarbr{\"u}cken, Germany, June 10-12, 2015}, year = {2015}, pages = {225--231}, organization = {ACM}, publisher = {ACM Press}, address = {New York, New York, USA}, affiliation = {ACM}, doi = {10.1145/2757710.2757713}, isbn = {9781450336086}, language = {English} }
- Michael Behringer (2014). "Erforschung der Interaktionsmöglichkeiten mit flexiblen und unebenen Oberflächen". Study Thesis. Universität Stuttgart
[Abstract] [Cite] [Link] [PDF]Abstract:
Smartphones besitzen eine immer größere Funktionsvielfalt und sorgen dadurch für zunehmende Abhängigkeit. Entsprechend fühlen sich viele Menschen unwohl, wenn kein Zugriff auf dieses möglich ist. Insbesondere in einer Umgebung wie dem Badezimmer kann dies einerseits zu technischen Defekten an der Hardware, andererseits auch zu hygienischen Problemen führen. Im Rahmen dieser Studienarbeit wurde zunächst eine Online-Umfrage durchgeführt, um nähere Informationen über die vorhandene Ausstattung und die Anwendungsfülle zu erhalten. Auf Basis dieser Ergebnisse wurde ein Prototyp zur Mediennutzung in der Duschkabine entwickelt. Dieser bietet verschiedene Anwendungen wie Musik- und Videoplayer oder auch einen Überblick über zukünftige Termine und den Wetterbericht. Weiter wurden drei verschiedene Algorithmen entwickelt, welche sich in Komplexität, Geschwindigkeit und Fehlertoleranz unterscheiden. Sowohl das System, als auch die Algorithmen, wurden in einer Nutzerstudie vorgestellt und evaluiert. In dieser zeigte sich, dass die Probanden einem solchen System sehr positiv gegenüber stehen und die Erkennung gut funktioniert.
BibTeX:
@phdthesis{Behringer:2014, author = {Behringer, Michael}, title = {{Erforschung der Interaktionsm{\"o}glichkeiten mit flexiblen und unebenen Oberfl{\"a}chen}}, school = {Universit{\"a}t Stuttgart}, year = {2014}, publisher = {Universit{\"a}t Stuttgart}, doi = {10.18419/opus-3336}, language = {German} }
wird derzeit überarbeitet
Bachelorarbeiten:
➣ Datenqualitätsmetriken zur Unterstützung von Domänenexperten bei interaktiven Analysen
Bachelorarbeit
Datenqualitätsmetriken zur Unterstützung von Domänenexperten bei interaktiven Analysen
Ausgangssituation/Motivation
Heutzutage werden große Datenmengen erfasst und gespeichert. Diese Daten müssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen und es ist meist domänenspezifisches Wissen vonnöten. Eine Anwendung, die diesen Anforderungen entspricht, muss folglich auch für Nutzer ohne umfangreichen technischen Hintergrund, sogenannte Domänenexperten, verständlich sein. Data-Mashup-Plattformen zielen auf eine solche flexible, ad hoc-Integration und Analyse von heterogenen Daten[1]. An der Universität Stuttgart wurde mit FlexMash[2] ein derartiges Data-Mashup-Werkzeug entwickelt, welches eine interaktive, grafische Modellierung von Datenverarbeitungs- und Analyseszenarien erlaubt. Die Modellierung basiert dabei auf dem Pipes-and-Filters-Pattern, bei welchem modulare Services mit einheitlichen Schnittstellen sowie einem einheitlichen Datenaustauschformat beliebig miteinander verbunden werden können. Diese Services repräsentieren entweder die Extraktion von Daten, die Verarbeitung von extrahierten Daten oder die Visualisierung der Resultate.
Ziele
Ziel dieser Arbeit ist es, FlexMash so zu erweitern, dass ein Feedback über die Datenqualität an den Domänenexperten übermittelt wird. Dies umfasst die Implementierung eines Repositories, welches mögliche Datenqualitätsmetriken und Implementierung vorhält, eine Erweiterung im Kontext der Spezifikation einer neuen Datenquelle (Offline-Phase), sowie eine kontextabhängige Spezifikation durch den Domänenexperten während der Laufzeit (Online-Phase).
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche, Zusammenfassung und Abgrenzung aktueller Forschungsergebnisse zu Datenqualität und deren Integration in Data-Mashup-Werkzeuge
- Entwicklung eines Konzeptes zur Integration in FlexMash
- Prototypische Implementierung des entwickelten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
- [2] Hirmer, P., Behringer, M. (2017). FlexMash 2.0 – Flexible Modeling and Execution of Data Mashups. In F. Daniel, M. Gaedke (Eds.), Rapid Mashup Development Tools (Vol. 696, pp. 10–29). Cham: Springer International Publishing
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Datenqualitätsmetriken zur Unterstützung von Domänenexperten bei interaktiven Analysen |
Titel der Arbeit (englisch): | Data quality metrics to support domain experts in interactive analysis |
Betreuer: | Dipl.-Inf. Michael Behringer |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | In Arbeit |
Masterarbeiten:
➣ Nutzung von Provenance-Daten zur Analyse personenbezogener Daten gemäß der DSGVO-Richtlinien
Masterarbeit
Nutzung von Provenance-Daten zur Analyse personenbezogener Daten gemäß der DSGVO-Richtlinien
Ausgangssituation/Motivation
Heute erfassen Unternehmen bei fast jeder Interaktion mit dem Internet personenbezogene Daten. Diese beinhalten etwa den Namen, die Anschrift und die Zahlungsmethode beim Online-Handel, gehen aber weit darüber hinaus, selbst wenn man auf Seiten von Drittanbietern surft. Seit Mai 2018 räumt die EU den Verbrauchern weitreichende Rechte ein um die Nutzung dieser Daten durch Unternehmen einzuschränken. Wenn ein Unternehmen gegen diese Rechte verstößt, kann der Verstoß mit zu 4\% des Jahresumsatzes geahndet werden. Folglich besteht bei Unternehmen ein großes Interesse, die Vorschriften einzuhalten.
Ziele
Ziel dieser Arbeit ist es, eine provenance-basierte Lösung zu entwickeln, welche die obigen Herausforderungen adressiert. Provenance beschreibt die Datenherkunft und den Verarbeitungsprozess von Daten. In Vorarbeiten wurden bereits Werkzeuge zum Sammeln der Provenance-Daten (\textit{Pebble}[1]) und zur Modellierung von Analyseprozessen entwickelt (\textit{FlexMash}[2]). Diese Werkzeuge sollen im Rahmen dieser Abschlussarbeit im Hinblick auf den Anwendungsfall der europäischen Datenschutzgrundverordnung (DSGVO) erweitert werden. Hierzu muss zunächst ein Verfahren entwickelt werden, welches den Einfluss einer Datenquelle auf das Analyseergebnis ermittelt und eine effiziente Neuberechnung ermöglicht. In einem zweiten Schritt soll dieses Verfahren in FlexMash integriert werden.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche, Zusammenfassung und Abgrenzung aktueller Forschungsergebnisse zu Data Provenance[3], GDPRProv[4], Interaktive Datenverarbeitung, etc.
- Konzeptionierung und Implementierung einer Indexstruktur, die über mehrere Anfragen hinweg den Einfluss gelöschter Eingabeelemente auf die Ergebnisse erfasst. Die Indexstruktur basiert auf Erkenntnissen, die durch das Sammeln von Provenance-Daten erfasst wurden. Hierdurch reduziert sich die Neuberechnung auf diejenigen Teile des Ergebnisses, welche tatsächlich durch Änderungen in der Eingabe beeinflusst werden.
- Entwicklung und Implementierung eines Algorithmus zur Entscheidung, ob es günstiger ist die Analyseergebnisse partiell oder vollständig neuzuberechnen.
- Evaluation der Indexstruktur und der Neuberechnungsmetriken über verschieden Workloads auf Echtdaten.
- Implementierung des entwickelten Verfahrens in FlexMash
Literatur
- [1] Diestelkämper, R., Herschel, M. (2019). Capturing and Querying Structural Provenance in Spark with Pebble. SIGMOD Conference, 1893–1896
- [2] Hirmer, P., Behringer, M. (2017). FlexMash 2.0 – Flexible Modeling and Execution of Data Mashups. In F. Daniel, M. Gaedke (Eds.), Rapid Mashup Development Tools (Vol. 696, pp. 10–29). Cham: Springer International Publishing
- [3] Herschel, M., Diestelkaemper, R., Ben Lahmar, H. (2017). A survey on provenance: What for? What form? What from? VLDB Endowment, 26(6), 881–906.
- [4] GDPRov - The GDPR Provenance Ontology, https://openscience.adaptcentre.ie/ontologies/GDPRov/docs/ontology
Organisatorisches
Art der Arbeit: | Masterarbeit |
Titel der Arbeit (deutsch): | Nutzung von Provenance-Daten zur Analyse personenbezogener Daten gemäß der DSGVO-Richtlinien |
Titel der Arbeit (englisch): | Using provenance data to explore personal data with GDPR compliance |
Betreuer: | Dipl.-Inf. Michael Behringer Ralf Diestelkämper, M. Sc. |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | In Arbeit |
Bachelorarbeiten:
➣ Automatisierte kontext-sensitive Visualisierung von Datenquellen unter Verwendung von Data Mashups
Bachelorarbeit
Automatisierte kontext-sensitive Visualisierung von Datenquellen unter Verwendung von Data Mashups
Ausgangssituation/Motivation
In der heutigen Zeit werden große Mengen an unstrukturierten, semistrukturierten und heterogenen Daten produziert. Diese Daten muüssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen sowie eine ad hoc-Integration auf Basis von Echtzeitdaten ermöglichen. Eine Anwendung, die diesen Anforderungen entspricht, muss auch für Nutzer ohne umfangreichen technischen Hintergrund verständlich sein. Data Mashup-Plattformen zielen auf eine flexible, ad hoc-Integration von heterogenen Daten[1].
Ziele
In dieser Arbeit sollen verschiedene Konzepte zur automatisierten Charakterisierung von Daten, sowie hierfür geeignete Visualisierungen recherchiert werden und im Hinblick auf die Anwendung im Bereich Data Mashups evaluiert werden. Weiterhin soll ein geeignetes Konzept speziell für die Anforderungen des Tools FlexMash in diesem Zusammenhang erstellt und prototypisch implementiert werden. Abschließend sollen die gewonnenen Erkenntnisse evaluiert werden.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrechereche über Konzepte der automatisierten Charakterisierung von Daten
- Literaturrechereche über geeignete Visualisierungen für unterschiedliche Daten
- Prototypische Implementierung eines geeigneten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer. http://doi.org/10.1007/978-3-642-55049-2
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Automatisierte kontext-sensitive Visualisierung von Datenquellen unter Verwendung von Data Mashups |
Titel der Arbeit (englisch): | Automatic context-sensitive visualization of data sources using data mashups |
Betreuer: | Dipl.-Inf. Michael Behringer |
Prüfer: | Prof. Dr.-Ing. habil. Bernhard Mitschang |
Beginn: | Abgeschlossen |
➣ Feature-getriebene Darstellung von Clustering-Resultaten
Bachelorarbeit
Feature-getriebene Darstellung von Clustering-Resultaten
Ausgangssituation/Motivation
Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Da diese jedoch ohne Auswertung und Verknüpfung wertlos sind, existieren verschiedenste Algorithmen und Analysemethoden. Diese Verfahren sind meistens eine undurchsichtige Black-Box, da zwischen Eingabe von Parametern und Ausgabe des Resultats keine Steuerungsmöglichkeiten bestehen. Häufig ist hierbei unklar, weshalb und unter welchen Voraussetzungen ein bestimmtes Ergebnis zustande kommt[1]. Ein Analyst muss dieses Ergebnis unter Berücksichtigung seines Domänenwissens beurteilen und Rückschlüsse ziehen. Insbesondere bei Clustering-Verfahren (etwa k-Means) ist dieses Resultat darüber hinaus stark von den initial gewählten Parametern abhängig. Ziel eines Clustering-Verfahrens ist es ähnliche Elemente zu einem Cluster zusammenzufassen, sowie unterschiedliche Elemente möglichst zu separieren. Dabei gestaltet sich die Kommunikation der Ergebnisse häufig schwierig.
Ziele
Für zweidimensionale (und mit Abstrichen dreidimensionale) Datensätze ist eine Visualisierung der Ergebnisse möglich und leicht verständlich. Für höher dimensionale Datensätze kommen typischerweise Dimensionsreduktionsverfahren, etwa PCA[2] oder t-SNE[3], zum Einsatz. Hierbei ist jedoch die Übersichtlichkeit/Verständlichkeit des Clustering-Ergebnisses nur selten gegeben. Aus diesem Grund werden für diese Datensätze andere, leichter verständliche Darstellungen benötigt. Mögliche Ansätze hierfür sind textuelle Repräsentationen der Cluster-Eigenschaften.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrechereche zu geeigneten Metriken für die Identifikation der relevantesten Features
- Literaturrechereche zu Konzepten für die Präsentation multidimensionaler Clustering-Ergebnisse
- Entwicklung und prototypische Implementierung geeigneter Konzepte
- Evaluation der Konzepte
Literatur
- [1] Jain, A. K., Dubes, R. C. (1988). Algorithms for clustering data. Upper Saddle River, NJ, USA: Prentice-Hall, Inc.
- [2] Wold, S., Esbensen, K., Geladi, P. (1987). Principal Component Analysis. Chemometrics and Intelligent Laboratory Systems, 2(1-3), 37–52
- [3] Maaten, L. V. D., Hinton, G. (2008). Visualizing Data using t-SNE. Journal of Machine Learning Research, 9(Nov), 2579–2605.
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Feature-getriebene Darstellung von Clustering-Resultaten |
Titel der Arbeit (englisch): | Feature-Driven Representation of Clustering Results |
Betreuer: | Dipl.-Inf. Michael Behringer Manuel Fritz, M. Sc. |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
➣ Interaktive Sampling-Verfahren im Kontext von Data-Mashup-Werkzeugen
Bachelorarbeit
Interaktive Sampling-Verfahren im Kontext von Data-Mashup-Werkzeugen
Ausgangssituation/Motivation
Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Da diese jedoch ohne Auswertung und Verknüpfung wertlos sind, existieren verschiedenste Analysemethoden, welche entweder manuell, semi-automatisch oder automatisch verwendet werden. Manuelle Verfahren erlauben eine tiefgehende Interaktionsmöglichkeit für den Datenanalyst, sind jedoch bei heute auftretenden Datenmengen nicht praktikabel auf Grund des explorativen Charakters der Datenanalyse und der benötigten Rechenleistung. Automatische Verfahren hingegen können große Datenmengen verarbeiten, sind meistens jedoch eine undurchsichtige Black-Box, da zwischen Eingabe von Parametern und Ausgabe des Resultates keine Steuerungsmöglichkeiten bestehen. Automatische Verfahren können somit das spezifische Domänenwissen des Datenanalysten nicht in den Prozess integrieren bzw. nur durch wiederholte Ausführung der kompletten Black-Box ohne Verständnisgewinn für die ablaufenden Prozesse zu ermöglichen.
Ziele
In Vorarbeiten wurden bereits verschiedene Verfahren für die Datenanalyse, etwa Clustering- oder Sampling-Algorithmen[1], auf Spark implementiert. Bisher existiert für diese Verfahren jedoch noch keine Nutzeroberfläche, um diese aus FlexMash[2], einem an der Universität Stuttgart entwickelten Data Mashup-Werkzeug[3], anzusprechen. Demzufolge soll in dieser Arbeit zunächst die vorhandenen Implementierungen in FlexMash integriert werden. Dies umfasst eine Anpassung an die verwendete Architektur sowie die Entwicklung einer geeigneten Benutzeroberfläche zur Spezifikation der Parameter.
Die Arbeit umfasst dazu folgende Aufgaben:
- Integration der existierenden Verfahren in FlexMash
- Literaturrechereche zu Konzepten für manuelle und (semi-)automatisierte Steuerung von Sampling-Verfahren
- Literaturrechereche zu geeigneten Metriken für die Evaluation erzeugter Samples
- Entwicklung und prototypische Implementierung eines geeigneten semi-automatisierten Verfahrens
- Evaluation der Konzepte
Literatur
- [1] Wang, H., Parthasarathy, S., Ghoting, A., Tatikonda, S., Buehrer, G., Kurc, T., Saltz, J. (2005). Design of a next generation sampling service for large scale data analysis applications (pp. 91–100). Proceedings of the 19th International Conference on Supercomputing, New York, New York, USA
- [2] Hirmer, P., Mitschang, B. (2016). FlexMash – Flexible Data Mashups Based on Pattern-Based Model Transformation. In F. Daniel, C. Pautasso (Eds.), Rapid Mashup Development Tools (Vol. 591, pp. 12–30). Cham: Springer, Cham
- [3] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Interaktive Sampling-Verfahren im Kontext von Data-Mashup-Werkzeugen |
Titel der Arbeit (englisch): | Interactive sampling techniques in the context of data mashup tools |
Betreuer: | Dipl.-Inf. Michael Behringer Manuel Fritz, M. Sc. |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
Bachelorarbeit
Interaktive kontextsensitive Integration und Aufbereitung heterogener Datenquellen unter Verwendung von Data Mashups
Ausgangssituation/Motivation
In der heutigen Zeit werden große Mengen an unstrukturierten, semistrukturierten und heterogenen Daten produziert. Diese Daten muüssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen sowie eine ad hoc-Integration auf Basis von Echtzeitdaten ermöglichen. Eine Anwendung, die diesen Anforderungen entspricht, muss auch für Nutzer ohne umfangreichen technischen Hintergrund verständlich sein. Data Mashup-Plattformen zielen auf eine flexible, ad hoc-Integration von heterogenen Daten[1].
Ziele
In dieser Arbeit soll das bestehende Tool FlexMash durch ein Konzept zur Integration und Aufbereitung von Datensätzen zur nachgelagerten Analyse erweitert werden.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche über Konzepte und Algorithmen zur automatisierten Schema-Integration
- Entwicklung eines Konzeptes zur Integration in FlexMash
- Prototypische Implementierung des entwickelten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Interaktive kontextsensitive Integration und Aufbereitung heterogener Datenquellen unter Verwendung von Data Mashups |
Titel der Arbeit (englisch): | Interactive context-sensitive integration and cleaning of heterogenous data sources using data mashups |
Betreuer: | Dipl.-Inf. Michael Behringer Dipl.-Inf. Pascal Hirmer |
Prüfer: | Prof. Dr.-Ing. habil. Bernhard Mitschang |
Beginn: | Abgeschlossen |
➣ Interaktive und inkrementelle Visualisierung im Kontext von Big Data
Bachelorarbeit
Interaktive und inkrementelle Visualisierung im Kontext von Big Data
Ausgangssituation/Motivation
In der heutigen Zeit werden große Mengen an unstrukturierten, semistrukturierten und heterogenen Daten produziert. Diese Daten müssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen sowie eine ad hoc-Integration auf Basis von Echtzeitdaten ermöglichen. Eine Anwendung, die diesen Anforderungen entspricht, muss auch für Nutzer ohne umfangreichen technischen Hintergrund verständlich sein. Data Mashup-Plattformen zielen auf eine flexible, ad hoc-Integration von heterogenen Daten[1].
Ziele
In dieser Arbeit soll eine Anwendung entwickelt werden, durch welche der Anwender in die Lage versetzt wird beliebige Attribute des Datensatzes zu spezifizieren und eine für das Verständnis hilfreiche Visualisierung generiert werden. Da dies insbesondere im Kontext von Big Data zu größeren Latenzzeiten für die Erstellung der Visualisierung führen kann, soll weiterhin evaluiert werden inwiefern eine inkrementelle Berechnung[2] hierbei unterstützen kann.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrechereche über geeignete Visualisierungen für unterschiedliche Daten
- Literaturrechereche über Konzepte der inkrementellen Visualisierung
- Prototypische Implementierung eines geeigneten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
- [2] Schulz, H.-J., Angelini, M., Santucci, G., Schumann, H. (2016). An Enhanced Visualization Process Model for Incremental Visualization. IEEE Transactions on Visualization and Computer Graphics, 22(7), 1830–1842
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Interaktive und inkrementelle Visualisierung im Kontext von Big Data |
Titel der Arbeit (englisch): | Interactive and incremental visualization in the context of Big Data |
Betreuer: | Dipl.-Inf. Michael Behringer Manuel Fritz, M. Sc. |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
➣ Metriken zur Evaluation von Teilschritten in Data Mining-Analysen
Bachelorarbeit
Metriken zur Evaluation von Teilschritten in Data Mining-Analysen
Ausgangssituation/Motivation
Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Da diese jedoch ohne Auswertung und Verknüpfung wertlos sind, existieren verschiedenste Algorithmen und Analysemethoden. Diese Verfahren sind aus der Sicht von Einsteigern, aber auch für erfahrene Anwender eine undurchsichtige Black-Box, da zwischen Eingabe von Parametern und Ausgabe des Resultats keine Steuerungsmöglichkeiten oder Zwischenschritte möglich sind. Daher ist häufig unklar, weshalb und unter welchen Voraussetzungen ein bestimmtes Ergebnis zustande kommt[1]. Diese Verfahren sind geprägt von iterativen Algorithmen, jedoch sind für einen Anwender diese Zwischenschritte nicht einsehbar.
Ziele
In dieser Arbeit sollen für ein spezifisches Analyseverfahren (Clustering, z.B. k-means[2] und DBSCAN[3]) geeignete Zeitpunkte zur Berechnung von Zwischenergebnissen bestimmt werden. Hierfür soll eine manuelle bzw. (semi-)automatisierte Auswahl von Metriken stattfinden, welche verdeutlicht zu welchem Zeitpunkt ein geeignetes Zwischenergebnis zu visualisieren ist. Diese Metriken sollen im weiteren Verlauf dazu verwendet werden, um die Clustering-Ergebnisse zu approximieren, wenn bereits eine ausreichende Qualität erreicht wurde. Eine Implementierung soll diese Ergebnisse visualisieren.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche über Clustering-Algorithmen
- Literaturrecherche über Metriken und Konvergenzkriterien
- Entwicklung und prototypische Implementierung eines geeigneten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Jain, A. K., Dubes, R. C. (1988). Algorithms for clustering data. Upper Saddle River, NJ, USA: Prentice-Hall, Inc.
- [2] MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations (Vol. 1, pp. 281–297). Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, University of California Press
- [3] Ester, M., Kriegel, H. P., Sander, J., Xu, X. (1996). A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Proceedings of the 2nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
Organisatorisches
Art der Arbeit: | Bachelorarbeit |
Titel der Arbeit (deutsch): | Metriken zur Evaluation von Teilschritten in Data Mining-Analysen |
Titel der Arbeit (englisch): | Metrics for the evaluation of partial steps in data mining analyses |
Betreuer: | Manuel Fritz, M. Sc. Dipl.-Inf. Michael Behringer |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
Masterarbeiten:
➣ Dynamische Teilausführung von Workflows zur Modellierungszeit
Masterarbeit
Dynamische Teilausführung von Workflows zur Modellierungszeit
Ausgangssituation/Motivation
In der heutigen Zeit werden große Mengen an unstrukturierten, semistrukturierten und heterogenen Daten produziert. Diese Daten müssen zunächst verarbeitet und integriert werden bevor eine Analyse vorgenommen werden kann. Hierbei sollte die Datenverarbeitung möglichst flexibel erfolgen sowie eine ad hoc-Integration auf Basis von Echtzeitdaten ermöglichen. Eine Anwendung, die diesen Anforderungen entspricht, muss auch für Nutzer ohne umfangreichen technischen Hintergrund verständlich sein. Data Mashup-Plattformen zielen auf eine flexible, ad hoc-Integration von heterogenen Daten [1]. An der Universität Stuttgart wurde mit FlexMash ein Data Mashup Tool entwickelt, welches neben einer domänenspezifischen, grafischen Modellierung von Datenverarbeitungs- und Integrationsszenarien auch deren Ausführung durch sogenannte Mashup Plans ermöglicht. Die Art der Ausführung hängt hierbei von den nicht-funktionalen Anforderungen des Nutzers ab, d.h. die für die Ausführung verwendeten Komponenten werden dynamisch bestimmt. Die Modellierung basiert dabei auf dem Pipes and Filters Pattern, bei welchem modulare Services mit einheitlichen Schnittstellen, sowie einem einheitlichen Datenaustauschformat beliebig miteinander verbunden werden können. Diese Services repräsentieren entweder die Extraktion von Daten, die Verarbeitung von extrahierten Daten oder die Visualisierung der Resultate. Ein bisher ungelöstes Problem von FlexMash ist es, dass selbst bei minimalen Änderungen der Modellierung der gesamte Mashup Plan erneut ausgeführt wird, was bei großen Datenmengen zu stark erhöhter Laufzeit und entsprechend eingeschränkter Usability führt. Um diesem Problem zu begegnen ist eine teilweise Ausführung der modellierten Abläufe, d.h. des Mashup Plans, wünschenswert. In diesem Zusammenhang ist die Anwendung verschiedener Konzepte - wie beispielsweise ’smart’ re-runs [2] oder Model-as-you-go [3] - denkbar, sodass auf diese Weise die Antwortzeit des Systems reduziert werden kann.
Ziele
In dieser Arbeit sollen die verschiedenen Konzepte für die teilweise Ausführung von Workflows recherchiert werden und im Hinblick auf die Anwendungsmöglichkeiten im Bereich Data Mashups evaluiert werden. Weiterhin soll ein geeignetes Konzept speziell für die Anforderungen des Tools FlexMash in diesem Zusammenhang erstellt und prototypisch implementiert werden. Die daraus gewonnenen Erkenntnisse sollen abschließend gegenüber den formulierten Anforderungen evaluiert werden.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche über Konzepte der teilweisen Ausführung von Workflows
- Entwicklung eines geeigneten Konzeptes für das Tool FlexMash
- Protoypische Implementierung des entwickelten Konzeptes
- Evaluation der Ergebnisse
Literatur
- [1] Daniel, F., Matera, M. (2014). Mashups. Berlin, Heidelberg: Springer
- [2] Ludäscher, B., Altintas, I., Berkley, C., Higgins, D., Jaeger, E., Jones, M., et al. (2006). Scientific workflow management and the Kepler system. Concurrency and Computation: Practice and Experience, 18(10), 1039–1065
- [3] Sonntag, M., Karastoyanova, D., Karastoyanova, D. (2013). Model-as-you-go: An Approach for an Advanced Infrastructure for Scientific Workflows. Journal of Grid Computing, 11(3), 553–583
Organisatorisches
Art der Arbeit: | Masterarbeit |
Titel der Arbeit (deutsch): | Dynamische Teilausführung von Workflows zur Modellierungszeit |
Titel der Arbeit (englisch): | Dynamic Execution of Workflows Parts During Modeling Time |
Betreuer: | Dipl.-Inf. Pascal Hirmer Dipl.-Inf. Michael Behringer |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |
➣ Bewertung von Vorhersagemechanismen von Parametern für Data-Mining-Algorithmen
Masterarbeit
Bewertung von Vorhersagemechanismen von Parametern für Data-Mining-Algorithmen
Ausgangssituation/Motivation
Der Begriff "Data Analytics" beschreibt einen Prozess, der Informationen von Rohdaten in Wissen verwandelt. Heutzutage existieren mehrere Referenzprozessmodelle, wie z.B. KDD oder CRISP-DM. Diese Referenzmodelle reichen im Allgemeinen von (1) Datenauswahl, (2) Datentransformation, (3) Data Mining bis hin zu (4) Auswertung und (5) Anwendung der Mining-Ergebnisse. Obwohl die logische Reihenfolge der einzelnen Schritte nachvollziehbar und gut etabliert ist, gibt es noch keine konkreten Vorschläge, wie die einzelnen Schritte durchgeführt werden sollen. Im Allgemeinen müssen Analysten den Lösungsraum untersuchen, um gültige Optionen im Verlauf des Analyseprozesses zu finden. Domänenwissen über den spezifischen Kontext kann dabei nützlich sein, doch es ist mühsam, einen solchen Prozess durchzuführen. Der Hauptgrund dafür ist eine immer größer werdende Menge an zu analysierenden Daten, die zu großen zeitlichen Abständen zwischen den einzelnen Schritten des Prozesses führt und somit die Exploration erschwert. Im Schritt "Data Mining" werden Algorithmen und statistische Ansätze auf dem Datensatz ausgeführt, um neue Muster zu erkennen. Typischerweise stammen diese Algorithmen aus dem Bereich des maschinellen Lernens und benötigen vor der eigentlichen Ausführung der analytischen Algorithmen einen Satz von Parametern. Diese Parameter sind von entscheidender Bedeutung für die Qualität des Ergebnisses, da falsche Parameter zu falschen oder gar keinen Ergebnissen führen können. Die Mining-Algorithmen müssen jedoch vollständig ausgeführt werden, bis es möglich ist, die Eignung des Algorithmus und seiner Parameter abzuschätzen. Daher muss ein Analytiker über verschiedene Varianten von Algorithmen und Parametern wiederholt und vollständig iterieren, was zu einem sehr zeitaufwändigen Zyklus führt. Selbst eine kleine Änderung der Parameter führt zu langen Laufzeiten und offenbart damit, dass die Erkundung des Lösungsraumes der Parameter für einen Analytiker sehr mühsam ist.
Ziele
Derzeit gibt es nur wenige Heuristiken [1] und bewährte Verfahren [2] zur Bestimmung von Parametern für einige Mining-Algorithmen. Diese sind für jeden einzelnen Algorithmus sehr spezifisch und für eine allgemeinere Reihe von Algorithmen nicht unbedingt gut geeignet. Insbesondere bei großen Datenmengen sind einige bewährte Verfahren nicht durchführbar, da sie mehrmals auf dem gesamten Datensatz ausgeführt werden müssen, um zuverlässige Parameter zu approximieren. Space Partitioning-Algorithmen und Visualisierungen scheinen ein vielversprechender Ansatz zu sein. Binary Space Partioning-Algorithmen und Partitionierungsvisualisierungen sind geeignet, den Datenraum in kleinere, leichter zu verarbeitende Stücke zu zerlegen. Ziel dieser Arbeit ist es, Parameter mit einem solchen Raumpartitionierungsansatz, z.B. Voronoi-Tesselierung oder Delaunay-Triangulation, abzuschätzen. Beide Visualisierungen können z.B. aus Algorithmen gewonnen werden [3], bedürfen aber noch einer weiteren Feinabstimmung, um die Charakteristika von Mining-Algorithmen widerzuspiegeln, wie z.B. spezifische Dichte- oder Abstandsmetriken zur Schätzung vielversprechender Parameter. Diese Arbeit kann in unterschiedlichen Richtungen erfolgen: Von einer erschöpfenden Erforschung und Bewertung von Heuristiken und bewährten Verfahren zur zeitsparenden Parameterabschätzung für ein breites Spektrum von Mining-Algorithmen bis hin zur Entwicklung eines neuartigen Ansatzes unter Verwendung von Raumunterteilungskonzepten und einem grundlegenden Vergleich mit einer Heuristik für einen einzelnen Mining-Algorithmus sind möglich. Eine prototypische Implementierung der Ergebnisse soll die Vorteile dieser Arbeit für die Forschungsgemeinschaft hervorheben.
Die Arbeit umfasst dazu folgende Aufgaben:
- Literaturrecherche über Heuristiken für häufig verwendete Data-Mining-Algorithmen
- Literaturrecherche und Evaluation von Space Partitioning-Verfahren
- Protoypische Implementierung
- Evaluation der Ergebnisse
Literatur
- [1] V. Birodkar and D. R. Edla, “Enhanced K -Means Clustering Algorithm using A Heuristic Approach”, Journal of Information and Computing Science, vol. 9, no. 4, pp. 277–284, 2014
- [2] D. Golovin, B. Solnik, S. Moitra, G. Kochanski, J. Karro, and D. Sculley, “Google Vizier: A Service for Black-Box Optimization,” in Proceedings of the SIGKDD Conference on Knowledge Discovery and Data Mining, 2017
- [3] S. Fortune, “A Sweepline Algorithm for Voronoi Diagrams,” in Proceedings of the secondannual symposium on Computational geometry, 1986, pp. 313–322
Organisatorisches
Art der Arbeit: | Masterarbeit |
Titel der Arbeit (deutsch): | Evaluation of Prediction Mechanisms of Parameters for Data Mining Algorithms |
Titel der Arbeit (englisch): | Bewertung von Vorhersagemechanismen von Parametern für Data-Mining-Algorithmen |
Betreuer: | Manuel Fritz, M.Sc. Dipl.-Inf. Michael Behringer |
Prüfer: | PD Dr. rer. nat. habil. Holger Schwarz |
Beginn: | Abgeschlossen |