Applications of Parallel and Distributed Systems

Open and Current Student Projects

Student projects in international study programmes

Open student projects

Ausgangssituation und Motivation

Die Basis für die vorausschauende Wartung (Predictive Maintenance) im industriellen Produktionsumfeld stellt die Fehlererkennung und Fehlerdiagnose (engl. Fault Detection and Fault Diagnosis - FDD) in einem Produktionsprozess dar. Das Ziel der Fehlererkennung ist die Detektion von abnormalen bzw. fehlerhaften Prozessbedingungen. Im Schritt der Fehlerdiagnose gilt es, auf Basis der detektierten abnormalen Prozessbedingungen den Fehler zu identifizieren, zu lokalisieren und die Fehlerursachen zu bestimmen. Diese Arbeit konzentriert sich auf die automatisierte FDD. Bei der automatisierten FDD werden typischerweise datengetriebene Methoden oder Methoden basierend auf physikalischen Modellen eingesetzt. Viele datengetriebene Methoden entsprechen maschinellen Lernverfahren, wie z.B. künstliche Neuronale Netze oder Support Vektor Maschinen. Auf physikalischen Modellen basierende Methoden erkennen Prozessfehler durch die Generierung von Fehlerindikatoren, die durch einen Vergleich von gemessenen Prozessbedingungen mit simulierten Prozessbedingungen erzeugt werden. Auf Basis der generierten Fehlerindikatoren
wird dann die eigentliche Fehlererkennung und -diagnose durchgeführt. Im Allgemeinen ist keine einzelne FDD-Methode perfekt. Jede Methode ist durch Vor- und Nachteile gekennzeichnet. Erschwerend kommt die häufig bei industriellen Anwendungsfällen auftretende schlechte Prozessdatenqualität hinzu. Durch den Einsatz einer einzelnen FDDMethode in einem FDD-System kann daher meist keine ausreichende Performance bei der Erkennung und Diagnose von Fehlern erzielt werden. Um die Performance (Vorhersagegenauigkeit, Fehlerauflösung, etc.) eines FDD-Systems zu verbessern, können mehrere einzelne FDD-Methoden in der Art miteinander kombiniert werden, dass sie sich gegenseitig komplementieren und kooperativ vervollständigen. Für solche hybriden FDD-Ansätze existieren verschiedene Kombinationsstrategien (vgl. [1]). Diese Arbeit fokusiert sich dabei auf die Entscheidungsfusion einzelner Fehlerdiagnosemethoden. Typische Ansätze der Entscheidungsfusion stammen aus dem Fachgebiet der Ensemble-Techniken und Mustererkennung [2]. Ein Beispiel hierfür ist der Ansatz, die FDD über ein Multiklassen Klassifikationsproblem mit zwei verschiedenen Klassifkatoren zu lösen. So können die Daten von Produktionsprozessen als direkte Eingabe in ein neuronales Netz und in eine Support Vector Machine zur Klassifikation
bezüglich bestimmter Fehlerklassen verwendet werden. Die beiden parallelen Klassifikatoren zeigen gewöhnlich für die verschiedenen Fehlerklassen unterschiedliche Klassifikationsgenauigkeiten. Durch die kooperative Kombination der einzelnen Klassifikationsergebnisse zu einem fusionierten Klassifikationsergebnis über beispielsweise den Weighted Voting Alogrithmus oder die Bayes’sche Fusionsmethode kann die Klassifikationsgenauigkeit erhöht werden [3, 4].

Aufgabenstellung und Zielsetzung

Im Rahmen dieser Arbeit soll ein generisches Framework zur Kombination von Entscheidungen mehrerer einzelner Fehlerdiagnosemethoden entwickelt, implementiert und evaluiert werden. Dabei gilt es zunächst aus der Literatur mehrere Entscheidungsfusionsstrategien für Ensemble-Techniken aufzuarbeiten und zu evaluieren (vgl. [2, 3, 5]). Typische Beispiele für Kombinationsstrategien auf Entscheidungsfusionsebene sind Voting-basierte Methoden, Bayessche Fusionstratgien, Fusionsstragien mittels der Dempster-Shafer Evidenztheorie oder Bayessche
Netze [1, 3]. Nach einer geeigneten Auswahl von verschiedenen Entscheidungsfusionsmethoden gilt es diese in Form eines generischen Software Frameworks in der Programmiersprache Python zu implementieren.
Das implementierte generische Framework zur Entscheidungsfusions soll schließlich anhand eines realen Anwendungsfalles aus der Industrie getestet und evaluiert werden. Dazu werden die Ausgaben zweier datengetriebener Fehlerdiagnosemethoden eines industriellen Fertigungsprozesses zur Verfügung gestellt.

Die Arbeit umfasst die folgenden Aufgaben:

  • Literaturrecherche und Evaluation von verschiedenen Entscheidungsfusionsmethoden für Ensemble-Techniken der Mustererkennung
  • Auswahl und Aufarbeitung mehrerer Entscheidungsfusionsmethoden für das Framework zur Entscheidungsfusion.
  • Definition von Anforderungen an ein generisches Entscheidungsfusions-Framework.
  • Implementierung der ausgewählten Entscheidungsfusionsmethoden in Form eines generischen Entscheidungsfusions-Frameworks in Python mit Tensorflow und scikit-learn.
  • Test und Evaluation des Entscheidungsfusions-Frameworks an einem zur Verfügung gestellten realen Anwendungsfalls zur Fehlererkennung und -diagnose.
  • Vergleich und Bewertung der verschiedenen Entscheidungsfusionsmethoden des Frameworks mit Hilfe des Anwendungsfalles.
  • Nachvollziehbare Dokumentation der Vorgehensweise, der verwendeten Materialien und Methoden, der Implemetierung des Frameworks, sowie der Ergebnisse der Evaluation des Frameworks an einem Anwendungsbeispiel.
  • Präsentation der Zwischenergebnisse in einem Vortrag.
  • Präsentation der Ergebnisse in einem Vortrag.

Organisatorisches

Art Master Thesis
Title of the Thesis (en)  Decision Fusion Framework for the Combination of Multiple Fault Diagnosis Methods
Titel der Arbeit (de)  Framework zur Entscheidungsfusion für die Kombination von Fehlerdiagnosemethoden
Betreuer

Yannick Wilhelm, M.Sc.
Dr. Peter Reimann

Prüfer Prof. Dr.-Ing. habil. Bernhard Mitschang
Beginn  ab sofort
Ende Start Datum + 6 Monate


Literatur

[1] Y. Wilhelm, P. Reimann, W. Gauchel, and B. Mitschang, “Overview on Hybrid Approaches to Fault Detection and Diagnosis: Combining Data-driven, Physics-based and Knowledge-based Models,” 14th CIRP Conference on Intelligent Computation in Manufacturing Engineering, 2020.

[2] U. Mangai, S. Samanta, S. Das, and P. Chowdhury, “A Survey of Decision Fusion and Feature Fusion Strategies for Pattern Classification,” IETE Technical Review, vol. 27, no. 4, p. 293, 2010. [Online]. Available: http://tr.ietejournals.org/text.asp?2010/27/4/293/64604

[3] K. Ghosh, Y. S. Ng, and R. Srinivasan, “Evaluation of Decision Fusion Strategies for Effective Collaboration among Heterogeneous Fault Diagnostic Methods,” Computers & Chemical Engineering, vol. 35, no. 2, pp. 342–355, Feb. 2011. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S009813541000164X

[4] L. I. Kuncheva, Combining Pattern Classifiers: Methods and Algorithms. Hoboken, NJ, USA: John Wiley & Sons, Inc., Sep. 2014. [Online]. Available: http://doi.wiley.com/10.1002/9781118914564

[5] M. Woźniak, M. Graña, and E. Corchado, “A Survey of Multiple Classifier Systems as Hybrid Systems,” Information Fusion, vol. 16, pp. 3–17, Mar. 2014. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S156625351300047X

Introduction and Motivation

In many manufacturing companies, maintenance and repair measures in manufacturing and assembly are recorded digitally in maintenance logbooks. A digital logbook entry typically includes a description of the initial faulty situation (errors, faults, failures and their symptoms), a description of the root cause of the fault, and the corrective measures. By aggregating numerous logbook entries in a database, a digital logbook represents a knowledge base for maintenance and repair. Furthermore, most production processes as well as technical components, such as actuators
and sensors, have been examined in respect of a Failure Mode and Effects Analysis (FMEA). Each FMEA entry that has been created this way consists of a defined pattern, describing the fault sequence, the type of fault, the root cause of the fault, the preventive measures and the detection measure for the fault. The digital logbook entries and the FMEA entries combine the heuristical expert knowledge of many workers and engineers. Therefore, these knowledge bases
offer a great potential for the application of that knowledge in fault localization and diagnosis as well as for the derivation of appropriate repair measures in production. In a previous Master thesis, the two described knowledge bases were transformed into a knowledge model represented by a Bayesian Network. This Bayesian Network enables the representation of the knowledge contained in the FMEA documents and digital logbook entries. Further, the knowledge model based on a Bayesian network can be used for automated reasoning, e.g., it enables the derivation of the root cause and corrective measures for a given fault (evidence). However, the use of this approach in everyday’s manufacturing requires a deep understanding of the knowledge model, Bayesian Networks and their reasoning mechanisms. In addition, the prediction accuracy of the model outcome depends solely on the conditional probability distributions derived from the digitial logbook and FMEA knowledge sources. In order to improve the prediction accuracy of the Bayesian Network and its applicability in manufacturing, the Bayesian network has to be extended to a decision support system that allows for an adaptive
integration of feedback given by the user.

Definition of Tasks and Objectives

The major task of this thesis is to investigate how the existing Bayesian network model may be used intuitively for automated reasoning and as a decision support system being tailored for operators in manufacturing environments. This includes the development of an appropriate visualization in a browser-based dashboard to represent the knowledge model and to visualize the derived recommendations for fault actions to the operators. The existing Bayesian network is built on digital maintenance logbook entries and FEMA documents of a real world assembly line from the Festo SE & Co. KG company. Furthermore, the Bayesian network shall be extended to a decision support system that integrates the feedback from the operators on the given recommendations in an adaptive and self-learning way. Thereby, the decision support system has to accept the feedback from the user via the dashboard following an appropriate procedure. Next, the feedback has to be integrated into the probability distributions of the Bayesian network. In addition, the user should be able to modify the existing knowledge model and to add new entries to the instances of the model via the dashboard. All the software and the Bayesian network shall be implemented with the Python programming language.

The work includes the following tasks:

  • Literature search and discussion of visualization types for decision support systems and
    Bayesian networks.
  • Thorough analysis of approaches that integrate feedback into Bayesian networks.
  • In-depth requirements analysis for the decision support system on fault action and its visualization in a browser-based dashboard.
  • Design and implemention of the deicision support system and browser-based dashboard based on the Bayesian network model.
  • Test and evaluation of the implemented software.
  • Documentation of the state of the art, the related work, the used material and methods, the implemented software, the results of the evaluation.
  • Midterm presentation of the intermediate results.
  • Final presentation of the results.

Requirements

  • Knowledge and experience in machine learning and statistics
  • Basics in Bayesian statistics
  • Very good skills in software engineering and object-oriented programming.
  • Recommended lectures: Machine Learning, Data Warehousing, Data Mining and OLAP, Detection and Pattern Recognition
  • Interest in both theoretical work and implementation.

Organizational Matters

Type of Thesis: Master Thesis
Title of the Thesis (en): Visualization of a Bayesian Network and Integration of User Feedback for Decision Support in Manufacturing
Titel der Arbeit (de): Visualisierung eines Bayes’schen Netzes und Integration von Benutzer-Feedback zur Entscheidungsunterstützung in der Fertigung
Supervisor: Yannick Wilhelm, M.Sc., Dr. Peter Reimann
Examiner: Prof. Dr.-Ing. habil. Bernhard Mitschang
Beginn: from now on
End: start date + 6 months

References

[1] B. Liu, J. Wu, L. Yao, and Z. Ding, “Ontology-based Fault Diagnosis: A Decade in Review," in Proceedings of the 11th International Conference on Computer Modeling and Simulation, ser. ICCMS 2019. ACM, 2019, pp. 112–116, place: New York, NY, USA. [Online]. Available: http://doi.acm.org/10.1145/3307363.3307381

[2] A. García and E. Gilabert, “Mapping FMEA into Bayesian Networks,” International Journal of Performability Engineering, vol. 7, no. 6, p. 525, 2011. [Online]. Available: http://www.ijpe-online.com/EN/abstract/article_3265.shtml

[3] D. Heckerman, D. Geiger, and D. M. Chickering, “Learning Bayesian Networks: The Combination of Knowledge and Statistical Data,” Machine Learning, vol. 20, no. 3, pp. 197–243, Sep. 1995. [Online]. Available: https://link.springer.com/article/10.1023/A:1022623210503

 

 

Introduction and Motivation

In many manufacturing companies today, maintenance and repair measures in manufacturing and assembly are recorded digitally in maintenance logbooks. A digital logbook entry typically includes a description of the initial faulty situation (errors, faults, failures and their symptoms), a description of the root cause of the fault and the corrective measures, as well as a time stamp and a machine or workplace assignment. By aggregating numerous logbook entries in a database, a digital logbook represents a knowledge base for maintenance and repair.
Furthermore, most production processes as well as technical components, such as actuators and sensors, have been examined in respect of a Failure Mode and Effects Analysis (FMEA). These FMEA documents are formatted in PDF or XML file formats. Each FMEA entry consists of a defined pattern, describing the fault sequence, the type of fault, the root cause of the fault, the preventive measures and the detection measure for the fault. The digital logbook entries and the FMEA entries combine the heuristical expert knowledge of many workers and engineers. Therefore, these knowledge bases offer a great potential for the application of that knowledge in fault localization and diagnosis as well as for the derivation of appropriate repair measures in production. However, up to now the knowledge of the different
data sources is contained in semi-structured text data of bad text quality. To make use of that knowledge in the field of automated fault diagnosis and the derivation of fault measures, the information in these data sources have to be systematically cross-linked in a computerinterpretable way.

Definition of Tasks and Objectives

Within the scope of the work, a real world use case of a highly automated assembly line of the Festo SE & Co. KG company is considered. The available digital maintenance logbook entries and FMEA documents are also real world production data and refer to the mentioned assembly line. The topic of this work is to extract information out of these semi-structured text data sources (digital logbook and FMEA documents) and to cross-link these information to knowledge in a graph-based knowledge representation for automated fault diagnosis and derivation of fault measures. Semantic web technologies shall be investigated and evaluated how they can be used with regard to the described task of this work [1–3]. Some techniques and methods of semantic web technologies specified by the World Wide Web Consortium (W3C) are the Web Ontology Language (OWL), the Resource Description Framework (RDF), the Resource Description Framework Schema (RDFS), the SPARQL Protocol and RDF Query Langugage
(SPARQL) as well as the Semantic Web Rule Language (SWRL). In addition, automated reasoning shall be made possible on the basis of this knowledge representation. Semantic Web technologies like SWRL and SPARQL also provide methods for this purpose. The free open-source ontology editor and framework for building intelligent systems Protégé shall be used as software for this work [4]. 

The work includes the following tasks:

  • Literature search and discussion of the state of the art for knowledge representation and automated reasoning methods (ontologies, Bayesian Networks, Semantic Web technologies for fault diagnosis)
  • Data preprocessing for real world digital maintenance logbook entries and FMEA documents
  • Analysis and selection of multiple Semantic Web technologies for knowledge modeling, knowledge representation and automated reasoning.
  • Development and evaluation of various concepts for knowledge modeling, knowledge representation and automated reasoning of maintenance logbook entries and FMEA documents using Semantic Web technologies.
  • Implemention of a knowledge representation of the maintenance knowledge, contained in digital logbooks and FMEA documents using Protégé software.
  • Documentation of the state of the art, the related work, the used material and methods, the results and the evaluation of the results in a academic thesis
  • Midterm presentation of the intermediate results.
  • Final presentation of the results.

References

[1] B. Liu, J. Wu, L. Yao, and Z. Ding, “Ontology-based Fault Diagnosis: A Decade in Review,” in Proceedings of the 11th International Conference on Computer Modeling and Simulation, ser. ICCMS 2019. ACM, 2019, pp. 112–116, place: New York, NY, USA. [Online]. Available: http://doi.acm.org/10.1145/3307363.3307381

[2] Q. Zhou, P. Yan, H. Liu, and Y. Xin, “A Hybrid Fault Diagnosis Method for Mechanical Components based on Ontology and Signal Analysis,” Journal of Intelligent Manufacturing, vol. 30, no. 4, pp. 1693–1715, Apr. 2019. [Online]. Available: https://doi.org/10.1007/s10845-017-1351-1

[3] A. Zhou, D. Yu, and W. Zhang, “A Research on Intelligent Fault Diagnosis of Wind Turbines based on Ontology and FMECA,” Advanced Engineering Informatics, vol. 29, no. 1, pp. 115–125, Jan. 2015. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S1474034614000962

[4] M. A. Musen and Protégé Team, “The Protégé Project: A Look Back and a Look Forward,” AI matters, vol. 1, no. 4, pp. 4–12, Jun. 2015. [Online]. Available: https://pubmed.ncbi.nlm.nih.gov/27239556

[5] R. Studer, V. R. Benjamins, and D. Fensel, “Knowledge Engineering: Principles and Methods,” Data Knowl. Eng., vol. 25, no. 1, pp. 161–197, Mar. 1998. [Online]. Available: http://dx.doi.org/10.1016/S0169-023X(97)00056-6

Organizational Matters

Type of Thesis: Master Thesis
Title of the Thesis (en): Knowledge Representation and Automated Reasoning with Semantic Web Technologies for Decision Support in Manufacturing
Titel der Arbeit (de): Wissensrepräsentation und automatisiertes Schließen mit semantischen Webtechnologien zur Entscheidungsunterstützung in der Fertigung
Supervisor: M.Sc. Yannick Wilhelm, Dr. Peter Reimann
Examiner: Prof. Dr.-Ing. habil. Bernhard Mitschang
Beginn: from now on
Ende: start + 6 months

Current student projects

Ausgangssituation

Die zunehmende Digitalisierung in zahlreichen Bereichen, wie beispielsweise Industrie 4.0 oder auch eHealth, führt zu einer wachsenden Menge heterogener Daten. Um den potentiellen Wert dieser Daten extrahieren und nutzen zu können, rückte die Idee des Data Lake [1] mehr und mehr in das Zentrum der Aufmerksamkeit. Die Idee dahinter ist es, Daten in ihrem Rohformat zu erfassen und sie so für Analysen ohne vordefinierte Anwendungsfälle zu verwenden. Da die Speicherung von ausschließlich Rohdaten allerdings ineffizient ist, da beispielsweise Integrations- oder Bereinigungsschritte immer wieder ausgeführt werden müssen, basieren Data-Lake-Architekturen typischerweise auf Zonen [1]. Dabei beschreibt jede Zone, in welchem Verarbeitungsgrad die in ihr enthaltenen Daten vorliegen, z.B. bereinigt oder aggregiert.

Existierende Arbeiten enthalten verschiedenste Zonenmodelle, allerdings meist oberflächlich beschrieben (z.B. [2, 3]). Das Zonenreferenzmodell von Giebler et al. [to be published] dagegen bietet neben detaillierten Beschreibungen auch eine prototypische Implementierung. Während das Konzept sowohl auf Batch-Daten als auch auf Datenströme angewendet werden kann, fokussiert sich der im Paper beschriebene Prototyp allerdings nur auf Batches. Datenströme werden nicht betrachtet.

Ziel und Aufgabenstellung

Ziel dieser Arbeit ist eine Untersuchung der Umsetzungsmöglichkeiten des Zonenreferenzmodells auf Datenströmen. Dazu muss zunächst erarbeitet werden, wie einzelne Zonen umgesetzt werden können und wie ihre Charakteristika auf Datenströme anwendbar sind. Auch die Datenflüsse zwischen den Zonen und zu den Endnutzern müssen definiert werden. Die erarbeitete Lösung soll prototypisch anhand eines Anwendungsfall aus der Industrie 4.0 umgesetzt werden. Zudem ist zu prüfen, ob der Real-Time-Anspruch an die Datenströme nach der Zonenverarbeitung noch gegeben ist.

Zu bearbeitende Teilaufgaben

  • Erarbeitung eines Use Cases für Datenströme im Zonenreferenzmodell
  • Spezifikation des Zonenreferenzmodells für Datenströme
  • Prototypische Implementierung des Zonenreferenzmodells für Datenströme
  • Messung der Latenz und Evaluation der Real-Time Fähigkeit des Konzepts
  • Vorstellung der Ergebnisse in einem wissenschaftlichen Vortrag

Organisatorisches

Art der Arbeit

Bachelorarbeit

Titel

Realisierung des Zonenreferenzmodells auf Datenströmen

Englischer Titel

Realizing the zone reference model on data streams

Betreuer

Corinna Giebler, M. Sc. Informatik

Prüfer

Prof. Bernhard Mitschang

Literatur

[1]            C. Giebler, C. Gröger, E. Hoos, R. Eichler, H. Schwarz, and B. Mitschang, “Data Lakes auf den Grund gegangen,” Datenbank-Spektrum, Jan. 2020, doi: 10.1007/s13222-020-00332-0.

[2]            M. Madsen, “How to Build an Enterprise Data Lake: Important Considerations before Jumping In,” Third Nat. Inc., 2015.

[3]            Zaloni, “The Data Lake Reference Architecture - Leveraging a Data Reference Architecture to Ensure Data Lake Success.” [Online]. Available: https://resources.zaloni.com/i/913381-the-data-lake-reference-architecture/0? [Accessed: 29-Oct-2019].

Bedarfsgerechte Datenbereitstellung in einer vertrauenswürdigen Data-Science-Plattform

Ausgangssituation

"Daten sind das Öl des 21. Jahrhunderts" [Ste18] ist ein häufig gezogener Vergleich, da Daten heutzutage einen immensen Wert besitzen. Genau wie Öl, müssen diese Rohdaten zunächst allerdings raffiniert werden, um gewinnbringend nutzbar zu werden. Die Aufgabe von Data Scientisten besteht daher in der technischen Aufbereitung und Analyse dieser Daten [vdA16]. Hierbei können sie von einer Data-Science-Plattform unterstützt werden [MRQ+15]. Gemäß Gartner muss eine Data-Science-Plattform Data Scientisten bei sämtlichen datengetriebenen Aufgaben über die gesamte Analyse-Pipeline hinweg unterstützen [KdHB+20]. Diese Aufgaben umfassen insbesondere die Datenerfassung, das Datenmanagement und die Datenbereitstellung [Cao17].

Im Kontext von Big Data muss eine Data-Science-Plattform dabei nicht nur mit großen Datenmengen, sondern auch mit heterogenen Daten umgehen können [LZL+14]. Zur Verwaltung dieser Daten bieten sich Data-Lake-Konzepte an [HGQ16, MT16]. Für die Umsetzung dieser Konzepte existiert eine Vielzahl an Realisierungsstrategien [GGH+20]. Eine dieser Strategien sieht für die bedarfsgerechte Bereitstellung von Daten ein Zonenmodell vor. Hierbei werden bei der Datenerfassung neben Rohdaten auch Metadaten erfasst, die diese Rohdaten näher beschreiben (z.B. Informationen zum Sensor, der diese Daten erfasst hat). Mithilfe der Metadaten werden die Rohdaten für spezifizierte Anwendungsfälle aufbereitet und in separaten Zonen gespeichert [Sha18]. Um jedoch eine bedarfsgerechte Bereitstellung der Daten zu ermöglichen, müssen die Eigenschaften dieser Zonen beschrieben werden (z.B. die Qualität [BCFM09, PLW02, ZRM+16] und die Privacy [WE18] der enthaltenen Daten). Anhand dieser Zonenbeschreibungen könnte ein Zugriffsmechanismus anschließend für jede Anfrage, die am besten passende Zone auswählen [HKFV15, SO17].

Ziel und Aufgabenstellung

Im Rahmen dieser Bachelor-Arbeit soll daher untersucht werden, welche Techniken zur Beschreibung von Data Lakes existieren und inwiefern diese eine bedarfsgerechte Datenbereitstellung ermöglichen. Das heißt, es soll jeweils nur ein Mindestmaß an Daten bereitgestellt werde, ohne dabei die Analysequalität unnötig einzuschränken. Hierzu sollen unterschiedliche Metriken zur Beschreibung von Qualitäts- und Privacy-Merkmalen berücksichtigt werden. Basierend auf diese Untersuchungen soll ein eigenes Datenbeschreibungsmodell für Data Lakes entwickelt werden. Dieses Beschreibungsmodell soll anschließend in einem Zugriffsmechanismus integriert werden, damit die Auswahl der geeignetsten Zone automatisch erfolgen kann. Hierzu soll ein geeignetes Zugriffskontrollverfahren ausgewählt und das dabei zum Einsatz kommende Zugriffsmodell entsprechend erweitert werden. Anhand einer prototypischen Umsetzung der entwickelten bedarfsgerechten Datenbereitstellungtechnik soll evaluiert werden, inwiefern diese für den Einsatz in einer Data-Science-Plattform geeignet ist.

Zu bearbeitende Teilaufgaben
  • Analyse und Bewertung existierende Beschreibungstechniken für Data Lakes
  • Analyse und Bewertung existierende Beschreibungsmodelle für Datenqualität
  • Analyse und Bewertung existierende Beschreibungsmodelle für Privacy-Level
  • Entwicklung eines Datenbeschreibungsmodells für Data Lakes
  • Analyse und Bewertung existierender Zugriffskontrollverfahren
  • Entwicklung eines eigenen Zugriffsmodells, das zu dem entwickelten Datenbeschreibungsmodell kompatibel ist
  • Prototypische Umsetzung der bedarfsgerechten Datenbereitstellung
  • Evaluation der Ergebnisse
  • Vorstellung der Ergebnisse im Rahmen von zwei wissenschaftlichen Vorträgen
Literatur

[BCFM09]        Carlo Batini, Cinzia Cappiello, Chiara Francalanci, and Andrea Maurino. Methodologies for Data Quality Assessment and Improvement. ACM Computing Surveys, 41(3):16:1–16:52, 2009.

[Cao17]            Longbing Cao. Data Science: A Comprehensive Overview. ACM Computing Surveys, 50(3):43:1–43:42, 2017.

[GGH+20]         Corinna Giebler, Christoph Gröger, Eva Hoos, Rebecca Eichler, Holger Schwarz, and Bernhard Mitschang. Data Lakes auf den Grund gegangen. Datenbank-Spektrum, 20:57–69, 2020.

[HGQ16]          Rihan Hai, Sandra Geisler, and Christoph Quix. Constance: An Intelligent Data Lake System. In Proceedings of the 2016 International Conference on Management of Data, SIGMOD’16, pages 2097–2100, 2016.

[HKFV15]         Vincent C. Hu, D. Richard Kuhn, David F. Ferraiolo, and Jeffrey Voas. Attribute-Based Access Control. Computer, 48(2):85–88, 2015.

[KdHB+20]        Peter Krensky, Pieter den Hamer, Erick Brethenoux, Jim Hare, Carlie Idoine, Alexander Linden, Svetlana Sicular, and Farhan Choudhary. Magic Quadrant for Data Science and Machine Learning Platforms. Gartner Report, Gartner, Inc., February 2020.

[LZL+14]           Rongxing Lu, Hui Zhu, Ximeng Liu, Joseph K. Liu, and Jun Shao. Toward efficient and privacy-preserving computing in big data era. IEEE Network, 28(4):46–50, 2014.

[MRQ+15]        Fumbeya Marungo, Scott Robertson, Harry Quon, John Rhee, Hilary Paisley, Russell H. Taylor, and Todd McNutt. Creating a data science platform for developing complication risk models for personalized treatment planning in radiation oncology. In Proceedings of the 2015 48th Hawaii International Conference on System Sciences, HICSS’15, pages 3132–3140, 2015.

[MT16] Natalia Miloslavskaya and Alexander Tolstoy. Big Data, Fast Data and Data Lake Concepts. Procedia Computer Science, 88:300–305, 2016.

[PLW02]          Leo L. Pipino, Yang W. Lee, and Richard Y. Wang. Data Quality Assessment. Communications of the ACM, 45(4):211–218, 2002.

[Sha18]            Ben Sharma. Architecting Data Lakes. O’Reilly Media, Inc., 2018.

[SO17] Daniel Servos and Sylvia L. Osborn. Current Research and Open Problems in Attribute-Based Access Control. ACM Computing Surveys, 49(4):65:1–65:45, 2017.

[Ste18] Anne Steinbach. Daten sind das Öl des 21. Jahrhunderts. Interview, Springer Professional, April 2018.

[vdA16]           Wil van der Aalst. Data Science in Action. In Process Mining: Data Science in Action, pages 3–23. Springer Berlin Heidelberg, 2016.

[WE18] Isabel Wagner and David Eckhoff. Technical Privacy Metrics: A Systematic Survey. ACM Computing Surveys, 51(3):57:1–57:38, 2018.

[ZRM+16]         Amrapali Zaveri, Anisa Rula, Andrea Maurino, Ricardo Pietrobon, Jens Lehmann, and Sören Auer. Quality assessment for Linked Data: A Survey. Semantic Web, 7(1):63–93, 2016.

Contact Person

Privacy-aware Machine Learning

Motivation

Machine learning and data mining provide the foundation for a vast number of smart applications today [DLDB19, HKUN+19, KQYK19]. For this purpose, a large amount of partly private data is captured by sensors, pre-processed by data stream systems and stored in databases. Machine learning and data mining approaches then learn models from these data. By applying these models to real time data, smart applications are able to predict and adapt to future requirements [MAFSG18]. Such applications are a substantial benefit for the user. However, to enable smart applications, a large amount of data is required in the first place. Only if the data quality is sufficient, accurate models can be learned and sound predictions can be made. Yet, there is a growing concern on the part of users regarding the large-scale processing of private data [ARC19, BF18]. In addition, new regulations such as the General Data Protection Regulation (GDPR) [Eur] restrict this kind of data processing even further [Wac18]. Today’s data privacy approaches affect data quality and data quantity severely so that the utility of machine learning and data mining suffers sustainably [RG20].

Research Goals and Objectives

For this reason, this Masters Thesis concerns with novel approaches that guarantee privacy in machine learning applications without restricting their utility unnecessarily. To this end, it has to be studied, which privacy-aware machine learning techniques are currently discussed in research and applied in practice, such as [JKK+19, KMT19, MMDH19, WFSK19]. In particular, it has to be examined how data protection is implemented and which aspects of the GDPR are covered by the approach as well as how this affects the utility of the machine learning application. Based on these studies, a new privacy concept for machine learning applications has to be developed. Different privacy techniques shall be applied in this concept. Similar to PATRON [SDM+18], depending on the application and privacy requirements, the technique that not only protects the data subject’s privacy but also maximizes the application’s utility at the same time. In addition, the management of the machine learning models learned in this process has to be taken into account (cf. [WHRS19]). This also includes the introduction of metadata describing the models in terms of their privacy-awareness and utility. This concept has to be implemented prototypically. In this prototype it should be possible to learn machine learning models with different privacy and utility properties for a given dataset and then apply them depending on user-defined privacy and utility requirements.

Work Tasks
  • Analysis of the current state of the art regarding privacy-aware machine learning
  • Development of private concepts for machine learning which take the utility of the learned models into account
  • Development of concepts for the management and application of the learned models
  • Prototypical implementation of the developed concepts
  • Evaluation of the results based on an application case
  • Preparation of a roadmap with well-defined milestones
  • Frequent meetings with the supervisor to discuss the current status of the work
  • Presentation of the results in two research talks
Literature

[ARC19]               Mohammad Al-Rubaie and J. Morris Chang. Privacy-Preserving Machine Learning: Threats and Solutions. IEEE Security Privacy, 17(2):49–58, 2019.

[BF18]   Elisa Bertino and Elena Ferrari. Big Data Security and Privacy, pages 425–439. Springer International Publishing, Cham, 2018.

[DLDB19]            Djamel Djenouri, Roufaida Laidi, Youcef Djenouri, and Ilangko Balasingham. Machine Learning for Smart Building Applications: Review and Taxonomy. ACM Computing Surveys (CSUR), 52(2):24:1–24:36, 2019.

[Eur]      European Parliament and Council of the European Union. Regulation on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing directive 95/46/EC (Data Protection Directive). Legislative acts L119, Official Journal of the European Union.

[HKUN+19]          Eklas Hossain, Imtiaj Khan, Fuad Un-Noor, Sarder Shazali Sikander, and Md. Samiul Haque Sunny. Application of Big Data and Machine Learning in Smart Grid, and Associated Security Concerns: A Review. IEEE Access, 7:13960–13988, 2019.

[JKK+19]               Joohyung Jeon, Junhui Kim, Joongheon Kim, Kwangsoo Kim, Aziz Mohaisen, and Jong-Kook Kim. Privacy-Preserving Deep Learning Computation for Geo-Distributed Medical Big-Data Platforms. In Proceedings of the 2019 49th Annual IEEE/IFIP International Conference on Dependable Systems and Networks – Supplemental Volume, DSN-S’19, pages 3–3, 2019.

[KMT19]              Krishnaram Kenthapadi, Ilya Mironov, and Abhradeep Thakurta. Privacy-preserving Data Mining in Industry. In Companion Proceedings of The 2019 World Wide Web Conference, WWW’19, pages 1308–1310, 2019.

[KQYK19]            Younas Khan, Usman Qamar, Nazish Yousaf, and Aimal Khan. Machine Learning Techniques for Heart Disease Datasets: A Survey. In Proceedings of the 2019 11th International Conference on Machine Learning and Computing, ICMLC’19, pages 27–35, 2019.

[MAFSG18]         Mehdi Mohammadi, Ala Al-Fuqaha, Sameh Sorour, and Mohsen Guizani. Deep Learning for IoT Big Data and Streaming Analytics: A Survey. IEEE Communications Surveys Tutorials, 20(4):2923–2960, 2018.

[MMDH19]         Dennis Marten, Holger Meyer, Daniel Dietrich, and Andreas Heuer. Sparse and Dense Linear Algebra for Machine Learning on Parallel-RDBMS Using SQL. Open Journal of Big Data (OJBD), 5(1):1–34, 2019.

[RG20]  Borzoo Rassouli and Deniz Gündüz. Optimal Utility-Privacy Trade-Off With Total Variation Distance as a Privacy Measure. IEEE Transactions on Information Forensics and Security, 15:594–603, 2020.

[SDM+18]            Christoph Stach, Frank Dürr, Kai Mindermann, Saravana Murthy Palanisamy, and Stefan Wagner. How a Pattern-based Privacy System Contributes to Improve Context Recognition. In Proceedings of the 2018 IEEE International Conference on Pervasive Computing and Communications Workshops, CoMoRea’18, pages 238–243, 2018.

[Wac18]              Sandra Wachter. Normative challenges of identification in the Internet of Things: Privacy, profiling, discrimination, and the GDPR. Computer Law & Security Review, 34(3):436–449, 2018.

[WFSK19]            Nan Wu, Farhad Farokhi, David Smith, and Mohamed Ali Kâafar. The Value of Collaboration in Convex Machine Learning with Differential Privacy. CoRR, abs/1906.09679(1–14):436–449, 2019.

[WHRS19]           Christian Weber, Pascal Hirmer, Peter Reimann, and Holger Schwarz. A New Process Model for the Comprehensive Management of Machine Learning Models. In Proceedings of the 21st International Conference on Enterprise Information Systems, ICEIS’19, pages 415–422, 2019.

Contact Person

Welche Python-Module unterstützen Data Scientisten in ihrem Arbeitsalltag?

Ausgangssituation

"Daten sind das Öl des 21. Jahrhunderts" [Ste18] ist ein häufig gezogener Vergleich, da Daten heutzutage einen immensen Wert besitzen. Genau wie Öl, müssen diese Rohdaten zunächst allerdings raffiniert werden, um gewinnbringend nutzbar zu werden. Die Aufgabe von Data Scientisten besteht daher in der technischen Aufbereitung und Analyse dieser Daten [vdA16]. Zu den Aufgaben eines Data Scientisten[1] zählen insbesondere die Datenakquise, die Datenbereinigung und -transformation, die Datenmodellierung und das Datenmanagement, die Datenverarbeitung sowie die Visualisierung der Daten [Cao17].

Die Programmiersprache Python[2] hat sich dabei in Kombination mit den Jupyter Notebooks[3] als de facto Standard für die Datenexploration herauskristallisiert [KRA+18, MA11]. Daher ist es auch nicht verwunderlich, dass stetig neue Python-Module entwickelt werden, die speziell die häufigsten Aufgaben von Data Scientisten adressieren [BH16]. Module wie Scrapy[4], Beautiful Soup[5] und Selenium[6] unterstützen Data Scientisten bei der Datenakquise, indem sie Daten-Crawler für unterschiedliche semi-strukturierte Datenquellen bereitstellen [ON10]. Für die Datenbereinigung und -transformation von numerischen Daten eignen sich Module wie NumPy[7] und pandas[8]. Aber auch für die Konvertierung von Freitext in strukturierte Daten gibt es mit Spacy[9] ein Modul, das auf Natural Language Processing beruht [Mad07]. Die so erfassten und aufbereiteten Daten lassen sich anschließend mit Modulen wie sqlite3[10], PyMongo[11] und PySpark[12] in unterschiedlichen Datenspeichern verwalten (SQL, NoSQL und Apache Spark). Da aufgrund der großen Datenmenge eine händische Analyse nicht möglich ist, zählen zu den häufigsten Analysetechniken eines Data Scientisten Techniken des maschinellen Lernens [CMA16]. Mit scikit-learn[13], PyTorch[14] und Keras[15] existieren daher auch für diesen Anwendungsfall spezielle Python-Module. Für die Visualisierung der Analyseergebnisse kann Plotly[16] genutzt werden. Speziell für die Visualisierung von statistischen Daten gibt es das Modul seaborn[17]. Da sich interaktive Visualisierungstechniken für Data Scientisten als besonders vorteilhaft erwiesen haben [BE18], gibt es mit Bokeh[18] auch hierfür eine dedizierte Lösung.

Obwohl Data Scientisten somit auf viele hilfreiche Python-Module zurückgreifen können, stehen sie häufig vor dem Problem, das für ihrer jeweilige Aufgabe passendste Modul zu identifizieren.

Ziel und Aufgabenstellung

Im Rahmen dieser Bachelor-Arbeit sollen daher die 15 genannten Python-Module untersucht werden. Dabei soll bewertet werden, welche Stärken und Schwächen die jeweiligen Module haben und für welchen Anwendungsfall sie sich insbesondere eignen. Zu diesem Zweck sollen zu jedem Modul einfache Jupyter Notebooks erstellt werden, die nicht nur die Arbeitsweise des jeweiligen Moduls demonstrieren, sondern auch dessen Besonderheiten offenbaren. Darüber hinaus sollen weitere relevante Python-Module in den Aufgabenbereichen Datenakquise, Datenbereinigung und -transformation, Datenmodellierung und -management, Datenverarbeitung sowie Datenvisualisierung identifiziert und evaluiert werden. Die Evaluationsergebnisse sollen in einer Form zusammengestellt werden, die es Data Scientisten ermöglicht, die für sie geeignetste Module auszuwählen.

Zu bearbeitende Teilaufgaben
  • Bewertung von Scrapy, Beautiful Soup und Selenium für die Datenakquise
  • Bewertung von NumPy, pandas und Spacy für die Datenbereinigung und -transformation
  • Bewertung von sqlite3, PyMongo und PySpark für die Datenmodellierung und das Datenmanagement
  • Bewertung von scikit-learn, PyTorch und Keras für die Datenverarbeitung
  • Bewertung von Plotly, seaborn und Bokeh für die Datenvisualisierung
  • Identifikation und Analyse weiterer relevanter Python-Module in diesen fünf Aufgabenbereichen
  • Evaluation der Ergebnisse
  • Erstellung von Jupyter Notebooks für die jeweiligen Module, die die Evaluationsergebnisse untermauern
  • Vorstellung der Ergebnisse im Rahmen von zwei wissenschaftlichen Vorträgen
Literatur

[BE18] Andrea Batch and Niklas Elmqvist. The Interactive Visualization Gap in Initial Exploratory Data Analysis. IEEE Transactions on Visualization and Computer Graphics, 24(1):278–287, 2018.

[BH16] Marcus D. Bloice and Andreas Holzinger. A Tutorial on Machine Learning and Data Science Tools with Python. In Machine Learning for Health Informatics: State-of-the-Art and Future Challenges, pages 435–480. Springer International Publishing, 2016.

[Cao17] Longbing Cao. Data Science: A Comprehensive Overview. ACM Computing Surveys, 50(3):43:1–43:42, 2017.

[CMA16] Davy Cielen, Arno Meysman, and Mohamed Ali. Introducing Data Science: Big Data, Machine Learning, and More, Using Python Tools. Manning Publications Co., 2016.

[KRA+18] Mary Beth Kery, Marissa Radensky, Mahima Arya, Bonnie E. John, and Brad A. Myers. The Story in the Notebook: Exploratory Data Science Using a Literate Programming Tool. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, CHI’18, pages 174:1–174:11, 2018.

[MA11] K. Jarrod Millman and Michael Aivazis. Python for Scientists and Engineers. Computing in Science & Engineering, 13(2):9–12, 2011.

[Mad07] Nitin Madnani. Getting Started on Natural Language Processing with Python. XRDS: Crossroads, 13(4), 2007.

[ON10] Christopher Olston and Marc Najork. Web Crawling. Foundations and Trends in Information Retrieval, 4(3):175–246, 2010.

[Ste18] Anne Steinbach. Daten sind das Öl des 21. Jahrhunderts. Interview, Springer Professional, April 2018.

[vdA16] Wil van der Aalst. Data Science in Action. In Process Mining: Data Science in Action, pages 3–23. Springer Berlin Heidelberg, 2016.

 

[1] Mit dem Begriff "Data Scientist" seien im Folgenden jeweils alle Geschlechter gleichermaßen adressiert.

[2] siehe https://www.python.org

[3] siehe https://jupyter.org

[4] siehe https://scrapy.org

[5] siehe https://www.crummy.com/software/BeautifulSoup/

[6] siehe https://www.selenium.dev

[7] siehe https://numpy.org

[8] siehe https://pandas.pydata.org

[9] siehe https://spacy.io

[10] siehe https://docs.python.org/3/library/sqlite3.html

[11] siehe https://pymongo.readthedocs.io

[12] siehe https://spark.apache.org/docs/latest/api/python/index.html

[13] siehe https://scikit-learn.org

[14] siehe https://pytorch.org

[15] siehe https://keras.io

[16] siehe https://plotly.com

[17] siehe https://seaborn.pydata.org

[18] siehe https://bokeh.org

Contact Person

To the top of the page