Angebotene und laufende studentische Arbeiten

Abteilung Anwendersoftware

Studentische Arbeiten in deutschsprachigen Studiengängen

Angebotene studentische Arbeiten

Background:  Data is a strategic asset to every enterprise and is therefore subject to data governance. The aim for data governance is to strategically managed business relevant data through its entire lifecycle from creation to disposition. The technical aspect of data governance are realized as set of policies and practices implemented to support business processes, corporate policies and regulatory compliance.

Key words: Kubernetes, stateful services, cloud native databases, elastic topologies, scale-up and scale down

Master Thesis Content: This MA-thesis will focus on the handling of stateful services in Kubernetes. More specifically, developing the deployment models of the catalog database, the content repository and the persistent storage required by ECM services.  And we want all of the above orchestrated as stateful services by the Kubernetes runtime system.

Read the full text following the link below.
If interested contact:  Cataldo Mega

Master Thesis Full Text

Laufende studentische Arbeiten

Betreuer: Daniel Del Gaudio
Prüfer: Prof. Dr.-Ing. habil. Bernhard Mitschang
Motivation

Das Internet der Dinge (IoT) besteht aus heterogenen Geräten, ausgestattet mit Sensoren und Aktoren, welche über standardisierte Internetprotokolle kommunizieren, um gemeinsame Ziele zu erreichen [1]. In IoT-Umgebungen werden Daten von Sensoren entnommen und weiterverarbeitet um Aktoren zu steuern. Dadurch können neue Situationen erkannt und zeitnah darauf reagiert werden [2]. Die Verarbeitung der Daten kann durch Datenflussmodelle spezifiziert werden, welche dann von den IoT-Geräten ausgeführt werden können [3]. IoT-Plattformen können dazu verwendet werden, um Software auf verschiedenen Geräten entsprechend ihrer physikalischen Fähigkeiten zu installieren, und deren erzeugte Daten zu überwachen [4]. Um das Verhalten von IoT-Geräten zu überwachen können leichtgewichtige Technologien aus dem Bereich Cloud-Monitoring verwendet werden [5]. IoT-Umgebungen bestehen typischerweise aus einer Vielzahl heterogener Geräte mit eingeschränkten Ressourcen. Dadurch sind IoT-Umgebungen fehleranfälliger als herkömmliche IT- Systeme. Durch ausfallende Geräte gehen Daten verloren und Prozesse werden abgebrochen. Es sind daher Mechanismen notwendig, um mit Ausfällen, Datenverlusten und Verbindungsverlusten umzugehen.

Ziele

In dieser Bachelorarbeit sollen verschiedene Fehlerszenarien in IoT-Umgebungen analysiert und kategorisiert werden. Dazu gehört unter anderem der Ausfall von Geräten, Verlust von Daten und Verlust der Verbindung zu Geräten. Zu jeder Kategorie sollen ein oder mehrere Mechanismen entwickelt werden, um dem jeweiligen Ausfall vorzubeugen bzw. damit umzugehen. Um die Mechanismen zu evaluieren soll ein Prototyp implementiert und auf bereitgestellter Infrastruktur getestet werden.

Die Arbeit umfasst dazu folgende Aufgaben:

  • Einarbeiten in die Themengebiete IoT und Edge Computing
  • Kategorisieren sinnvoll ausgewählter Fehlerszenarien in IoT-Umgebungen (z.B. Ausfall von Geräten, Verlust von Daten, Verlust von Verbindungen zu Geräten)
  • Entwickeln von Mechanismen zur Prävention und Behandlung von jeweiligen Fehlerszenarien
  • Prototypische Implementierung zur Evaluierung der Mechanismen
  • Präsentation der Zwischenergebnisse in einem Vortrag
  • Präsentation der Ergebnisse in einem Vortrag
Literatur

[1] O. Vermesan and P. Friess, Internet of things: converging technologies for smart environments and integrated ecosystems. River Publishers, 2013.
[2] A. C. Franco da Silva, P. Hirmer, M. Wieland, and B. Mitschang, “SitRS XT-Towards Near Real Time Situation Recognition,” Journal of Information and Data Management, vol. 7, no. 1, p. 4, 2016.
[3] D. Del Gaudio and P. Hirmer, “A lightweight messaging engine for decentralized data processing in the internet of things,” SICS Software-Intensive Cyber-Physical Systems, Aug 2019. [Online]. Available: https://doi.org/10.1007/s00450-019-00410-z
[4] A. C. F. da Silva, P. Hirmer, R. K. Peres, and B. Mitschang, “An Approach for CEP Query Shipping to Support Distributed IoT Environments,” in Proceedings of the IEEE International Conference on Pervasive Computing and Communications Workshops (PerCom Workshops). IEEE, Oktober 2018, Konferenz-Beitrag, pp. 247–252. [Online]. Available: http://www2.informatik.uni-stuttgart.de/cgi-bin/NCSTRL/NCSTRL_view.pl?id= INPROC-2018-34&engl=
[5] G. Aceto, A. Botta, W. De Donato, and A. Pescapè, “Cloud monitoring: A survey,” Computer Networks, vol. 57, no. 9, pp. 2093–2115, 2013.

Betreuer: Dr. rer. nat. Pascal Hirmer

Prüfer: Prof. Dr.-Ing. habil. Bernhard Mitschang

Hintergrund

Das Internet der Dinge ist ein aufstrebendes Paradigma, in dem vernetzte Geräte über standardisierte Internetprotokolle kommunizieren, um gemeinsame Ziele zu erreichen. Diese Geräte sind üblicherweise ausgestattet mit Sensoren und Aktuatoren, wobei in IoT-Applikationen die kontinuierlichen Datenströme der Sensoren ausgewertet werden und Aktuatoren unter gewissen geltenden Bedingungen angestoßen werden. Die Datenverarbeitung in IoT-Applikationen kann mittels Datenflussmodellen modelliert werden. Das Werkzeug FlexMash bietet eine derartige Modellierung an, jedoch fokussiert sich dieses bisher auf Batch-Processing, d.h., Daten werden als Ganzes extrahiert und  verarbeitet. Im Rahmen dieser Bachelorarbeit ist es das Ziel, das Werkzeug FlexMash anzupassen, damit dieses auch kontinuierliche Datenströme verarbeiten kann. Hierfür muss insbesondere die Datenverarbeitungs-Engine ausgetauscht werden.

Aufgabe

In dieser Bachelorarbeit soll das Werkzeug FlexMash dahingehend angepasst werden, damit kontinuierliche Datenströme verarbeitet werden können. Hierfür sind einerseits Anpassungen bei der Modellierung als auch bei der Ausführung von Datenflussmodellen notwendig. Diese Arbeit soll sich dabei auf die bestehende Masterarbeit von Del Gaudio stützen.

  • Zusammengefasst umfassen die Aufgaben:
  • Einarbeitung in den Themenbereich und in das Werkzeug FlexMash
  • Suche nach verwandten Arbeiten und Abgrenzung
  • Konzeptioneller Entwurf der notwendigen Erweiterungen in FlexMash (Modellierung & Ausführung)
  • Implementierung der entworfenen ErweiterungenZwischenvortag
  • Abschlussvortrag

 

Durch die zunehmende Digitalisierung steigt die Anzahl der erfassten Daten in verschiedenen Kontexten. Bei einem Großteil dieser Daten handelt es sich um sogenannte Zeitreihendaten, also Daten, die in einem zeitlichen Zusammenhang erfasst und betrachtet werden können. Die Analyse dieser Daten, insbesondere mithilfe von Data Mining und Machine Learning, kann zu einem tieferen Verständnis von Prozessen oder Ursachen beitragen. Hierzu werden auf vorhandenen Daten Modelle erlernt, die für menschliche Nutzer nur schwer oder gar nicht verständlich sind [1]. Die Interpretation von Modellen und Analyseergebnissen durch einen menschlichen Nutzer ist allerdings von großer Wichtigkeit [2]. Die Ergebnisse dieser Analysen sollen darum Nutzern auf geeignete Art und Weise dargestellt werden, sodass auch Nutzer ohne tiefes Verständnis für die dahinterliegenden Algorithmen Rückschlüsse aus den Daten ziehen können. Beispielsweise kann so dargestellt werden, warum ein System eine bestimmte Entscheidung getroffen hat [1, 3].

Besonders bei der Verarbeitung personenbezogener Daten spielt diese Nachvollziehbarkeit eine große Rolle. Für diese Daten fordert die DSGVO [4], dass ihre Verarbeitung und die daraus resultierenden Ergebnisse für Menschen verständlich dargestellt werden können. Zudem fordert die DSGVO Datensparsamkeit, das bedeutet, dass nur solche Daten verarbeitet werden, die für den Zweck erheblich und relevant sind. Um Daten darum DSGVO-konform verarbeiten zu können, benötigen Analysten die Möglichkeit abzuwägen, inwiefern das Hinzunehmen oder Auslassen von Ausgangsdaten die Qualität der Machine Learning Modelle beeinflusst.

Im Rahmen dieser angeleiteten Forschung soll daher untersucht werden, wie die Auswirkung von unterschiedlichen Privacy-Techniken auf die Datenqualität (und somit die Qualität der daraus erlernten Modelle) für den Nutzer visualisiert werden kann. Zu diesem Zweck soll zunächst analysiert werden, wie Unterschiede in Datenbeständen hervorgehoben werden können (z.B. für mehrere Versionen eines Datensatzes auf denen unterschiedliche Privacy-Techniken angewendet wurden). Anschließend soll untersucht werden, welche Visualisierungsmöglichkeiten Machine-Learning-Bibliotheken (z.B. loudML) sowohl für die Analyseergebnisse als auch für die verwendeten Modelle bieten. Durch die Kombination dieser beiden Untersuchungen sollen Möglichkeiten aufgezeigt werden, wie die Auswirkungen von Änderungen an den Trainingsdaten (z.B. durch Anwendung von Privacy-Techniken) auf die erlernten Modelle und somit die erfahrene Qualität der Machine-Learning-Analysen dem Nutzer aufgezeigt werden kann. Abschließend sollen diese Erkenntnisse in einer prototypischen Implementierung münden.

  • Betrachtung von Visualisierungsmöglichkeiten von Zeitreihendatenbeständen
  • Betrachtung von Visualisierungsmöglichkeiten von ML-Ergebnissen
  • Betrachtung von Visualisierungsmöglichkeiten von unterschiedlichen Miningmodellen
  • Prototypische Implementierung eines Visualisierungsdashboards
  • Zusammenfassung der Ergebnisse in einem wissenschaftlichen Paper
  • Vorstellung der Ergebnisse im Rahmen eines hochschulöffentlichen Vortrags

Art der Arbeit

Prozessanalyse (angeleitete Forschung)

Titel

Visualisierung der Auswirkungen von Privacy-Techniken auf Machine-Learning-Ergebnisse

Englischer Titel

Visualizing the Impact of Privacy Techniques on Machine Learning Results

Betreuer

Dr. rer. nat. Christoph Stach

Corinna Giebler M.Sc.

Prüfer

PD Dr. habil. Holger Schwarz

 

1.           Samek, W., Binder, A., Montavon, G., Lapuschkin, S., Muller, K.-R.: Evaluating the Visualization of What a Deep Neural Network Has Learned. IEEE Trans. Neural Networks Learn. Syst. 28 (11), 2660–2673 (2017).

2.           Vallido, A., Martín-Guerrero, J.D., Lisboa, P.J.G.: Making machine learning models interpretable. In: Proceedings of the European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN 2012) (2012).

3.           Mizoguchi, F.: Anomaly detection using visualization and machine learning. In: Proceedings IEEE 9th International Workshops on Enabling Technologies: Infrastructure for Collaborative Enterprises (WET ICE 2000). IEEE Comput. Soc.

4.           European Parliament: EU Regulation 2016/679 (General Data Protection Regulation). (2016).

 

Ausgangssituation

Die zunehmende Digitalisierung in zahlreichen Bereichen, wie beispielsweise Industrie 4.0 oder auch eHealth, führt zu einer wachsenden Menge heterogener Daten. Um den potentiellen Wert dieser Daten extrahieren und nutzen zu können, rückte die Idee des Data Lake [1] mehr und mehr in das Zentrum der Aufmerksamkeit. Die Idee dahinter ist es, Daten in ihrem Rohformat zu erfassen und sie so für Analysen ohne vordefinierte Anwendungsfälle zu verwenden. Da die Speicherung von ausschließlich Rohdaten allerdings ineffizient ist, da beispielsweise Integrations- oder Bereinigungsschritte immer wieder ausgeführt werden müssen, basieren Data-Lake-Architekturen typischerweise auf Zonen [1]. Dabei beschreibt jede Zone, in welchem Verarbeitungsgrad die in ihr enthaltenen Daten vorliegen, z.B. bereinigt oder aggregiert.

Existierende Arbeiten enthalten verschiedenste Zonenmodelle, allerdings meist oberflächlich beschrieben (z.B. [2, 3]). Das Zonenreferenzmodell von Giebler et al. [to be published] dagegen bietet neben detaillierten Beschreibungen auch eine prototypische Implementierung. Während das Konzept sowohl auf Batch-Daten als auch auf Datenströme angewendet werden kann, fokussiert sich der im Paper beschriebene Prototyp allerdings nur auf Batches. Datenströme werden nicht betrachtet.

Ziel und Aufgabenstellung

Ziel dieser Arbeit ist eine Untersuchung der Umsetzungsmöglichkeiten des Zonenreferenzmodells auf Datenströmen. Dazu muss zunächst erarbeitet werden, wie einzelne Zonen umgesetzt werden können und wie ihre Charakteristika auf Datenströme anwendbar sind. Auch die Datenflüsse zwischen den Zonen und zu den Endnutzern müssen definiert werden. Die erarbeitete Lösung soll prototypisch anhand eines Anwendungsfall aus der Industrie 4.0 umgesetzt werden. Zudem ist zu prüfen, ob der Real-Time-Anspruch an die Datenströme nach der Zonenverarbeitung noch gegeben ist.

Zu bearbeitende Teilaufgaben

  • Erarbeitung eines Use Cases für Datenströme im Zonenreferenzmodell
  • Spezifikation des Zonenreferenzmodells für Datenströme
  • Prototypische Implementierung des Zonenreferenzmodells für Datenströme
  • Messung der Latenz und Evaluation der Real-Time Fähigkeit des Konzepts
  • Vorstellung der Ergebnisse in einem wissenschaftlichen Vortrag

Organisatorisches

Art der Arbeit

Bachelorarbeit

Titel

Realisierung des Zonenreferenzmodells auf Datenströmen

Englischer Titel

Realizing the zone reference model on data streams

Betreuer

Corinna Giebler, M. Sc. Informatik

Prüfer

Prof. Bernhard Mitschang

Literatur

[1]            C. Giebler, C. Gröger, E. Hoos, R. Eichler, H. Schwarz, and B. Mitschang, “Data Lakes auf den Grund gegangen,” Datenbank-Spektrum, Jan. 2020, doi: 10.1007/s13222-020-00332-0.

[2]            M. Madsen, “How to Build an Enterprise Data Lake: Important Considerations before Jumping In,” Third Nat. Inc., 2015.

[3]            Zaloni, “The Data Lake Reference Architecture - Leveraging a Data Reference Architecture to Ensure Data Lake Success.” [Online]. Available: https://resources.zaloni.com/i/913381-the-data-lake-reference-architecture/0? [Accessed: 29-Oct-2019].

Bedarfsgerechte Datenbereitstellung in einer vertrauenswürdigen Data-Science-Plattform

Ausgangssituation

"Daten sind das Öl des 21. Jahrhunderts" [Ste18] ist ein häufig gezogener Vergleich, da Daten heutzutage einen immensen Wert besitzen. Genau wie Öl, müssen diese Rohdaten zunächst allerdings raffiniert werden, um gewinnbringend nutzbar zu werden. Die Aufgabe von Data Scientisten besteht daher in der technischen Aufbereitung und Analyse dieser Daten [vdA16]. Hierbei können sie von einer Data-Science-Plattform unterstützt werden [MRQ+15]. Gemäß Gartner muss eine Data-Science-Plattform Data Scientisten bei sämtlichen datengetriebenen Aufgaben über die gesamte Analyse-Pipeline hinweg unterstützen [KdHB+20]. Diese Aufgaben umfassen insbesondere die Datenerfassung, das Datenmanagement und die Datenbereitstellung [Cao17].

Im Kontext von Big Data muss eine Data-Science-Plattform dabei nicht nur mit großen Datenmengen, sondern auch mit heterogenen Daten umgehen können [LZL+14]. Zur Verwaltung dieser Daten bieten sich Data-Lake-Konzepte an [HGQ16, MT16]. Für die Umsetzung dieser Konzepte existiert eine Vielzahl an Realisierungsstrategien [GGH+20]. Eine dieser Strategien sieht für die bedarfsgerechte Bereitstellung von Daten ein Zonenmodell vor. Hierbei werden bei der Datenerfassung neben Rohdaten auch Metadaten erfasst, die diese Rohdaten näher beschreiben (z.B. Informationen zum Sensor, der diese Daten erfasst hat). Mithilfe der Metadaten werden die Rohdaten für spezifizierte Anwendungsfälle aufbereitet und in separaten Zonen gespeichert [Sha18]. Um jedoch eine bedarfsgerechte Bereitstellung der Daten zu ermöglichen, müssen die Eigenschaften dieser Zonen beschrieben werden (z.B. die Qualität [BCFM09, PLW02, ZRM+16] und die Privacy [WE18] der enthaltenen Daten). Anhand dieser Zonenbeschreibungen könnte ein Zugriffsmechanismus anschließend für jede Anfrage, die am besten passende Zone auswählen [HKFV15, SO17].

Ziel und Aufgabenstellung

Im Rahmen dieser Bachelor-Arbeit soll daher untersucht werden, welche Techniken zur Beschreibung von Data Lakes existieren und inwiefern diese eine bedarfsgerechte Datenbereitstellung ermöglichen. Das heißt, es soll jeweils nur ein Mindestmaß an Daten bereitgestellt werde, ohne dabei die Analysequalität unnötig einzuschränken. Hierzu sollen unterschiedliche Metriken zur Beschreibung von Qualitäts- und Privacy-Merkmalen berücksichtigt werden. Basierend auf diese Untersuchungen soll ein eigenes Datenbeschreibungsmodell für Data Lakes entwickelt werden. Dieses Beschreibungsmodell soll anschließend in einem Zugriffsmechanismus integriert werden, damit die Auswahl der geeignetsten Zone automatisch erfolgen kann. Hierzu soll ein geeignetes Zugriffskontrollverfahren ausgewählt und das dabei zum Einsatz kommende Zugriffsmodell entsprechend erweitert werden. Anhand einer prototypischen Umsetzung der entwickelten bedarfsgerechten Datenbereitstellungtechnik soll evaluiert werden, inwiefern diese für den Einsatz in einer Data-Science-Plattform geeignet ist.

Zu bearbeitende Teilaufgaben
  • Analyse und Bewertung existierende Beschreibungstechniken für Data Lakes
  • Analyse und Bewertung existierende Beschreibungsmodelle für Datenqualität
  • Analyse und Bewertung existierende Beschreibungsmodelle für Privacy-Level
  • Entwicklung eines Datenbeschreibungsmodells für Data Lakes
  • Analyse und Bewertung existierender Zugriffskontrollverfahren
  • Entwicklung eines eigenen Zugriffsmodells, das zu dem entwickelten Datenbeschreibungsmodell kompatibel ist
  • Prototypische Umsetzung der bedarfsgerechten Datenbereitstellung
  • Evaluation der Ergebnisse
  • Vorstellung der Ergebnisse im Rahmen von zwei wissenschaftlichen Vorträgen
Literatur

[BCFM09]        Carlo Batini, Cinzia Cappiello, Chiara Francalanci, and Andrea Maurino. Methodologies for Data Quality Assessment and Improvement. ACM Computing Surveys, 41(3):16:1–16:52, 2009.

[Cao17]            Longbing Cao. Data Science: A Comprehensive Overview. ACM Computing Surveys, 50(3):43:1–43:42, 2017.

[GGH+20]         Corinna Giebler, Christoph Gröger, Eva Hoos, Rebecca Eichler, Holger Schwarz, and Bernhard Mitschang. Data Lakes auf den Grund gegangen. Datenbank-Spektrum, 20:57–69, 2020.

[HGQ16]          Rihan Hai, Sandra Geisler, and Christoph Quix. Constance: An Intelligent Data Lake System. In Proceedings of the 2016 International Conference on Management of Data, SIGMOD’16, pages 2097–2100, 2016.

[HKFV15]         Vincent C. Hu, D. Richard Kuhn, David F. Ferraiolo, and Jeffrey Voas. Attribute-Based Access Control. Computer, 48(2):85–88, 2015.

[KdHB+20]        Peter Krensky, Pieter den Hamer, Erick Brethenoux, Jim Hare, Carlie Idoine, Alexander Linden, Svetlana Sicular, and Farhan Choudhary. Magic Quadrant for Data Science and Machine Learning Platforms. Gartner Report, Gartner, Inc., February 2020.

[LZL+14]           Rongxing Lu, Hui Zhu, Ximeng Liu, Joseph K. Liu, and Jun Shao. Toward efficient and privacy-preserving computing in big data era. IEEE Network, 28(4):46–50, 2014.

[MRQ+15]        Fumbeya Marungo, Scott Robertson, Harry Quon, John Rhee, Hilary Paisley, Russell H. Taylor, and Todd McNutt. Creating a data science platform for developing complication risk models for personalized treatment planning in radiation oncology. In Proceedings of the 2015 48th Hawaii International Conference on System Sciences, HICSS’15, pages 3132–3140, 2015.

[MT16] Natalia Miloslavskaya and Alexander Tolstoy. Big Data, Fast Data and Data Lake Concepts. Procedia Computer Science, 88:300–305, 2016.

[PLW02]          Leo L. Pipino, Yang W. Lee, and Richard Y. Wang. Data Quality Assessment. Communications of the ACM, 45(4):211–218, 2002.

[Sha18]            Ben Sharma. Architecting Data Lakes. O’Reilly Media, Inc., 2018.

[SO17] Daniel Servos and Sylvia L. Osborn. Current Research and Open Problems in Attribute-Based Access Control. ACM Computing Surveys, 49(4):65:1–65:45, 2017.

[Ste18] Anne Steinbach. Daten sind das Öl des 21. Jahrhunderts. Interview, Springer Professional, April 2018.

[vdA16]           Wil van der Aalst. Data Science in Action. In Process Mining: Data Science in Action, pages 3–23. Springer Berlin Heidelberg, 2016.

[WE18] Isabel Wagner and David Eckhoff. Technical Privacy Metrics: A Systematic Survey. ACM Computing Surveys, 51(3):57:1–57:38, 2018.

[ZRM+16]         Amrapali Zaveri, Anisa Rula, Andrea Maurino, Ricardo Pietrobon, Jens Lehmann, and Sören Auer. Quality assessment for Linked Data: A Survey. Semantic Web, 7(1):63–93, 2016.

Ansprechpartner

Privacy-aware Machine Learning

Motivation

Machine learning and data mining provide the foundation for a vast number of smart applications today [DLDB19, HKUN+19, KQYK19]. For this purpose, a large amount of partly private data is captured by sensors, pre-processed by data stream systems and stored in databases. Machine learning and data mining approaches then learn models from these data. By applying these models to real time data, smart applications are able to predict and adapt to future requirements [MAFSG18]. Such applications are a substantial benefit for the user. However, to enable smart applications, a large amount of data is required in the first place. Only if the data quality is sufficient, accurate models can be learned and sound predictions can be made. Yet, there is a growing concern on the part of users regarding the large-scale processing of private data [ARC19, BF18]. In addition, new regulations such as the General Data Protection Regulation (GDPR) [Eur] restrict this kind of data processing even further [Wac18]. Today’s data privacy approaches affect data quality and data quantity severely so that the utility of machine learning and data mining suffers sustainably [RG20].

Research Goals and Objectives

For this reason, this Masters Thesis concerns with novel approaches that guarantee privacy in machine learning applications without restricting their utility unnecessarily. To this end, it has to be studied, which privacy-aware machine learning techniques are currently discussed in research and applied in practice, such as [JKK+19, KMT19, MMDH19, WFSK19]. In particular, it has to be examined how data protection is implemented and which aspects of the GDPR are covered by the approach as well as how this affects the utility of the machine learning application. Based on these studies, a new privacy concept for machine learning applications has to be developed. Different privacy techniques shall be applied in this concept. Similar to PATRON [SDM+18], depending on the application and privacy requirements, the technique that not only protects the data subject’s privacy but also maximizes the application’s utility at the same time. In addition, the management of the machine learning models learned in this process has to be taken into account (cf. [WHRS19]). This also includes the introduction of metadata describing the models in terms of their privacy-awareness and utility. This concept has to be implemented prototypically. In this prototype it should be possible to learn machine learning models with different privacy and utility properties for a given dataset and then apply them depending on user-defined privacy and utility requirements.

Work Tasks
  • Analysis of the current state of the art regarding privacy-aware machine learning
  • Development of private concepts for machine learning which take the utility of the learned models into account
  • Development of concepts for the management and application of the learned models
  • Prototypical implementation of the developed concepts
  • Evaluation of the results based on an application case
  • Preparation of a roadmap with well-defined milestones
  • Frequent meetings with the supervisor to discuss the current status of the work
  • Presentation of the results in two research talks
Literature

[ARC19]               Mohammad Al-Rubaie and J. Morris Chang. Privacy-Preserving Machine Learning: Threats and Solutions. IEEE Security Privacy, 17(2):49–58, 2019.

[BF18]   Elisa Bertino and Elena Ferrari. Big Data Security and Privacy, pages 425–439. Springer International Publishing, Cham, 2018.

[DLDB19]            Djamel Djenouri, Roufaida Laidi, Youcef Djenouri, and Ilangko Balasingham. Machine Learning for Smart Building Applications: Review and Taxonomy. ACM Computing Surveys (CSUR), 52(2):24:1–24:36, 2019.

[Eur]      European Parliament and Council of the European Union. Regulation on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing directive 95/46/EC (Data Protection Directive). Legislative acts L119, Official Journal of the European Union.

[HKUN+19]          Eklas Hossain, Imtiaj Khan, Fuad Un-Noor, Sarder Shazali Sikander, and Md. Samiul Haque Sunny. Application of Big Data and Machine Learning in Smart Grid, and Associated Security Concerns: A Review. IEEE Access, 7:13960–13988, 2019.

[JKK+19]               Joohyung Jeon, Junhui Kim, Joongheon Kim, Kwangsoo Kim, Aziz Mohaisen, and Jong-Kook Kim. Privacy-Preserving Deep Learning Computation for Geo-Distributed Medical Big-Data Platforms. In Proceedings of the 2019 49th Annual IEEE/IFIP International Conference on Dependable Systems and Networks – Supplemental Volume, DSN-S’19, pages 3–3, 2019.

[KMT19]              Krishnaram Kenthapadi, Ilya Mironov, and Abhradeep Thakurta. Privacy-preserving Data Mining in Industry. In Companion Proceedings of The 2019 World Wide Web Conference, WWW’19, pages 1308–1310, 2019.

[KQYK19]            Younas Khan, Usman Qamar, Nazish Yousaf, and Aimal Khan. Machine Learning Techniques for Heart Disease Datasets: A Survey. In Proceedings of the 2019 11th International Conference on Machine Learning and Computing, ICMLC’19, pages 27–35, 2019.

[MAFSG18]         Mehdi Mohammadi, Ala Al-Fuqaha, Sameh Sorour, and Mohsen Guizani. Deep Learning for IoT Big Data and Streaming Analytics: A Survey. IEEE Communications Surveys Tutorials, 20(4):2923–2960, 2018.

[MMDH19]         Dennis Marten, Holger Meyer, Daniel Dietrich, and Andreas Heuer. Sparse and Dense Linear Algebra for Machine Learning on Parallel-RDBMS Using SQL. Open Journal of Big Data (OJBD), 5(1):1–34, 2019.

[RG20]  Borzoo Rassouli and Deniz Gündüz. Optimal Utility-Privacy Trade-Off With Total Variation Distance as a Privacy Measure. IEEE Transactions on Information Forensics and Security, 15:594–603, 2020.

[SDM+18]            Christoph Stach, Frank Dürr, Kai Mindermann, Saravana Murthy Palanisamy, and Stefan Wagner. How a Pattern-based Privacy System Contributes to Improve Context Recognition. In Proceedings of the 2018 IEEE International Conference on Pervasive Computing and Communications Workshops, CoMoRea’18, pages 238–243, 2018.

[Wac18]              Sandra Wachter. Normative challenges of identification in the Internet of Things: Privacy, profiling, discrimination, and the GDPR. Computer Law & Security Review, 34(3):436–449, 2018.

[WFSK19]            Nan Wu, Farhad Farokhi, David Smith, and Mohamed Ali Kâafar. The Value of Collaboration in Convex Machine Learning with Differential Privacy. CoRR, abs/1906.09679(1–14):436–449, 2019.

[WHRS19]           Christian Weber, Pascal Hirmer, Peter Reimann, and Holger Schwarz. A New Process Model for the Comprehensive Management of Machine Learning Models. In Proceedings of the 21st International Conference on Enterprise Information Systems, ICEIS’19, pages 415–422, 2019.

Ansprechpartner

Welche Python-Module unterstützen Data Scientisten in ihrem Arbeitsalltag?

Ausgangssituation

"Daten sind das Öl des 21. Jahrhunderts" [Ste18] ist ein häufig gezogener Vergleich, da Daten heutzutage einen immensen Wert besitzen. Genau wie Öl, müssen diese Rohdaten zunächst allerdings raffiniert werden, um gewinnbringend nutzbar zu werden. Die Aufgabe von Data Scientisten besteht daher in der technischen Aufbereitung und Analyse dieser Daten [vdA16]. Zu den Aufgaben eines Data Scientisten[1] zählen insbesondere die Datenakquise, die Datenbereinigung und -transformation, die Datenmodellierung und das Datenmanagement, die Datenverarbeitung sowie die Visualisierung der Daten [Cao17].

Die Programmiersprache Python[2] hat sich dabei in Kombination mit den Jupyter Notebooks[3] als de facto Standard für die Datenexploration herauskristallisiert [KRA+18, MA11]. Daher ist es auch nicht verwunderlich, dass stetig neue Python-Module entwickelt werden, die speziell die häufigsten Aufgaben von Data Scientisten adressieren [BH16]. Module wie Scrapy[4], Beautiful Soup[5] und Selenium[6] unterstützen Data Scientisten bei der Datenakquise, indem sie Daten-Crawler für unterschiedliche semi-strukturierte Datenquellen bereitstellen [ON10]. Für die Datenbereinigung und -transformation von numerischen Daten eignen sich Module wie NumPy[7] und pandas[8]. Aber auch für die Konvertierung von Freitext in strukturierte Daten gibt es mit Spacy[9] ein Modul, das auf Natural Language Processing beruht [Mad07]. Die so erfassten und aufbereiteten Daten lassen sich anschließend mit Modulen wie sqlite3[10], PyMongo[11] und PySpark[12] in unterschiedlichen Datenspeichern verwalten (SQL, NoSQL und Apache Spark). Da aufgrund der großen Datenmenge eine händische Analyse nicht möglich ist, zählen zu den häufigsten Analysetechniken eines Data Scientisten Techniken des maschinellen Lernens [CMA16]. Mit scikit-learn[13], PyTorch[14] und Keras[15] existieren daher auch für diesen Anwendungsfall spezielle Python-Module. Für die Visualisierung der Analyseergebnisse kann Plotly[16] genutzt werden. Speziell für die Visualisierung von statistischen Daten gibt es das Modul seaborn[17]. Da sich interaktive Visualisierungstechniken für Data Scientisten als besonders vorteilhaft erwiesen haben [BE18], gibt es mit Bokeh[18] auch hierfür eine dedizierte Lösung.

Obwohl Data Scientisten somit auf viele hilfreiche Python-Module zurückgreifen können, stehen sie häufig vor dem Problem, das für ihrer jeweilige Aufgabe passendste Modul zu identifizieren.

Ziel und Aufgabenstellung

Im Rahmen dieser Bachelor-Arbeit sollen daher die 15 genannten Python-Module untersucht werden. Dabei soll bewertet werden, welche Stärken und Schwächen die jeweiligen Module haben und für welchen Anwendungsfall sie sich insbesondere eignen. Zu diesem Zweck sollen zu jedem Modul einfache Jupyter Notebooks erstellt werden, die nicht nur die Arbeitsweise des jeweiligen Moduls demonstrieren, sondern auch dessen Besonderheiten offenbaren. Darüber hinaus sollen weitere relevante Python-Module in den Aufgabenbereichen Datenakquise, Datenbereinigung und -transformation, Datenmodellierung und -management, Datenverarbeitung sowie Datenvisualisierung identifiziert und evaluiert werden. Die Evaluationsergebnisse sollen in einer Form zusammengestellt werden, die es Data Scientisten ermöglicht, die für sie geeignetste Module auszuwählen.

Zu bearbeitende Teilaufgaben
  • Bewertung von Scrapy, Beautiful Soup und Selenium für die Datenakquise
  • Bewertung von NumPy, pandas und Spacy für die Datenbereinigung und -transformation
  • Bewertung von sqlite3, PyMongo und PySpark für die Datenmodellierung und das Datenmanagement
  • Bewertung von scikit-learn, PyTorch und Keras für die Datenverarbeitung
  • Bewertung von Plotly, seaborn und Bokeh für die Datenvisualisierung
  • Identifikation und Analyse weiterer relevanter Python-Module in diesen fünf Aufgabenbereichen
  • Evaluation der Ergebnisse
  • Erstellung von Jupyter Notebooks für die jeweiligen Module, die die Evaluationsergebnisse untermauern
  • Vorstellung der Ergebnisse im Rahmen von zwei wissenschaftlichen Vorträgen
Literatur

[BE18] Andrea Batch and Niklas Elmqvist. The Interactive Visualization Gap in Initial Exploratory Data Analysis. IEEE Transactions on Visualization and Computer Graphics, 24(1):278–287, 2018.

[BH16] Marcus D. Bloice and Andreas Holzinger. A Tutorial on Machine Learning and Data Science Tools with Python. In Machine Learning for Health Informatics: State-of-the-Art and Future Challenges, pages 435–480. Springer International Publishing, 2016.

[Cao17] Longbing Cao. Data Science: A Comprehensive Overview. ACM Computing Surveys, 50(3):43:1–43:42, 2017.

[CMA16] Davy Cielen, Arno Meysman, and Mohamed Ali. Introducing Data Science: Big Data, Machine Learning, and More, Using Python Tools. Manning Publications Co., 2016.

[KRA+18] Mary Beth Kery, Marissa Radensky, Mahima Arya, Bonnie E. John, and Brad A. Myers. The Story in the Notebook: Exploratory Data Science Using a Literate Programming Tool. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, CHI’18, pages 174:1–174:11, 2018.

[MA11] K. Jarrod Millman and Michael Aivazis. Python for Scientists and Engineers. Computing in Science & Engineering, 13(2):9–12, 2011.

[Mad07] Nitin Madnani. Getting Started on Natural Language Processing with Python. XRDS: Crossroads, 13(4), 2007.

[ON10] Christopher Olston and Marc Najork. Web Crawling. Foundations and Trends in Information Retrieval, 4(3):175–246, 2010.

[Ste18] Anne Steinbach. Daten sind das Öl des 21. Jahrhunderts. Interview, Springer Professional, April 2018.

[vdA16] Wil van der Aalst. Data Science in Action. In Process Mining: Data Science in Action, pages 3–23. Springer Berlin Heidelberg, 2016.

 

[1] Mit dem Begriff "Data Scientist" seien im Folgenden jeweils alle Geschlechter gleichermaßen adressiert.

[2] siehe https://www.python.org

[3] siehe https://jupyter.org

[4] siehe https://scrapy.org

[5] siehe https://www.crummy.com/software/BeautifulSoup/

[6] siehe https://www.selenium.dev

[7] siehe https://numpy.org

[8] siehe https://pandas.pydata.org

[9] siehe https://spacy.io

[10] siehe https://docs.python.org/3/library/sqlite3.html

[11] siehe https://pymongo.readthedocs.io

[12] siehe https://spark.apache.org/docs/latest/api/python/index.html

[13] siehe https://scikit-learn.org

[14] siehe https://pytorch.org

[15] siehe https://keras.io

[16] siehe https://plotly.com

[17] siehe https://seaborn.pydata.org

[18] siehe https://bokeh.org

Ansprechpartner

Zum Seitenanfang