Open and Current Student Projects

Applications of Parallel and Distributed Systems

Student projects in international study programmes

Open student projects

Background:  Data is a strategic asset to every enterprise and is therefore subject to data governance. The aim for data governance is to strategically managed business relevant data through its entire lifecycle from creation to disposition. The technical aspect of data governance are realized as set of policies and practices implemented to support business processes, corporate policies and regulatory compliance.

Key words: Kubernetes, stateful services, cloud native databases, elastic topologies, scale-up and scale down

Master Thesis Content: This MA-thesis will focus on the handling of stateful services in Kubernetes. More specifically, developing the deployment models of the catalog database, the content repository and the persistent storage required by ECM services.  And we want all of the above orchestrated as stateful services by the Kubernetes runtime system.

Read the full text following the link below.
If interested contact:  Cataldo Mega

Master Thesis Full Text

Ongoing student projects

Ausgangssituation

Die zunehmende Digitalisierung in zahlreichen Bereichen, wie beispielsweise Industrie 4.0 oder auch eHealth, führt zu einer wachsenden Menge heterogener Daten. Um den potentiellen Wert dieser Daten extrahieren und nutzen zu können, rückte die Idee des Data Lake [1] mehr und mehr in das Zentrum der Aufmerksamkeit. Die Idee dahinter ist es, Daten in ihrem Rohformat zu erfassen und sie so für Analysen ohne vordefinierte Anwendungsfälle zu verwenden. Da die Speicherung von ausschließlich Rohdaten allerdings ineffizient ist, da beispielsweise Integrations- oder Bereinigungsschritte immer wieder ausgeführt werden müssen, basieren Data-Lake-Architekturen typischerweise auf Zonen [1]. Dabei beschreibt jede Zone, in welchem Verarbeitungsgrad die in ihr enthaltenen Daten vorliegen, z.B. bereinigt oder aggregiert.

Existierende Arbeiten enthalten verschiedenste Zonenmodelle, allerdings meist oberflächlich beschrieben (z.B. [2, 3]). Das Zonenreferenzmodell von Giebler et al. [to be published] dagegen bietet neben detaillierten Beschreibungen auch eine prototypische Implementierung. Während das Konzept sowohl auf Batch-Daten als auch auf Datenströme angewendet werden kann, fokussiert sich der im Paper beschriebene Prototyp allerdings nur auf Batches. Datenströme werden nicht betrachtet.

Ziel und Aufgabenstellung

Ziel dieser Arbeit ist eine Untersuchung der Umsetzungsmöglichkeiten des Zonenreferenzmodells auf Datenströmen. Dazu muss zunächst erarbeitet werden, wie einzelne Zonen umgesetzt werden können und wie ihre Charakteristika auf Datenströme anwendbar sind. Auch die Datenflüsse zwischen den Zonen und zu den Endnutzern müssen definiert werden. Die erarbeitete Lösung soll prototypisch anhand eines Anwendungsfall aus der Industrie 4.0 umgesetzt werden. Zudem ist zu prüfen, ob der Real-Time-Anspruch an die Datenströme nach der Zonenverarbeitung noch gegeben ist.

Zu bearbeitende Teilaufgaben

  • Erarbeitung eines Use Cases für Datenströme im Zonenreferenzmodell
  • Spezifikation des Zonenreferenzmodells für Datenströme
  • Prototypische Implementierung des Zonenreferenzmodells für Datenströme
  • Messung der Latenz und Evaluation der Real-Time Fähigkeit des Konzepts
  • Vorstellung der Ergebnisse in einem wissenschaftlichen Vortrag

Organisatorisches

Art der Arbeit

Bachelorarbeit

Titel

Realisierung des Zonenreferenzmodells auf Datenströmen

Englischer Titel

Realizing the zone reference model on data streams

Betreuer

Corinna Giebler, M. Sc. Informatik

Prüfer

Prof. Bernhard Mitschang

Literatur

[1]            C. Giebler, C. Gröger, E. Hoos, R. Eichler, H. Schwarz, and B. Mitschang, “Data Lakes auf den Grund gegangen,” Datenbank-Spektrum, Jan. 2020, doi: 10.1007/s13222-020-00332-0.

[2]            M. Madsen, “How to Build an Enterprise Data Lake: Important Considerations before Jumping In,” Third Nat. Inc., 2015.

[3]            Zaloni, “The Data Lake Reference Architecture - Leveraging a Data Reference Architecture to Ensure Data Lake Success.” [Online]. Available: https://resources.zaloni.com/i/913381-the-data-lake-reference-architecture/0? [Accessed: 29-Oct-2019].

Bedarfsgerechte Datenbereitstellung in einer vertrauenswürdigen Data-Science-Plattform

Ausgangssituation

"Daten sind das Öl des 21. Jahrhunderts" [Ste18] ist ein häufig gezogener Vergleich, da Daten heutzutage einen immensen Wert besitzen. Genau wie Öl, müssen diese Rohdaten zunächst allerdings raffiniert werden, um gewinnbringend nutzbar zu werden. Die Aufgabe von Data Scientisten besteht daher in der technischen Aufbereitung und Analyse dieser Daten [vdA16]. Hierbei können sie von einer Data-Science-Plattform unterstützt werden [MRQ+15]. Gemäß Gartner muss eine Data-Science-Plattform Data Scientisten bei sämtlichen datengetriebenen Aufgaben über die gesamte Analyse-Pipeline hinweg unterstützen [KdHB+20]. Diese Aufgaben umfassen insbesondere die Datenerfassung, das Datenmanagement und die Datenbereitstellung [Cao17].

Im Kontext von Big Data muss eine Data-Science-Plattform dabei nicht nur mit großen Datenmengen, sondern auch mit heterogenen Daten umgehen können [LZL+14]. Zur Verwaltung dieser Daten bieten sich Data-Lake-Konzepte an [HGQ16, MT16]. Für die Umsetzung dieser Konzepte existiert eine Vielzahl an Realisierungsstrategien [GGH+20]. Eine dieser Strategien sieht für die bedarfsgerechte Bereitstellung von Daten ein Zonenmodell vor. Hierbei werden bei der Datenerfassung neben Rohdaten auch Metadaten erfasst, die diese Rohdaten näher beschreiben (z.B. Informationen zum Sensor, der diese Daten erfasst hat). Mithilfe der Metadaten werden die Rohdaten für spezifizierte Anwendungsfälle aufbereitet und in separaten Zonen gespeichert [Sha18]. Um jedoch eine bedarfsgerechte Bereitstellung der Daten zu ermöglichen, müssen die Eigenschaften dieser Zonen beschrieben werden (z.B. die Qualität [BCFM09, PLW02, ZRM+16] und die Privacy [WE18] der enthaltenen Daten). Anhand dieser Zonenbeschreibungen könnte ein Zugriffsmechanismus anschließend für jede Anfrage, die am besten passende Zone auswählen [HKFV15, SO17].

Ziel und Aufgabenstellung

Im Rahmen dieser Bachelor-Arbeit soll daher untersucht werden, welche Techniken zur Beschreibung von Data Lakes existieren und inwiefern diese eine bedarfsgerechte Datenbereitstellung ermöglichen. Das heißt, es soll jeweils nur ein Mindestmaß an Daten bereitgestellt werde, ohne dabei die Analysequalität unnötig einzuschränken. Hierzu sollen unterschiedliche Metriken zur Beschreibung von Qualitäts- und Privacy-Merkmalen berücksichtigt werden. Basierend auf diese Untersuchungen soll ein eigenes Datenbeschreibungsmodell für Data Lakes entwickelt werden. Dieses Beschreibungsmodell soll anschließend in einem Zugriffsmechanismus integriert werden, damit die Auswahl der geeignetsten Zone automatisch erfolgen kann. Hierzu soll ein geeignetes Zugriffskontrollverfahren ausgewählt und das dabei zum Einsatz kommende Zugriffsmodell entsprechend erweitert werden. Anhand einer prototypischen Umsetzung der entwickelten bedarfsgerechten Datenbereitstellungtechnik soll evaluiert werden, inwiefern diese für den Einsatz in einer Data-Science-Plattform geeignet ist.

Zu bearbeitende Teilaufgaben
  • Analyse und Bewertung existierende Beschreibungstechniken für Data Lakes
  • Analyse und Bewertung existierende Beschreibungsmodelle für Datenqualität
  • Analyse und Bewertung existierende Beschreibungsmodelle für Privacy-Level
  • Entwicklung eines Datenbeschreibungsmodells für Data Lakes
  • Analyse und Bewertung existierender Zugriffskontrollverfahren
  • Entwicklung eines eigenen Zugriffsmodells, das zu dem entwickelten Datenbeschreibungsmodell kompatibel ist
  • Prototypische Umsetzung der bedarfsgerechten Datenbereitstellung
  • Evaluation der Ergebnisse
  • Vorstellung der Ergebnisse im Rahmen von zwei wissenschaftlichen Vorträgen
Literatur

[BCFM09]        Carlo Batini, Cinzia Cappiello, Chiara Francalanci, and Andrea Maurino. Methodologies for Data Quality Assessment and Improvement. ACM Computing Surveys, 41(3):16:1–16:52, 2009.

[Cao17]            Longbing Cao. Data Science: A Comprehensive Overview. ACM Computing Surveys, 50(3):43:1–43:42, 2017.

[GGH+20]         Corinna Giebler, Christoph Gröger, Eva Hoos, Rebecca Eichler, Holger Schwarz, and Bernhard Mitschang. Data Lakes auf den Grund gegangen. Datenbank-Spektrum, 20:57–69, 2020.

[HGQ16]          Rihan Hai, Sandra Geisler, and Christoph Quix. Constance: An Intelligent Data Lake System. In Proceedings of the 2016 International Conference on Management of Data, SIGMOD’16, pages 2097–2100, 2016.

[HKFV15]         Vincent C. Hu, D. Richard Kuhn, David F. Ferraiolo, and Jeffrey Voas. Attribute-Based Access Control. Computer, 48(2):85–88, 2015.

[KdHB+20]        Peter Krensky, Pieter den Hamer, Erick Brethenoux, Jim Hare, Carlie Idoine, Alexander Linden, Svetlana Sicular, and Farhan Choudhary. Magic Quadrant for Data Science and Machine Learning Platforms. Gartner Report, Gartner, Inc., February 2020.

[LZL+14]           Rongxing Lu, Hui Zhu, Ximeng Liu, Joseph K. Liu, and Jun Shao. Toward efficient and privacy-preserving computing in big data era. IEEE Network, 28(4):46–50, 2014.

[MRQ+15]        Fumbeya Marungo, Scott Robertson, Harry Quon, John Rhee, Hilary Paisley, Russell H. Taylor, and Todd McNutt. Creating a data science platform for developing complication risk models for personalized treatment planning in radiation oncology. In Proceedings of the 2015 48th Hawaii International Conference on System Sciences, HICSS’15, pages 3132–3140, 2015.

[MT16] Natalia Miloslavskaya and Alexander Tolstoy. Big Data, Fast Data and Data Lake Concepts. Procedia Computer Science, 88:300–305, 2016.

[PLW02]          Leo L. Pipino, Yang W. Lee, and Richard Y. Wang. Data Quality Assessment. Communications of the ACM, 45(4):211–218, 2002.

[Sha18]            Ben Sharma. Architecting Data Lakes. O’Reilly Media, Inc., 2018.

[SO17] Daniel Servos and Sylvia L. Osborn. Current Research and Open Problems in Attribute-Based Access Control. ACM Computing Surveys, 49(4):65:1–65:45, 2017.

[Ste18] Anne Steinbach. Daten sind das Öl des 21. Jahrhunderts. Interview, Springer Professional, April 2018.

[vdA16]           Wil van der Aalst. Data Science in Action. In Process Mining: Data Science in Action, pages 3–23. Springer Berlin Heidelberg, 2016.

[WE18] Isabel Wagner and David Eckhoff. Technical Privacy Metrics: A Systematic Survey. ACM Computing Surveys, 51(3):57:1–57:38, 2018.

[ZRM+16]         Amrapali Zaveri, Anisa Rula, Andrea Maurino, Ricardo Pietrobon, Jens Lehmann, and Sören Auer. Quality assessment for Linked Data: A Survey. Semantic Web, 7(1):63–93, 2016.

Contact Person

Privacy-aware Machine Learning

Motivation

Machine learning and data mining provide the foundation for a vast number of smart applications today [DLDB19, HKUN+19, KQYK19]. For this purpose, a large amount of partly private data is captured by sensors, pre-processed by data stream systems and stored in databases. Machine learning and data mining approaches then learn models from these data. By applying these models to real time data, smart applications are able to predict and adapt to future requirements [MAFSG18]. Such applications are a substantial benefit for the user. However, to enable smart applications, a large amount of data is required in the first place. Only if the data quality is sufficient, accurate models can be learned and sound predictions can be made. Yet, there is a growing concern on the part of users regarding the large-scale processing of private data [ARC19, BF18]. In addition, new regulations such as the General Data Protection Regulation (GDPR) [Eur] restrict this kind of data processing even further [Wac18]. Today’s data privacy approaches affect data quality and data quantity severely so that the utility of machine learning and data mining suffers sustainably [RG20].

Research Goals and Objectives

For this reason, this Masters Thesis concerns with novel approaches that guarantee privacy in machine learning applications without restricting their utility unnecessarily. To this end, it has to be studied, which privacy-aware machine learning techniques are currently discussed in research and applied in practice, such as [JKK+19, KMT19, MMDH19, WFSK19]. In particular, it has to be examined how data protection is implemented and which aspects of the GDPR are covered by the approach as well as how this affects the utility of the machine learning application. Based on these studies, a new privacy concept for machine learning applications has to be developed. Different privacy techniques shall be applied in this concept. Similar to PATRON [SDM+18], depending on the application and privacy requirements, the technique that not only protects the data subject’s privacy but also maximizes the application’s utility at the same time. In addition, the management of the machine learning models learned in this process has to be taken into account (cf. [WHRS19]). This also includes the introduction of metadata describing the models in terms of their privacy-awareness and utility. This concept has to be implemented prototypically. In this prototype it should be possible to learn machine learning models with different privacy and utility properties for a given dataset and then apply them depending on user-defined privacy and utility requirements.

Work Tasks
  • Analysis of the current state of the art regarding privacy-aware machine learning
  • Development of private concepts for machine learning which take the utility of the learned models into account
  • Development of concepts for the management and application of the learned models
  • Prototypical implementation of the developed concepts
  • Evaluation of the results based on an application case
  • Preparation of a roadmap with well-defined milestones
  • Frequent meetings with the supervisor to discuss the current status of the work
  • Presentation of the results in two research talks
Literature

[ARC19]               Mohammad Al-Rubaie and J. Morris Chang. Privacy-Preserving Machine Learning: Threats and Solutions. IEEE Security Privacy, 17(2):49–58, 2019.

[BF18]   Elisa Bertino and Elena Ferrari. Big Data Security and Privacy, pages 425–439. Springer International Publishing, Cham, 2018.

[DLDB19]            Djamel Djenouri, Roufaida Laidi, Youcef Djenouri, and Ilangko Balasingham. Machine Learning for Smart Building Applications: Review and Taxonomy. ACM Computing Surveys (CSUR), 52(2):24:1–24:36, 2019.

[Eur]      European Parliament and Council of the European Union. Regulation on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing directive 95/46/EC (Data Protection Directive). Legislative acts L119, Official Journal of the European Union.

[HKUN+19]          Eklas Hossain, Imtiaj Khan, Fuad Un-Noor, Sarder Shazali Sikander, and Md. Samiul Haque Sunny. Application of Big Data and Machine Learning in Smart Grid, and Associated Security Concerns: A Review. IEEE Access, 7:13960–13988, 2019.

[JKK+19]               Joohyung Jeon, Junhui Kim, Joongheon Kim, Kwangsoo Kim, Aziz Mohaisen, and Jong-Kook Kim. Privacy-Preserving Deep Learning Computation for Geo-Distributed Medical Big-Data Platforms. In Proceedings of the 2019 49th Annual IEEE/IFIP International Conference on Dependable Systems and Networks – Supplemental Volume, DSN-S’19, pages 3–3, 2019.

[KMT19]              Krishnaram Kenthapadi, Ilya Mironov, and Abhradeep Thakurta. Privacy-preserving Data Mining in Industry. In Companion Proceedings of The 2019 World Wide Web Conference, WWW’19, pages 1308–1310, 2019.

[KQYK19]            Younas Khan, Usman Qamar, Nazish Yousaf, and Aimal Khan. Machine Learning Techniques for Heart Disease Datasets: A Survey. In Proceedings of the 2019 11th International Conference on Machine Learning and Computing, ICMLC’19, pages 27–35, 2019.

[MAFSG18]         Mehdi Mohammadi, Ala Al-Fuqaha, Sameh Sorour, and Mohsen Guizani. Deep Learning for IoT Big Data and Streaming Analytics: A Survey. IEEE Communications Surveys Tutorials, 20(4):2923–2960, 2018.

[MMDH19]         Dennis Marten, Holger Meyer, Daniel Dietrich, and Andreas Heuer. Sparse and Dense Linear Algebra for Machine Learning on Parallel-RDBMS Using SQL. Open Journal of Big Data (OJBD), 5(1):1–34, 2019.

[RG20]  Borzoo Rassouli and Deniz Gündüz. Optimal Utility-Privacy Trade-Off With Total Variation Distance as a Privacy Measure. IEEE Transactions on Information Forensics and Security, 15:594–603, 2020.

[SDM+18]            Christoph Stach, Frank Dürr, Kai Mindermann, Saravana Murthy Palanisamy, and Stefan Wagner. How a Pattern-based Privacy System Contributes to Improve Context Recognition. In Proceedings of the 2018 IEEE International Conference on Pervasive Computing and Communications Workshops, CoMoRea’18, pages 238–243, 2018.

[Wac18]              Sandra Wachter. Normative challenges of identification in the Internet of Things: Privacy, profiling, discrimination, and the GDPR. Computer Law & Security Review, 34(3):436–449, 2018.

[WFSK19]            Nan Wu, Farhad Farokhi, David Smith, and Mohamed Ali Kâafar. The Value of Collaboration in Convex Machine Learning with Differential Privacy. CoRR, abs/1906.09679(1–14):436–449, 2019.

[WHRS19]           Christian Weber, Pascal Hirmer, Peter Reimann, and Holger Schwarz. A New Process Model for the Comprehensive Management of Machine Learning Models. In Proceedings of the 21st International Conference on Enterprise Information Systems, ICEIS’19, pages 415–422, 2019.

Contact Person

Welche Python-Module unterstützen Data Scientisten in ihrem Arbeitsalltag?

Ausgangssituation

"Daten sind das Öl des 21. Jahrhunderts" [Ste18] ist ein häufig gezogener Vergleich, da Daten heutzutage einen immensen Wert besitzen. Genau wie Öl, müssen diese Rohdaten zunächst allerdings raffiniert werden, um gewinnbringend nutzbar zu werden. Die Aufgabe von Data Scientisten besteht daher in der technischen Aufbereitung und Analyse dieser Daten [vdA16]. Zu den Aufgaben eines Data Scientisten[1] zählen insbesondere die Datenakquise, die Datenbereinigung und -transformation, die Datenmodellierung und das Datenmanagement, die Datenverarbeitung sowie die Visualisierung der Daten [Cao17].

Die Programmiersprache Python[2] hat sich dabei in Kombination mit den Jupyter Notebooks[3] als de facto Standard für die Datenexploration herauskristallisiert [KRA+18, MA11]. Daher ist es auch nicht verwunderlich, dass stetig neue Python-Module entwickelt werden, die speziell die häufigsten Aufgaben von Data Scientisten adressieren [BH16]. Module wie Scrapy[4], Beautiful Soup[5] und Selenium[6] unterstützen Data Scientisten bei der Datenakquise, indem sie Daten-Crawler für unterschiedliche semi-strukturierte Datenquellen bereitstellen [ON10]. Für die Datenbereinigung und -transformation von numerischen Daten eignen sich Module wie NumPy[7] und pandas[8]. Aber auch für die Konvertierung von Freitext in strukturierte Daten gibt es mit Spacy[9] ein Modul, das auf Natural Language Processing beruht [Mad07]. Die so erfassten und aufbereiteten Daten lassen sich anschließend mit Modulen wie sqlite3[10], PyMongo[11] und PySpark[12] in unterschiedlichen Datenspeichern verwalten (SQL, NoSQL und Apache Spark). Da aufgrund der großen Datenmenge eine händische Analyse nicht möglich ist, zählen zu den häufigsten Analysetechniken eines Data Scientisten Techniken des maschinellen Lernens [CMA16]. Mit scikit-learn[13], PyTorch[14] und Keras[15] existieren daher auch für diesen Anwendungsfall spezielle Python-Module. Für die Visualisierung der Analyseergebnisse kann Plotly[16] genutzt werden. Speziell für die Visualisierung von statistischen Daten gibt es das Modul seaborn[17]. Da sich interaktive Visualisierungstechniken für Data Scientisten als besonders vorteilhaft erwiesen haben [BE18], gibt es mit Bokeh[18] auch hierfür eine dedizierte Lösung.

Obwohl Data Scientisten somit auf viele hilfreiche Python-Module zurückgreifen können, stehen sie häufig vor dem Problem, das für ihrer jeweilige Aufgabe passendste Modul zu identifizieren.

Ziel und Aufgabenstellung

Im Rahmen dieser Bachelor-Arbeit sollen daher die 15 genannten Python-Module untersucht werden. Dabei soll bewertet werden, welche Stärken und Schwächen die jeweiligen Module haben und für welchen Anwendungsfall sie sich insbesondere eignen. Zu diesem Zweck sollen zu jedem Modul einfache Jupyter Notebooks erstellt werden, die nicht nur die Arbeitsweise des jeweiligen Moduls demonstrieren, sondern auch dessen Besonderheiten offenbaren. Darüber hinaus sollen weitere relevante Python-Module in den Aufgabenbereichen Datenakquise, Datenbereinigung und -transformation, Datenmodellierung und -management, Datenverarbeitung sowie Datenvisualisierung identifiziert und evaluiert werden. Die Evaluationsergebnisse sollen in einer Form zusammengestellt werden, die es Data Scientisten ermöglicht, die für sie geeignetste Module auszuwählen.

Zu bearbeitende Teilaufgaben
  • Bewertung von Scrapy, Beautiful Soup und Selenium für die Datenakquise
  • Bewertung von NumPy, pandas und Spacy für die Datenbereinigung und -transformation
  • Bewertung von sqlite3, PyMongo und PySpark für die Datenmodellierung und das Datenmanagement
  • Bewertung von scikit-learn, PyTorch und Keras für die Datenverarbeitung
  • Bewertung von Plotly, seaborn und Bokeh für die Datenvisualisierung
  • Identifikation und Analyse weiterer relevanter Python-Module in diesen fünf Aufgabenbereichen
  • Evaluation der Ergebnisse
  • Erstellung von Jupyter Notebooks für die jeweiligen Module, die die Evaluationsergebnisse untermauern
  • Vorstellung der Ergebnisse im Rahmen von zwei wissenschaftlichen Vorträgen
Literatur

[BE18] Andrea Batch and Niklas Elmqvist. The Interactive Visualization Gap in Initial Exploratory Data Analysis. IEEE Transactions on Visualization and Computer Graphics, 24(1):278–287, 2018.

[BH16] Marcus D. Bloice and Andreas Holzinger. A Tutorial on Machine Learning and Data Science Tools with Python. In Machine Learning for Health Informatics: State-of-the-Art and Future Challenges, pages 435–480. Springer International Publishing, 2016.

[Cao17] Longbing Cao. Data Science: A Comprehensive Overview. ACM Computing Surveys, 50(3):43:1–43:42, 2017.

[CMA16] Davy Cielen, Arno Meysman, and Mohamed Ali. Introducing Data Science: Big Data, Machine Learning, and More, Using Python Tools. Manning Publications Co., 2016.

[KRA+18] Mary Beth Kery, Marissa Radensky, Mahima Arya, Bonnie E. John, and Brad A. Myers. The Story in the Notebook: Exploratory Data Science Using a Literate Programming Tool. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, CHI’18, pages 174:1–174:11, 2018.

[MA11] K. Jarrod Millman and Michael Aivazis. Python for Scientists and Engineers. Computing in Science & Engineering, 13(2):9–12, 2011.

[Mad07] Nitin Madnani. Getting Started on Natural Language Processing with Python. XRDS: Crossroads, 13(4), 2007.

[ON10] Christopher Olston and Marc Najork. Web Crawling. Foundations and Trends in Information Retrieval, 4(3):175–246, 2010.

[Ste18] Anne Steinbach. Daten sind das Öl des 21. Jahrhunderts. Interview, Springer Professional, April 2018.

[vdA16] Wil van der Aalst. Data Science in Action. In Process Mining: Data Science in Action, pages 3–23. Springer Berlin Heidelberg, 2016.

 

[1] Mit dem Begriff "Data Scientist" seien im Folgenden jeweils alle Geschlechter gleichermaßen adressiert.

[2] siehe https://www.python.org

[3] siehe https://jupyter.org

[4] siehe https://scrapy.org

[5] siehe https://www.crummy.com/software/BeautifulSoup/

[6] siehe https://www.selenium.dev

[7] siehe https://numpy.org

[8] siehe https://pandas.pydata.org

[9] siehe https://spacy.io

[10] siehe https://docs.python.org/3/library/sqlite3.html

[11] siehe https://pymongo.readthedocs.io

[12] siehe https://spark.apache.org/docs/latest/api/python/index.html

[13] siehe https://scikit-learn.org

[14] siehe https://pytorch.org

[15] siehe https://keras.io

[16] siehe https://plotly.com

[17] siehe https://seaborn.pydata.org

[18] siehe https://bokeh.org

Contact Person

To the top of the page