Direkt zu


Informationen für Studierende

zur Startseite

Prozessanalyse

Visualisierung der Auswirkungen von Privacy-Techniken auf Machine-Learning-Ergebnisse
Betreuer Dr. rer. nat. Christoph Stach
M.Sc. Corinna Giebler
Prüfer PD Dr. rer. nat. habil. Holger Schwarz
Ende17.12.2019
Beschreibung

Ausgangssituation

Durch die zunehmende Digitalisierung steigt die Anzahl der erfassten Daten in verschiedenen Kontexten. Bei einem Großteil dieser Daten handelt es sich um sogenannte Zeitreihendaten, also Daten, die in einem zeitlichen Zusammenhang erfasst und betrachtet werden können. Die Analyse dieser Daten, insbesondere mithilfe von Data Mining und Machine Learning, kann zu einem tieferen Verständnis von Prozessen oder Ursachen beitragen. Hierzu werden auf vorhandenen Daten Modelle erlernt, die für menschliche Nutzer nur schwer oder gar nicht verständlich sind [1]. Die Interpretation von Modellen und Analyseergebnissen durch einen menschlichen Nutzer ist allerdings von großer Wichtigkeit [2]. Die Ergebnisse dieser Analysen sollen darum Nutzern auf geeignete Art und Weise dargestellt werden, sodass auch Nutzer ohne tiefes Verständnis für die dahinterliegenden Algorithmen Rückschlüsse aus den Daten ziehen können. Beispielsweise kann so dargestellt werden, warum ein System eine bestimmte Entscheidung getroffen hat [1, 3].

Besonders bei der Verarbeitung personenbezogener Daten spielt diese Nachvollziehbarkeit eine große Rolle. Für diese Daten fordert die DSGVO [4], dass ihre Verarbeitung und die daraus resultierenden Ergebnisse für Menschen verständlich dargestellt werden können. Zudem fordert die DSGVO Datensparsamkeit, das bedeutet, dass nur solche Daten verarbeitet werden, die für den Zweck erheblich und relevant sind. Um Daten darum DSGVO-konform verarbeiten zu können, benötigen Analysten die Möglichkeit abzuwägen, inwiefern das Hinzunehmen oder Auslassen von Ausgangsdaten die Qualität der Machine Learning Modelle beeinflusst.

Ziel und Aufgabenstellung

Im Rahmen dieser angeleiteten Forschung soll daher untersucht werden, wie die Auswirkung von unterschiedlichen Privacy-Techniken auf die Datenqualität (und somit die Qualität der daraus erlernten Modelle) für den Nutzer visualisiert werden kann. Zu diesem Zweck soll zunächst analysiert werden, wie Unterschiede in Datenbeständen hervorgehoben werden können (z.B. für mehrere Versionen eines Datensatzes auf denen unterschiedliche Privacy-Techniken angewendet wurden). Anschließend soll untersucht werden, welche Visualisierungsmöglichkeiten Machine-Learning-Bibliotheken (z.B. loudML) sowohl für die Analyseergebnisse als auch für die verwendeten Modelle bieten. Durch die Kombination dieser beiden Untersuchungen sollen Möglichkeiten aufgezeigt werden, wie die Auswirkungen von Änderungen an den Trainingsdaten (z.B. durch Anwendung von Privacy-Techniken) auf die erlernten Modelle und somit die erfahrene Qualität der Machine-Learning-Analysen dem Nutzer aufgezeigt werden kann. Abschließend sollen diese Erkenntnisse in einer prototypischen Implementierung münden.

Zu bearbeitende Teilaufgaben

  • Betrachtung von Visualisierungsmöglichkeiten von Zeitreihendatenbeständen
  • Betrachtung von Visualisierungsmöglichkeiten von ML-Ergebnissen
  • Betrachtung von Visualisierungsmöglichkeiten von unterschiedlichen Miningmodellen
  • Prototypische Implementierung eines Visualisierungsdashboards
  • Zusammenfassung der Ergebnisse in einem wissenschaftlichen Paper
  • Vorstellung der Ergebnisse im Rahmen eines hochschulöffentlichen Vortrags

Organisatorisches

Art der Arbeit

Prozessanalyse (angeleitete Forschung)

Titel

Visualisierung der Auswirkungen von Privacy-Techniken auf Machine-Learning-Ergebnisse

Englischer Titel

Visualizing the Impact of Privacy Techniques on Machine Learning Results

Betreuer

Dr. rer. nat. Christoph Stach

Corinna Giebler M.Sc.

Prüfer

PD Dr. habil. Holger Schwarz

 

Literatur

1.           Samek, W., Binder, A., Montavon, G., Lapuschkin, S., Muller, K.-R.: Evaluating the Visualization of What a Deep Neural Network Has Learned. IEEE Trans. Neural Networks Learn. Syst. 28 (11), 2660–2673 (2017).

2.           Vallido, A., Martín-Guerrero, J.D., Lisboa, P.J.G.: Making machine learning models interpretable. In: Proceedings of the European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN 2012) (2012).

3.           Mizoguchi, F.: Anomaly detection using visualization and machine learning. In: Proceedings IEEE 9th International Workshops on Enabling Technologies: Infrastructure for Collaborative Enterprises (WET ICE 2000). IEEE Comput. Soc.

4.           European Parliament: EU Regulation 2016/679 (General Data Protection Regulation). (2016).