zur Startseite

Bachelorarbeit

Nutzbarkeit von Data Profiling Metadaten in transparenten Entscheidungsunterstützungssystemen
Projekt Fair and Accountable Decision Support
Betreuer M.Sc. Sarah Oppold
Prüfer Prof. Dr. rer. nat. Melanie Herschel
Beschreibung

Motivation

Machine Learning Modelle werden häufig zur Entscheidungsunterstützung eingesetzt. Im Idealfall sollten die Entscheidungen unparteiisch, unvoreingenommen und fair sein. Allerdings sind Machine Learning Modelle bei weitem nicht perfekt, z.B. aufgrund von Verzerrungen durch unvollkommene Trainingsdaten oder falsche Featureauswahl. Obwohl Anstrengungen unternommen werden und weiterhin in die Entwicklung besserer Modelle investiert werden sollte, erkennen wir auch an, dass wir uns bei vielen Anwendungen weiterhin auf unvollkommene Modelle verlassen werden müssen. Aber was wäre, wenn wir uns nachweislich auf das "beste" Modell für eine Person oder eine Gruppe von Personen verlassen und die damit verbundenen Risiken und Schwächen transparent kommunizieren könnten?

Ziele

Im Hinblick auf diese Frage soll im Rahmen dieser Bachelorarbeit untersucht werden, wie Metadaten, die durch Data Profiling Methoden erzeugt wurden, für transparente Entscheidungsunterstützungssysteme von Nutzen sein können. Unter Data Profiling versteht man eine Menge von Methoden, die zur Analyse von Datensätzen verwendet werden und dabei Metadaten erzeugen [1]. Bei der Entwicklung von Entscheidungsunterstützungssystemen werden diese Methoden üblicherweise eingesetzt, um Trainingsdaten für verwendete Machine Learning Modelle zu analyiseren und auszuwählen. In dieser Arbeit sollen zunächst Konzepte erarbeitet werden, wie die entstehenden Metadaten automatisiert weiterverabeitet und genutzt werden können. Anschließend sollen die erstellten Konzepte implementiert und im Rahmen eines Szenarios evaluiert werden.

Literatur

[1] Z. Abedjan, L. Golab, and F. Naumann, “Profiling relational data: a survey,” The VLDB Journal, vol. 24, no. 4, pp. 557–581, 2015.