Direkt zu


Informationen für Studierende

zur Startseite

Bachelorarbeit

Evaluation von Zwischenergebnissen in Entscheidungsbäumen
Projekt Interactive Rapid Analytic Concepts
Betreuer M.Sc. Manuel Fritz
Prüfer PD Dr. rer. nat. habil. Holger Schwarz
Ende07.05.2019
Beschreibung

Ausgangssituation / Motivation

Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Durch technologische Entwicklungen, wie z.~B. IoT oder Industrie 4.0, ist ein steigendes Wachstum an Datenmengen zu beobachten. Um aus den gespeicherten Daten Wissen zu generieren, existieren diverse Analysealgorithmen. Diese Algorithmen lassen sich in die Kategorien überwachte und unüberwachte Verfahren einordnen und entstammen aus dem Bereich des maschinellen Lernens. Ein häufig verwendeter Analysealgorithmus für überwachte Verfahren sind Entscheidungsbäume [1]. Die Bäume werden ausgehend von Trainingsdaten erstellt und anschließend mit Testdaten evaluiert, wobei diese Datensätze grundsätzlich nicht identisch sind, um die Allgemeingültigkeit des erlernten Modells für ähnliche Datensätze zu überprüfen. Dabei ist es jedoch häufig möglich, dass ein solcher Entscheidungsbaum tief oder ggf. auch breit werden kann, was einerseits die Interpretation durch einen Analysten erschwert und andererseits auch zu langlaufenden Analyseschritten führt. Folglich werden häufig die erstellten Bäume gekürzt, um den Fokus auf die wichtigsten Entscheidungen entlang der Verzweigungen zu legen. Da allerdings bereits die Erstellung eines Entscheidungsbaumes ggf. ein langlaufender Prozess ist, werden nun Möglichkeiten zur feingranularen Interaktion schon während der Trainingsphase gesucht.

Ziele

Im Rahmen dieser Arbeit soll untersucht werden, inwiefern Entscheidungsbäume bereits während der Trainingsphase gekürzt werden können [2]. Zudem sollen Möglichkeiten aufgezeigt werden, die es dem Analysten erlauben interaktiv mit den Zwischenergebnissen zu interagieren. Für die Kürzung eines Entscheidungsbaumes während der Trainingsphase können etwa drei mögliche Ansätze verfolgt werden: (1) Vorgabe einer maximalen Tiefe des Baumes, (2) Berücksichtigung eines Klassifikationsfehlers und (3) Berücksichtigung einer minimalen Anzahl von Trainingsinstanzen, die für eine weitere Aufteilung berücksichtigt wird. Mögliche Interaktionen sollen es dem Analysten erlauben den Detailgrad der Ergebnisse flexibel anzupassen, indem beispielsweise die Anzahl an Trainingsinstanzen pro Knoten verändert werden kann.

Im ersten Schritt soll zunächst untersucht werden, welche weiteren Ansätze zur Kürzung des Entscheidungsbaumes während der Ausführungszeit denkbar sind und ob ggf. auch Kombinationen aus mehreren Ansätzen möglich sind. Anschließend soll ein grundlegendes Konzept erarbeitet werden, das erlaubt die oben genannten Ansätze in den allgemeinen Ablauf eines Entscheidungsbaumalgorithmus einzubauen. Dabei ist zu beachten, dass diese Algorithmen meist einen ähnlichen Ablauf aufweisen, welcher somit für dieses Konzept entsprechend ausgenutzt werden kann. Anschließend sollen diese Ansätze sowie Interaktionsmöglichkeiten prototypisch für ausgewählte Entscheidungsbaumalgorithmen umgesetzt werden. Eine abschließende Evaluation mit diversen Datensätzen soll daraufhin Aufschluss über die Performanz bzgl. Zeit- und Qualitätsunterschiede im Vergleich zur unveränderten Ausführung des Algorithmus geben.

Die Arbeit umfasst dazu folgende Aufgaben:

  • Literaturstudium
  • Identifizierung von Ansätzen zur Reduktion der Baumtiefe und ggf. -breite
  • Identifizierung von geeigneten Interaktionsmöglichkeiten
  • Entwicklung eines Konzepts für den generellen Ablaufes eines Entscheidungsbaums
  • Prototypische Implementierung und Evaluation

Literatur

[1] X. Wu, V. Kumar, Q. J. Ross, J. Ghosh, Q. Yang, H. Motoda, G. J. McLachlan, A. Ng, B. Liu, P. S. Yu, Z. H. Zhou, M. Steinbach, D. J. Hand, and D. Steinberg, “Top 10 algorithms in data mining,” Knowledge and Information Systems, vol. 14, no. 1, pp. 1–37, 2008.

[2] J. K. Martin, “An exact probability metric for decision tree splitting and stopping,” Machine Learning, vol. 28, no. 2-3, pp. 257–291, 1997.