Direkt zu


Informationen für Studierende

zur Startseite

Bachelorarbeit

Feature-getriebene Darstellung von Clustering-Resultaten
Betreuer Dipl.-Inf. Michael Behringer
M.Sc. Manuel Fritz
Prüfer
Ende02.04.2019
Beschreibung

Ausgangssituation/Motivation

Daten sind heutzutage die Grundlage vieler Prozesse in Industrie und Forschung. Da diese jedoch ohne Auswertung und Verknüpfung wertlos sind, existieren verschiedenste Algorithmen und Analysemethoden. Diese Verfahren sind meistens eine undurchsichtige Black-Box, da zwischen Eingabe von Parametern und Ausgabe des Resultats keine Steuerungsmöglichkeiten bestehen. Häufig ist hierbei unklar, weshalb und unter welchen Voraussetzungen ein bestimmtes Ergebnis zustande kommt [1]. Ein Analyst muss dieses Ergebnis unter Berücksichtigung seines Domänenwissens beurteilen und Rückschlüsse ziehen. Insbesondere bei Clustering-Verfahren (etwa k-Means) ist dieses Resultat darüber hinaus stark von den initial gewählten Parametern abhängig. Ziel eines Clustering-Verfahrens ist es ähnliche Elemente zu einem Cluster zusammenzufassen, sowie unterschiedliche Elemente möglichst zu separieren. Dabei gestaltet sich die Kommunikation der Ergebnisse häufig schwierig.

Ziele

Für zweidimensionale (und mit Abstrichen dreidimensionale) Datensätze ist eine Visualisierung der Ergebnisse möglich und leicht verständlich. Für höher dimensionale Datensätze kommen typischerweise Dimensionsreduktionsverfahren, etwa PCA [2] oder t-SNE [3], zum Einsatz. Hierbei ist jedoch die Übersichtlichkeit/Verständlichkeit des Clustering-Ergebnisses nur selten gegeben. Aus diesem Grund werden für diese Datensätze andere, leichter verständliche Darstellungen benötigt. Mögliche Ansätze hierfür sind textuelle Repräsentationen der Cluster-Eigenschaften. Durch eine solche Darstellung kann der Anwender die notwendigen Parameter des Algorithmus gegebenenfalls iterativ anpassen und somit die Analyse zielgerichtet verfeinern. Existierende Tools, etwa IBM Clustering Visualizer1 bieten lediglich eine grobgranulare Beschreibung der Cluster an. In dieser Arbeit soll ein mehrstufiges Verfahren entwickelt werden, um einem Anwender ein Verständnis für die Daten innerhalb eines Clusters bzw. die Unterschiede zwischen verschiedenen Clustern zu vermitteln. Dies umfasst etwa (1) die Identifikation geeigneter Metriken zur Bestimmung der Signifikanz von Features und Wertebereichen eines Clusters, (2) die Reihung der wichtigsten Features pro Cluster und über alle Cluster hinweg sowie (3) die geeignete Präsentation der signifikanten Features/Wertebereiche gegenüber dem Anwender. Eine prototypische Implementierung soll die Umsetzbarkeit der entwickelten Konzepte beispielhaft skizzieren.

Die Arbeit umfasst dazu folgende Aufgaben:

◇ Literaturrechereche zu geeigneten Metriken für die Identifikation der relevantesten Features

◇ Literaturrechereche zu Konzepten für die Präsentation multidimensionaler Clustering-Ergebnisse

◇ Entwicklung und prototypische Implementierung geeigneter Konzepte

◇ Evaluation der Ergebnisse

◇ Präsentation der Zwischenergebnisse in einem Vortrag

◇ Präsentation der Ergebnisse in einem Vortrag

Literatur

[1] A. K. Jain and R. C. Dubes, “Algorithms for Clustering Data,” p. 320, 1988.

[2] S. Wold, K. Esbensen, and P. Geladi, “Principal component analysis” Chemometrics and intelligent laboratory systems, vol. 2, no. 1-3, pp. 37–52, 1987.

[3] L. v. d. Maaten and G. Hinton, “Visualizing data using t-sne,” Journal of machine learning research, vol. 9, no. Nov, pp. 2579–2605, 2008.