GSaME C2-014

Bewertung und Verbesserung der Datenqualität in Textanalyse-Pipelines

Projektbeschreibung

Voraussetzung für Zukunftskonzepte wie die datengetriebene Fabrik sind qualitativ hochwertige Daten und Datenanalyseergebnisse. Die Güte von Geschäftsentscheidungen wird direkt durch die Qualität der Daten und Analyseergebnisse beeinflusst. Aktuelle Datenqualitätskonzepte und –werkzeuge betrachten lediglich die rohen Eingabedaten zu Datenanalyse-Pipelines. Sie versäumen es, die Daten und die Spezifika von Analysetools für jeden Schritt in Analysepipelines zu betrachten. Um diese Forschungslücke zu adressieren, wird in dieser Arbeit das QUALM-Konzept für kontinuierliche und holistische Datenqualitätsmessung und  -verbesserung innerhalb von Datenanalyse-Pipelines vorgeschlagen.

Existierende Metriken messen die Datenqualität von strukturierten Daten, indem z. B. Nullwerte, Duplikate oder ungültige Werte gezählt werden. Äquivalente Ansätze für Textdaten fehlen. Hinzu kommt, dass die meisten domänenspezifischen Textdatensätze nicht gelabelt sind. Somit sind zusätzlich zu fehlenden Datenqualitätsmetriken keine Evaluationsmetriken für diese Datensätze und die abgeleiteten Analyseergebnisse berechenbar. Dies führt zu einer großen Unsicherheit der Analysten in Bezug auf die Qualität der Daten und Analyseergebnisse. Das in dieser Arbeit entwickelte Konzept QUALM schließt diese Lücke und bietet eine Liste konkreter Textdatenqualitätsmethoden. QUALM-Datenqualitätsindikatoren quantifizieren Textcharakteristika und geben Hinweise auf die zu erwartende Qualität von Analyseergebnissen. Hierbei charakterisieren die QUALM-Indikatoren Texte in Bezug auf beispielsweise die Anzahl an Abkürzungen, Rechtschreibfehlern und wie gut die semantischen Ressourcen passen, die von Analysetools genutzt werden.

Weiterhin ist die Auswahl geeigneter Trainingsdaten besonders schwierig für Analysten wie etwa Domänenexperten mit wenig Wissen in den Bereichen IT und/oder ’Data Science’. Die Auswahl geeigneter Trainingsdaten hat jedoch einen großen Einfluss auf die Qualität von Analyseergebnissen. Der entsprechende QUALM-Indikator misst Datenqualität mittels der Ähnlichkeit zwischen Eingabe- und Trainingsdaten. Der entsprechende QUALM-Modifikator wählt automatisch die am besten passenden Trainingsdaten aus und verhindert so qualitativ schlechte Ergebnisse von domänenspezifischen Datenanalysen. Zum Schluss gibt es in QUALM einen hybriden Ansatz, der sowohl strukturierte als auch unstrukturierte Informationsquellen bei der Informationsextraktion nutzt. Hierzu werden strukturierte Daten für eine erste Gruppierung der Freitexte genutzt und bereits in den strukturierten Daten enthaltene Informationen aus den Freitextfeldern gelöscht. Der hybride Ansatz führt zu mehr neuen und relevanten Informationen.

Das QUALM-Konzept und die QUALM-Methoden werden im Hinblick auf industrienahe Anwendungsszenarien wie die Analyse von Stillständen auf einer Produktionslinie evaluiert. In weiteren Anwendungsszenarien werden ’Citizen Data Scientist’ in den Fokus gerückt, das heißt Domänenexperten mit wenig Wissen in den Bereichen IT und ’Data Science’, die zügig Analysepipelines aufbauen möchten.

Förderung

Dieses Projekt wurde von der Deutschen Forschungsgemeinschaft (DFG) und dem Landesministerium für Wissenschaft, Forschungund Kunst Baden-Württemberg im Rahmen der Graduate School of Excellence advanced Manufacturing Engineering (GSaME) gefördert.

Dieses Bild zeigt Cornelia Kiefer

Cornelia Kiefer

Dr.-Ing.

Wissenschaftliche Angestellte

Dieses Bild zeigt Peter Reimann

Peter Reimann

Dr. rer. nat.

Wissenschaftlicher Angestellter

Dieses Bild zeigt Bernhard Mitschang

Bernhard Mitschang

Prof. Dr.-Ing. habil.

Institutsleiter

Zum Seitenanfang