Direkt zu


Informationen für Studierende

zur Startseite

GSaME C2-014 Forschungsprojekt

Qualität von strukturierten und unstrukturierten Daten im Produktlebenszyklus
ProjekttypForschungsprojekt
Gefördert durch DFG
Beginn 2015/04/01
Ende2020/03/31
Leiter Dr. rer. nat. Peter Reimann
Prof. Dr.-Ing. habil. Bernhard Mitschang
Mitarbeiter Kiefer, Cornelia
Ansprechpartner Kiefer, Cornelia
Kurzbeschreibung

Im Produktlebenszyklus fallen strukturierte Daten, zum Beispiel im Enterprise-Resource-Planning, sowie unstrukturierte Daten wie Fehlerberichte und Bilder an. Diese Daten enthalten hochrelevante Informationen, welche unter Verwendung von Datenanalyseprozessen extrahiert werden können. Bei der Extraktion von Informationen aus Daten kommen unterschiedliche Tools innerhalb eines Datenanalyseprozesses zur Anwendung. Diese Tools bieten z.B. Funktionen zur Datenvorbereitung, zur Erkennung von Zusammenhängen zwischen Daten und zur Visualisierung der Daten und der Analyseergebnisse an. Bei der Analyse von unstrukturierten Textdaten werden zusätzlich spezielle Tools zur Verarbeitung von natürlicher Sprache angewandt. Wie in der Abbildung unten gezeigt, wird hierbei etwa zuerst die Sprache innerhalb eines Datensatzes identifiziert (Englisch, Deutsch usw.), und es werden Wortarten annotiert (Nomen, Adjektiv…), um danach Entitäten wie Personennamen, Firmen und Orte zu erkennen. Für jeden Schritt in diesen Analyseprozessen sollte die Qualität der Daten messbar sein und bei Bedarf verbessert werden können. Nur so können durchgängig qualitativ hochwertige Informationen gewährleistet werden. Ob Daten in hoher oder niedriger Qualität vorliegen, hängt sehr stark davon ab, welches Tool die Daten verarbeitet und wie gut Tool und Daten zusammenpassen. Die Qualität einer Spracherkennung kann maßgeblich durch Datencharakteristika wie z.B. die Anzahl der verwendeten Abkürzungen und/oder die Textlänge beeinflusst werden. Die korrekte Erkennung von Entitäten kann hingegen insbesondere durch Texte ohne korrekte Groß-, und Kleinschreibung sowie falsch gewählte Trainingsdaten behindert werden. In diesem Promotionsprojekt werden ein Konzept und schnell ausführbare Methoden entwickelt, die es ermöglichen, Datenqualität für verschiedene Tools spezifisch messen und verbessern zu können. Insbesondere zur Messung und Verbesserung der Qualität von Textdaten sind bisher nur sehr wenige Forschungsansätze vorhanden, weshalb dieser Datentyp fokussiert wird.

Dieses Projekt wird von der Deutschen Forschungsgemeinschaft (DFG) im Rahmen der Graduate School of Excellence advanced Manufacturing Engineering (GSaME) gefördert.