Bild von Institut mit Unilogo
home uni uni suche suche sitemap sitemap kontakt kontakt
unilogo Universität Stuttgart

Anwendersoftware: Studentische Arbeiten

Diplomarbeit

Sitemap Suchen in IPVS Druckansicht

Entwicklung einer UIMA-basierten Softwarekomponente zur Identifizierung von Personennennungen in natürlichsprachigen Texten   DIP-2513
Projekt nova-net
Bearbeiter Florian Laws
Betreuer Kaiser, Fabian
Prüfer Prof. Dr.-Ing. habil. Bernhard Mitschang
Beginn 20.06.2006
Ende 20.12.2006
Beschreibung

Hintergrund

Das IBM Unstructured Information Management Architecture SDK (UIMA SDK) bietet Entwicklern von Textanalyse-Software die Möglichkeit, eigene Analyse-Komponenten in ein definiertes Framework einzubinden und zusammen mit bereits vorhandenen weiteren Komponenten zu nutzen. Beispiele für solche Analysen sind die Erkennung einzelner Entitäten wie Orten, Personen oder Datumsangaben aber auch die Zusammenhänge zwischen diesen.

Aufgabe

Zur Identifizierung von Personen mit besonderem Bezug zu bestimmten Themenfeldern ist eine Anwendung auf Basis von UIMA zur Erkennung von Personennennungen in natürlichsprachlichen Texten zu entwickeln. Dazu ist eine Analyse möglicher statistischer und/oder regelbasierter Verfahren zur Named Entity Recognition (NER) durchzuführen und das Ergebnis dieser Analyse als UIMA-Komponente zu implementieren. Die identifizierten Personennennungen und deren Dokumentenkontext sind über einen geeigneten Index zugreifbar zu machen.