Direkt zu


Informationen für Studierende

zur Startseite

Masterarbeit

LAKE – Eine flexible Datenstrom-Analyse-Architektur
Projekt Privacy in Stream Processing
Betreuer Dr. rer. nat. Christoph Stach
Prüfer Prof. Dr.-Ing. habil. Bernhard Mitschang
Ende24.10.2017
Beschreibung

Ausgangssituation

Durch die stetige Zunahme an Smart Devices, d.h. elektronische Geräte, die kabellos, mobil, vernetzt und mit verschiedenen Sensoren ausgerüstet sind, wächst auch die die Menge an Daten, die jeder Mensch täglich produziert. Da diese Daten für Unternehmen hochgradig interessant sind, um ihre Produkte und Services besser auf die Kunden abstimmen zu können, werden neuartige Stream-Analyse-Architekturen benötigt, die mit der Flut an Daten zurande kommen. Hierbei ist es wichtig, dass die Architekturen unterschiedliche Verarbeitungsmodi unterstützen. So sind manche der Daten beispielsweise nur für eine sehr kurze Zeit relevant (z.B. der aktuelle Aufenthaltsort eines Nutzers) und müssen daher in Echtzeit verarbeitet werden, während andere Daten beispielsweise zur Historisierung dauerhaft gespeichert und zu einem späteren Zeitpunkt ausgewertet werden müssen. Während Complex-Event-Processing-Systeme (CEP-Systeme), wie Aurora [1], Datenströme in Echtzeit analysieren können, sind Datenbank Management Systeme mit Continuous Queries [4] darauf ausgelegt, Anfragen auf sehr großen Datenbeständen auszuführen. Keines der beiden Systeme erfüllt für sich genommen allerdings beide Anforderungen.

Nathan Marz stellt daher mit der Lambda Architektur eine Kombination aus beiden Systemen vor [3]. Eingehende Daten werden in Echtzeit von einem CEP-System verarbeitet und parallel dazu in einer Datenbank für spätere Analysen gespeichert. Beide Systeme sind dabei völlig unabhängig voneinander und es findet kein Austausch von Daten oder Verarbeitungslogik statt. Insbesondere bedeutet dies, dass die Analysen redundant für beide Verarbeitungsmodi spezifiziert werden müssen. Um diesem Problem entgegenzuwirken, stellt Jay Kreps die Kappa Architektur vor [2]. In der Kappa Architektur steht zur Speicherung von Daten eine Datenbank zur Verfügung. Die Verarbeitung der Daten erfolgt allerdings ausschließlich durch ein CEP-System, das von dieser Datenbank gespeist wird. Wolfram Wingerath et al. untersuchen Datenstrom-Analyse-Systeme, die auf diesen beiden aufbauen [5]. In jedem der Systeme findet dabei entweder eine strikte Trennung der beiden Verarbeitungsmodi statt (Lambda) oder es besteht keine Möglichkeit, die Vorzüge einer Datenbank, z.B. Joins, zu nutzen (Kappa).

Ziel und Aufgabenstellung

Im Rahmen dieser Master-Arbeit soll daher eine Lambda-Kappa-Architektur (LAKE) entworfen werden, die die beiden Grundarchitekturen miteinander kombiniert. Insbesondere soll LAKE die Daten aus der Datenbank wahlweise von einem CEP-System (Replay-Strategie) oder direkt durch das Datenbanksystem (In-Place-Strategie) verarbeiten können. Für beide Verarbeitungsmodi müssen geeignete Anwendungsfälle in einem realistischen Anwendungsbereich (z.B. Industrie 4.0 oder eHealth) erarbeitet werden. Anschließend soll LAKE prototypisch, basierend auf einem bestehenden Datenstrom-Analyse-System, umgesetzt und anhand der Anwendungsfälle evaluiert werden.

Zu bearbeitende Teilaufgaben

  • Analyse der Lambda- und Kappa-Architektur
  • Analyse bestehender Datenstrom-Analyse-Systeme
    • Erarbeitung von geeigneten Anwendungsfällen für beide Verarbeitungsmodi
    • Erstellung einer Architektur von LAKE
  • Implementierung eines Prototyps von LAKE
  • Evaluation von LAKE anhand der Anwendungsfälle
  • Vorstellung der Ergebnisse im Rahmen eines wissenschaftlichen Vortrags

Literatur

[1]          Abadi, D. J., Carney, D., Çetintemel, U., Cherniack, M., Convey, C., Lee, S., Stonebraker, M., Tatbul, N., and Zdonik, S. Aurora: A New Model and Architecture for Data Stream Management. The VLDB Journal – The International Journal on Very Large Data Bases 12, 2 (2003), 120–139.

[2]          Kreps, J. Questioning the Lambda Architecture. https://www.oreilly.com/ideas/questioning-the-lambda-architecture, Juli 2014.

[3]          Marz, N. How to beat the CAP theorem. http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html, Oktober 2011.

[4]          Terry, D., Goldberg, D., Nichols, D., and Oki, B. Continuous Queries over Append-only Databases. ACM SIGMOD Record 21, 2 (1992), 321–330.

[5]          Wingerath, W., Gessert, F., Friedrich, S., and Ritter, N. Real-time stream processing for Big Data. it - Information Technology 58, 4 (2016), 186–194.