Navigation und Service

culturegraph.org (Link zur Startseite)

Architektur

Stand der technischen Entwicklung

Für culturegraph.org wurde eine neue Infrastruktur (Datalab & Datahub) aufgebaut, um den Import und die Analysen auf großen Datenbeständen effizient durchführen zu können und deren Ergebnisse zu präsentieren. Diese basiert auf den Technologien Apache Hadoop, HBase und Lucene.

Versteht man culturegraph.org als ein operatives System welches in der Lage ist die gesamten deutschen bibliographischen Daten mühelos zu verarbeitet, dann sind hohe technische Anforderungen zu erfüllen. Die deutschen Verbunddaten überschreiten nach unseren Schätzungen die Marke von 100 Millionen Datensätzen. Die wichtigste Maßgabe ist daher Skalierbarkeit. Ein weiterer wichtiger Aspekt ist die Verlässlichkeit der Datenbereitstellung für den Nutzer.
Unsere Architektur sieht daher eine Zweiteilung vor: Ein Portal zur Präsentation der Ergebnisse steht einem Hadoop-Cluster gegenüber, welches als Datenlabor die eigentliche Verarbeitung übernimmt.

Überblick über die culturegraph-Architektur

Datahub

Das Datahubs bietet die Schnittstelle zu Benutzern und nützt ein Tomcat Cluster als Server Infrastruktur. Die Daten liegen in Form eines Lucene-Indexes in einem NFS-Storage vor. Die Bereitstellung dieser Schnittstellen zur Einbindung in Erschließungs- und Datentausch-Prozesse muss noch im Rahmen von Folgeaktivitäten diskutiert werden.

Datalab

Abgeschirmt hinter dem Portal liegt das Herzstück des Systems: das Datenlabor. Um eine hochperformante und skalierbare Datenverarbeitung zu gewährleisten werden hier neueste Technologien wie Hadoop und HBase eingesetzt. Hadoop ermöglicht es, intensive Rechenprozesse mit großen Datenmengen auf eine beliebige Anzahl von Rechnern nach dem Map-Reduce Paradigma zu verteilen. Als Datenbanklösung wird HBase eingesetzt. HBase basiert auf Hadoop und unterliegt nicht den Skalierungsgrenzen herkömmlicher Relationaler Datenbanken. Die Infrastruktur des Datenlabors orientiert sich damit an der Infrastruktur mit der auch datenintensive Unternehmen wie Yahoo!, Google und Facebook operieren.

Letzte Änderung: 24.09.2012

Diese Seite