Navigation und Service

culturegraph.org (Link zur Startseite)

Resolving- und Lookup-Dienst

Eckdaten


Titel: Resolving- und Lookup-Dienst für bibliothekarische Identifier in culturegraph.org
Laufzeit: 16.01.2011 – 15.03.2012
Projektpartner: Deutsche Nationalbibliothek (DNB) und Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen (hbz)
Auftraggeber: Arbeitsgruppe Kooperative Verbundanwendungen (AG KVA)

Hintergrund

Die Existenz vieler verschiedener bibliographischer Datenbanken von Verlagen, Bibliotheken und Bibliotheksverbünden führt dazu, dass für jede bibliographische Ressource eine Vielzahl von Beschreibungen und Identifikatoren existieren. Diese Vielfalt birgt eine Menge Probleme, deren Lösung im Rahmen der Migration bibliographischer Daten in das Semantic Web angegangen werden kann.
Betrachtet man diese Problematik nun im Hinblick auf aktuelle Linked-Data-Angebote, stellt sich der Sachverhalt folgendermaßen dar:
Die Publikation von Linked Data (LD) ist von Grund auf dezentral organisiert. Dies führt - nicht nur im Zusammenhang bibliographischer Daten - zu einer stetigen Vermehrung von Identifikatoren und Beschreibungen für ein und dieselbe Ressource. Dieser Problematik soll durch die Entwicklung eines kooperativen Identifikationssystems begegnet werden. Die Nutzung gemeinsamer globaler Identifikatoren bietet optimale Voraussetzungen für die Verknüpfung webbasierter Informationsquellen von Gedächtnisinstitutionen. Die gegenseitige Vernetzung und die Vernetzung mit Dritten (internationale Kultur- und Wissenschaftseinrichtungen, Social-Web-Plattformen, Verlage, etc.) garantiert letztlich eine stärkere Sichtbarkeit von Gedächtnisinstitutionen und ihren Beständen im World Wide Web.
Die Arbeitsgemeinschaft der Verbundsysteme (AG KVA) hat den Projektpartnern DNB und Hochschulbibliothekszentrums des Landes Nordrhein-Westfalen (hbz) den Auftrag erteilt, eine Lösung für die Integration bibliographischer Daten aus verschiedenen Quellen zu entwickeln, insbesondere im Hinblick auf die zunehmende dezentrale Publikation von Linked Data durch verschiedene Institutionen.

Ziele des Projekte

Aufbau einer zentralen Infrastruktur für Vernetzungsberechnungen (Clustering von ähnlichen Ressourcenbeschreibungen) mit dem Ziel:

  • der Identifikation von äquivalenten Datensätzen (Manifestationen) durch eine gemeinsame verbundübergreifende URI,
  • der Entwicklung von verschiedenen, exemplarischen Matching-Algorithmen und
  • der Bereitstellung eines Webdienstes auf der Plattform culturegraph.org.

Identifikation von äquivalenten Datensätzen

Alle Titelsätze der AGV werden mittels Matchingalgorithmen auf einer zentralen Infrastruktur (Datalab & Hub) prozessiert und die Prozessierungsergebnisse zu Verfügung gestellt. Die Distribution geschieht auf zwei Ebenen: Die CG-URI und die zugehörigen CG-Cluster werden als Linked Open Data unter einer offenen Lizenz für die allgemeine Öffentlichkeit publiziert. Der Zugriff auf die Original-Daten und spezielle Analyseergebnisse ist nur für die Verbundpartner vorgesehen.

Entwicklung von verschiedenen, exemplarischen Matching-Algorithmen

Dem zentralen Ansatz liegen die Thesen zugrunde, dass Matchingalgorithmen in Abhängigkeit vom vorhandenen Datenbestand stetig fortentwickelt werden müssen und, dass die Daten der Partner sich im Detail in wichtigen identifizierenden Eigenschaften unterscheiden. Die Heterogenität der Daten und geeignete Matchingeigenschaften / Regeln, lassen sich anhand eines zentralen Datenpools effizienter ermitteln und neue Verfahren können direkt ausprobiert werden. Damit das Datenlabor ein solch exploratives Vorgehen unterstützt, muss die zentrale Infrastruktur in der Lage sein, den Gesamtbestand innerhalb weniger Minuten/Stunden zu verarbeiten

Bereitstellung eines Webdienstes

Bereitstellung eines Webdienstes auf der Plattform culturegraph.org bestehend aus einem Lookup-Dienst: Suchmöglichkeit über verschiedene identifizierende Eigenschaften (bibliographische Identifier) in den berechneten Titelgruppen (Bündel) und einem
Resolving-Dienst: Auflistung aller vorhandenen Datensätze zu einer Manifestation bei Eingabe der CG-URI unter Ausweis der identifizierenden Merkmale und des zugrundeliegenden Matchingverfahrens.

Demonstrator

Hier befindet sich die aktuelle Version des Services. Neben der Möglichkeit sich erste Bündelungen anzuschauen, finden sich hier auch Statistiken über die Menge der prozessierten Daten und ein Überblick über angewandte Matching-Algorithmen.

Projektmitarbeiter

Adrian Pohl (hbz),
Daniel Schäfer (DNB),
Jürgen Kett (DNB),
Katja Mecklinger (DNB),
Lars Svensson (DNB),
Markus Geipel (DNB),
Pascal Christoph (hbz)

Letzte Änderung: 14.03.2017

Diese Seite