My BAIN Blog [Bibliotheks- und Archivinformatik]

Ein Lerntagebuch für den Kurs Bibliotheks- und Archivinformatik HS2020, übernommen von Dozent Lohmeier

Follow me on GitHub

Die globale Pandemie und die Auswirkung auf den Unterricht

Die Situation ist jetzt besorgniserregender geworden. Der Unterricht erfolgt weiterhin immer noch komplett online. Also alles wie gehabt diesbezüglich mit dem Unterricht.

Was im Unterricht stattfindet

Es gibt eine kleine Änderung im Plan. Anders als in Lektion 1 angekündigt, werden wir metha aussen vor lassen, und benutzen stattdessen ein anderes OAI-PMH Harvester wie den VuFindHarvester (siehe untere Abbildung).
Neues Chart

Abbildung 1: Neues angepasstes Diagramm

Damit habe ich auch gleich die Gelegenheit, Flowcharts zu modellieren mit diesem Flowchart-Editor, den uns unser Dozent vorgestellt hat.

Gemäss unseren Dozenten ist der Umgang mit metha eher “hakelig”. VuFindHarvest ist hingegen zielführender, weswegen wir auf dieses ausweichen werden. Wir werden die Metadaten in DublinCore umwandeln. Nicht, weil dieses ein gutes Format darstellt (es ist sehr sehr minimalistisch), aber es ist weit verbreitet. Und Ziel der Übung wird es dann sein, die Datensätze in diesen drei Formaten durchexierziert zu haben und es in ein einheitliches Format namens Marc21-XML umzuwandeln, damit die umgewandelten Daten dann wiederum für SolR verwendet werden können (und man dann am Schluss mit VuFind diese sucht und nutzt).

Nebenbei haben unsere Dozenten uns dann beigebracht, dass man oben links beim Plus-Zeichen ein neues Fenster aufmachen kann. Das ist jetzt wirklich sehr praktisch, weil man nicht mehr durch das ArchivesSpace gestört wird. Ausserdem kann man in dieser Instanz von Ubuntu innerhalb eines Ordners mit Rechtsklick den Terminal aufmachen.

Übung #1

Wir haben mal die Daten aus den drei OAI heruntergeladen gemäss Anleitung. Es gab hierbei nur wenig Probleme. Wir haben jetzt diese im EAD-Format, im DublinCore sowie Marc21-XML. Das war also das sogenannte Harvesting. Bis jetzt gab es mal da (scheinbar) noch keine Probleme.

Übung #2

Als nächstes werden wir jetzt alle Daten in Marc21-XML konvertieren. Marc21-XML müssen wir selbstverständlich nicht mehr unmwandeln, weil es ja schon im Zielformat ist. Aber EAD und DublinCore sind zu transformieren.

Resultat zur Übung selbst

Die Übung hat irgendwie nicht so korrekt funktioniert, wie es sollte, scheint mir. Die Marc-Dateien, die ich aus den xml-Daten erstellt habe, haben keinen Inhalt. Merkwürdig. Gemäss den Dozenten benutzt aber die Mehrheit der Bibliothekare MarcEdit 7 und haben damit kein Problem. Vielleicht liegt das an Kompabilitätsproblemen mit Linux. MarcEdit 7 sollte aber unter Windows normal funktionieren können.

Beim Vorführen haben aber die Dozenten gezeigt, dass es in der virtuellen Maschine schon klappen würde. Nunja, dann habe ich also Pech gehabt. Wo auch immer mein Fehler liegen könnte, wird ein bisschen schwer zu eruieren sein.

Begriffserklärungen

Für mein eigenes Verständnis.

Apache SolR

SolR ist eine Open Source Volltext-Suchmaschine, welche sehr mächtig, sehr fehlertolerant, und sehr weit verbreitet sei. Die andere, ebenfalls weit verbreitete Maschine ist Elasticsearch. Beide zusammen sind DIE (open source) Suchtextmaschinen, die praktisch überall im Netz verwendet werden, und damit defacto Standard-Internet Technologie. Es gibt zwar noch andere Suchmaschinen, aber sie scheinen aufgrund ihrer proprietären Natur weniger Beliebtheit zu erfreuen.

Top 20 der populärsten Suchmaschinen

Abbildung 2: Die 20 populärsten Datenbankmanagementsystemen gemäss db-engines.com, Stand Dezember 2020

SolR wird in VuFindHarvest verwendet.

Crosswalks / Mapping

So nennt man die Konvertierung von Feldern von einem Metadatenstandard zu einem anderen.

Marc   DublinCore
$260c (Date of publication, distribution, etc.) –> Date.Created
522 (Geographic Coverage Note) –> Coverage.Spatial
$300a (Physical Description) –> Format.Extent

Tabelle 1: Crosswalk von Marc zu Dublin-Core. Quelle Wikipedia: https://en.wikipedia.org/wiki/Schema_crosswalk

Die Entscheidung, welches Feld übersetzt wird in welches anderes nennt man dann “mapping”. Eine 1:1 Zuordnung ist aber meist nicht möglich, und man wird sich entscheiden müssen, welches Feld man leer ausgehen lässt.

MarcEdit 7

Diese Software werden wir benutzen, um die Daten zu konvertieren. Es ist in einer Programmiersprache namens .Net geschrieben, welches von Microsoft stammt. Sie ist nicht open source (also nicht quell-offen), aber dafür kostenlos. Es wundert mich, dass man etwas kostenloses nicht auch noch gleich quell-offen macht. Andererseits sagt der Entwickler, dass sobald er dieses Projekt nicht mehr alleine wird betreuen können (oder wollen), wird er es dann open source machen.

Die Programmiersprache XLST ist da in MarcEdit 7 schon vorprogrammiert, so dass wir selber nicht mehr noch etwas daran ändern müssen.

Weil MarcEdit 7 ein Windows-basiertes System ist, braucht es hierfür ein Übersetzungsprogramm namens Mono, wenn man es in Linux-Betriebssysteme verwenden will.

Metha

Ein Open Source Harvester, welches auf Kommando-Zeilen-Ebene funktioniert? Viele Angaben im Netz lassen sich jedenfalls nicht dazu finden.

Mono

Das benötigen wir, damit wir MarcEdit 7 in Linux anwenden können, weil MarcEdit 7 für Windows-Betriebssysteme und nicht für Linux konfiguriert ist. Ausserdem installierten wir ein Schriftsatz namens noto, um UTF-8 Zeichen gut darstellen zu können.

Übertragungsprotokolle / Schnittstellen

Hier sind drei der weitverbreitetsten Übertragungsprotokolle im Bibliotheks- und Archivbereich. Es ist nicht eine abgeschlossene Liste. So gibt es noch andere neuartigere Protokolle wie z.B. Resourcesync, die sich aber noch nicht etabliert haben. Erwartet wird aber, dass dieses z.B. möglicherweise dann OAI-PMH ersetzen wird.

Schnittstelle Z39.50 SRU OAI-PMH
Ursprung Library of Congress Library of Congress Open Archives Initiative
Vollständiger Name   Search/Retrieve via URL Open Archives Initiative Protocol for Metadata Harvesting
Spezifisch Älteste Variante Ähnlich wie die Z39.50, aber etwas moderner  
Aktuellste Version Z39.50-2003 SRU 2.0 OAI-PMH 2.0
Geeignet für Live-Abfragen Live-Abfragen Grosse Datenabzüge mit regelmässigen Aktualisierungen
Interaktion mit dem modernen Internet Benötigt eigene Software, die in spezielle Ports ablaufen Keine eigene Software notwendig Keine eigene Software notwendig

VuFindHarvest

Dieser alternative Harvester (ebenfalls open source) ist Teil des VuFind-Projektes. Es kann nur OAI-PMH Schnittstellen abgrasen. Solche eigene Harvester-Programme sind zwar gang und gäbe, es gibt aber auch Bibliotheksverwaltungssysteme wie z.B. Alma, welche solche Harvester auch integriert haben.

XSLT (Extensible Stylesheet Language Transformations)

Eine Programmiersprache, um XML-Dokumente in andere XML-Dokumente (sowie XHTML) umzuwandeln.

Fazit an jenem Tag

Auch wenn ich einen Fehler erlebt habe, so ist beim Rest trotzdem gut verlaufen, und ich konnte erkennen, wie das Ergebnis sein sollte. Es ist interessant zu sehen, wieviel Aufwand betrieben wird, um Formate zu harmonisieren.