My BAIN Blog [Bibliotheks- und Archivinformatik]

Ein Lerntagebuch für den Kurs Bibliotheks- und Archivinformatik HS2020, übernommen von Dozent Lohmeier

Follow me on GitHub

Was wir heute im Unterricht vorgenommen haben

Wir besprechen die Aufgaben vom letzten Mal, kriegen die Lösung für eine zusätzliche (aber nicht obligatorische) Aufgabe, bei der man die Daten mit lobid-GND anzureichern verscuchte, lernen, wie man XML validieren kann, erfahren zudem, welche andere Werkzeuge vorhanden sind (wir beschäftigen uns z.B. mit OpenRefine, weil es eine grafische Oberfläche hat und einfach zu bedienen ist, aber es gibt noch andere Tools namens Catmandu, Metafacture, und natürlich MarcEdit), um Metadaten in andere Formate zu transferieren, werden vertraut gemacht bezüglich einem Metadaten-Format namens LIDO, und befassen uns dann mit den Suchmaschinen und Discovery-Systemen, indem wir VuFind installieren.

XML-Validation und die Wichtigkeit der Deklaration

Gedenkt man, eine Validierung all der transformierten Meta-Daten in XML durchzuführen, könenn wir das in Ubuntu installierte xmllint benutzen. Dabei müssen wir in der Datei angeben, dass es eine XML-Datei ist, indem wir folgende Deklaration am Anfang abgeben.

<?xml version="1.0" encoding="utf-8" standalone="yes"?>

Wir laden das Marc21xml-Schema von der Library of Congress herunter, damit dann der Abgleich durchgeführt werden kann. In der Übung haben wir dann vor allem gesehen, dass die in der letzten Unterrichtseinheit gemeinsam verfassten Datei (welches OpenRefine als .txt ausgibt, wir aber als .xml speichern) unbeabsicht ein Fehler aufwies. Dies unterstreicht die Wichtigkeit von Validatoren allgemein, wie wir es schon in anderen Modulen kennengelernt haben.

Die Deklaration, welche in der Text-Datei generell am Anfang in der ersten Zeile steht, erzählt XML-verarbeitende Software, dass die ganze Datei eine XML-Datei ist, was vor allem bei sehr grossen Dateien hilfreich ist für das schnelle Parsern, und deswegen empfehlenswert ist.
Dabei enthält sie folgende Elemente:

  • Sie besagt, dass es in erster Linie eine xml-Datei ist.
  • Sie erzählt, welche Version es ist (wobei es gemäss Dozenten noch nicht so viele unterschiedliche Versionen gibt - es gibt 1.0, und 1.1).
  • Sie gibt an, welche Zeichencodierung verwendet wird bei encoding.
  • Sie teilt mit, ob eine Document Type Definition (DTD) inbegriffen ist oder nicht. Schreibt man also ein "yes", dann heisst es, dass keine externe DTD dabei hat, bei einem "no"wurde eine externe DTD beigelegt. Wenn man den Parameter nicht angibt, wird die Software annehmen, dass die Standardtyp-DTD gilt für die XML-Datei.

Man muss die Deklaration nicht aufführen, aber wenn man es macht, dann ist zumindest die Versionsangabe zwingend. Das Encoding ist optional, aber es ist Teil der guten Praxis, es auch anzugeben. Dies bedeutet also, dass wenn man eine Deklaration macht, eine von beiden folgenden Zuständen das absolute Minimum darstellt.

  <?xml version="1.0?">

  <?xml version="1.1?">

Begriffe für mich

VuFind

Die von uns verwendete Suchmaschine Das von uns verwendete Discovery-System VuFind (natürlich open source) verwendet als Discovery-System Suchmaschine SolR. Dieses bibliothekarische Ressourcenauffindungsportal ist gemäss der kurzen Zusammenfassung auf openhub von Bibliothekar’innen entwickelt worden für andere Bibliotheksmitarbeitende. Die Entwicklerin von VuFind ist die Universität von Villanova im amerikanischen Bundesstaat Pennsylvania, was mich vermuten lässt, dass VuFind für Villanova University Find steht. Das Ziel dieses Projektes ist es, die bestehenden OPACs (Online Public Access Catalogs) zu erweitern mit allerlei Funktionen, wie Katalogaufzeichnungen, digitale Bibliotheksgegenstände, Zugang zu institutionelle Repositories, Bibliographien und andere Bibliothekssammlungen und Ressourcen. Es ist modular aufgebaut, erlaubt also, dass man die Benutzeroberfläche so gestalten kann, wie man es für notwendig erachtet.
VuFind benutzt als Widget eine Verbindung zu OpenHub, damit man schnell beurteilen kann, ob man es weiterhin verwenden will. Die SwissBib benutzt(e) VuFind. Präteritum deswegen, weil es seit dem 7. Dezember 2020 durch die Swiss Library Service Plattform, kurz SLSP, abgelöst wurde.

JSON-API und entsprechendes Tool

Diese Abkürzung ist ausgeschrieben JavaScript Object Notation-Application Programming Interface. Während bibliographische und archivarische Schnittstellen wie Z39.50, SRU oder OAI-PMH XML verwenden, liefert der Rest des Internets für Programmierschnittstellen normalerweise eher JSON aus, um Inhalte auf dem Webbrowser darzustellen. Die lobid-GND ist in jener Form verfasst. Interessant dabei scheint vor allem, dass man es mit Linked Data verknüpfen oder eine Autovervollständigung durchführen kann.

Ein Werkzeug, dass Web-Inhalte abgreift und in jenem Format darstellt auf dieser Weise ist scrAPIr. Es verfügt über eine integrierte Benutzeroberfläche, welches einem den JavaScript oder Python-Code bereitstellt, um die Daten herunterzuladen.

LIDO

Das Lightweight Information Decribing Objects-Metadatenstandard ist ein XML-Schema von der CICOC, welches zur Beschreibung von Kulturobjekte (also physische Gegenstände) verwendet wird. Es benutzt schon das Paradigma der Linked Open Data, indem es nebst der normalen physichen Beschreibung ausserdem zusätzlich den Kontext, sprich, die Ereignis-Geschichte des Objektes, erzählt. Dabei ist jedes einzelne Ereignis eine eigene Entität, und alle weiteren Angaben wie Personen, Orte oder Objekte werden in Verbindung/Relation gesetzt. Im Unterschied zu anderen normalen bibliographischen und archivarischen Metadaten, welche dokument-zentriert sind (sprich, sie beschreiben hauptsächlich die Beschaffenheit des Objektes und die Ersteller-Angaben) ist es damit sehr umfangreich. Es scheint noch keine Werkzeuge zu geben, um LIDO in Metadaten-Formate wie z.B. Marc21-XML zufriedenstellend zu transformieren, weil es da zu sehr viel Informationsverlusten kommt.

LIDO beschreibt, wie man die Grundstruktur unterscheidet, die benötigt wird, um die gesuchte Information anzuzeigen (display elements), und wie man es für das System erfasst und berücksichtigt (index elements).

Für uns ist es zur Zeit wahrscheinlich noch ein bisschen zu “fortgeschritten”, um sich damit zu beschäftigen, aber es zeigt auf, dass das Konzept für Linked Data schon umgesetzt wird. Es ist insofern lightweight, verglichen mit der CIDOC CRM, und allzuviele Software, die damit arbeitet, gibt es scheinbar auch noch nicht.

CIDOC

Comité international pour la documentation. Ist ein internationales Museumskomitee für das Internationale Konzil der Museen (ICON). Diese Organisation hat das konzeptionelle Referenzmodell (CRM) definiert, welches mittels Uniform Resource Identifier versehen werden. Die LIDO verwendet seinen Wortschatz aus diesem CRM.

SLSP

Dieser Bibliotheksverbund hat mit der Swisscovery als Verbundskatalog seit dem 7. Dezember 2020 nicht nur SwissBib ersetzt, sondern auch das Netzwerk von Bibliotheken und Informationsstellen in der Schweiz (NEBIS), den Informationsverbund Deutschschweiz (IDS), das Gegenstück der Suisse Romand namens das “Réseau des bibliothèques de Suisse occidentale” (RÉRO) und andere Systeme vereinnahmt. Der Zugriff dafür soll durch die SWITCH geregelt werden. Damit können 800’000 Bibliotheksnutzende über die Cloud gemeinsam auf die Bestände in den zahlreichen wissenschaftlichen Bibliotheken der Schweiz zugreifen.

SolR

Solr ist eine auf Lucene beruhende eigenständige Implementierung eines Suchservers. Solr wurde ursprünglich von CNET entwickelt und Solar genannt. Der Name war eine Abkürzung für Search on Lucene and Resin. Der Download von Solr umfasst als Beispiel eine Konfiguration mit Jetty. Solr enthält eine REST-ähnliche API. Solr kommuniziert über das Hypertext Transfer Protocol. Mittels HTTP POST können verschiedenste Dateiformate von XML über JSON bis PDF erfasst und auch Dokumente erstellt werden. Abfragen erfolgen mittels HTTP GET.

Quelle Wikipedia. Mehr dazu wird aber im nächsten Unterrichtsblock gesagt.

Fazit für dieses Mal

Konkret habe ich natürlich zuerst einmal mich für die SLSP anmelden müssen. LIDO klingt sehr interessant, aber auch sehr abschreckend.