My BAIN Blog [Bibliotheks- und Archivinformatik]

Ein Lerntagebuch für den Kurs Bibliotheks- und Archivinformatik HS2020, übernommen von Dozent Lohmeier

Follow me on GitHub

Heutige Lehreinheit

Heute beschäftigen wir uns als Fortsetzung vom letzten Mal mit dem Arbeitswerkzeug namens OpenRefine, welches unter Java läuft. Wir sollen eine csv-Datei von der doaj damit in Marc21-XML umwandeln und dann in SolR (einem Discovery-Index) einbinden. Wie man OpenRefine benutzen muss, war eine Aufgabe, welche man schon bei der letzten Lektion machen musste. Dabei müssen wir mal untersuchen, was OpenRefine macht, wenn man eine bestimmte Befehlsreihe im Templating Export eingibt.

Anschliessend versuchen wir eine Regel zu erstellen, um die Daten in die jeweiligen Marc21-Felder zu übertragen. OpenRefine weiss nämlich nicht, wohin die Daten in welchem Marc21-XML Feld hingehört. Das ist das, was wir heute unter anderem bei der zweiten Aufgabe üben.

Übungen mit OpenRefine

Die Übungen dazu zeigen, wie man ein Export durchführen kann, um die Daten von z.B. JSON in Marc21 zu übersetzen. Es muss in der Sprache GREL geschrieben werden. Das kann sehr anspruchsvoll sein.

Was mich eher irritiert hat, ist dass die Eingaben im Template-Bereich nicht zwischengespeichert werden. Macht man da etwas falsch, oder kehrt man zurück, muss man wieder alles von vorne eingeben.

Anreicherung der doaj Artikel mit GND

Die Gemeinsame Normdatei ist die Normdatei zur Erschliessung von Personen und weitere Körperschaften. Das hat bei mir nicht so wirklich geklappt. Zuerst habe ich eine Aufsplittung der Authoren gemacht, danach diese GND-Service-Vorgehensweise gemäss der Anleitung versucht. Nur findet es keinen richtigen passenden Author zu den Leuten, die dort jetzt aufgeführt werden. Habe ich da was falsch gemacht? Gibt es diese Authoren so überhaupt in der GND? Ich vermag mich zu erinnern, dass das scheinbar alles real-existierende Leute seien gemäss unseren Dozenten. Nachtrag: Nach einem Rückblick auf die Webex-Aufzeichnung sehe, dass ich unseren Dozenten falsch interpretiert hatte.

Begrifflichkeiten

OpenRefine

OpenRefine (ehemals GoogleRefine) ist eine gratis Open Source Software (also eine FOSS). Man kann es auf einem Server laufen lassen, bzw. es wird auf einem lokalen Computer abgespeichert. Die Bedienung lauft über den Browser. Dessen Einsatzbereich sind die Normalisierung von Daten, Formatwechsel, Daten in ein anderes System bringen, und die Anreicherung. Es hat an Bedeutung gewonnen, weil Wikidata wichtig geworden ist, und man die Daten so oft wie möglich normieren möchte. Weiter wird erwähnt, dass die Software zukunftsfähig zu sein scheint, sprich, es wird immer noch daran gearbeitet, und damit hat es auch eine aktive Community. Gemäss openhub hat es über 200 Mitwirkende, die mehr als 145’000 Code-Zeilen geschrieben haben zu jenem Zeitpunkt.

Zusammenfassung über OpenRefine von openhub.net

Abbildung 1: Arbeitsbeitrag von den Mitbeteiligten zu OpenRefine

Gemäss unseren Dozenten ist es scheinbar geplant, dass man es für Big Data tauglich macht. Zumindest deutet die monetäre Förderung durch die Chan-Zuckerberg Initiative (sprich, Marc Zuckerberg, der Gründer und Besitzer von Facebook, und seine Ehefrau Priscilla Chan) darauf hin.

Man kann damit Daten, die in einer tabellarischen Form präsentiert werden wie z.B. der gut bekannten Excel (XLS), einer comma-value-separated Datei (CSV), einer tab-separated values Datei (TSV oder TAB) und ähnliches besser ordnen, umwandeln, vereinheitlichen usw. In der Basis-Benutzung ist es ziemlich einfach zu handhaben. Man kann auch mit GREL arbeiten, wenn man fortgeschrittenere Transformationstätigkeiten ausüben will. Die Software hat eher Mühe, sobald die Daten in einer stark verschachtelten Struktur daherkommen, wie z.B. viele JSON-Dateien.

OpenRefine ist nicht auf rein bibliothekarische (oder archivarische) Tätigkeiten beschränkt. Andere Nutzergruppen umfassen Datenjournalisten, Bioinformatiker, Nichtprofitorganisationen und weitere Benutzende. Es ist generell nutzbar, was als Vorteil angesehen wird.

Vor allem im Bereich der Datenanalyse ist das Clustering hilfreich, um die Übersicht zu wahren und Gemeinsamkeiten anhand verschiedener Algorithmen zu erkennen.

Andere Versionen wie Alma Refine basieren auf diese Software.

GREL

Steht für General (oder Google) Refine Expression Language. Es sei ähnlich wie javascript. Das bedeutet, viele Punkte und anschliessende Objekte und Eigenschaften.

Heutiges Fazit

Solange ich GREL nicht allzu oft nutzen müsste, hätte ich kein Problem mit OpenRefine.