Metadaten modellieren und Schnittstellen nutzen (Teil 2)

Zu Beginn der Vorlesung haben wir uns mit OpenRefine auseinandergesetzt. Dabei handelt es sich um eine Open Source Software, welche für die Analyse, Bereinigung, Konvertierung und Anreicherung von Daten genutzt werden kann, zum Beispiel um Rechtschreibfehler zu korrigieren oder Format-Konvertierungen durchzuführen. Ich habe dabei die angehängte Präsentation der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) (https://docs.google.com/presentation/d/e/2PACX-1vRU4J_rln00UVD7pNPT0_02NOad0HfSk_UKqRI0v29y8QkMAplEDlyjc0Ot_VE_paV6WBW29Fh_V-iN/pub?slide=id.g286e6f468f_0_134, abgerufen am 12.12.2021) sehr spannend gefunden, da es einerseits MARC nochmals sehr verständlich erklärt hat und man das in dieser Vorlesung vorgestellte Thema gleich mit einem Praxisbeispiel verknüpfen konnte.

Nach der theoretischen Einführung haben wir die Software auf unserer virtuellen Maschine installiert. Wie immer waren die Installationsanweisungen klar vorgegeben und es gab deshalb keine Probleme dabei. Danach haben wir mit Beispieldaten einige Grundfunktionen kennengelernt wie das Korrigieren eines Schreibfehlers oder die Ergänzung von Datensätzen. Da auch hier wieder alle Schritte klar vorgegeben waren und parallel von den Dozenten vorgeführt wurden, waren die Übungen einfach durchgeführt. Die nächste Übung, in der wir mit OpenRefine Daten von CSV nach MARCXML konvertieren, war als Gruppenarbeit ausgelegt. Da ich die Vorlesung nachgeschaut habe, habe ich alle Übungen allein durchgeführt und mit den Gruppenergebnissen abgeglichen. Bei der Lösungsfindung hatte ich teilweise etwas Mühe und wäre sicherlich froh gewesen um den Austausch in der Gruppe am Vorlesungstag. Dadurch, dass die Aufgaben danach im Plenum besprochen wurden, waren mir die Herleitungen danach aber sehr klar.

An dieser Vorlesung hat man nur einen ersten Eindruck der Software erhalten und ich bin mir sicher, dass mit dem System einiges möglich wäre. Da mich interessiert hat, wie der Leistungsumfang ungefähr aussieht, habe ich zusätzlich einen Teil der verlinkten Lernmaterialen durchgeschaut (https://librarycarpentry.org/lc-open-refine/, abgerufen am 12.12.2021), insbesondere die Kapitel “4. Faceting and filtering”, und die verschiedenen Kapitel zum Thema Transformations.

Ich werde OpenRefine sicherlich im Hinterkopf behalten, falls bei meiner Arbeit ebenfalls eine Bereinigung von Daten in unserem Geschäftsverwaltungssystem anstehen. Ob sich das System dann dazu jeweils wirklich eignet, müsste ich sicherlich noch genauer eruieren. So wird z.B. eine Reconsiliation bei uns kaum möglich sein, da wir Dokumente abgelegt haben, welche durch uns selber produziert wurden und nicht publiziert werden und somit keine Datensätze sind, welche mittels ISSN oder ISBN mit anderen Datenbanken abgeglichen werden könnten. Aber es ist sicherlich hilfreich zu wissen, dass es solche Open Source Systeme gibt.