Skip to content

Latest commit

 

History

History
59 lines (39 loc) · 3.29 KB

README.md

File metadata and controls

59 lines (39 loc) · 3.29 KB

autorenbibliotheken-filter

Prozess zum Filtern der Exemplare in Autorenbibliotheken, entwickelt im Rahmen des Text+-Kooperationsprojekts DLA Data+

Der Datendienst ermöglicht den gezielten Abruf der Autorenbibliotheken, beispielsweise von Döblin und Kracauer:

Allerdings enthalten diese Daten neben Provenienzexemplaren der Autorenbibliothek auch Exemplare anderer Bestände im DLA. Die Ausgabe der Galgenlieder von Christian Morgenstern im Verlag Bruno Cassirer von 1932 (vgl. Exemplare im Katalog) ist z.B. in fünf Autorenbibliotheken vorhanden. Was im Katalog spannende Schnittmengen sein können, ist bei einer gezielten (statistischen) Auswertung und Visualisierung von Provenienzspuren einer bestimmten Autorenbibliothek unerwünschter Beifang, der verfälscht.

Dieses Repository beinhaltet einen Prozess am Beispiel der Autorenbibliothek von Alfred Döblin, um die Daten nachträglich zu "putzen". Um den Prozess auf andere Autorenbibliotheken anzuwenden, muss nur der Identifier des gewünschten Teilbestands (z.B. BF00019097) im Script ausgetauscht werden.

Fragen beantwortet gerne Felix Lohmeier.

Daten

  • input beinhaltet einen Download der Autorenbibliothek von Alfred Döblin vom DLA Datendienst im Format CSV
  • output beinhaltet die gefilterten Daten im Format JSON-Lines

Stand des Datenabzugs: 29.01.2024

Es ist geplant, den Prozess in Kürze zu automatisieren und in diesem Repository regelmäßig aktualisierte Beispieldaten bereitzustellen.

Anpassung für andere Autorenbibliotheken

  1. Repository klonen
  2. In main.sh den Identifier in Download-Links anpasssen (z.B. BF00019097)
  3. Prozess mit GitHub Codespaces, GitHub Actions oder lokal ausführen (siehe unten)

Hinweis: Bei sehr großen Autorenbibliotheken benötigt OpenRefine ggf. mehr Arbeitsspeicher als in der Standardkonfiguration. Das kann beim Aufruf von orcli mit dem Parameter --memory eingestellt werden.

A) GitHub Codespaces

  1. Persönlichen Codespace starten (benötigte Software wird automatisch installiert)

  2. Prozess im Terminal starten

    orcli run main.sh
    

B) GitHub Actions

  1. Repository klonen
  2. Im Tab "Actions" den vorkonfigurierten Workflow example starten

C) Lokal

  1. OpenRefine und orcli installieren

  2. Prozess starten

    orcli run main.sh