Skip to content

Scripte und Konfigurationsdateien für den ETL-Workflow des Online-Katalogs des Deutschen Literaturarchivs Marbach

Notifications You must be signed in to change notification settings

dla-marbach/dla-opac-transform

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

dla-opac-transform

Scripte und Konfigurationsdateien für den ETL-Workflow des Online-Katalogs des Deutschen Literaturarchivs Marbach https://www.dla-marbach.de/katalog

Formatdokumentation

siehe Dokumentation Internformat

Voraussetzungen

Installation

OpenRefine, orcli und Apache Solr:

task install

Nutzung

Das Arbeitsverzeichnis wird über die Variable DIR gesetzt. Die Quelldateien im TSV-Format müssen in einem Unterverzeichnis input bereitgestellt werden.

Weitere Variablen:

  • MEMORY: Wieviel Arbeitsspeicher OpenRefine verwenden darf. Default: 2G
  • PORT: Der von OpenRefine zu verwendende Port. Default: 3333

Beispiel für Arbeitsverzeichnis data mit Quelldateien in data/input, 4 GB Java heap space für OpenRefine und Port 3334:

task DIR=data MEMORY=4G PORT=3334

Das Verzeichnis data ist bereits in .gitignore gelistet.

Entwicklung

orcli im interaktiven Modus starten (vgl. http://localhost:3333):

task dev

Indexierung in Solr testen (vgl. http://localhost:8983):

task solr

Änderungen im Ausgabeformat JSON-Lines prüfen:

git diff -U0 --word-diff-regex='[^,]+' --word-diff=porcelain example/output/*.jsonl

About

Scripte und Konfigurationsdateien für den ETL-Workflow des Online-Katalogs des Deutschen Literaturarchivs Marbach

Resources

Stars

Watchers

Forks

Languages