#Spark Job for parsing GIS Data
Die Hauptlogik ist den Klassen SparkProduction und OSMParser.
Die Runtime ist Apache Spark hauptsächlich läuft es jedoch als Single threaded Parser, weil Spark keinen größereren Performance Vorteil bringt (eher sogar Nachteile auf Grund des Perforamance Auswirkungen).
Falls wir jemals mehrere Datein parallel verarbeiten wollen (>20) macht es Sinn das auf Spark anzupassen. Essentiell muss einfach die Parsing Logik in map
Funktionen gepackt werden.
##Konfiguration
Die Konfiguration des Jobs ist augelagert in application.conf. Diese Datei enthält alles wesentlichen Optionen.
Apache Maven basiertes Projekt. Gebaut wird mit folgendem Befehl:
mvn clean compile package
Resultierendes JAR File aus dem target
folder kann deployed werden.
Wir müssen prüfen wie es alles auf dem Cluster funktioniert. Insbesondere müssen wir in wie weit wir relevante Dateien wie hdfs-site.xml
und core-site.xml
noch in das JAR hinzufügen müssen.
Weiterhin ist der Unit Test eher rudimentär (bis jetzt).