#Spark Job for parsing GIS Data

Die Hauptlogik ist den Klassen SparkProduction und OSMParser.

Die Runtime ist Apache Spark hauptsächlich läuft es jedoch als Single threaded Parser, weil Spark keinen größereren Performance Vorteil bringt (eher sogar Nachteile auf Grund des Perforamance Auswirkungen).

Falls wir jemals mehrere Datein parallel verarbeiten wollen (>20) macht es Sinn das auf Spark anzupassen. Essentiell muss einfach die Parsing Logik in map Funktionen gepackt werden.

##Konfiguration

Die Konfiguration des Jobs ist augelagert in application.conf. Diese Datei enthält alles wesentlichen Optionen.

Building

Apache Maven basiertes Projekt. Gebaut wird mit folgendem Befehl:

mvn clean compile package

Resultierendes JAR File aus dem target folder kann deployed werden.

Todos

Wir müssen prüfen wie es alles auf dem Cluster funktioniert. Insbesondere müssen wir in wie weit wir relevante Dateien wie hdfs-site.xml und core-site.xml noch in das JAR hinzufügen müssen. Weiterhin ist der Unit Test eher rudimentär (bis jetzt).

Verwendete Tools

Apache Spark
Geotools
Hadoop API

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Building

Todos

Verwendete Tools

Files

README.md

Latest commit

History

README.md

File metadata and controls

Building

Todos

Verwendete Tools