Skip to content

jogueber/gisparsing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

32 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

#Spark Job for parsing GIS Data

Die Hauptlogik ist den Klassen SparkProduction und OSMParser.

Die Runtime ist Apache Spark hauptsächlich läuft es jedoch als Single threaded Parser, weil Spark keinen größereren Performance Vorteil bringt (eher sogar Nachteile auf Grund des Perforamance Auswirkungen).

Falls wir jemals mehrere Datein parallel verarbeiten wollen (>20) macht es Sinn das auf Spark anzupassen. Essentiell muss einfach die Parsing Logik in map Funktionen gepackt werden.

##Konfiguration

Die Konfiguration des Jobs ist augelagert in application.conf. Diese Datei enthält alles wesentlichen Optionen.

Building

Apache Maven basiertes Projekt. Gebaut wird mit folgendem Befehl:

mvn clean compile package

Resultierendes JAR File aus dem target folder kann deployed werden.

Todos

Wir müssen prüfen wie es alles auf dem Cluster funktioniert. Insbesondere müssen wir in wie weit wir relevante Dateien wie hdfs-site.xml und core-site.xml noch in das JAR hinzufügen müssen. Weiterhin ist der Unit Test eher rudimentär (bis jetzt).

Verwendete Tools

About

Gis Parsing

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages