GitHub

#Spark Job for parsing GIS Data

Die Hauptlogik ist den Klassen SparkProduction und OSMParser.

Die Runtime ist Apache Spark hauptsächlich läuft es jedoch als Single threaded Parser, weil Spark keinen größereren Performance Vorteil bringt (eher sogar Nachteile auf Grund des Perforamance Auswirkungen).

Falls wir jemals mehrere Datein parallel verarbeiten wollen (>20) macht es Sinn das auf Spark anzupassen. Essentiell muss einfach die Parsing Logik in map Funktionen gepackt werden.

##Konfiguration

Die Konfiguration des Jobs ist augelagert in application.conf. Diese Datei enthält alles wesentlichen Optionen.

Building

Apache Maven basiertes Projekt. Gebaut wird mit folgendem Befehl:

mvn clean compile package

Resultierendes JAR File aus dem target folder kann deployed werden.

Todos

Wir müssen prüfen wie es alles auf dem Cluster funktioniert. Insbesondere müssen wir in wie weit wir relevante Dateien wie hdfs-site.xml und core-site.xml noch in das JAR hinzufügen müssen. Weiterhin ist der Unit Test eher rudimentär (bis jetzt).

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
.idea		.idea
src		src
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
gisparsing.iml		gisparsing.iml
lombok.config		lombok.config
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Building

Todos

Verwendete Tools

About

Releases

Packages

Languages

jogueber/gisparsing

Folders and files

Latest commit

History

Repository files navigation

Building

Todos

Verwendete Tools

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages