Natural Language Parser

Ein einfacher Parser für die deutsche Sprache (und EN, ES, ...) auf der Basis von ANTLR4. Es wird zunächst auf weitere Bibliotheken verzichtet. Tokenizer und andere Tools können bei Bedarf einfach durch stärkere, externe Tools ersetzt werden.

Sprache: Java 8+

Generate Lexer and Parser

Download antlr-4.7.1-complete.jar and place it for example in /usr/local/llib

Run the example

export CLASSPATH=".:/usr/local/lib/antlr-4.7.1-complete.jar:$CLASSPATH"
java -Xmx500M org.antlr.v4.Tool SimpleGerman.g4
javac SimpleGerman*.java
groovy SimpleParser.groovy

Arbeitspakete

Die nächsten Schritte ...

Wörterbuch DE, EN, ES, ...

Ein einfaches Wörterbuch für eine möglichst große Abbildung der Sprache wird zunächst manuell erstellt. Nachhaltig wird das Wörterbuch mit Inhalten des Wiktionary in mehreren Sprachen gefüllt.

Wöerterbuch als HSQL
SpringBoot | Micronaut für Aufbau der DB
Export WF -> flat file
[=> Import Wiktionary to DB]

// alt. DB: Graphen -> Graph NN
// W:  Graph NN, M, TypID (TID) oder ConceptID (CID)
// WF: Graph S_N -> NN Graph
// WF: Graphen S_G, S_D, S_A, P_N, P_G, P_D, P_A -> NN Graph
// => Wortformen generieren (s.o.)

Sentencer DE, EN, ES, ...

Zerlegung eines Textes in Sätze. Hier wird zunächst von einer einfachen Zerlegung nach PUNKT, AUSRUFEZEICHEN und FRAGEZEICHEN ausgegangen. Punkte in Abkürzungen werden zunächst nicht berücksichtigt. Dies kann über die Einbindung externer Bibliotheken, wie OpenNLP erweitert werden.

Tokenizer DE, EN, ES, ...

Zerlegung eines Satzes in Wörter (und Trennzeichen, wie '-', ',' und ';'). Hier wird zunächst von einer einfachen Zerlegung nach LEERZEICHEN, KOMMA und GEDANKENSTRICH ausgegangen. weitere Merkmale werden zunächst nicht berücksichtigt. Dies kann über die Einbindung externer Bibliotheken, wie OpenNLP erweitert werden.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
SimpleGerman.g4		SimpleGerman.g4
SimpleParser.groovy		SimpleParser.groovy
description.txt		description.txt
dictionary-de.csv		dictionary-de.csv
graph-de.md		graph-de.md
graph-en.md		graph-en.md
graph-es.md		graph-es.md
input-tagged.txt		input-tagged.txt
input.md		input.md
input.txt		input.txt
test.md		test.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Natural Language Parser

Arbeitspakete

Wörterbuch DE, EN, ES, ...

Sentencer DE, EN, ES, ...

Tokenizer DE, EN, ES, ...

Parser DE, EN, ES, ... // mit ANTLR (und Predicates oder TreeWalker/Listener)

About

Releases

Packages

Languages

License

axel-klinger/antlr-nlp-test

Folders and files

Latest commit

History

Repository files navigation

Natural Language Parser

Arbeitspakete

Wörterbuch DE, EN, ES, ...

Sentencer DE, EN, ES, ...

Tokenizer DE, EN, ES, ...

Parser DE, EN, ES, ... // mit ANTLR (und Predicates oder TreeWalker/Listener)

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages