punkt

Multilingual unsupervised sentence tokenization with Punkt.

Usage

Note that abbreviations are detected at run time without the aid of a pre-built abbreviation list:

import Data.Text (Text, pack)
import NLP.Punkt (split_sentences)

corpus :: Text
corpus = pack "Look, Ma! The quick brown Mr. T. rex swallowed the lazy dog. \
              \It really did!"

main :: IO ()
main = mapM_ print (split_sentences corpus)

yields:

"Look, Ma!"
"The quick brown Mr. T. rex swallowed the lazy dog."
"It really did!"

References

Kiss, Tibor, and Jan Strunk. "Unsupervised multilingual sentence boundary detection." Computational Linguistics 32.4 (2006): 485-525.

TODO

parallelize
modularize tokenization
- custom tokenization rules
needs to go fasterer

Name		Name	Last commit message	Last commit date
Latest commit History 83 Commits
lib/NLP		lib/NLP
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
punkt.cabal		punkt.cabal

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

punkt

Usage

References

TODO

About

Releases

Packages

Languages

License

bryant/punkt

Folders and files

Latest commit

History

Repository files navigation

punkt

Usage

References

TODO

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages