Skip to content

ASkupek/AuthorIdentificationBasedOnNgrams

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 

Repository files navigation

AuthorIdentificationBasedOnNgrams

Algoritem za identifikacijo avtorja besedila

Osnoven algoritem (V. Kešelj)

  • Nov profil za avtorja: AuthorIdentification.exe new <file> <author> [nGrams] [profileLimit].
  • Identifikacija avtorja: AuthorIdentification.exe id <file>.

Parser

Osnovno delovanje

Parser.exe ustvari ime_avtorja.txt z jedrom besedila

Parsiranje več XML datotek

  1. Daj vse XML datoteke v isto datoteko kot PARSE_ALL.bat in Parser.exe
  2. Zaženi PARSE_ALL.bat