Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Zemberek sözlüğü yaygın olarak yanlış yazılan kelimeleri içeyor. #12

Open
ahmetaa opened this issue Nov 4, 2018 · 0 comments

Comments

@ahmetaa
Copy link
Contributor

ahmetaa commented Nov 4, 2018

Bu, #8 ile ortaya çıktı.

Zemberek NLP projesine kolaylık sağlaması için ayrı yazılması gerekirken yaygın olarak bitişik yazılan ya da yaygın kullanılan ama dil bilgisi açısından doğru olmayan bazı kelimeleri "EXT" etiketi ile, yani TDK dışı olarak işaretleyip yarı otomatik bir şekilde eklemiştik. Bu kelimeleri zemberek projesindeki non-tdk.dict içerisinde görebilirsiniz. (Proje içinde iki kere sihtf'e basıp dosyayı arayabilirsiniz)
Bağlantı: https://github.com/ahmetaa/zemberek-nlp/blob/master/morphology/src/main/resources/tr/non-tdk.dict

Örneğin:

hayvanbilim [A:Ext]
hazırgiyim [A:Ext]
hazırol [A:Ext]
hazırolmak [A:Ext]
haznedarlık [A:Ext]
helallaşmak [A:Ext]
helisel [A:Ext]
hemşeri [A:Ext]
hercaimenekşe [A:Ext]
hergün [A:Ext]
herkül [A:Ext]
herşey [A:Ext]
heryer [A:Ext]
herzaman [A:Ext]

Bu kelimelerin hepsi imla açısından yanlış. Bunun yanında, bazı kelimeler de TDK'da yer almıyor ama muhtemelen doğru. Bunlar genelde alana özel kelimeler

hidrobiyolog [A:Ext]
hidrofilik [A:Ext]
hidrosefali [A:Ext]
hidrofobik [A:Ext]
hidrofobisite [A:Ext]
hidrografik [A:Ext]
hidrojeolog [A:Ext]
hidroklorür [A:Ext]

gibi. Bu konudaki çözüm alternatifleri:

  • İlk etapta bu listede yer alan kelimeleri çözümlemeye dahil etmemek
  • Bu listeyi elden geçirip makul kelimeleri bırakıp hatalı olanları başka bir dosyaya aktarmak. Gerçekten hatalı olanlara bir de "INFORMAL" etiketi eklemek. Bu dosyada 3500 civarında kelime bulunuyor.
@ahmetaa ahmetaa changed the title Zemberek sözlüklerinin yaygın olarak yanlış yazılan kelimeleri içeyor. Zemberek sözlüğü yaygın olarak yanlış yazılan kelimeleri içeyor. Nov 4, 2018
ahmetaa added a commit that referenced this issue Nov 5, 2018
…rds are not allowed. This is a temporary fix for #12
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant