-
Notifications
You must be signed in to change notification settings - Fork 31
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Эвристическими правилами удаляются правильные разделения предложений #8
Comments
Да, видимо, "M. Найдите" считается фамилией "Найдите" и именем "М". Попробуйте отключить правило для инициалов. Нужно передать SentSegmenter не дефолтный RULES а убрать initials_left |
Спасибо. Вот только у меня проблема с передачей правильного RULES. Пробую
вот так:
rules = razdel.sentenize.RULES
rules.remove(razdel.sentenize.FunctionRule(razdel.sentenize.initials_left))
sentences = [_.text for _ in list(razdel.sentenize(text, rules=rules))]
Но ругается на отсутствие модуля sentenize - не знаю какой выбрать,
чтобы увидеть все эти переменные.
чт, 21 нояб. 2019 г. в 18:07, Alexander Kukushkin <[email protected]
…:
Да, видимо, "M. Найдите" считается фамилией "Найдите" и именем "М".
Попробуйте отключить правило для инициалов. Нужно передать SentSegmenter
<https://github.com/natasha/razdel/blob/master/razdel/segmenters/sentenize.py#L352>
не дефолтный RULES
<https://github.com/natasha/razdel/blob/master/razdel/segmenters/sentenize.py#L333>
а убрать initials_left
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub
<#8?email_source=notifications&email_token=ACC27NQYJCCSGJ656A4XH4LQU2P2XA5CNFSM4JQCOGNKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEE2RDDI#issuecomment-557126029>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ACC27NQHBABOBS26J22YRYLQU2P2XANCNFSM4JQCOGNA>
.
|
Нужно сделать import razdel.sentenize |
я это первым делом попробовал, но...
import razdel.sentenize
ModuleNotFoundError: No module named 'razdel.sentenize'
пн, 25 нояб. 2019 г. в 11:14, Alexander Kukushkin <[email protected]
…:
Но ругается на отсутствие модуля sentenize - не знаю какой выбрать,
чтобы увидеть все эти переменные.
Нужно сделать import razdel.sentenize
—
You are receiving this because you authored the thread.
Reply to this email directly, view it on GitHub
<#8?email_source=notifications&email_token=ACC27NSS3VU22S37K7IVZHDQVOCMZA5CNFSM4JQCOGNKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEFBQQEI#issuecomment-558041105>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ACC27NWQ657VZA3OXLE6TO3QVOCMZANCNFSM4JQCOGNA>
.
|
Вопрос в тему. Можно ли как-то добавлять свои правила для сентенизации (sentenize) текста прямо в своём коде? Мне нужно сентенизировать разделение текста на предложения по символу переноса строки '\n'. |
Почему бы просто не разбить текст на строки по \n, для каждой строки запустите sentenize
|
Мне тоже пришлось разбивать по
При этому в MY_RULES можно добавить свои правила для объединения |
Следующие пары предложений расцениваются как одно:
Точка K принадлежит отрезку MN длиной 32 см и делит его в отношении 3:5, считая от точки M. Найдите KM.
Точка К принадлежит отрезку АВ длиной 3 и делит его в отношении 2:7 считая от точки А. Найдите КВ.
Мешает то ли римская M как перечислимый пункт, то ли инициалы, то ли еще что...
The text was updated successfully, but these errors were encountered: