Эвристическими правилами удаляются правильные разделения предложений #8

dimosarts · 2019-11-21T13:38:10Z

Следующие пары предложений расцениваются как одно:
Точка K принадлежит отрезку MN длиной 32 см и делит его в отношении 3:5, считая от точки M. Найдите KM.
Точка К принадлежит отрезку АВ длиной 3 и делит его в отношении 2:7 считая от точки А. Найдите КВ.

Мешает то ли римская M как перечислимый пункт, то ли инициалы, то ли еще что...

kuk · 2019-11-21T15:07:23Z

Да, видимо, "M. Найдите" считается фамилией "Найдите" и именем "М".

Попробуйте отключить правило для инициалов. Нужно передать SentSegmenter не дефолтный RULES а убрать initials_left

dimosarts · 2019-11-25T07:49:29Z

Спасибо. Вот только у меня проблема с передачей правильного RULES. Пробую вот так: rules = razdel.sentenize.RULES rules.remove(razdel.sentenize.FunctionRule(razdel.sentenize.initials_left)) sentences = [_.text for _ in list(razdel.sentenize(text, rules=rules))] Но ругается на отсутствие модуля sentenize - не знаю какой выбрать, чтобы увидеть все эти переменные. чт, 21 нояб. 2019 г. в 18:07, Alexander Kukushkin <[email protected]

…

: Да, видимо, "M. Найдите" считается фамилией "Найдите" и именем "М". Попробуйте отключить правило для инициалов. Нужно передать SentSegmenter <https://github.com/natasha/razdel/blob/master/razdel/segmenters/sentenize.py#L352> не дефолтный RULES <https://github.com/natasha/razdel/blob/master/razdel/segmenters/sentenize.py#L333> а убрать initials_left — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <#8?email_source=notifications&email_token=ACC27NQYJCCSGJ656A4XH4LQU2P2XA5CNFSM4JQCOGNKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEE2RDDI#issuecomment-557126029>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ACC27NQHBABOBS26J22YRYLQU2P2XANCNFSM4JQCOGNA> .

kuk · 2019-11-25T08:14:04Z

Но ругается на отсутствие модуля sentenize - не знаю какой выбрать,
чтобы увидеть все эти переменные.

Нужно сделать import razdel.sentenize

dimosarts · 2019-11-26T11:43:56Z

я это первым делом попробовал, но... import razdel.sentenize ModuleNotFoundError: No module named 'razdel.sentenize' пн, 25 нояб. 2019 г. в 11:14, Alexander Kukushkin <[email protected]

…

: Но ругается на отсутствие модуля sentenize - не знаю какой выбрать, чтобы увидеть все эти переменные. Нужно сделать import razdel.sentenize — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub <#8?email_source=notifications&email_token=ACC27NSS3VU22S37K7IVZHDQVOCMZA5CNFSM4JQCOGNKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOEFBQQEI#issuecomment-558041105>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ACC27NWQ657VZA3OXLE6TO3QVOCMZANCNFSM4JQCOGNA> .

MikhailYeka · 2020-02-20T07:54:20Z

Вопрос в тему. Можно ли как-то добавлять свои правила для сентенизации (sentenize) текста прямо в своём коде? Мне нужно сентенизировать разделение текста на предложения по символу переноса строки '\n'.

kuk · 2020-02-21T07:34:26Z

Вопрос в тему. Можно ли как-то добавлять свои правила для сентенизации (sentenize) текста прямо в своём коде? Мне нужно сентенизировать разделение текста на предложения по символу переноса строки '\n'.

Почему бы просто не разбить текст на строки по \n, для каждой строки запустите sentenize

text = ...
for line in text.splitlines():
  for sent in sentenize(line):
     ...

inthedark122 · 2021-02-15T21:32:32Z

Мне тоже пришлось разбивать по \n, в итоге решение получилось вот таким:

import re
from razdel.segmenters.sentenize import SentSplitter, RULES, DELIMITERS, SMILES, SentSegmenter

DELIMITER = '({smiles}|[{delimiters}]|\n)'.format(
    delimiters=re.escape(DELIMITERS),
    smiles=SMILES
)
MY_RULES = []
sentenize_my = SentSegmenter(split=SentSplitter(pattern=DELIMITER), rules=MY_RULES + RULES)

list(sentenize_my(text))

При этому в MY_RULES можно добавить свои правила для объединения

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Эвристическими правилами удаляются правильные разделения предложений #8

Эвристическими правилами удаляются правильные разделения предложений #8

dimosarts commented Nov 21, 2019

kuk commented Nov 21, 2019

dimosarts commented Nov 25, 2019 via email

kuk commented Nov 25, 2019

dimosarts commented Nov 26, 2019 via email

MikhailYeka commented Feb 20, 2020

kuk commented Feb 21, 2020

inthedark122 commented Feb 15, 2021

Эвристическими правилами удаляются правильные разделения предложений #8

Эвристическими правилами удаляются правильные разделения предложений #8

Comments

dimosarts commented Nov 21, 2019

kuk commented Nov 21, 2019

dimosarts commented Nov 25, 2019 via email

kuk commented Nov 25, 2019

dimosarts commented Nov 26, 2019 via email

MikhailYeka commented Feb 20, 2020

kuk commented Feb 21, 2020

inthedark122 commented Feb 15, 2021