Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Сприймати японські гонорифіки як окремі токени #19

Open
bicolino34 opened this issue Oct 25, 2024 · 2 comments

Comments

@bicolino34
Copy link

Перекладачі з японської часто залишають у перекладі гонорифіки, що використовуються у японській. Вони пишуться після імені через дефіс і повинні сприйматися як окремі токени:

  • кун.

– Як мається Нісіяма-кун ?

  • чян, тян, цян.

А Ітару-цян міг знати це від самого початку .

І фото , і картина , де жінки з японськими зачісками , — все це в неї « Кома-тян » .

  • сан

Окада-сан , ви коли-небудь бували на Мальті ?

  • сама
    Після вдаваної тридцятисекундної перевірки щитка Аомаме звернулася до Міями : — Щиро дякую за допомогу , Міяма-сама .

  • доно
    — Сімбей-доно , маю до вас велике прохання , — звернувся до Накамури з низьким поклоном красень-самурай , який щойно сягнув повноліття .

  • сенсей

Тим паче що Ватая-сенсей не жив зі своєю дружиною , з якою розлучився , нормальним статевим життям …


Наскільки мені відомо, усі ці слова, крім «сенсей», відсутні у ВЕСУМі

@arysin
Copy link
Collaborator

arysin commented Oct 26, 2024

Наразі були вирішено, що лише українські частки, що пишуться через дефіс тегуються, як окремі токени.
Іноземні частки (переважно) не є окремою одиницею в українській і тому тегуються разом (напр. Ла-Манш).
Деякі з таких часток з іменами розпізнаються тегувальником динамічно, напр. Петро-сан та Петро-сенсей буде розпізнано (але як один токен). Але їх розпізнавання залежить від набору часток, про які тегувальник знає і наявністю імені в словнику. Обидві присутності визначаються достатньою (= великою) частотністю в українських текстах.
@vstarko

@vstarko
Copy link

vstarko commented Oct 30, 2024

Підтверджую. Ми вже розпізнаємо деякі слова (як один токен) із -сан: Окада-сан, Куміко-сан (бо Окада й Куміко є у ВЕСУМі). Натомість Нобору-сан, Крита-сан тощо не розпізнаємо, бо перших частин у словнику немає.
Тож потрібно спершу наповнити словник високочастотними японськими іменами, а потім додати в тегувальник логіку, щоб розпізнавав їх не лише із -сан, а й з іншими гонорифіками.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants