-
Notifications
You must be signed in to change notification settings - Fork 12
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
compounded proper nouns #23
Comments
is this issue still an issue? I thought Eckhard's new version, unpacking the mwes (that are now flat) had solved this one? |
o Eckhard apenas quebrou estas palavras, mas o fato de "do Estado" não participar da MWE precisa ser corrigido à mão, o POS tag individual de cada expressão das MWES também precisa ser feito à mão. Quando ele quebrou as mwes: Fundo_Social_de_Solidariedade (PROPN) virou Fundo (PROPN) Social (PROPN) de (PROPN) Solidariedade (PROPN). Esta é uma issue que eu espero ser resolvida com a #110 Dá pra fechar, @arademaker ou é algo mais específico aqui? |
@livyreal não dá não. Como vai ficar o valor de MWE no campo misc? "Fundo_Social_de_Solidariedade_de_o_Estado" ou "Fundo_Social_de_Solidariedade_do_Estado" ? Em outras palavras, como lidar com as contrações? Por isso sou contra mantermos este valor MWE no campo misc! Como ficam as relações dos tokens 14-18 ? Todos ligados ao 12 por edited: concordo que provavelmente isto é parte do #110 mas não temos como pesquisar fácil as listas da @claudiafreitas como elas estão para sabermos se este nome ocorre nelas. Achei em uma delas uma MWE 'Fundo_Social' apenas, deve ser exatamente esta que estamos vendo aqui que foi quebrada indevidamente. |
@arademaker you may have seen that there are 723 "fusions" in the UD_Portuguese corpus, as per stats in https://github.com/UniversalDependencies/UD_Portuguese/blob/master/stats.xml#L12. |
@vcvpaiva yes, lines such as this. I am aware of that and I know that we need to fix our data since we haven't encoded it. Actually, the English treebank haven't encoded it either. The documentation about it is here and we recently discussed it in UniversalDependencies/docs#322 But I didn't understand the reason for the comment here. EDITED: fusions are also called contractions. |
@livyreal and @claudiafreitas do you agree with the changed in the file? Can I close this issue? |
well, it's just that you can create an issue to go over all the, not so many, 733 occurrences, if you wish. |
In the UD_Portuguese we have ~17K contractions!
We need first to improve our library for read and write conllu files. It can't handle these lines yet. |
but only 723 fusions? so fusions must be a special kind of contraction?
|
ok, then not feasible indeed.
|
este issue começou com uma discussão de um caso particular de MWE de nome, depois passou a falar de contrações. De lá para cá, novo tratamento esta sendo adotado para MWE de nomes.. Logo, vou fechar este issue aproveitando correção que fiz em 2ecb4aa |
The sentence is "A renda da noite de inauguração será doada ao Fundo Social de Solidariedade do Estado."
Note that #13 deals with the difference between UD and PALAVRAS to encode MWE in a single token vs. dep relations. Here the problem is the identification of the MWE, in particular NE. This is only one case, we may have probably more. How to fix it? I am assuming that would need to be done manually.
The text was updated successfully, but these errors were encountered: