Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

negative PARTicles #71

Closed
vcvpaiva opened this issue Nov 1, 2016 · 16 comments
Closed

negative PARTicles #71

vcvpaiva opened this issue Nov 1, 2016 · 16 comments

Comments

@vcvpaiva
Copy link

vcvpaiva commented Nov 1, 2016

Associated with #69 . Negative particles as described in https://github.com/own-pt/bosque-UD/blob/master/ud-docs/_pt-pos/PART.md do not show up at all in the Portuguese-Bosque. this is odd as Zeman's version of the corpus has 39 of these. need to see if these 39 are mistagged now.

Related to number 32 in list at #69 http://universaldependencies.org/svalidation.html

@vcvpaiva
Copy link
Author

vcvpaiva commented Nov 11, 2016

Checked the negative particles in UD-PT using query PART in http://universaldependencies.org/svalidation.html,
discovered that the negative particles came from mwe expressions:
"Já não, A não ser que, não só, não obstante"
mostly.

while "A não ser que, não só, não obstante" seem to me reasonable mwes, "já não" particularly in
"Já não há o império de o mal para combater "
does not look like one to me. to me this seems like ADV and then sentence "Não há o império do mal para combater". what do you say @livyreal , @claudiafreitas ?

@livyreal
Copy link

@vcvpaiva estou tentando fechar algumas issues esta semana. "Já não" me parece ok para uma mwe de negação, como "não só", são composicionais, mas ainda são mwe. Qual o ponto exatamente desta issue?

Veja, mesmo dentro de uma mwe, as partículas negativas deveriam estar anotadas como PART, pois dentro de uma mwe, ainda cada palavra tem a sua POS. Verifiquei aqui como andam as partículas negativas dentro de MWE. Algumas são etiquetadas como NOUN e outras como ADV:

[Bosque-ud-train]

66	não	não	ADV	ADV|@>A	_	67	neg	_	MWE:não=só
67	só	só	ADV	ADV|@>A	_	41	advmod	_	_

5	já	já	ADP	PRP|@ADVL>	_	6	case	_	MWE:já=não
6	não	não	NOUN	N|M|S|@P<	Gender=Masc|Number=Sing	8	nmod	_	

Para mim, é estranho tagear "não" como PART e não como ADV, mas as guidelines me parecem suficientes claras para tagearmos "não" como PART.

Assim o que resolve este issue é tagear as partículas negativas dentro de mwe de NOUN e ADV para PART. É isto?

@vcvpaiva
Copy link
Author

vcvpaiva commented Nov 21, 2016

@livyreal eu estava tentando verificar porque tem mais PARTs no UD-Portuguese do que no Portuguese-Bosque. e a razao sao os "nao" que estao marcados no UD-Portuguese como parte de uma mwe, como as que eu mostrei. pra verificar procure por PART no corpus UD-PT. algumas das mwes me parecem estranhas, mas no PT-Bosque nao temos essas mwes.

dai que se voce acha que essas mwes estao corretas, precisamos adiciona-las ao PT-Bosque, com a tag PART, como voce disse.

pelo que entendo nao temos nenhuma PART=nao no PT-Bosque, correto?

@claudiafreitas
Copy link

decidimos anotar "não" como ADV e prefixos estão como PART #46

@vcvpaiva
Copy link
Author

vcvpaiva commented Nov 27, 2016

mas @claudiafreitas tem 39 parts=NAO que precisam ser transformadas em ADV entao. e' pra fechar esse issue sem te-lo feito?

@livyreal
Copy link

@vcvpaiva eu não achei nenhum deles, vc pode listá-los?

@claudiafreitas pensei em um exemplo do uso de "não" como PART, não tem no corpus, mas posso já deixar claro nas diretivas. "não-lugar", "não ser". O que vc acha?

@vcvpaiva
Copy link
Author

@livyreal eu sei q tem 19 por causa das stats, que dao 19 naos como PART no UD-Portuguese e nenhum no Portuguese-Bosque. mas sei como lista-los sim, coloco a lista aqui mais tarde.

@livyreal
Copy link

ok, então no nosso não tem nada errado!? por isto que a issue tinha sido fechada então :)

@claudiafreitas
Copy link

claudiafreitas commented Nov 28, 2016

@livyreal , nao precisa ir longe... talvez haja não-fumante. Concordo em termos o "não", nesse caso, como PART.. Já que se trata de caso ´próximo a neo-realismo.

@vcvpaiva
Copy link
Author

vcvpaiva commented Nov 30, 2016

@livyreal o exemplo que eu dei

Já não há o império de o mal para combater

no nosso corpus 'nao' esta' marcado como NOUN, o que faz desaparecer a negacao!!

tem 40 casos desses, pelo menos. se voce olhar 'neg' nas stats vai uma diferenca maior:
neg UD-PT-BR -- 1501
neg UD-PT -- 1249
neg UD-Bosque -- 1345

pra fechar esse issue, tem que abrir individuais pra "Já não", "nao obstante", etc..

Para mim, é estranho tagear "não" como PART e não como ADV, mas as guidelines me parecem suficientes claras para tagearmos "não" como PART.

sim, concordo completamente. mss entao preciamos achar e consertar os 40 naos que nao aparecem no Bosque, mas aparecem na versao UD-PT,ne?

@vcvpaiva vcvpaiva reopened this Nov 30, 2016
@livyreal
Copy link

precisamos mesmo resolver o "já não". #98

"não obstante" está ok. por mim, dá pra fechar este issue, se tiver mais alguma coisa, @vcvpaiva , o quanto mais específica vc for, mas fácil :)

@vcvpaiva
Copy link
Author

vcvpaiva commented Nov 30, 2016

@livyreal os outros problemas dos 40 NEG PART que nao temos no PT-Bosque.

o que eu fiz: olhei no UD_PT PART, tem 44 aparentemente. nao olhei os prefixos, mas olhei os NEG, pois se nao temos nenhum PART neg no Bosque, esses 40 PART nao devem estar mal marcados. alem de "ja' nao" e de "nao obstante" achei duas mwes: "a_não_ser_que" e "não só".

quer criar um issue so' pra essas duas? e me diga como a gente faz pra colar bonitinho um exemplo da interface Turku, please?

"a nao ser que" tem ser= noun in "a nao ser que"????

em

1	A	a	DET	conj-s	Definite=Def|Gender=Fem|Number=Sing|PronType=Art	7	mark	_	MWE=A_não_ser_que|MWEPOS=SCONJ
2	não	não	PART	PART	Negative=Neg	1	mwe	_	_
3	ser	ser	NOUN	NOUN	_	1	mwe	_	_
4	que	que	SCONJ	SCONJ	_	1	mwe	_	_
5	estejamos	estar	VERB	v-fin|PR|1P|SUBJ	Mood=Sub|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin	7	cop	_	_
6	perante	perante	ADP	prp	AdpType=Prep	7	case	_	_
7	um	um	NUM	num|<card>|M|S	Gender=Masc|Number=Sing|NumType=Card	0	root	_	_
8	de	de	ADP	prp|<sam->	AdpType=Prep	10	case	_	_
9	os	o	DET	art|<-sam>|<artd>|M|P	Definite=Def|Gender=Masc|Number=Plur|PronType=Art	10	det	_	_
10	documentos	documento	NOUN	n|M|P	Gender=Masc|Number=Plur	7	nmod	_	_
11	de	de	ADP	prp|<sam->	AdpType=Prep	13	case	_	_
12	o	o	DET	art|<-sam>|<artd>|M|S	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	13	det	_	_
13	art.	art.	NOUN	n|M|S	Gender=Masc|Number=Sing	10	nmod	_	_
14	46º	46º	ADJ	adj|M|S	Gender=Masc|Number=Sing	13	amod	_	_
15	de	de	ADP	prp|<sam->	AdpType=Prep	17	case	_	_
16	o	o	DET	art|<-sam>|<artd>|M|S	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	17	det	_	_
17	Código	Código	PROPN	prop|M|S	_	13	nmod	_	MWE=Código_do_Processo_Civil|MWEPOS=PROPN
18	de	de	ADP	prp|<sam->	AdpType=Prep	20	case	_	_
19	o	o	DET	art|<-sam>|<artd>|M|S	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	20	det	_	_
20	Processo	Processo	PROPN	PROPN	_	17	name	_	_
21	Civil	Civil	PROPN	PROPN	_	20	name	_	_
22	,	,	PUNCT	punc	_	27	punct	_	_
23	aqui	aqui	ADV	adv	_	27	advmod	_	_
24	sim	sim	ADV	adv	_	27	advmod	_	_
25	,	,	PUNCT	punc	_	27	punct	_	_
26	plenamente	plenamente	ADV	adv	_	27	advmod	_	_
27	aplicável	aplicável	ADJ	adj|M|S	Gender=Masc|Number=Sing	10	amod	_	_
28	,	,	PUNCT	punc	_	27	punct	_	_
29	ou	ou	CONJ	conj-c|<co-vfin>	_	7	cc	_	_
30	haja	haver	VERB	v-fin|PR|3S|SUBJ	Mood=Sub|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	7	conj	_	_
31	lei	lei	NOUN	n|F|S	Gender=Fem|Number=Sing	30	dobj	_	_
32	especial	especial	ADJ	adj|F|S	Gender=Fem|Number=Sing	31	amod	_	_
33	que	que	PRON	pron-indp|<rel>|F|S	Gender=Fem|Number=Sing|PronType=Rel	35	dobj	_	_
34	tal	tal	PRON	pron-det|<diff>|M|S	Gender=Masc|Number=Sing	35	nsubj	_	_
35	disponha	dispor	VERB	v-fin|PR|3S|SUBJ	Mood=Sub|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	31	acl	_	_
36	.	.	PUNCT	punc	_	7	punct	_	_

@vcvpaiva
Copy link
Author

vcvpaiva commented Nov 30, 2016

e mais "não só" mwe tambem?

MWE=não_só|MWEPOS=ADV
1	De	de	ADP	prp	AdpType=Prep	3	case	_	_
2	um	um	DET	art|<arti>|M|S	Definite=Ind|Gender=Masc|Number=Sing|PronType=Art	3	det	_	_
3	modo	modo	NOUN	n|M|S	Gender=Masc|Number=Sing	15	nmod	_	_
4	aparentemente	aparentemente	ADV	adv	_	5	advmod	_	_
5	displicente	displicente	ADJ	adj|M|S	Gender=Masc|Number=Sing	3	amod	_	_
6	,	,	PUNCT	punc	_	5	punct	_	_
7	mas	mas	CONJ	conj-c	_	5	cc	_	_
8	evidentemente	evidentemente	ADV	adv	_	9	advmod	_	_
9	estudado	estudar	VERB	v-pcp|M|S	Gender=Masc|Number=Sing|VerbForm=Part	5	conj	_	_
10	em	em	ADP	prp|<sam->	AdpType=Prep	13	case	_	_
11	os	o	DET	art|<-sam>|<artd>|M|P	Definite=Def|Gender=Masc|Number=Plur|PronType=Art	13	det	_	_
12	seus	seu	DET	pron-det|<poss|3S>|<si>|M|P	Gender=Masc|Number=Plur|Number[psor]=Sing|Person=3|Poss=Yes|PronType=Prs|Reflex=Yes	13	det	_	_
13	efeitos	efeito	NOUN	n|M|P	Gender=Masc|Number=Plur	9	nmod	_	_
14	,	,	PUNCT	punc	_	15	punct	_	_
15	surgem	surgir	VERB	v-fin|PR|3P|IND	Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin	0	root	_	_
16	referências	referência	NOUN	n|F|P	Gender=Fem|Number=Plur	15	nsubj	_	_
17	a	a	ADP	prp	AdpType=Prep	18	case	_	_
18	Nitsch	Nitsch	PROPN	prop|M|S	_	16	nmod	_	MWE=Nitsch_Hermann|MWEPOS=PROPN
19	Hermann	Hermann	PROPN	PROPN	_	18	name	_	_
20	e	e	CONJ	conj-c	_	18	cc	_	_
21	a	a	ADP	prp	AdpType=Prep	22	case	_	_
22	Rodolf	Rodolf	PROPN	prop|M|S	_	18	conj	_	MWE=Rodolf_Schwarzkogler|MWEPOS=PROPN
23	Schwarzkogler	Schwarzkogler	PROPN	PROPN	_	22	name	_	_
24	,	,	PUNCT	punc	_	18	punct	_	_
25	por	por	ADP	adv	AdpType=Prep	18	advmod	_	MWE=por_exemplo|MWEPOS=ADV
26	exemplo	exemplo	NOUN	NOUN	_	25	mwe	_	_
27	,	,	PUNCT	punc	_	18	punct	_	_
28	personagens	personagem	NOUN	n|F|P	Gender=Fem|Number=Plur	18	nmod	_	_
29	que	que	PRON	pron-indp|<rel>|F|P	Gender=Fem|Number=Plur|PronType=Rel	38	nsubj	_	_
30	,	,	PUNCT	punc	_	38	punct	_	_
31	com	com	ADP	prp	AdpType=Prep	32	case	_	_
32	Arnulf	Arnulf	PROPN	prop|M|S	_	38	nmod	_	MWE=Arnulf_Rainer|MWEPOS=PROPN
33	Rainer	Rainer	PROPN	PROPN	_	32	name	_	_
34	e	e	CONJ	conj-c|<co-prparg>	_	32	cc	_	_
35	Günter	Günter	PROPN	prop|M|S	_	32	conj	_	MWE=Günter_Brus|MWEPOS=PROPN
36	Brus	Brus	PROPN	PROPN	_	35	name	_	_
37	,	,	PUNCT	punc	_	38	punct	_	_
38	compuseram	compor	VERB	v-fin|PS|3P|IND	Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin	28	acl	_	_
39	um	um	DET	art|<arti>|M|S	Definite=Ind|Gender=Masc|Number=Sing|PronType=Art	40	det	_	_
40	grupo	grupo	NOUN	n|M|S	Gender=Masc|Number=Sing	38	dobj	_	_
41	de	de	ADP	prp	AdpType=Prep	42	case	_	_
42	artistas	artista	NOUN	n|M/F|P	Number=Plur	40	nmod	_	_
43	vienenses	vienense	ADJ	adj|M/F|P	Number=Plur	42	amod	_	_
44	capaz	capaz	ADJ	adj|M|S	Gender=Masc|Number=Sing	40	amod	_	_
45	de	de	ADP	prp	AdpType=Prep	52	mark	_	_
46	,	,	PUNCT	punc	_	52	punct	_	_
47	em	em	ADP	prp|<sam->	AdpType=Prep	49	case	_	_
48	os	o	DET	art|<-sam>|<artd>|M|P	Definite=Def|Gender=Masc|Number=Plur|PronType=Art	49	det	_	_
49	anos	ano	NOUN	n|M|P	Gender=Masc|Number=Plur	52	nmod	_	_
50	60	60	NUM	num|<card>|M|P	Gender=Masc|Number=Plur|NumType=Card	49	nummod	_	_
51	,	,	PUNCT	punc	_	52	punct	_	_
52	provocar	provocar	VERB	v-inf	VerbForm=Inf	44	advcl	_	_
53	escândalo	escândalo	NOUN	n|M|S	Gender=Masc|Number=Sing	52	dobj	_	_
54	não	não	PART	adv|<kc>	Negative=Neg	58	cc	_	MWE=não_só|MWEPOS=ADV
55	só	só	NOUN	NOUN	_	54	mwe	_	_
56	em	em	ADP	prp|<sam->	AdpType=Prep	58	case	_	_
57	a	o	DET	art|<-sam>|<artd>|S	Definite=Def|Number=Sing|PronType=Art	58	det	_	_
58	cena	cena	NOUN	n|F|S	Gender=Fem|Number=Sing	52	nmod	_	_
59	pantanosa	pantanoso	ADJ	adj|F|S	Gender=Fem|Number=Sing	58	amod	_	_
60	e	e	CONJ	conj-c|<co-postnom>	_	59	cc	_	_
61	hipócrita	hipócrita	ADJ	adj|M|S	Gender=Masc|Number=Sing	59	conj	_	_
62	de	de	ADP	prp|<sam->	AdpType=Prep	64	case	_	_
63	a	o	DET	art|<-sam>|<artd>|S	Definite=Def|Number=Sing|PronType=Art	64	det	_	_
64	arte	arte	NOUN	n|F|S	Gender=Fem|Number=Sing	58	nmod	_	_
65	austríaca	austríaco	ADJ	adj|F|S	Gender=Fem|Number=Sing	64	amod	_	_
66	de	de	ADP	prp|<sam->	AdpType=Prep	68	case	_	_
67	o	o	DET	art|<-sam>|<artd>|M|S	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	68	det	_	_
68	pós-guerra	pós-guerra	NOUN	n|M|S	Gender=Masc|Number=Sing	64	nmod	_	_
69	,	,	PUNCT	punc	_	58	punct	_	_
70	como	como	ADV	adv|<kc>	_	58	cc	_	_
71	em	em	ADP	prp|<sam->	AdpType=Prep	73	case	_	_
72	o	o	DET	art|<-sam>|<artd>|M|S	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	73	det	_	_
73	conjunto	conjunto	NOUN	n|M|S	Gender=Masc|Number=Sing	58	conj	_	_
74	de	de	ADP	prp|<sam->	AdpType=Prep	76	case	_	_
75	a	o	DET	art|<-sam>|<artd>|S	Definite=Def|Number=Sing|PronType=Art	76	det	_	_
76	arte	arte	NOUN	n|F|S	Gender=Fem|Number=Sing	73	nmod	_	_
77	ocidental	ocidental	ADJ	adj|F|S	Gender=Fem|Number=Sing	76	amod	_	_
78	.	.	PUNCT	punc	_	15	punct	_	_

@livyreal
Copy link

livyreal commented Dec 1, 2016

oi @vcvpaiva , acho que sim, são dois issues diferentes, o "não só" e o "a não ser que".

o "não só" será como o já não, em #98. vc quer abrir, por favor?

já o "a não ser que", acho que ele será SCONJ e não ADV. O que vc acha, @claudiafreitas ?

Valeria, o que vc chama de colar bonitinho da interface de TUrku? Colar as árvores? Acho que só dá usando print.

@livyreal livyreal removed the decidido label Dec 1, 2016
@vcvpaiva
Copy link
Author

vcvpaiva commented Dec 1, 2016

tb eu fecho esse issue, ja' que abrimos dois novos pras mwes que eu sei que estao erradas. mas veja que o numero de negativas 'e diferente nos dois corpora por quase 100, acho que as mwes nos dao uns 40. o que acontece com os outros 60? alguma sugestao? acho que 'e capaz de ser coisas que nem "nem feijao ele podia comprar" ou "nada funcionava". enfim..

e obrigada, o colar de janelas conll funciona pra mim tb!

@vcvpaiva vcvpaiva closed this as completed Dec 1, 2016
@livyreal
Copy link

livyreal commented Dec 1, 2016

ok

#98 #99 #100 são discussões específicas deste issue

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants