För texter som är skrivna i nusvenska kan Sparv generera följande typer av annotationer:
-
Ordklasstaggning:
pos
: ordklasstagg (av engelskans 'part of speech')msd
: morfosyntaktisk tagg
Verktyg: Hunpos
Modell: egen modell tränad på SUC 3.0
Taggmängd: MSD-taggar -
SALDO-baserade analyser:
baseform
: grundformlemgram
: lemgram, en formenhet som identifierar böjningstabellen (använder SALDO taggar)sense
: identifierar en betydelse i SALDO samt dess sannolikhet- (
saldo
: identifierar en betydelse i SALDO - kommer att tas bort snart) sentiment
: attitydvärde
-
Sammansättningsanalys (också baserad på SALDO):
complemgram
: sammansatt lemgramcompwf
: sammansatt ordform- (
prefix
: förled vid sammansättningar - kommer att tas bort snart) - (
suffix
: efterled vid sammansättningar - kommer att tas bort snart)
-
Dependensanalys:
ref
: ordets position i meningendephead
: dependenshuvud, ref för det ord som detta ord modifierar eller är beroende avdeprel
: dependensrelation, den relation detta ord har till sitt dependenshuvud
Verktyg: MaltParser
Modell: swemalt, tränad på Svensk trädbank
Taggmängd: Mamba-Dep -
Namnigenkänning:
ne.ex
: namnentitet (namnuttryck, numerisk uttryck eller tidsuttryck)ne.type
: namnentitetstypne.subtype
: namnentitetsundertyp
Verktyg: hfst-SweNER
Referenser: HFST-SweNER – A New NER Resource for Swedish, Reducing the effect of name explosion -
Läsbarhetsindex:
text.lix
: LIX, läsbarhetsindextext.ovix
: OVIX, ordvariationsindextext.nk
: Nominalkvot
-
Lexikala klasser:
blingbring
: lexikala klasser från Blingbring-resursen (på ordnivå)swefn
: ramar fråm swedish FrameNet (på ordnivå)text.blingbring
: lexikala klasser från Blingbring-resursen (på dokumentnivå)text.swefn
: ramar fråm swedish FrameNet (på dokumentnivå)
Äldre svenska texter eller texter som är skrivna på andra språk kan i vissa fall märkas upp med en delmängd av ovanstående annotationstyper.
Annotationen msd
för icke-svenska språk är baserad på olika taggmängder,
beroende på språket och på vilket verktyg som har använts för annotationen. Attributet
innehåller information om ordklass och i många fall även morfosyntaktisk information.
Annotationen pos
innehåller enbart orklassinformation och använder sig av
taggmängden "universal POS tags".