Skip to content

Latest commit

 

History

History
67 lines (47 loc) · 3.08 KB

annotations_swe.md

File metadata and controls

67 lines (47 loc) · 3.08 KB

För texter som är skrivna i nusvenska kan Sparv generera följande typer av annotationer:

  • Ordklasstaggning:

    • pos: ordklasstagg (av engelskans 'part of speech')
    • msd: morfosyntaktisk tagg

    Verktyg: Hunpos
    Modell: egen modell tränad på SUC 3.0
    Taggmängd: MSD-taggar

  • SALDO-baserade analyser:

    • baseform: grundform
    • lemgram: lemgram, en formenhet som identifierar böjningstabellen (använder SALDO taggar)
    • sense: identifierar en betydelse i SALDO samt dess sannolikhet
    • (saldo: identifierar en betydelse i SALDO - kommer att tas bort snart)
    • sentiment: attitydvärde
  • Sammansättningsanalys (också baserad på SALDO):

    • complemgram: sammansatt lemgram
    • compwf: sammansatt ordform
    • (prefix: förled vid sammansättningar - kommer att tas bort snart)
    • (suffix: efterled vid sammansättningar - kommer att tas bort snart)
  • Dependensanalys:

    • ref: ordets position i meningen
    • dephead: dependenshuvud, ref för det ord som detta ord modifierar eller är beroende av
    • deprel: dependensrelation, den relation detta ord har till sitt dependenshuvud

    Verktyg: MaltParser
    Modell: swemalt, tränad på Svensk trädbank
    Taggmängd: Mamba-Dep

  • Namnigenkänning:

    • ne.ex: namnentitet (namnuttryck, numerisk uttryck eller tidsuttryck)
    • ne.type: namnentitetstyp
    • ne.subtype: namnentitetsundertyp

    Verktyg: hfst-SweNER
    Referenser: HFST-SweNER – A New NER Resource for Swedish, Reducing the effect of name explosion

  • Läsbarhetsindex:

    • text.lix: LIX, läsbarhetsindex
    • text.ovix: OVIX, ordvariationsindex
    • text.nk: Nominalkvot
  • Lexikala klasser:

    • blingbring: lexikala klasser från Blingbring-resursen (på ordnivå)
    • swefn: ramar fråm swedish FrameNet (på ordnivå)
    • text.blingbring: lexikala klasser från Blingbring-resursen (på dokumentnivå)
    • text.swefn: ramar fråm swedish FrameNet (på dokumentnivå)

Äldre svenska texter eller texter som är skrivna på andra språk kan i vissa fall märkas upp med en delmängd av ovanstående annotationstyper.

Annotationen msd för icke-svenska språk är baserad på olika taggmängder, beroende på språket och på vilket verktyg som har använts för annotationen. Attributet innehåller information om ordklass och i många fall även morfosyntaktisk information. Annotationen pos innehåller enbart orklassinformation och använder sig av taggmängden "universal POS tags".