-
Notifications
You must be signed in to change notification settings - Fork 5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Diccionari AOSP en català (.dict) per Android #19
Comments
@jaumeortola alguna idea del que comento, o pots citar a qui em pugui ajudar? |
He preguntat a alguns companys, però no m'han respost. |
No en tinc ni idea. Sembla que un diccionari com els que hi ha https://codeberg.org/Helium314/aosp-dictionaries ha de ser fàcil de generar, si només cal una llista de paraules. Trobo que al meu Android, el teclat predictiu va força malament, però no sé si això es pot arreglar amb un diccionari d'aquests, estaria bé. Pel que fa a la correcció, entenc que idealment s'hauria de poder fer servir LanguageTool, però això potser no és possible. |
Vejam. Això és un exemple del format de fitxer. Els diccionaris d'anglès són una mica més complexos perquè tenen n-grames.
Tenim les dades per a generar un fitxer així en català, sense gaire complicació. Es podria usar això: https://github.com/Softcatala/catalan-dict-tools/blob/master/frequencies/frequencies-dict-forms.txt O bé això: https://github.com/Softcatala/catalan-dict-tools/blob/master/morfologik-lt/ca_wordlist.xml ¿T'ho pots generar tu mateix, @somhi, o necessites ajuda? Potser hi ha diverses qüestions que caldria pensar bé:
@jmontane Per si vols dir-hi la teva. |
Merci pels comentaris. Jo ara mateix no sabria ni com posar-m'hi a fer-ho. Penso que tenir un teclat per Android que no es quedi amb el que teclegem i compti amb un diccionari propi de la comunitat de softcatalà seria un gran què. |
El problema que tenim en català és la tokenització i l'estimació de freqüències. Pel que sembla, mirant el diccionari francès, l'apòstrof no segmenta paraules i, mirant el diccionari anglès EUA, el guionet tampoc. En resum, sembla que La dificultat de tot plegat és establir la freqüència (ni que sigui aproximada) de cada forma. P.ex. Sobre el nombre d'entrades, sembla que ~200.000 és habitual. Algunes llengües en tenen menys, i una llengua (el belarús) té vora 4.000.000 d'entrades. De fet... ja hi ha un diccionari experimental pel català: https://codeberg.org/Helium314/aosp-dictionaries/src/branch/main/dictionaries_experimental/main_ca.dict Caldria avaluar-ne la qualitat. |
També hi ha aquest altre que és el que utilitzo però no va gaire fi |
Permeteu-me fer la consulta ja que no trobo enlloc informació sobre com poder afegir un bon diccionari català als teclats d'android de codi obert i que respecten la privacitat. Els que he provat son:
FUTO keyboard. Aquest només he trobat el diccionari "catalan wordlist from OpenSubtitles by Guillem Solà i Boeck". No trobo pas que sigui gaire bo. Font https://codeberg.org/Helium314/aosp-dictionaries#dictionaries
Florisboard. Lamentablement no funciona be el spell checker. Aquí els diccionaris que utilitzen son els del addon de mozilla.
Prefereixo no utilitzar Gboard ni swiftkey ni cal altre de codi privatiu.
Teniu forma de generar un diccionari .DICT pel FUTO keyboard? Seria afegir-lo en aquest repositori https://codeberg.org/Helium314/aosp-dictionaries (This repository contains dictionaries for AOSP keyboard and compatible apps, as well as word lists used to create the dictionaries. )
Aquest teclat FUTO és molt prometedor ja que permet baixar els models de llengua multilingual-244 que tenen el català implementat per a transcripció de veu a text https://keyboard.futo.org/whisper-training-data-breakdown. L'he provat i no funciona pas malament.
The text was updated successfully, but these errors were encountered: