Software para la digitalización, transcripción y clasificación de las distintas partes de notas periodisticas.
Deberías usar Python 3.10.6, chequea eso antes de crear tu virtualenv
-
Crear virtualenv usando python3 (follow https://virtualenvwrapper.readthedocs.io/en/latest/install.html)
virtualenv <name_env>
-
Activar el virtualenv
source <name_env>/bin/activate
-
Instalar python requirements
pip install -r requirements.txt
-
Instalar tesseract
sudo sh install.sh
Para realizar el entrenamiento es necesario contar con notas previamente etiquetadas. Para realizar el etiquetado puede usar Label Studio y posteriormente realizar la conversión al formato indicado usando labels-to-json. Cada imagen de nota en formato .tif debe estar acompañada del respectivo archivo .json con las anotaciones. En la carpeta input data puede encontar un modelo de ejemplo.
Hay dos formas de trabajo configurables mediante la variable TRAIN_FLOW
que se encuentra en el archivo src.py
(su valor por default es False
):
-
Para realizar el entrenamiento del modelo y guardar dicho modelo para poder ser utilizado (reemplaza al archivo del modelo existente):
TRAIN_FLOW = True
-
Para realizar predicciones a partir de un modelo previamente entrenado (flujo por default):
TRAIN_FLOW = False
Una vez defina la forma de trabajo, se ejecuta desde la terminal
python run.py