Tools for OCR, cleaning and Topic Modeling of texts in portuguese. Completed tasks and to-do list:
- OCR (using tesseract python library)
- Data Cleansing (using re python library)
- Topic Modelling
- MapReduce
- Data Visualization
About the files in notebook folder, we have
- Tesseract_OCR: for OCR
- processamento_textos: for Data Cleansing
- processamento_textos-ignore_case: Second version of Data Cleansing which makes a database without CAPS correction. Used for entity extraction step.
- build_mysql_database_docs: Creates table with matadata about documents, such as id, content, main language, readability.
- build_mysql_database_dossies: Creates table with matadata about dossies (related with documents), such as subject, keywords, collection, url.
- Clustering_LDA_test_models: Testa parâmetros de modelagem de tópicos e usa dois modelos diferentes (LDA e HDP)
- doc_topics: Creates table with data about topics, documents and topic modelling score
- doc_entities: Mineração de dados de entidades/pessoas
- doc_entities_country: Mineração de dados de entidades/países
- doc_entities_vis: Faz visualização de dados a partir das entidades (RASCUNHO)
- doc_entities_vis: Cria base de dados direcionada a posterior visualização em grafos
- Palavras_Snippet: Algoritmo de extração de entidades com o 'palavras'
Also, we have organization tools in cpdoc-file-organization folder, that we used to reorder and rename CPDOC files. They are listed by the order they were used:
- file_error_identifier: script que identifica arquivos com nome errado devido a quebra de sequência.
- file_rename-to_tif: renomeia arquivos txt para o formato de nome de arquivos tif.
- file_comparison_txt_tif: seleciona e separa arquivos tif e txt em uma mesma pasta para analisá-los ou compará-los.
- file_rename-to_doc: renomeia arquivos txt ou tif para o formato de nome de documentos.
- file_comparison_doc: seleciona e separa arquivos tif (ou txt) em uma mesma pasta para analisá-los ou compará-los com documentos.
- file_group-by_doc: reagrupa arquivos txt para que cada arquivo represente um documento. Antes eram divididos por páginas de documentos.
- file_manager_doc_topics: Captura id de 20 documentos de maior score por tópicos selecionados, cria cóía dos mesmos em pastas separadas e cria tabela em Excel com meta-dados para análise posterior de validação dos tópicos gerados.