Skip to content

Commit

Permalink
feat: adding constants
Browse files Browse the repository at this point in the history
  • Loading branch information
arthurfg committed Oct 31, 2023
1 parent 57acb45 commit 6f2cc3d
Show file tree
Hide file tree
Showing 2 changed files with 27 additions and 24 deletions.
24 changes: 24 additions & 0 deletions pipelines/datasets/br_cgu_beneficios_cidadao/constants.py
Original file line number Diff line number Diff line change
Expand Up @@ -5,6 +5,8 @@

from enum import Enum

import numpy as np


class constants(Enum): # pylint: disable=c0103
"""
Expand All @@ -16,3 +18,25 @@ class constants(Enum): # pylint: disable=c0103
)

MAIN_URL = "https://dadosabertos-download.cgu.gov.br/PortalDaTransparencia/saida/novo-bolsa-familia/"
DTYPES = {
"MÊS COMPETÊNCIA": str,
"MÊS REFERÊNCIA": str,
"UF": str,
"CÓDIGO MUNICÍPIO SIAFI": str,
"NOME MUNICÍPIO": str,
"CPF FAVORECIDO": str,
"NIS FAVORECIDO": str,
"NOME FAVORECIDO": str,
"VALOR PARCELA": np.float64,
}
RENAMER = {
"MÊS COMPETÊNCIA": "mes_competencia",
"MÊS REFERÊNCIA": "mes_referencia",
"UF": "sigla_uf",
"CÓDIGO MUNICÍPIO SIAFI": "id_municipio_siafi",
"NOME MUNICÍPIO": "municipio",
"CPF FAVORECIDO": "cpf",
"NIS FAVORECIDO": "nis",
"NOME FAVORECIDO": "nome",
"VALOR PARCELA": "valor",
}
27 changes: 3 additions & 24 deletions pipelines/datasets/br_cgu_beneficios_cidadao/utils.py
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,6 @@
import os
import zipfile

import dask.dataframe as dd
import numpy as np
import pandas as pd
import requests
Expand Down Expand Up @@ -164,39 +163,19 @@ def parquet_partition(path):
# encoding="latin-1",
# dtype="string",
# )
dtypes = {
"MÊS COMPETÊNCIA": str,
"MÊS REFERÊNCIA": str,
"UF": str,
"CÓDIGO MUNICÍPIO SIAFI": str,
"NOME MUNICÍPIO": str,
"CPF FAVORECIDO": str,
"NIS FAVORECIDO": str,
"NOME FAVORECIDO": str,
"VALOR PARCELA": np.float64,
}

df = None
with pd.read_csv(
f"{path}{nome_arquivo}",
sep=";",
encoding="latin-1",
dtype=dtypes,
dtype=constants.DTYPES.value,
chunksize=1000000,
decimal=",",
) as reader:
for chunk in tqdm(reader):
chunk.rename(
columns={
"MÊS COMPETÊNCIA": "mes_competencia",
"MÊS REFERÊNCIA": "mes_referencia",
"UF": "sigla_uf",
"CÓDIGO MUNICÍPIO SIAFI": "id_municipio_siafi",
"NOME MUNICÍPIO": "municipio",
"CPF FAVORECIDO": "cpf",
"NIS FAVORECIDO": "nis",
"NOME FAVORECIDO": "nome",
"VALOR PARCELA": "valor",
},
columns=constants.RENAMER.value,
inplace=True,
)
if df is None:
Expand Down

0 comments on commit 6f2cc3d

Please sign in to comment.