-
Notifications
You must be signed in to change notification settings - Fork 9
[03] Criando um coletor
Neste tutorial, iremos criar um coletor simples, utilizando como exemplo a coleta de licitações da cidade de Rio Preto (descrita na issue #380). Esta página é estática e todos os links para os arquivos que queremos coletar estão no código fonte da própria página. Na imagem abaixo, um print da página que iremos coletar.
Devemos preencher, obrigatoriamente, nome do coletor, URL base, tempo de execução, tipo, descrição e caminho para salvar os arquivos. Neste exemplo, damos o nome de "Licitações de Rio Preto" para fácil identificação. Por sua vez, a URL base da coleta é: https://www.riopreto.mg.gov.br/processos-licitatorios/. A expectativa de tempo é rápido, por serem poucas páginas. O tipo e descrição de acordo com a coleta e o caminho de dados correspondente, que pode ser customizável, desde que indique um caminho válido. Caso a pasta não esteja criada (neste caso, a pasta 'rio_preto/licitacoes'), o coletor a criará automaticamente.
Em seguida, ativaremos a opção de auto ajuste de intervalo de requisições para minimizar a quantidade de requisições bloqueadas. Ao clicar na checkbox 'Habilitar auto ajuste de intervalo', as opções padrão são intervalor inicial igual a 2, intervalo máximo igual a 10. Estes valores podem ser ajustados de acordo com a necessidade, basta editar os valores de intervalo.
Neste coletor, será necessário explorar os links, utiliando a profundidade máxima do link igual a 1. Este passo é necessário para que o coletor identifique os links para os arquivos que queremos coletar. Também específicamos um regex para filtrar as urls apenas das páginas de licitações dos anos disponíveis, mas é possível deixar em branco sem filtragem.
Devemos então habilitar a opção 'Baixar arquivos' pois queremos baixar os arquivos, nesse caso, de qualquer tipo, mas também pode-se inserir os tipos de arquivos desejados, separados por vírgula, no campo adequado.
Temos ainda a opção de baixar imagens, que pode ser habilitado, e a checagem de tamanho de arquivos para baixar, mas caso não tenha arquivos grandes involvidos na coleta, pode-se desabilitar essa opção para ganho de performance na execução do coletor.
Com as especificações definidas, podemos apertar no botão 'Create', no canto inferior esquerdo da tela, que irá criar o nosso coletor.
Após a criação do nosso coletor, seremos redirecionados para a seguinte tela, onde poderemos começar ou parar a coleta, editar ou excluir nosso coletor, além de ver os detalhes e futuramente os logs e informações das instâncias de execução.
Por fim, clicando no botão 'Começar' inciamos a execução da nossa coleta.