-
Notifications
You must be signed in to change notification settings - Fork 9
[03] Criando um coletor
Neste tutorial, iremos criar um coletor simples, utilizando como exemplo a coleta de licitações da cidade de Monsenhor Paulo (descrita na issue #375). Esta página é estática e todos os links para os arquivos que queremos coletar estão no código fonte da própria página. Na imagem abaixo, um print da página que iremos coletar.
Devemos preencher, obrigatoriamente, nome do coletor, URL base e caminho para salvar os arquivos. Neste exemplo, damos o nome de "Licitações de Monsenhor Paulo" para fácil identificação. Por sua vez, a URL base da coleta é: https://monsenhorpaulo.mg.gov.br/site/licitacao/ . Por fim, o caminho de dados correspondente, que pode ser customizável, desde que indique um caminho válido. Caso a pasta não esteja criada (neste caso, a pasta 'licitacoes_monsenhor_paulo'), o coletor a criará automaticamente.
Em seguida, ativaremos a opção de auto ajuste de intervalo de requisições para minimizar a quantidade de requisições bloqueadas. Ao clicar na checkbox 'Habilitar auto ajuste de intervalo', as opções padrão são intervalor inicial igual a 2, intervalo máximo igual a 10. Estes valores podem ser ajustados de acordo com a necessidade, basta editar os valores de intervalo.
Neste coletor, será necessário explorar os links, utiliando a profundidade máxima do link igual a 1. Este passo é necessário para que o coletor identifique os links para os arquivos que queremos coletar.
Neste tutorial, queremos baixar arquivos dos tipos .pdf, .docx, .doc, .rar e .zip. Devemos então habilitar a opção 'Baixar arquivos' e inserir os tipos de arquivos desejados, separados por vírgula, no campo adequado.
Com as especificações definidas, podemos apertar no botão 'Create', no canto inferior esquerdo da tela, que irá criar o nosso coletor.
Após a criação do nosso coletor, ele irá aparecer na lista com todos os demais coletores. Em seguida, devemos clicar no botão "Detalhes".
Seremos redirecionados para a seguinte tela, onde poderemos começar ou parar uma coleta, editar ou excluir nosso coletor.
Por fim, devemos clicar no botão 'Começar', incializando nossa coleta.