-
Notifications
You must be signed in to change notification settings - Fork 9
[07] Caso de Uso: Injeção em URLs Parametrizadas
O mecanismo de URLs parametrizadas permite a geração de múltiplas URLs iniciais a partir da injeção de parâmetros em uma URL base. A parametrização das URLs é feita a partir da colocação de marcadores de posição na URL base. Esses marcadores são representados pelos caracteres {}
. A configuração de injetores nesse caso funciona de forma:
-
Primeiramente, deve-se preencher a URL base, com os marcadores de posição nas localizações desejadas.
-
A seguir, abrindo a seção de URLs parametrizadas, deve-se configurar os injetores respectivos a cada marcador de posição. Os injetores são criados automaticamente de acordo com a quantidade de marcadores na URL base.
-
É possível também utilizar a filtragem de limites de busca, que será explicado nas próximas seções.
-
Por fim, é possível configurar a validação das páginas obtidas, tanto para a filtragem de limites (caso seja ativada) quanto para evitar a coleta de páginas inválidas.
Ao executar o coletor, todas as URLs são geradas a partir da URL base, usando os injetores configurados. Para cada URL gerada, os passos de coleta subsequentes são executados.
Utilizaremos esta fonte para demonstrar o mecanismo de URLs parametrizadas.
Descendo um pouco na página, no canto esquerdo, há diversos tipos de licitações que podem ser obtidas. Vamos coletar apenas as páginas das licitações de Concorrência, de Dispensa e de Leilão.
Preenchemos os detalhes básicos. Note que inserimos https://recreio.mg.gov.br/{}.html
como a URL base. A sequência {}
indica a posição dos tipos de licitações que injetaremos.
A seguir, configuramos a seção de URLs parametrizadas:
Configuramos a injeção dos parâmetros da lista que representam as páginas a serem acessadas. Esse parâmetro será inserido na URL base, substituindo os caracteres {}
.
Vamos configurar agora a validação para esse caso. Páginas com erro possuem o texto "Página não encontrada", portanto configuramos um validador textual, fazendo a inversão do valor para que seja uma página válida:
Por fim, acessamos a seção de detalhes do coletor. Precisamos ativar a opção de explorar links para acessar as páginas de cada licitação. Precisamos permitir páginas que casem com a expressão regular https:\/\/recreio\.mg\.gov\.br\/(leilao|dispensa|concorrencia|).html
para filtrar as páginas de interesse. Também configuramos a profundidade máxima do link como 0, para que não seja possível a exploração de páginas a partir das páginas iniciais. Neste exemplo, não desejamos obter arquivos, apenas as três páginas.
Nesse ponto, finalizamos a configuração. Podemos salvar o coletor, executar a coleta, e as páginas desejadas serão baixados na pasta especificada.
Para essa coleta, temos um arquivo de configuração disponível nesse link. É possível importar essa configuração do coletor navegando até a página de "Novo Coletor" e, em seguida, abrindo a seção "Importar configuração". Use o seletor de arquivo para encontrar a configuração baixada em seu sistema e as configurações da coleta serão automaticamente preenchidas.