Skip to content

[07] Caso de Uso: Injeção em URLs Parametrizadas

Loui edited this page May 24, 2023 · 2 revisions

O mecanismo de URLs parametrizadas permite a geração de múltiplas URLs iniciais a partir da injeção de parâmetros em uma URL base. A parametrização das URLs é feita a partir da colocação de marcadores de posição na URL base. Esses marcadores são representados pelos caracteres {}. A configuração de injetores nesse caso funciona de forma:

  • Primeiramente, deve-se preencher a URL base, com os marcadores de posição nas localizações desejadas.

  • A seguir, abrindo a seção de URLs parametrizadas, deve-se configurar os injetores respectivos a cada marcador de posição. Os injetores são criados automaticamente de acordo com a quantidade de marcadores na URL base.

  • É possível também utilizar a filtragem de limites de busca, que será explicado nas próximas seções.

  • Por fim, é possível configurar a validação das páginas obtidas, tanto para a filtragem de limites (caso seja ativada) quanto para evitar a coleta de páginas inválidas.

Ao executar o coletor, todas as URLs são geradas a partir da URL base, usando os injetores configurados. Para cada URL gerada, os passos de coleta subsequentes são executados.

Caso de uso: Licitações da Prefeitura de Recreio

Utilizaremos esta fonte para demonstrar o mecanismo de URLs parametrizadas.

Recreio

Descendo um pouco na página, no canto esquerdo, há diversos tipos de licitações que podem ser obtidas. Vamos coletar apenas as páginas das licitações de Concorrência, de Dispensa e de Leilão.

Licitações de Concorrência

Licitações de Dispensa

Licitações de Leilão

Configuração

Preenchemos os detalhes básicos. Note que inserimos https://recreio.mg.gov.br/{}.html como a URL base. A sequência {} indica a posição dos tipos de licitações que injetaremos.

Tela de informações básicas da fonte

A seguir, configuramos a seção de URLs parametrizadas:

Configuração de Lista

Configuramos a injeção dos parâmetros da lista que representam as páginas a serem acessadas. Esse parâmetro será inserido na URL base, substituindo os caracteres {}.

Vamos configurar agora a validação para esse caso. Páginas com erro possuem o texto "Página não encontrada", portanto configuramos um validador textual, fazendo a inversão do valor para que seja uma página válida:

Configuração da validação por texto

Por fim, acessamos a seção de detalhes do coletor. Precisamos ativar a opção de explorar links para acessar as páginas de cada licitação. Precisamos permitir páginas que casem com a expressão regular https:\/\/recreio\.mg\.gov\.br\/(leilao|dispensa|concorrencia|).html para filtrar as páginas de interesse. Também configuramos a profundidade máxima do link como 0, para que não seja possível a exploração de páginas a partir das páginas iniciais. Neste exemplo, não desejamos obter arquivos, apenas as três páginas.

Configuração da exploração de links

Nesse ponto, finalizamos a configuração. Podemos salvar o coletor, executar a coleta, e as páginas desejadas serão baixados na pasta especificada.

Para essa coleta, temos um arquivo de configuração disponível nesse link. É possível importar essa configuração do coletor navegando até a página de "Novo Coletor" e, em seguida, abrindo a seção "Importar configuração". Use o seletor de arquivo para encontrar a configuração baixada em seu sistema e as configurações da coleta serão automaticamente preenchidas.