2.4 Processo de coleta dos dados

Este livro está em Revisão aberta. Suas impressões são importantes para torná-lo melhor para você e para outros estudantes. Você pode anotar alguns textos selecionando-os com o cursor e clicando no menu popup. Você também pode ler anotações de outras pessoas: Clique no canto superior direito da página

A fim de garantir a reproducibilidade da pesquisa, todo o processo de coleta e análise de dados foi realizado via scripts na linguagem de programação R(???). Scripts são uma sequência de comandos a serem executados pela máquina (computador). Assim, para a coleta dos dados, utilizamos técnicas de respagem de dados (webscraping). Foram montados netbots para baixar as listas anuais de decisões em excel e dessas listas foi possivel obter os números dos processos.

Os arquivos em excel foram importados para o R e empilhados numa única tabela. Em seguida, filtramos a tabela para manter somente as decisões relativas à reclamação. Baixamos três grupos de listas, decisões colegiadas, monocráticas e da presidência.

A tabela totalizou cerca de 24 mil reclamações distintas. Em seguida montamos os scripts para baixar as páginas htmls com as informações processuais. As páginas do STF são organizadas segundo oito abas: aba principal (detalhes), aba informações, aba partes, aba andamento, aba decisões, aba deslocamentos, aba petições, aba recursos, aba pautas. Cada uma dessas abas consiste em um documento html distinto e para baixá-las não é suficiente realizar apenas uma requisição, mas oito requisições. A primeiras elas (detalhes) obtêm além das informações do cabeçalho, também o número do incidente, isto é, uma indexação interna do STF, chamada incidente. Com esses incidentes podemos realizar novas requisições para extrair os dados das demais abas. Em outras palavras, foram necessárias cerca de 192 mil requisições para acessar todo o conteúdo das respectivas abas.