Este livro está em Revisão aberta. Suas impressões são importantes para torná-lo melhor para você e para outros estudantes. Você pode anotar alguns textos selecionando-os com o cursor e clicando no menu popup. Você também pode ler anotações de outras pessoas: Clique no canto superior direito da página

Capítulo 5 Análise exploratória de dados

Realizado o trabalho de coleta, limpeza e organização dos dados, a etapa seguinte é conduzir a análise exploratória de dados (EDA na sigla em inglês). A análise exploratória de dados visa dar a conhecer a estrutura subjacente dos dados e expor um conjunto de informações acerca dos dados a fim de que a pesquisadora passa tomar passos adiante ou atrás no processo de análise. Igualmente, ela fornece um sumário descritivo. Segundo (Pearson 2018), a análise exploratória dos dados coletados sobre as reclamações ao STF busca responder as seguintes questões:

  1. Quantos registros a base de dados sobre reclamações contêm? (Isto é, quantas decisões do STF sobre reclamações estão sendo analisadas)
  2. Quantas colunas, i.e, variáveis, estão incluídas em cada um dos registros?
  3. Que tipo de variáveis são essas? (i.e. numéricas, categóricas, contínuas, discretas?)
  4. Esses dados foram todos observados? (i.e. há dados faltantes, há outliers?)
  5. As variáveis incluídas na base são aquelas que nós realmente estávamos esperando?
  6. Os valores contidos nas variáveis são consistentes?, i.e. número de categorias, categorias corretas etc, ?
  7. As associações entre as variáveis são aquelas que esperávamos? 7.1 Por exemplo, podemos esperar que o CPC 2015 elevou o número de procedência dos pedidos? 7.2 Podemos esperar diferenças entre os ministros quanto ao número de casos procedentes ou não?

É importante destacar que a análise exploratória é útil para verificar a associação entre as variáveis, particularmente entre as variáveis preditoras e a variável resposta. Inclusive iremos realizar alguns testes de associação, e.g, chi-quadrado, de força dessas associações (WOE) e mesmo capacidade preditiva das variáveis explicativas. No entanto, é fundamental tomar em conta que os testes de associação e de significância, tal como o teste do chi-quadrado e o t-test, não informam nada sobre o efeito marginal de cada uma das variáveis explicativas sobre a variável resposta. Em pesquisas experimentais, isso é perfeitamente possível porque o pesquisador possui controle preciso sobre os fatores que causam ou modificam o resultado obtido. Por sua vez, as pesquisas em ciências sociais se caracterizam por serem observacionais e a pesquisadora não possui controle apriorístico sobre o efeito de uma variável sobre a outra. Ela precisa precisa considerar outros fatores que afetam o resultado para assim isolar o efeito de cada uma das variáveis explicativas sobre o resultado(Silva 2018).

Na pesquisa em tela, estamos diante de dados observacionais. O esforço é dirigido em identificar todos os possíveis fatores que influenciam a resposta judicial ao pedido. Nesse sentido, os testes de associação bivariados são inadequados porque irão superdimensionar o efeito de uma variável sobre a outra. A tarefa, a qual será executada na próxima seção, será de isolar o efeito de cada uma das variáveis explicativas sobre a variável resposta: decisão judicial. Com efeito, podemos supor que o ministro A julgará diferentemente o pedido de reclamação quando se tratar de uma alegada violação a uma súmula do STF do que quando se tratar de uma violaçã a uma decisão inter partes ou que uma reclamação contra decisão da justiça do trabalho tem maior probabilidade de ter uma resposta favorável quando o ministro é fulano do que quando este é beltrano. Esse tipo de controle somente é posssível realizar por meio das técnicas de regressão, pois o objetivo destas é justamente isolar o efeito de cada uma das variáveis sobre os resultado.

References

Pearson, Ronald K. 2018. Exploratory Data Analysis Using R. CRC Press.

Silva, Glauco Peres da. 2018. “Desenho de Pesquisa.” Escola Nacional de Administração Pública (Enap).