Projeções para o resultado das eleições de 2022 para prsidente da republica usando resultados de pesquisas eleitorais disponibilizados no GitHub do Jornal Nexo. A ideia dessa modelagem surgiu a partir de um Tweet do Gabriel Lorenssi e do meu interesse em acompanhar das pesquisas agregado os resultados e prevendo até o dia da eleição.
Vou considerar apenas os institutos considerados neutros segundo o site Poolidata que se baseia na avaliação do governo. Institutos que se distanciam demais da média dos demais institutos sao cnsiderads favoráveis ou desfavoráveis ao governo. Usei apenas os classificados como neutros (Ipec, Datafolha, Real Time Big Data, Sensus, FSB, Quaest e Ideia Big Data).
# A tibble: 5 × 5
Candidato Prop LI LS Prob_vitoria_1o_turno
<ord> <dbl> <dbl> <dbl> <dbl>
1 Lula 0.485 0.464 0.503 0.052
2 Bolsonaro 0.380 0.364 0.399 0
3 Ciro 0.0614 0.0540 0.0702 0
4 Tebet 0.0540 0.0429 0.0667 0
5 Outros 0.0187 0.0138 0.0254 0
O modelo proposto utiliza as estimativas para a proporção de votos de cada candidato como desfecho ou variável resposta, e prevê para cada candidato como serão os próximos dias até a data da eleição.
O modelo estatístico escolhido foi um modelo dinâmico de crescimento linear considerando dados diários e uma transformação logística para as proporções. Seja
O modelo se completa com distribuições a priori para os parâmetros. Foram utilizadas prioris vagas, isto é, pouco informativas e default do pacote INLA (https://www.r-inla.org/).
Uma vez estimados os parâmetros, a distribuição preditiva é acessada gerando estimativas para todos os dias desde o primeiro dia que se tem alguma pesquisa até o dia da eleição. Para dias anteriores ao dia da última pesquisa disponível no banco temos as estimativas ajustadas, e entre o último dia com algum resultado de pesquisa eleitoral até a data da eleição temos as projeções diárias de cada candidato sob esse modelo.
Os candidatos considerados foram Lula, Bolsonaro, Ciro, e Tebet. Os demais candidatos foram agrupados em Outros, e brancos nulos e indecisos foram chamados de BNI. Outros e BNI foram tratados como se fossem candidatos independentes.
As projeções das estimativas de cada candidato foram geradas, e para o dia da eleição amostras da distribuição preditiva a proporção de votos de cada candidato foi gerada, e a proporção de votos válidos foi calculada removendo os brancos, nulos e indecisos e recalculando os totais.
Com a amostra da distribuição preditiva da proporção de votos, podemos calcular a probabilidade de vitória já no primeiro turno para cada candidato. Essa etapa é feita usando integração de Monte Carlo.
Os códigos estão disponíveis aqui.
Existem muitas limitações, algumas delas:
- O modelo não considera a abstenção que nas últimas eleições ficou acima de 20%.
- Não assume nenhuma mudança de cenário, apenas acompanha a tendência de crescimento (linear) mais recente.
- Uso de modelos gaussianos em transformações dos dados poderia ser aprimorado usando por exemplo a distribuição Dirichet. Isso é importante pois como no formato atual cada candidato é tratado separadamente, teoricamente é possível que a soma das proporções passe de 100%. No passo de Monte Carlo isso é corrigido ao remover a categoria BNI e recalcular as proporções.
- Todos institutos de pesquisas tiveram o mesmo peso.
- Certamente existem outras, postarei aqui se lembrar de outra.