Ok, bora lá compartilhar essa parada que fiz sobre os erros não-forçados em Roland Garros. Foi trampo, viu? Mas no fim das contas, acho que ficou legal.

Tudo começou com a ideia de tentar entender melhor o que rola nos jogos de tênis. A gente vê os caras lá, dando raquetada pra todo lado, e pensa: “Será que dá pra quantificar essa bagunça?”. Aí me veio na cabeça: erros não-forçados! Aqueles momentos em que o cara simplesmente entrega o ponto, sem o adversário ter feito nada de extraordinário. Pensei, “isso deve ter um padrão!”.
Primeiro, precisei caçar os dados. Comecei procurando em sites oficiais, tipo o do Roland Garros mesmo, mas tava osso achar algo mastigado. Tive que garimpar em sites de estatísticas de tênis, alguns mais obscuros que outros. A maioria cobrava, claro, mas achei uns com dados abertos, ainda que meio bagunçados.
Aí começou a parte chata: limpar os dados. Baixei umas planilhas, cada uma com um formato diferente, umas em CSV, outras em Excel… Uma zona! Tive que importar tudo pro meu editor de planilhas (uso o Google Sheets, quebra um galhão) e comecei a padronizar. Tive que deletar colunas inúteis, renomear outras, arrumar datas, converter textos… Deu um trabalho do cão!
Depois de limpar a sujeira, parti pra análise propriamente dita. Queria ver quem eram os jogadores que mais cometiam erros não-forçados, se havia alguma correlação entre o número de erros e a derrota no jogo, se as condições climáticas influenciavam… Enfim, um monte de perguntas na cabeça.
- Calculei a média de erros por partida de cada jogador.
- Comparei os erros dos vencedores e perdedores.
- Tentei cruzar os dados com informações sobre o clima (achei um site com histórico de temperaturas e umidade em Paris na época dos jogos).
A parte mais difícil foi visualizar os resultados. Eu queria algo que fosse fácil de entender e visualmente atraente. No começo, tentei uns gráficos no próprio Google Sheets, mas não ficaram muito bons. Daí resolvi usar um software de visualização de dados chamado Tableau Public. Demorei um pouco pra pegar o jeito, mas no fim consegui criar uns gráficos bem legais: barras comparando os erros dos jogadores, linhas mostrando a evolução dos erros ao longo do torneio, um mapa de calor mostrando a relação entre erros e clima…

No fim das contas, o que aprendi? Bom, descobri que alguns jogadores são realmente mais propensos a erros não-forçados que outros, o que não é nenhuma surpresa, né? Mas também vi que a diferença entre os erros dos vencedores e perdedores nem sempre é tão grande assim. Às vezes, o cara perde o jogo por outros motivos, tipo um adversário inspirado ou um dia ruim no saque. E sobre o clima… hmm, não encontrei uma correlação muito forte, mas acho que precisaria de mais dados pra tirar uma conclusão definitiva.
E foi isso! Resumindo: baixei dados, limpei dados, analisei dados, visualizei dados e aprendi umas coisinhas. Deu trabalho, mas foi divertido. Se alguém aí se animar a fazer algo parecido, a dica é: paciência e persistência. E se souberem de alguma fonte de dados melhor, me avisem!
Espero que tenham curtido! Se tiverem alguma pergunta, só mandar aí nos comentários.