Estatísticas inúteis do futebol. E na ciência?

galvão.jpg

Imagem: retidara da gafe do Galvão aqui e editada por Rafael_RNAm. O “p<0,05” é um limite em estatística e significa 0,05% de chance do seu resultado ser fruto do acaso.

Bem amigos do RNAm!!! Estamos aqui para mais um show de transmissão científica. Um show de imagens, de comentários abalizados, e de dados completamente inúteis!

Sim, eu não me conformo com a quantidade de dados inúteis em uma transmissão de jogo de futebol. E isso não é novidade pra ninguém, afinal há muito tempo já se tira sarro de estatísticas do tipo “só em 1843 o Piraporense do Bom Jesus ganhou de 3 a 0 do Itaquaquecetubense em um ano bissexto”. Mas assistindo a Brasil e Chile vi um nível de sofisticação fantástico na coleta de dados.

A todo momento aparecia o quanto cada jogador havia percorrido na partida, ali, em tempo real. Também o quanto desse tempo ele havia andado, trotado e corrido. No fim do jogo um gráfico mostrou a média percorrida pelos times, posse de bola, arrancadas e até um gráfico mostrando a região mais percorrida do campo por cada equipe.

Coleta de dados perfeita. Provavelmente uma câmera fixa ligada a um computador com um programa de analise de imagem fez esse serviço.

Adendo – E não é nada muito novo. Essa mesma técnica é usada para analise de comportamento de camundongos. Deixa-se uma câmera filmando a movimentação do bicho, analisando assim o comportamento depois de tratado com determinada droga, por exemplo. O software faz tudo sozinho.


Mas a pergunta é PARA QUE?!
Afinal as estatísticas no fim do jogo eram praticamente as mesmas entre os dois times (posse, distância percorrida, etc). Mas o Brasil ganhou de 4 a 2, que é uma bruta diferença. Diferença esta que existe, mas que a coleta de dados não pegou.

Ou seja, se tivéssemos só os dados estatísticos da partida, a técnica de coleta de dados durante os jogos ainda não é sensível o suficiente para prever quem ganhou de goleada.

Esse é um paralelo interessante para muitas pesquisas científicas. Muitas áreas estão ainda ajustando sua coleta de dados. E muitas já têm uma quantidade imensa de dados, mas ainda falta aprender a interpretar essa quantidade de informação. Falta fazer isso tudo fazer sentido e ajudar a prever um resultado. É o caso de áreas como a genômica, proteômica e outras ômicas: muita informação gerada e pouco tempo para análise e integração com outros dados.

Uma das críticas ao Projeto Genoma Humano era essa: muito dinheiro pra coleta de dados e pouco para análise. Bom, agora que o esforço foi concluído, realmente os resultados prometidos não vieram tão rápido, mas lentamente virão.

Na Globo, o Galvão ainda está assim: dirigindo uma Ferrari de dados mas sem saber pra onde ir. Mas sigamos coletando (principalmente quando há dinheiro sobrando)! Quem sabe um dia alguém aprende a usar isso tudo.

Para receber nosso conteúdo em primeira mão, siga-me no twitter @Rafael_RNAm e clique aqui para assinar nosso Feed/RSS!

9 comentários em “Estatísticas inúteis do futebol. E na ciência?”

  1. Curiosamente, eu concordo com a idéia do post, mas discordo de quase todos os exemplos utilizados, tanto no futebol quanto na Ciência.
    No futebol, começando pelo que eu concordo, o exemplo do ano bissexto. O histórico geral de confrontos é importante, mas dizer que o Brasil ganhou todas as vezes que jogou contra o Chile em Salvador é rídiculo, pq houve apenas um jogo. Logo, apenas o histório geral é relevante, por causa do seu número amostral.
    Nos demais exemplos de futebol, discordo totalmente. A igualdade nas estatísticas de Brasil X Chile comprova que as 2 Seleções têm estilo de jogo semelhante, e que o Brasil venceu graças a melhor "mira" dos seus atacantes. Dados como posse de bola e tempo de corrida podem SIM revelar muito sobre um jogo, sobretudo o estilo geral de uma equipe.
    Agora, na Ciência: concordo que nas "ômicas" a capacidade de geração de dados hoje é superior à de análise, mas não sei se isso foi por um emprego equivocado dos recursos. Hoje só sentimos falta das ferramentas de análise, justamente porque há muito dado. Seria meio difícil o desenvolvimento de ferramentas para desafios que não se sabia quais seriam. Hoje sim, a "bola da vez" é a bioinformática, pq sabemos de fato quais são os desafios e não tem gente o suficiente os enfrentando.

  2. Há várias tentativas de previsão de resultados de jogos - sobretudo baseando-se em histórico de confrontos. A média de acerto desses métodos estatísticos está na casa dos 40% (considerando-se apenas o resultado de vitória/empate/derrota - sem contar placar). Comentaristas esportivos também têm uma taxa de acerto nessa faixa.
    O mais engraçado é que eu, que não me baseio em históricos nem me pretendo analista esportivo, estou com uma taxa de acerto maior (ainda não fiz o teste de significância): em torno de 50%. Mesma taxa média de acertos de dois outros "não-especialistas" que estavam entre os primeiros lugares de um bolão do Brasileirão.
    []s,
    Roberto Takata

  3. Isso se deve ao fato de darem "valor" a números, mesmo que eles não tenham significado. Como diz um amigo meu, que por sinal trabalha no IMPA: Com matemática eu posso provar qualquer coisa. Até mesmo que a matemática está errada.

  4. Douglas,
    Quanto aos históricos posso até concordar, mas quanto aos dados de posse de bola e etc, não diz nada isoladamente. Precisariamos de mais comparações com outras equipes ou outros dados para definir o q é estilo de jogo. Afinal estas estatisticas podem ser iguais em todas as partidas, o q as tornaria realmente inuteis. E mais, o fator "mira" não foi amostrado.
    O fato é q alguma coisa no Brasil foi melhor q no Chile, mas os dados não pegaram o q é.
    Na questão das ômicas mantenho minha critica. Hj se usa muito pq ela está aí mesmo, mas outros estilos de pesquisa, como destrinchar uma via metabólica específica mas importante, indo do dna até as implicações clinicas, me parece mais pertinente q a corrida q foi o puro sequenciamento.
    Fato é q muitas promessas foram feitas para justificar os gastos, e o q nao se falou é q essas promessas só seriam cumpridas em 20 ou 30 anos.

  5. Há, ótima postagem. Achei que só eu achava um absurdo os caras ficarem falando estatísticas escrotas tipo "o friburguense tem que quebrar o tabu de nunca ter ganhado do itapetininga em jogos da copa do brasil em dias de chuva em anos pares."

  6. Concordo que existem estatisticas inúteis, mas o quanto o jogador correu, o quanto o time correu e em qual região do campo, com certeza não são elas.
    Para quem acompanha apenas pelo resultado, como torcida, com certeza não tem importância alguma. Já eu que faço um estudo dos jogos, gosto de saber como certo time joga, como certo jogador joga, acho muito interessante. Por exemplo no Brasil x Chile, se você viu os gráficos, percebeu que o Brasil se posicionou mais na defesa, enquanto o Chile teve dominio total do meio de campo. O que isso mostra? Na minha humilde opinião mostra uma série de coisas. Primeiro que o Chile deve ter ganho o meio de campo a partir da expulsão do Felipe Mello, ainda no inicio do segundo tempo. Segundo que sim, o Chile é uma seleção que SEMPRE ataca, e isso explica as goleadas seguidas que tem sofrido do Brasil, afinal já estamos cansados de saber que jogar de igual pra igual com o Brasil, é praticamente um ato suicida. Terceiro,nossa zaga tem uma saída de bola independentem, uma boa velocidade e nossos laterais correm muito. Entre diversas de outras coisas.

  7. Boa! ótimo paralelo.
    mas nao pude deixar de ver o "siga-me no tweeter"
    o q o Chapolin diria se tivesse tweeter?
    - SIGAM-ME OS BONS!!!

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *