Dados estatísticos estão em todo lugar: Nas pesquisas eleitorais, em jornais de negócios, nos indicadores de qualidade em uma empresa, nas taxas que pagamos nos bancos e principalmente nas pesquisas científicas. Isto é facilmente explicado quando percebemos que a analise estatística é uma excelente ferramenta para observar padrões e tomar decisões baseadas em fatos; Mas intencionalmente ou não, aprendemos muito pouco sobre isto nas escolas, e isto é usado a todo momento para gerar conclusões falsas pela mídia tradicional e mais recentemente por pessoas na internet.
Estatística, assim como a maioria dos ramos da matemática não é intuitiva e pode enganar até mesmo cientistas treinados! Um exemplo disto é o chamado “paradoxo” de Simpson.
O “paradoxo” de Simpson
Considere o seguinte cenário: Você foi contratado para analisar dois tratamentos para pedras nos rins em termos de eficácia, vamos nomeá-los “tratamento A” e “tratamento B”. Analisando 350 casos aleatórios para cada tratamentos, temos o seguinte:
Tratamento A | Tratamento B |
Casos bem sucedidos: 78% (273/350) | Casos bem sucedidos: 83% (289/350) |
Baseado nestes dados podemos concluir que o tratamento B é melhor que o tratamento A? Nossa intuição diz que sim, mas digamos que você está sendo cuidadoso e decidiu pesquisar se o tratamento B é melhor tanto para casos graves (pedras grandes) quanto para casos menos graves (pedras pequenas), dividindo os casos nestas categorias encontramos:
Tratamento A | Tratamento B | |
Pedras pequenas | Casos bem sucedidos: 93% (81/87) | Casos bem sucedidos: 87% (234/270) |
Pedras grandes | Casos bem sucedidos: 73% (192/263) | Casos bem sucedidos:69% (55/80) |
Total | Casos bem sucedidos: 78% (273/350) | Casos bem sucedidos: 83% (289/350) |
Espere! O que podemos concluir destes números? Aparentemente o tratamento A é melhor para casos com pedras grandes e pequenas, mas de modo geral o tratamento B é melhor? Este resultado é um exemplo real [1] do paradoxo de Simpson.
Se analisarmos com mais cuidado os números vemos que o tratamento A é melhor que o B, mas por algum motivo, o tratamento B é mais usado em casos menos graves (talvez devido ao custo, ou a dificuldade do tratamento). Como casos menos graves são mais fáceis de tratar, o tratamento B tem mais casos bem sucedidos.
O aparente paradoxo acontece pois existe uma variável oculta que não havíamos considerado, a gravidade da doença. Sempre que analisamos separadamente subgrupos de um grupo maior podemos nos deparar com este tipo de situação, cabe ao cientista julgar se o critério de separação dos subgrupos é importante para o resultado, se sim, o resultado correto é o dos grupos separados, se não, então devemos analisar o grupo inteiro.
Este exemplo nos mostra como dados podem ser enganosos se não tomamos o devido cuidado, e é por isto que quase todos os cientistas tiveram ao menos uma matéria sobre estatística e probabilidade durante a sua formação. Apesar disto, a mídia sempre aponta para gráficos, pesquisas e porcentagem para defender hipóteses; Mas sem ter noção de qual foi a metodologia da coleta de dados e um pouco da análise estatística, estes dados representam muito pouco. E este é o ponto ao qual quero chegar, se por um lado chegar na verdade através de análise estatística é difícil, levar a uma conclusão errada é bastante fácil.
Manipulação estatística e o zohnerismo
Uma pesquisa bem sucedida deve seguir várias regras, quando elaboramos um experimento devemos ter uma pergunta bem formulada em mente, além disso, é preciso ter controle sobre todas as variáveis que podem afetar o experimento, ou ao menos conseguir monitorá-las. Além disso precisamos ter um bom espaço amostral, de forma que este represente bem a população em estudo. Outro ponto fundamental é que seu experimento deve ser reprodutível, isto é, outra pessoa deve ser capaz de realizar o mesmo experimento e obter o mesmo resultado.
Vamos pensar em um exemplo de pesquisa ruim: Suponha que eu esteja fazendo uma pesquisa sobre intenção de voto em uma eleição. Então, pego meu bloco de notas, vou ao restaurante universitário da Unicamp e pergunto a 10 pessoas em quem elas pretendem votar na próxima eleição.
É possível tirar alguma conclusão desta “pesquisa”? Não.
- A pesquisa não representa a população de Campinas, pois universitários são uma parcela pequena da população. O espaço amostral não apresenta variação de idade, escolaridade e renda, variáveis importantes neste tipo de pesquisa para representar fielmente a população em estudo.
- A pesquisa não representa os estudantes da Unicamp, pois o espaço amostral é pequeno, posso ter encontrado por acaso os integrantes do centro acadêmico do Instituto de Filosofia e Ciências Humanas voltando do almoço, ou membros do Movimento Brasil Livre, e isto polarizaria os dados, comprometendo a pesquisa. Isto é conhecido como flutuação estatística, e para evitar isto é necessário coletar um número grande de dados para a pesquisa ter significado estatístico.
Quando apontadas estas falhas são bastante aparentes, mas em geral não costumamos pensar nestas coisas enquanto lemos o jornal. E é aqui que mora o perigo! E se você não está convencido, gostaria de apresentá-los a historia de John Bohannon.
A dieta do chocolate
John Bohannon, jornalista e doutor em biologia, tinha apenas um objetivo: mostrar como é fácil espalhar ciência ruim no campo de dieta e nutrição. Para tanto, ele publicou em uma revista científica o artigo “Chocolate com alto teor de cacau como acelerador de perda de peso” [2] em que se concluía que o consumo de chocolate amargo potencializa o efeito de dietas com poucos carboidratos e poderia diminuir o colesterol. Não demorou para diversos veículos de mídia publicarem artigos sobre a “dieta do chocolate”, sendo reportado em mais de 20 países e 6 línguas, inclusive no Huffington Post e na revista especializada Shape Magazine.
E antes que você vá atrás da dieta do chocolate, devo dizer que o estudo de John foi feito propositalmente de maneira errada. Para o estudo foram contratadas 16 (!!) pessoas (5 homens e 11 mulheres) com idades entre 19 e 67, para realizarem uma dieta por 3 semanas. Estas pessoas foram divididas em três grupos: um grupo de controle (não fez dieta), um grupo para fazer a dieta com poucos carboidratos e um grupo para fazer a mesma dieta e além disso consumir diariamente uma barra de aproximadamente 42 g de chocolate amargo.
No estudo foram monitorados 18 (!) variáveis como: qualidade de sono, taxa de sódio, peso, colesterol,etc. Certamente com tantas variáveis e um número baixo de dados experimentais, algum deles apresentaria uma flutuação estatística positiva que poderia ser reportada. E foi o que aconteceu: após as 3 semanas, o grupo de controle manteve o peso inicial (note que a dieta do grupo de controle NÃO FOI MONITORADA!), já o grupo da dieta sem chocolate emagreceu aproximadamente 2.3 kg, e o grupo da dieta com chocolate emagreceu aproximadamente 2.5 kg, o que foi reportado como um aumento de eficiência de 10%.
O artigo descreve o experimento sem apresentar nenhum dado falso, mas qualquer cientista ficaria completamente desconfiado da metodologia apresentada. Leitores mais familiarizados com o dia-a-dia da ciência sabem que todo artigo antes de ser publicado passa pela chamada revisão por pares, isto é, ele é avaliado por outros cientistas da mesma área, que verificam a relevância, veracidade e escrita do artigo, por tanto um artigo sobre este experimento nunca seria publicado em uma revista científica, correto?
Infelizmente não é isto que acontece no mundo real, atualmente cientistas são obrigados a mantem um número mínimo de publicações para manterem seus títulos e empregos; Isto deu origem as chamadas publicações predatórias, revistas científicas publicadas por editoras questionáveis, usualmente com pouca ou nenhuma revisão por pares, onde é possível publicar praticamente qualquer artigo, dado que se pague uma taxa.
John submeteu seu artigo para várias destas revistas e recebeu aprovação em menos de 24 horas! Revistas sérias demoram meses para dar um parecer final sobre um artigo científico, além disso, esta janela de tempo torna impossível qualquer revisão por pares. O artigo foi publicado na “The International Archives of Medicine” pela taxa de 600 euros.
É interessante notar como a mídia reagiu a este “estudo”, poucos dos jornais que publicaram noticias sobre a dieta do chocolate entraram em contato com John Bohannon, além disso aparentemente não contataram nenhum especialista em nutrição para uma possível consultoria sobre o tema. A impressão que temos dos artigos publicados é que os jornalistas não passaram do resumo do artigo.
E a dieta do chocolate foi se espalhando até o autor publicar um artigo explicando o passo-a-passo sobre como ele tinha enganado todo mundo com uma pesquisa falha e um resultado duvidoso [3].
O problema é que o mundo está repleto destes artigos com experimentos duvidosos, moldados propositalmente para mostrar uma determinada conclusão, e estes não foram escritos por um jornalista que ira se desmentir para provar seu ponto.
Bom pessoal, por hoje é só, tomem cuidado quando ouvirem dezenas de dados estatísticos que tentam provar pontos duvidosos, tentem ler mais sobre estes assuntos, busquem fontes confiáveis e vejam se há um consenso entre os cientistas da área, pois assim é possível fugir dos manipuladores de dados! E me desculpem pela demora em escrever aqui, mas o fim do semestre é uma loucura até mesmo na pós-graduação… 🙂
Referências:
[1] C. R. Charig, D. R. Webb, S. R. Payne, and J. E. Wickham – Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy. Br Med J (Clin Res Ed). 1986 Mar 29; 292(6524): 879–882. (A história é reportada em Simpson’s paradox (wikipedia).
[2] J. Bohannon, D. Koch, P. Homm, A. Driehaus – Chocolate with high Cocoa content as a weight-loss accelerator. (Não está mais disponível no The International Archive of Medicine)
[3] J. Bohannon –I Fooled Millions Into Thinking Chocolate Helps Weight Loss. Here’s How.
Saiba mais
[1]Were Richer Voters More Likely to Vote Trump? (Simpson’s Paradox) (Youtube – canal: Econ Cow) – Vídeo sobre uma possível ocorrência do paradoxo de Simpson na analise dos votos na eleição dos EUA, além de uma explicação bastante detalhada sobre o paradoxo e o que fazer quando encontrá-lo.
[2] Simpson’s Paradox – Statistics gone wrong? (Youtube – canal: Guillaume Riesen) – Vídeo detalhado sobre o paradoxo de Simpson (em inglês)
[3] How flawed studies get famous? (Youtube: Adam ruins everything, Tru-TV) – vídeo curto , que mostra como estudos podem ser mal executados e ficarem famosos.
[4] Simpson’s Paradox (Youtube – canal: Minute Physics) – Vídeo muito didático sobre o paradoxo de Simpson.