A Ciência do Erro e o Erro na Ciência

Fonte: Bule Voador

Autor: Rodrigo Véras

 

Se existe algo em que podemos realmente confiar é no fato de que nós, seres humanos, somos especialistas em nos enganar e cometer toda sorte de erros. Essa intuição básica que remonta pelo menos aos céticos antigos tem sido sistematicamente corroborada através de uma grande quantidade de estudos que mostram como nossas percepções, memória e julgamentos são pouco confiáveis. Muitas pesquisas em psicologia e neurociências têm ajudado a revelar estes vieses e tendências, além de revelar em que situações estamos mais propensos a errar. Trabalhos como os de Forer, capturados no dito de Barnum, “Para qualquer pessoa temos alguma coisa” sobre validação subjetiva, e as seminais contribuições de Amos Tversky e Daniel Kahneman [1] sobre heurísticas de decisão, a partir dos anos 70, tem nos ajudado a compreender melhor como erramos e por que erramos, o que nos permite criar maneiras mais eficientes de lidar com nossas limitações. Algumas das nossas limitações são que:

  • Subestimamos a probabilidade de certos eventos ;
  • Temos uma expectativa distorcida da aparência de sequências aleatórias , portanto, não as reconhecemos bem;
  • Somos enviesados em direção a confirmação ;
  • Nossa memória é tremendamente falha;
  • Superestimamos frequentemente nossas próprias qualidades.

Em resumo, somos péssimos pensadores estatísticos. Temos dificuldade em estimar probabilidades e boa parte do nosso raciocínio é enviesado em direção a certas tendências emocionais, perceptivas e cognitivas. Muitos destes viéses são provavelmente decorrentes do nosso histórico evolutivo prévio e de limitações neuro-desenvolvimentais, mas outras podem ser simplesmente as “melhores soluções” adaptativas disponíveis (provenientes de múltiplas demandas adaptativas conflitantes) ou, talvez em muitos casos, apenas “soluções” boas o suficiente para manter viva nossa linhagem.

Apesar dessas limitações, nossos sistemas nervosos são altamente plásticos e adaptáveis. Através de nossa capacidade de aprendizagem e da interação social fomos capazes de desenvolver formas de conhecimento extra-somático, ou seja, que não limitam-se aos indivíduos em si e, portanto, não deixam de existir a partir da morte dos indivíduos. Através dessa “inteligência coletiva”, que chamamos cultura, fomos capazes de passar adiante o que criamos e planejamos ou o que descobrimos por acaso.

A construção de ferramentas que permitem superar nossas limitações é uma dos resultados da plasticidade de nossos cérebros e do emprego de nossa inteligência coletiva. Na investigação científica, aparelhos como o telescópio e o microscópio são exemplos inegáveis de como conseguimos superar algumas de nossas limitações através de artefatos. Entretanto, são as ferramentas intelectuais, como a matemática, a estatística, a formulação de regras de inferência e as estratégias de pensamento crítico que ocupam um papel especial no desenvolvimento das ciências. Modelos matemáticos, simulações computacionais, instrumentos de medida e aferição, o desenvolvimento de complicados protocolos experimentais como os cegos e duplo-cegos – usados em associação de procedimentos de amostragem, alocação aleatória de sujeitos experimentais, estimação de parâmetros, análise e inferência estatística – são alguns dos exemplos mais bem conhecidos.

Além deles, destacam-se a ênfase na consistência, replicação e corroboração externa independente (e por métodos variados) dos resultados, sobretudo os mais polêmicos. A investigação científica ocorre no seio de uma comunidade crítica e essas estratégias fazem parte do sistema de constante vigília e avaliação crítica que a caracteriza. Entretanto, os cientistas não sentam nos louros dos desenvolvimentos passados e continuam com seu eterno pé atrás. Como a investigação científica se dá através de um esforço comunitário, mesmo com tantas salva-guardas, não podemos nos esquecer que a falibilidade humana consegue sempre permear os esforços mais nobres e criteriosos.

O epidemiologista John A. Ioannidis publicou uma série de artigos na década passada onde defendia que boa parte dos achados positivos divulgados na literatura biomédica não eram verdadeiros. Parte do problema, sem dúvida, poderia ser inerentes da própria pesquisa biomédica, como o fato de muitos estudos padecerem de delineamento inadequado, possuírem amostragem insuficiente para serem confiáveis, além do fato de tanto os pesquisadores, que submetem os artigos, como os editores, que os recebem e publicam, estarem mais propensos a publicarem estudos com resultados positivos deixando ao léu estudos negativos, naquilo que se convencionou chamar de efeito gaveta.

Existe enorme pressão por parte dos departamentos e agências fomentadores para que resultados sejam publicados, apressando pesquisadores na liberação de resultados preliminares pouco escrutinados, sem esquecer-se das eventuais fraudes. A veracidade de uma pesquisa é, portanto, menos provável quando há pouca pré-seleção das mesmas e quando há uma maior flexibilidade nos delineamentos, definições, resultados e modos de análise. Os resultados também se tornam menos confiáveis quando há um maior interesse financeiro, além de outros preconceitos, atrelados aos achados, e quando mais equipes estão ativamente envolvidas em um campo científico específico na perseguição de significância estatística. Simulações conduzidas por Ioannidis mostraram que para a maioria dos delineamentos de estudos e definições, é mais provável que uma alegação de pesquisa seja falsa do que verdadeira.

De fato, Ioannidis conclui em um dos seus artigos que em muitos campos científicos, as alegações de resultados de investigações podem muitas vezes medir simplesmente de maneira precisa o viés predominante em um dado campo [2]. Porém, como lembram Novella e Tabarrock, ao comentar e contextualizar os resultados de Ioannidis, além da própria condução e divulgação da pesquisa, a própria natureza do processo de análise e inferência estatística garante a produção de resultados que não são verdadeiros.

Em testes de hipóteses tradicionais geralmente não se testa diretamente a “hipótese substantiva” (ex: a de que uma droga causa um determinado efeito), mas buscam-se evidências para rejeitar (ou indicar como improvável) o que costumamos chamar de hipótese nula (ou de nulidade), uma hipótese de não-diferença (ou de que as diferenças encontradas são devidas ao mero acaso) entre a condição controle (não tratado) e o experimento em si (tratado). No entanto, 1 em cada 20 estudos vão rejeitar a hipótese de nulidade por puro acaso, pendendo a balança para a hipótese alternativa, gerando os chamados “falso positivos”, ou seja, rejeitariam a hipótese nula quando de fato o resultado é fruto do acaso não havendo, portanto, um real efeito. Isso é uma simples decorrência do uso dos costumeiros testes de hipóteses frequencistas, assumindo-se um valor-p típico de 0,05 e α de 5%. Assim, a maioria das novas hipóteses estarão erradas pelo simples fato de que existem muito mais hipóteses falsas do que verdadeiras. Então, mesmo que os estudos fossem todos perfeitos, ainda assim um grande contingente dos resultados positivos seriam na verdade falsos positivos.

Uma das formas de evitar este tipo de resultado é incorporando maneiras de se considerar as probabilidades anteriores (a priori) das hipóteses a serem testadas. A avaliação da plausibilidade inicial de uma dada alegação ou hipótese pode nos ajudar a descartar muitos estudos falsos positivos. Infelizmente, isso nem sempre é fácil ou mesmo possível, mas como fica claro nas discussões entre estatísticos “Frequencistas” e “Bayesianos”, mesmo as pressuposições mais básicas dos processo de inferência estatística podem ser questionadas e investigadas. De fato, mesmo certas pressuposições lógicas básicas podem ser questionadas como mostra o desenvolvimento de lógicas alternativas como a difusa (fuzzy), paraconsistente e suas aplicações em computação e robótica.

Ao invés de uma mensagem negativa, essas considerações deveriam renovar nosso senso crítico e nos fazer concluir que a objetividade na prática científica não é algo dado, mas sim um ideal norteador que deve ser constantemente buscado e não simplesmente assumido. Como insistem Novella e Tabarrock, é preciso analisar “a literatura” e não apenas artigos e trabalhos isolados. Ciência se faz no atacado e as reais descobertas aparecem com o tempo após longo escrutínio da comunidade científica, quando as evidências provenientes de vários grupos e do uso de métodos complementares convergem, na medida em que os erros, distorções e fontes de viés são identificados e encarados de frente.

__________________________________________________________

Referências

[1] Tversky, A., & Kahneman, D. (1974). Judgment under Uncertainty: Heuristics and Biases. Science, 185 (4157), 1124-1131 DOI: 10.1126/science.185.4157.1124

[2] Ioannidis, J. (2005). Why Most Published Research Findings Are False. PLoS Medicine, 2 (8) DOI: 10.1371/journal.pmed.0020124

__________________________________________________________

Literatura Recomendada:

ACZEL, Amir Z. Quais são suas chances? 1ª São Paulo: Best Seller Ltda, 2007. 144 p.

BENNETT, Deborah J. Aleatoriedade. 1ª São Paulo: Martins Editora, 2003. 240 p.

MLODINOW, Leonard. O andar do bêbado: Como o acaso determina nossas vidas. 1ª São Paulo: Jorge Zahar Editora, 2009. 264 p.

SALSBURG, David. Uma Senhora Toma Chá… Como a Estatística Revolucionou a ciência no século XX. 1ª São Paulo: Jorge Zahar, 2008. 288 p.”

É Ciência, mas não necessariamente está certo” de Carl Zimmer

Trabalhando dentro das margens de erro” de Marcelo Gleiser

Créditos das figuras:

SUE BAKER/SCIENCE PHOTO LIBRARY A. BARRINGTON BROWN/SCIENCE PHOTO LIBRARY

Discussão - 2 comentários

  1. Alexandra disse:

    Muito bom! Parabéns!!!

  2. André Rabelo disse:

    @Alexandra, obrigado pelo comentário! eu também gostei do texto do Rodrigo, ficou ótimo!

    abraço!

Envie seu comentário

Seu e-mail não será divulgado. (*) Campos obrigatórios.