A influência dos doutores em Sociologia no número de mortes por anticoagulantes

Na matemática chamamos de correlação um tipo de relação estatística que determina o quanto a variação de dois fatores se assemelha. Essa medida varia no intervalo [-1, 1], nele, valores altos (próximos de 1) ‘podem indicar’ que um dos fatores observados exerça influência no número de casos do outro fator. Do mesmo modo, valores inversamente altos (próximos de -1) ‘podem’ indicar’ que a ocorrência de um dos fatores influencia a não ocorrência do outro. Por fim, valores próximos de 0 ‘podem indicar’ que não é possível identificar uma relação entre as ocorrências dos dois fatores.

No parágrafo anterior a expressão ‘podem indicar’ se repete algumas vezes e aparece em destaque, pois devido a facilidade de calcularmos correlações entre quaisquer duas variáveis numéricas (no software Excel você pode fazer isso com 5 cliques de mouse), há uma tendência errônea de assumir esse valor como um indicativo, em vez de um possível indicativo. Para exemplificar isso, fiz no Excel 1.000 variáveis, cada uma com 10 observações registrando valores entre -1.000 e 1.000 escolhidos aleatoriamente e calculando suas correlações cheguei que a maior delas foi entre as variáveis 25 e 602.


T1T2T3T4T5T6T7T8T9T10
Variável 25255-130-7030510516340-82293504
Variável 602-78-209-173-50-1381-63-190-6344
Correlação: 0,982871684747743

Embora exista uma correlação alta entre ambas as variáveis, nesse caso ela não significará nada além de uma coincidência estatística. Um resultado do fato improvável de que duas variáveis sem qualquer relação entre si, seja observada como aparentemente dependentes. Pois embora improvável, ao compararmos as 1.000 variáveis uma a uma, fizemos na verdade 499.500 comparações. Uma quantidade que se mostrou suficiente para essa coincidência ocorrer. Mas se na hora de escrevermos o discurso, ‘ignorássemos’ o total de variáveis comparadas, poderíamos cair no engano de afirmar que “a forte correlação (0.98) entre a variável 25 e 602, indica um fator de dependência entre elas”. Vamos para um exemplo mais contextualizado:

Nos EUA observou-se que o crescimento do número de doutores em Sociologia entre 1999 e 2009 tinha uma correlação alta (0,81) com a quantidade de mortes anuais causadas por antiacoagulantes (fonte: https://tylervigen.com/view_correlation?id=1279 acesso em 21-04-2021). Estariam substituindo os médicos por doutores em Sociologia no tratamento de pacientes com anticoagulantes? Há um desvio nos recursos da saúde nesse tratamento para o financiamento de pesquisas em Sociologia? As teses de Sociologia estão prejudicando os trabalhos com anticoagulantes na área médica?


19992000200120022003200420052006200720082009
Doutorados em sociologia concedidos
(EUA – National Science Foundation)
572617566547597580536579576601664
Mortes causadas por anticoagulantes (EUA – Center of Disease Control)1739392744462942475278
Correlação: 0,811086

Nesse caso, também há uma correlação forte entre ambas as variáveis, mas não significa nada além de uma coincidência estatística devido a quantidade elevada de comparações realizadas, as quais foram omitidas na ocasião desse discurso.

Assim, o valor de uma correlação embora pareça um argumento de peso, por si só não significa nada. Pode até parecer que o valor de correlação entre as variáveis seja apenas uma questão de opinião, então cada um teria a sua e pronto… mas não.

Entre os fatores que determinam a validade de uma correlação, está o esboço da hipótese anterior ao teste. Se suspeitamos que dois eventos desempenhem uma relação de dependencia entre si, como por exemplo o número de casos de COVID-19 na cidade e a compra de álcool em gel por habitante, podemos reunir bancos de dados relativos a esses eventos e então calcular o quanto a variação de dois fatores se assemelha. Se obtivermos uma correlação alta (próximo de 1), podemos supor que a preocupação com o aumento dos casos de COVID-19 numa cidade, gerem o aumento do consumo de álcool em gel. Porém, se obtivermos uma correlação inversamente alta (próximo de -1), podemos supor que a redução do consumo de álcool em gel numa cidade, gere um aumento no número de casos de COVID-19. Ambas as suposições derivam da hipótese inicial de que essas duas variáveis exercem uma relação de dependência.

Dito isso, há muitas direções e significados da Estatística aplicados a pesquisas científicas de todas as áreas. Por exemplo, falamos de valores próximos de 1 ou de -1, porém o que é próximo? 0,9 é próximo? 0,8 é próximo? 0,7 é próximo? Existe alguma linha divisória clara sobre o que é altamente correlacionado e o que não é? Se 0,8 é próximo, então 0,79 também é próximo?

Essas são questões cujas respostas não podem ser definidas mediante regras universais. Tanto que é comum em cursos de graduação e pós-graduação, vermos disciplinas de estatísticas específicas para a demanda de cada área: “Estatística para Nome_do_Curso“. Pois dentre as muitas perguntas e meandros dessa área, é desejável que os pares estejam de acordo com os valores e conceitos aceitos como suficientes. Por exemplo, uma pesquisa com 10 participantes é muito ou pouco? A resposta é depende. Depende de quão representativos eles são, de quantas variáveis estamos considerando para cada sujeito, das intenções do estudo, da generalidade que se procura, dentre outros fatores que nos impedem de considerar um número como muito ou pouco. Se pensarmos na representação de um país com mais de 100 milhões de habitantes, 1.000 participantes de uma mesma região podem não ser representativos o suficiente, enquanto 1.000 participantes de 50 regiões diferentes, podem refletir a representação desejada.

Dito isso, há muitas perguntas que se precisa fazer (e entender porquê fazê-las) antes de afirmar algo com base em um teste estatístico. Por isso, ao dispormos de um banco de dados suficientemente grande, antes de calcularmos como cada uma das variáveis desse banco se correlacionam com as outras, é recomendável definirmos algumas hipóteses para serem averiguadas. Caso contrário, certamente encontraremos variáveis fortemente correlacionadas, mas que não representam nenhuma relação real entre elas. Trazendo nesse processo o risco de assumirmos significados que coincidam com nossas crenças pessoais e transformá-las em Fake News ‘baseadas em dados’, como por exemplo, que as pesquisas de doutorado em Sociologia prejudicaram os tratamentos com anticoagulantes. O fato de termos dados estatísticos que corroboram com isso, não é o suficiente para que essa hipótese se sustente.

Embora pareça algo “simples”, há um universo dentro da estatística e na pesquisa em matemática sobre os testes e seus resultados, cada um se encaixando para perfis bem particulares de dados e que ao seu modo, permitem extrair as melhores interpretações. Se reduzir ao simplismo de dizer que o valor de correlação leva a uma dependência é um equívoco perigoso assim como usar outras regras universais para inferir essas relações, isso pode levar por exemplo a resultados mal interpretados que se enraízam nas crenças pessoais e permanecem sendo reafirmados como verdadeiras mesmo sem embasamentos científicos mais sérios, em alguns casos, continuam sendo reafirmados até mesmo após especialistas mostrarem que são de fato falhas.

Conversar com estatísticos, matemáticos ou outros profissionais que trabalham com esses testes não é trivial, pois suas especificidades no tratamento com os termos e conceitos comumente aceitos pelos pares, tornam até mesmo o diálogo extrapares difícil. Mesmo uma afirmação simples, sobre ‘ter correlação’ pode levar a diversas perguntas mais técnicas, como qual a distribuição de probabilidade dos dados, se o teste foi paramétrico ou não-paramétrico, se os dados representam uma população ou uma amostra, qual sua significância, qual a variância e o desvio-padrão das respostas, qual a confiabilidade do instrumento de coleta, isso entre outras tantas perguntas iniciais necessárias para se discutir um pouco esse assunto.

Crédito da imagem de capa a Dariusz Sankowski por Pixabay

4 thoughts on “A influência dos doutores em Sociologia no número de mortes por anticoagulantes

  • 22 de abril de 2021 em 09:50
    Permalink

    Parabéns pelo post, sir 🙂 Vou usar na minha disciplina de estatística.
    Gostei de como você falou de correlação e aproveitou para falar de limiares (o que é muito ou pouco), diferenças entre áreas e amostras representativas. Abordou vários temas importantes de forma simples e numa leitura rápida. Gostei!

    Eu gosto também do exemplo das cegonhas de Copenhagem. Em um período depois da Segunda Guerra Mundial, havia, naquela cidade, uma correlação forte entre o número de bebês e o número de cegonhas. A conclusão lógica seria, então, que cegonhas trazem bebês (ou bebês trazem cegonhas). Mas como isso não condiz muito com nossos conhecimentos de biologia reprodutiva, uma outra explicação, mais plausível, é de que teve um crescimento demográfico (provocado por vários fatores relacionados ao fim da Guerra) e, concomitantemente, teve muitas casas sendo construídas, oferecendo muitos telhados para as cegonhas fazerem seus ninhos.

    Resposta
    • 22 de abril de 2021 em 12:25
      Permalink

      Obrigado sir 😀

      Resposta
  • 14 de junho de 2021 em 21:10
    Permalink

    Nossa ! parabéns pelas colocações.
    Achei esse blog em um artigo, fantástico o teor dos conteúdos !

    Resposta
    • 14 de junho de 2021 em 21:54
      Permalink

      Obrigado Jose, pode me passar o artigo onde vc encontrou esse blog, fiquei curioso agora 🙂

      Resposta

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *