Sensibilidade e Especificidade
O problema da gente tentar consertar um erro depois de errar muito, é que a gente tende a errar para o lado contrário. Sabe aquela coisa de pecar primeiro pela falta e depois pelo excesso?
Em estatística, a gente diz que existem dois tipos de erro: ‘Erro do tipo I’ e ‘Erro do tipo II’, que são nomes terríveis, porque não ajudam em nada a gente a saber o que é um e o outro, demonstram uma total falta de criatividade dos estatísticos e tiram a curiosidade das pessoas para essa informação super importante.
Um nome muito melhor para o ‘Erro do tipo I’ é ‘falso alarme’ ou ‘falso positivo’. Esse tipo de erro acontece quando alguma coisa que você disse que era verdadeira, no final das contas se mostrou falsa. Eu sei que vocês não gostam de exemplos se estatísticos, aquelas coisas com ‘lançamentos de dados’ e ‘retirada de bolas de uma urna’, então vou tentar uma coisa mais na linha da fofoca.
O primeiro passo é fazer uma pergunta: “Será que ela(e) me ama?”
Ai você tem que recolher as evidências que podem te ajudar na resposta: o que ela(e) disse aqui, o que ela(e) fez ali, o que ela(e) falou lá. Junta, eventualmente, com algumas coisas que os outros dizem por ai, etc.
Depois você coloca tudo em um modelo e chega a uma conclusão: “Sim, ela(e) me ama”.
Um teste de hipótese até calcula a probabilidade da sua conclusão ser um falso alarme. (que nesse caso, significaria que tudo que ela(e) disse e fez foram na verdade obra do acaso e não do amor). E se a chance de ser um falso alarme for inferior a 5%, você toma a sua conclusão como certa (mesmo que na verdade a certeza seja de 95%).
Mas 95% é muito bom, não é?! É quase certo, não é?! Com 95% de certeza eu até vou pra debaixo da janela da pessoa fazer serenata de amor. Os 5% de chance de quebrar a cara estão lá, mas é melhor a gente se arrepender do que fez, do que daquilo que não fez, certo? Bem, pra fins didáticos, vamos dizer que sim.
Noventa e cinco por cento de chance de estar certo deve ser muito bom, porque se tornou um valor sagrado para os cientistas. Se a sua probabilidade p de estar errado é de 0,05 (que é igual a 95% de chance de estar certo) então sua hipótese será aceita, seus dados serão publicados, sua tese será aprovada. Caso contrário, se for 0,06; 0,1 ou qualquer outro valor maior que 0,05; então você é um pobre coitado.
Esse valor não depende dos dados. Esses sempre são o que são. Se você coletou bem, são bons dados (senão, você também é um pobre coitado). Também não é uma questão de interpretação dos dados. Diferentes interpretações podem levar a diferentes conclusões, mas a chance de estar certo ou errado é a mesma.
A questão está no quanto você se permite errar. Vejamos um outro exemplo: Se você souber que a chance de chover é 5%, você sai de casa com guarda-chuva? Bom, eu não. Só 5% de chance não é suficiente para me deixar carregando aquele trambolho pra lá e pra cá o dia todo. Mas para isso, e ai está a questão, você tem que aceitar que pode se molhar em 5% das vezes que sair de casa.
É verdade, nem todo mundo aceita. Tem gente que fica bravo com a chuva e amaldiçoa as gotas de água. Mas quem está na chuva deveria estar preparado pra se molhar, não é?!
Por outro lado, tem gente que sairia de casa sem o guarda-chuva mesmo se a chance de se molhar fosse 6, 7 ou até 10%. Ou até mais. Afinal, como disse Richard Gordon, ‘Cientificamente, embora seja deprimente, não passamos de sacos à prova d’água cheios de produtos químicos e carregados de eletricidade’. No nosso dia-a-dia podemos, e temos que, tomar decisões com percentuais menores do que 95% de certeza, mas os cientistas tem mesmo que manter esse alto padrão de qualidade.
Precisa porque o falso positivo é um problema duplo: você não só aceitou como verdadeira uma coisa que era falsa, como não descobriu a coisa verdadeira!
E é por isso que, em geral, não nos importamos muito com o ‘Erro do tipo II’, que é o falso negativo. Ele significa apenas que ‘perdemos uma boa oportunidade de descobrir a verdade’. Se ela(e) acha que você não a(o) ama, quando na verdade você ama, pode dar uma tremenda ‘dor de cabeça’, mas eventualmente novas evidências aparecerão para esclarecer a verdade. E essa é outra razão para nos importarmos menos com o falso negativo. A chance de cometer um erro do tipo II diminui muito com o acumulo de evidências a por isso, em geral, conseguimos evitar ele com o bom senso. Se você se baseia em apenas um bilhete que ela(e) te escreveu pra concluir ela(e) te ama, pode até ser o mais bonito poema já escrito, mas você nunca vai conseguir ter 95% de certeza que ela(e) te ama só com isso. Então, naturalmente, você busca mais argumentos para chegar a sua conclusão.
Erros do tipo I são erros de falta de especificidade: Um(a) te ama, o(a) outro(a) não, mas você não consegue ver a diferença. O erro do tipo II é um erro de falta de sensibilidade: ele(a) pode te amar, mas você não consegue saber com certeza. Se você corrige a sua falta de sensibilidade deveria, automaticamente, melhorar a sua falta de especificidade (ainda que não na mesma proporção). Na pratica, infelizmente, nem sempre funciona assim, porque a coerência, que é um pressuposto estatístico, não é uma qualidade humana inata.
Outra razão pode ser o ‘Erro do tipo III’ (descoberto depois dos dois primeiros) que é: ‘Você fez a pergunta errada!’
Em estatística, a gente diz que existem dois tipos de erro: ‘Erro do tipo I’ e ‘Erro do tipo II’, que são nomes terríveis, porque não ajudam em nada a gente a saber o que é um e o outro, demonstram uma total falta de criatividade dos estatísticos e tiram a curiosidade das pessoas para essa informação super importante.
Um nome muito melhor para o ‘Erro do tipo I’ é ‘falso alarme’ ou ‘falso positivo’. Esse tipo de erro acontece quando alguma coisa que você disse que era verdadeira, no final das contas se mostrou falsa. Eu sei que vocês não gostam de exemplos se estatísticos, aquelas coisas com ‘lançamentos de dados’ e ‘retirada de bolas de uma urna’, então vou tentar uma coisa mais na linha da fofoca.
O primeiro passo é fazer uma pergunta: “Será que ela(e) me ama?”
Ai você tem que recolher as evidências que podem te ajudar na resposta: o que ela(e) disse aqui, o que ela(e) fez ali, o que ela(e) falou lá. Junta, eventualmente, com algumas coisas que os outros dizem por ai, etc.
Depois você coloca tudo em um modelo e chega a uma conclusão: “Sim, ela(e) me ama”.
Um teste de hipótese até calcula a probabilidade da sua conclusão ser um falso alarme. (que nesse caso, significaria que tudo que ela(e) disse e fez foram na verdade obra do acaso e não do amor). E se a chance de ser um falso alarme for inferior a 5%, você toma a sua conclusão como certa (mesmo que na verdade a certeza seja de 95%).
Mas 95% é muito bom, não é?! É quase certo, não é?! Com 95% de certeza eu até vou pra debaixo da janela da pessoa fazer serenata de amor. Os 5% de chance de quebrar a cara estão lá, mas é melhor a gente se arrepender do que fez, do que daquilo que não fez, certo? Bem, pra fins didáticos, vamos dizer que sim.
Noventa e cinco por cento de chance de estar certo deve ser muito bom, porque se tornou um valor sagrado para os cientistas. Se a sua probabilidade p de estar errado é de 0,05 (que é igual a 95% de chance de estar certo) então sua hipótese será aceita, seus dados serão publicados, sua tese será aprovada. Caso contrário, se for 0,06; 0,1 ou qualquer outro valor maior que 0,05; então você é um pobre coitado.
Esse valor não depende dos dados. Esses sempre são o que são. Se você coletou bem, são bons dados (senão, você também é um pobre coitado). Também não é uma questão de interpretação dos dados. Diferentes interpretações podem levar a diferentes conclusões, mas a chance de estar certo ou errado é a mesma.
A questão está no quanto você se permite errar. Vejamos um outro exemplo: Se você souber que a chance de chover é 5%, você sai de casa com guarda-chuva? Bom, eu não. Só 5% de chance não é suficiente para me deixar carregando aquele trambolho pra lá e pra cá o dia todo. Mas para isso, e ai está a questão, você tem que aceitar que pode se molhar em 5% das vezes que sair de casa.
É verdade, nem todo mundo aceita. Tem gente que fica bravo com a chuva e amaldiçoa as gotas de água. Mas quem está na chuva deveria estar preparado pra se molhar, não é?!
Por outro lado, tem gente que sairia de casa sem o guarda-chuva mesmo se a chance de se molhar fosse 6, 7 ou até 10%. Ou até mais. Afinal, como disse Richard Gordon, ‘Cientificamente, embora seja deprimente, não passamos de sacos à prova d’água cheios de produtos químicos e carregados de eletricidade’. No nosso dia-a-dia podemos, e temos que, tomar decisões com percentuais menores do que 95% de certeza, mas os cientistas tem mesmo que manter esse alto padrão de qualidade.
Precisa porque o falso positivo é um problema duplo: você não só aceitou como verdadeira uma coisa que era falsa, como não descobriu a coisa verdadeira!
E é por isso que, em geral, não nos importamos muito com o ‘Erro do tipo II’, que é o falso negativo. Ele significa apenas que ‘perdemos uma boa oportunidade de descobrir a verdade’. Se ela(e) acha que você não a(o) ama, quando na verdade você ama, pode dar uma tremenda ‘dor de cabeça’, mas eventualmente novas evidências aparecerão para esclarecer a verdade. E essa é outra razão para nos importarmos menos com o falso negativo. A chance de cometer um erro do tipo II diminui muito com o acumulo de evidências a por isso, em geral, conseguimos evitar ele com o bom senso. Se você se baseia em apenas um bilhete que ela(e) te escreveu pra concluir ela(e) te ama, pode até ser o mais bonito poema já escrito, mas você nunca vai conseguir ter 95% de certeza que ela(e) te ama só com isso. Então, naturalmente, você busca mais argumentos para chegar a sua conclusão.
Erros do tipo I são erros de falta de especificidade: Um(a) te ama, o(a) outro(a) não, mas você não consegue ver a diferença. O erro do tipo II é um erro de falta de sensibilidade: ele(a) pode te amar, mas você não consegue saber com certeza. Se você corrige a sua falta de sensibilidade deveria, automaticamente, melhorar a sua falta de especificidade (ainda que não na mesma proporção). Na pratica, infelizmente, nem sempre funciona assim, porque a coerência, que é um pressuposto estatístico, não é uma qualidade humana inata.
Outra razão pode ser o ‘Erro do tipo III’ (descoberto depois dos dois primeiros) que é: ‘Você fez a pergunta errada!’