'Outliers' e 'Outsiders'
Toda aquela coisa para explicar a normalidade, foi com o intuito de relaciona-la com a previsibilidade. Em muitas situações não temos previsibilidade e quando isso acontece, quase sempre, é por causa da falta de normalidade dos dados. Terminei o texto sobre alando de como fazer para lidar com os anormais. Anormais, no sentido estatístico, são os assimétricos.
A questão curiosa é que, quem define a normalidade de uma dado, não é o dado em si, mas a distribuição a qual ele pertence. Na festa dos joqueis, os jogadores de basquete são anormais, no festa dos jogadores de voley, nem tanto.
Dependendo de com quem ele ande, um determinado dado, será sempre normal.
Se você é muito crítico, como eu sou, a curva normal que descreve o mundo é relativamente estreita, concentrada. Ou, estaticamente falando, leptocúrtica. Essa curva forma um sino muuuuito alto e muuuuito estreito. Na verdade mais parecido com um gramofone que com um sino. Conheço muita gente na média, e considero um monte de gente fora dela também. Eu juro que estou tentando mudar isso. Tornar a minha curva mais mesocúrtica (um sino normal) ou até mesmo um pouco platicúrtica (um sino achatado, quase como uma ondulação, onde tem quase tanta gente nas extremidades quanto na média). Que nem uma campainha de mesa.
Cada um de nós tem sua descrição normal do mundo, e tenta encaixar tudo que encontra nessa descrição. Para que o mundo se torne previsível e confortável. E é possível encaixar alguma coisa na distribuição normal? É sim.
Um ponto que está fora da distribuição é chamado de ‘outlier‘. Fora da linha. Tenho uma amiga que gosta de pessoas (mais do que de dados), e nesses casos ela usa o termo de Outsiders: os excluídos.
Estatisticamente, existe um conjunto de artifícios matemáticos para lidar com os outliers e encaixa-los na distribuição normal. Esses artifícios são chamados, convenientemente, de transformações. O logaritmo, por exemplo, é uma função que diminui a discrepância entre duas coisas diferentes. Por isso, é possível utilizar o log em um determinado dado para que ele se encaixe na sua distribuição.
Parece doidera, não é? Transformar um dado apenas para que ele se encaixe no que você conhece e possa entende-lo?
Mas é porque não? Você pode calcular o log de um número e o número de volta, quantas vezes quiser. O log e o número permanecem sempre o mesmo. E por que você faria isso? Porque pode ser mais fácil entender a relação entre o log de dois números do que entre os dois números em si. Principalmente, se os logs se comportam de forma… normal.
A vida reserva surpresas e muitas coisas novas também. Felizmente! Nossa primeira tendência, como falei aqui, é tentar encaixar algo novo nas categorias das “coisas que conhecemos”. Quando elas não se encaixam, tentamos dar uma ‘transformada’ nelas. Uma outra amiga chamaria isso de ‘enfeitar’.
Mas o que o cientista dentro de todos nós deveria aprender a fazer? Procurar a ferramenta mais adequada para lidar cada nova coisa nova. Criar essa ferramenta, se for necessário. Existe uma distribuição normal, simétrica. Mas existem muito mais distribuições assimétricas. E apesar das formas de lidar com elas sejam menos eficientes do que as paramétricas, você não precisa transformar nada. Nem ninguém.
Isso é trabalhoso, é cansativo. Mas como tantas coisas trabalhosas e cansativas, tem grandes recompensas. Então o problema não é esse, o problema é quando isso é impossível.
PS: A idéia e alguns instrumentos para a discussão da normalidade vieram de uma das muitas conversas com minha querida amiga e bióloga Cris.
Discussão - 1 comentário
O problema é quando os cientistas excluem os outliers só para a curva ficar mais bonita. Dando a desculpa que não vai fazer diferença na estatística. Horas, porque não fazer a estatística primeiro e a análise depois ? Isso para mim é um gigantesco post hoc