'Outliers' e 'Outsiders'


Toda aquela coisa para explicar a normalidade, foi com o intuito de relaciona-la com a previsibilidade. Em muitas situações não temos previsibilidade e quando isso acontece, quase sempre, é por causa da falta de normalidade dos dados. Terminei o texto sobre alando de como fazer para lidar com os anormais. Anormais, no sentido estatístico, são os assimétricos.

A questão curiosa é que, quem define a normalidade de uma dado, não é o dado em si, mas a distribuição a qual ele pertence. Na festa dos joqueis, os jogadores de basquete são anormais, no festa dos jogadores de voley, nem tanto.

Dependendo de com quem ele ande, um determinado dado, será sempre normal.

Se você é muito crítico, como eu sou, a curva normal que descreve o mundo é relativamente estreita, concentrada. Ou, estaticamente falando, leptocúrtica. Essa curva forma um sino muuuuito alto e muuuuito estreito. Na verdade mais parecido com um gramofone que com um sino. Conheço muita gente na média, e considero um monte de gente fora dela também. Eu juro que estou tentando mudar isso. Tornar a minha curva mais mesocúrtica (um sino normal) ou até mesmo um pouco platicúrtica (um sino achatado, quase como uma ondulação, onde tem quase tanta gente nas extremidades quanto na média). Que nem uma campainha de mesa.


Cada um de nós tem sua descrição normal do mundo, e tenta encaixar tudo que encontra nessa descrição. Para que o mundo se torne previsível e confortável. E é possível encaixar alguma coisa na distribuição normal? É sim.

Um ponto que está fora da distribuição é chamado de ‘outlier‘. Fora da linha. Tenho uma amiga que gosta de pessoas (mais do que de dados), e nesses casos ela usa o termo de Outsiders: os excluídos.

Estatisticamente, existe um conjunto de artifícios matemáticos para lidar com os outliers e encaixa-los na distribuição normal. Esses artifícios são chamados, convenientemente, de transformações. O logaritmo, por exemplo, é uma função que diminui a discrepância entre duas coisas diferentes. Por isso, é possível utilizar o log em um determinado dado para que ele se encaixe na sua distribuição.

Parece doidera, não é? Transformar um dado apenas para que ele se encaixe no que você conhece e possa entende-lo?

Mas é porque não? Você pode calcular o log de um número e o número de volta, quantas vezes quiser. O log e o número permanecem sempre o mesmo. E por que você faria isso? Porque pode ser mais fácil entender a relação entre o log de dois números do que entre os dois números em si. Principalmente, se os logs se comportam de forma… normal.

A vida reserva surpresas e muitas coisas novas também. Felizmente! Nossa primeira tendência, como falei aqui, é tentar encaixar algo novo nas categorias das “coisas que conhecemos”. Quando elas não se encaixam, tentamos dar uma ‘transformada’ nelas. Uma outra amiga chamaria isso de ‘enfeitar’.

Mas o que o cientista dentro de todos nós deveria aprender a fazer? Procurar a ferramenta mais adequada para lidar cada nova coisa nova. Criar essa ferramenta, se for necessário. Existe uma distribuição normal, simétrica. Mas existem muito mais distribuições assimétricas. E apesar das formas de lidar com elas sejam menos eficientes do que as paramétricas, você não precisa transformar nada. Nem ninguém.

Isso é trabalhoso, é cansativo. Mas como tantas coisas trabalhosas e cansativas, tem grandes recompensas. Então o problema não é esse, o problema é quando isso é impossível.

PS: A idéia e alguns instrumentos para a discussão da normalidade vieram de uma das muitas conversas com minha querida amiga e bióloga Cris.

O que é a normalidade?


Alguns termos realizam todo o seu sentido apenas a luz da estatística. “Significativo” por exemplo, é um termo estatístico. Dizer que a diferença entre duas coisas é significativa, é dizer que a alteração (aumento ou redução) nessa grandeza foi testada com uma probabilidade de erro conhecida. Digamos, minha chance de estar errado é de… 5% (estatisticamente, essa é uma probabilidade aceitável de estar errado).

A mesma coisa serve para a normalidade. O termo “normal” certamente apareceu antes do seu significado estatístico, mas apenas na estatística ele se realizou plenamente.

Uma característica normal é aquela que se distribui em uma população seguindo uma curva gaussiana. Ops, compliquei. Refraseando, curva em forma de sino. Como na figura abaixo. Mas o que essa curva em forma de sino quer dizer?

Imagine que você pudesse medir a altura de todos os seus amigos. A não ser que você goste de sair por ai apenas com a galera do time de basquete, alguns poucos amigos devem ser muito altos. Da mesma forma, se seus outros amigos não são jóqueis, então outros poucos devem ser muito baixos. Alguns um pouco menos altos e outros um pouco menos baixos. Se você calcular a média (ah… esse sim é um termo estatístico que todo mundo conhece), vai descobrir que a maior parte dos seus amigos tem uma altura próxima ao valor da média. Vamos fazer um gráfico disso (minha namorada pergunta se eu vou desenhar pra ela entender melhor)?

A maioria das coisas que pode ser medida continuamente em uma escala, quando a gente avalia em uma população grande, apresenta uma distrubuição com essa forma de sino. E por isso, essa distribuição é chamada normal. Por que é normal que seja assim!

Mas a distribuição normal tem outras características importantíssimas. Ela é paramétrica: o lado direito da curva é igual ao lado esquerdo. Ou, da “média para baixo” é igual à “da média para cima”.

Já sei, você nunca gostou de matemática, não está entendendo onde eu quero chegar, e está quase desistindo. Mas enquanto a matemática tenta colocar tudo em números, a estatística quer explicar o mundo. E isso aqui é estatística. Me dá mais 1 min…

A questão é que o fato da curva ser paramétrica torna possível fazer um monte de… previsões (ahh… agora que eu falei em previsões, vocês gostaram, não é mesmo?!). Acordar, comer, cagar, ir pro trabalho, voltar pra casa… as vezes parece que nada muda. Todas essas são coisas “normais” e justamente porque não mudam, são previsíveis.

A normalidade está totalmente ligada a previsibilidade. Algo imprevisível… é anormal. Pelo menos a luz da estatística.

Essa previsibilidade da curva Gaussiana, permitiu o desenvolvimento de um monte de “ferramentas” estatísticas muito poderosas para estudar as variáveis que apresentam características normais. A média é uma dessas poderosas ferramentas. Fácil de calcular, muito descritiva e, principalmente, muito intuitiva. Todo mundo entende o que a média quer dizer.

O problema é que essas ferramentas só se aplicam aos dados com distribuição Gaussiana. Traduzindo: A média só pode ser usada no que é normal! E, apesar da altura dos seua amigos apresentarem uma distribuição normal… aposto que nem eles todos eles são.

E como fazer para lidar com as coisas (e amigos) que não são normais? Essa pergunta eu deixo para outro texto!

Sobre ScienceBlogs Brasil | Anuncie com ScienceBlogs Brasil | Política de Privacidade | Termos e Condições | Contato


ScienceBlogs por Seed Media Group. Group. ©2006-2011 Seed Media Group LLC. Todos direitos garantidos.


Páginas da Seed Media Group Seed Media Group | ScienceBlogs | SEEDMAGAZINE.COM