Um método desonesto de defender a honestidade de dados desonestos

Uns dois anos atrás estava passeando no Amigão (esses lojões que vendem de tudo) quando encontrei um saquinho de dados de 6 faces na fila do caixa. Dados são legais, uso dados para várias das minhas atividades, mas geralmente preciso surrupiar de algum dos jogos de tabuleiro que tenho, e torcer pra não perder no meio do caos do ambiente didático. Pensando nesse aspecto, fiz algo raro em minha vida, comprar por impulso! Meu impulso de compras parece o coração do mestre ancião de libra (pra quem pegou a referência, ótimo, quem não pegou… azar). Enfim, eu com meus dados de procedência duvidosa tive muitos momentos felizes nesse período, desde jogos de RPG a experimentos em sala de aula envolvendo probabilidade, sempre que preciso, pego esses dadinhos e saio distribuindo pra atividade. Mas em dois anos de convivência, comecei a suspeitar da honestidade deles, não que eu pudesse provar algo, mas são tantas vezes vendo-os serem lançados que alguns resultados pareciam se repetir mais do que os outros.

Até que essa semana, dando a última aula de Estatística para o curso técnico de Química, cheguei em um impasse de terminar 30 minutos mais cedo, passar exercícios nesse tempo ou abordar um novo conteúdo no tempinho que restava. Pensando que já estamos pra mais que metade de dezembro, pensando rapidamente me veio uma ideia que caberia bem ao tópico teste Qui² que estavamos encerrando, testar em um contexto empírico se um evento é ou não aleatório. Tão logo tive essa ideia, passei para a turma em grupos, meus dadinhos duvidosos, pedindo que lançassem e registrassem a quantidade de cada resultado (1, 2, 3, 4, 5, 6) até que todos eles tivessem pelo menos 5 ocorrências. Pensei seriamente em pedir que cada resultado ocorresse pelo menos 10 vezes, mas fiquei com dó da turma…

Então o cálculo era simples, após obter os resultados bastaria calcular o Qui^2 e comparar com a tabela usando um nível de significância escolhido (no caso, pedi 0,05).

Qui^2 = somatório (i = 1, 6) Xi*[(i – Ei)^2]/Ei. Onde Xi são as frequências absolutas de cada resultado do dado (1, 2, 3, 4, 5 ou 6) e Ei é o valor esperado para cada resultado.

Daí no fluxo da atividade, indo pra lá e pra cá na sala explicando o que tinha que ser feito, fui de impulso explica do como calcular o Ei, sendo a média dos resultados para cada um dos valores encontrados. Como estamos testando a aleatoriedade uniforme, o Ei será igual para todos i, bastaria fazer a média ponderada dos resultados encontrados.

E = (X1*1 + X2*2 + X3*3 + X4*4 + X5*5 + X6*6)/(X1 + X2 + X3 + X4 + X5 + X6).

Tudo certo, agora só precisava esperar que meus alunos provassem que meus dados era desonestos… Mas eles foram me entregando relatórios que diziam que meus dados eram honestos. Isso me deixou cheia de trigo (intrigada)… Será que meus dados eram honestos? E eu aqui injustamente duvidando de sua honestidade? Enfim, comecei a escrever esse texto contando a história pois achei que seria legal narrar está experiência… Mas em meio ao texto germinando (de tanto trigo que eu carregava) achei o erro, e de fato, é um erro sutil, você conseguiu encontrar enquanto lia o texto?

Queríamos testar se sua distribuição de resultados era uniforme, ou seja, o valor esperado E deveria ser a hipótese da distribuição uniforme:

E = (1 + 2 + 3 + 4 + 5 + 6)/6 = 3,5

Com isso, estaríamos de fato comparando se os resultados empíricos acompanhavam os resultados esperados. Mas em vez disso, fizemos um método desonesto, pois usamos os próprios valores encontrados nos dados para determinar o valor esperado. Nesse caso, seria como verificar se os dados seguem uma distribuição dada pelo comportamento do próprio dado, se ele é desonesto ou honesto, isso vai sempre funcionar, pois é o dado que define o valor a se esperar.

O interessante é que parecíamos estar testando a honestidade do dado, porém usando-o como parâmetro. É como quiséssemos avaliar se um pacote de 1kg de arroz tem de fato 1kg, usando o próprio pacote de arroz como parâmetro para avaliar quanto pesa 1kg.

Agora com calma, vejo que processo correto é bem mais simples, e não envolve o valor esperado 3,5, pois assim, estaríamos comparando os resultados obtidos com a média fixa, e quanto maior ela fosse o intervalo de valores, maior seria essa distância. O correto seria fazermos:

E = (X1 + X2 + X3 + X4 + X5 + X6)/6 resulta a quantidade esperada pra cada resultado em relação ao total de tentativas realizadas.

Qui^2 = somatório (i = 1, 6) [(Xi – E)^2]/E

Easy :3

Esse POST serve de alerta para os riscos de dar atividades sem um planejamento/estudo prévio, mas também a sugestão de como erros geram ótimos materiais para divulgação científica (desde que sejam analisados com criticidade).

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *