Sobre como calculei a CL50 usando o 'Statistica'
O calvário da biologia é a estatística.
Pra ser um bom biólogo, pra ser um bom cientista, você tem que saber estatística. E quanto mais, melhor. Só que… estatística é difícil! Bom, pelo menos pra mim.
Mesmo os conceitos mais básico, como ‘erro do tipo I e erro do tipo II’, ou de ‘normalidade’ sobre os quais eu até já escrevi, eu acho difíceis, e cada vez que necessito, tenho que pensar longamente sobre eles antes de ajustá-los as minhas observações.
E tem a matemática… sem ela, sua estatística vai ser muito limitada. Já vai ajudar, mas será insuficiente.
Mas, vocês sabem, eu sou um cara teimoso, e não me dou por vencido facilmente. Isso explica porquê eu passei a última semana, uma semana cheia de trabalho, gastando, todos os dias, várias horas, pra resolver um problema de estatística. Fiquei tão orgulhoso do resultado final que vou descrevê-lo aqui. Vai que alguém precisa?!
Bom, tudo começou quando eu estava revisando um artigo e descobri umas inconsistências nos resultados de uns testes de toxicidade. Os testes de toxicidade são bastante simples: a gente aplica a substância no indivíduo (em vários indivíduos, que não são pessoas mas mexilhões) e observa o efeito. Que, eventualmente, é a morte. Como aplicamos várias doses da substância, que nesse caso eram diferentes compostos de cloro, a gente pode calcular uma curva de dose-resposta, que, como o próprio nome diz, mostra o quanto o aumento do efeito em resposta ao aumento da dose. Certo?! Mais ou menos, porque a relação não é linear. Acontece que em doses pequenas da substância, o organismo não apresenta efeito algum, e em doses superiores àquela que matou todos os indivíduos expostos, o efeito se mantém (claro, não dá pra ter efeito maior do que todo mundo morto). Por isso é uma curva sigmoidal, aquela que se parece com um ‘S’. Resta a parte do meio dessa curva, que é o que nos interessa, porque nela a relação entre a dose e a resposta é linear. E por que isso é importante? Basicamente, porque o que é linear é mais fácil de calcular e de fazer previsões com base nesses cálculos.
Mas o que a gente faz com a perninha inicial e a final do ‘S’, (ou, no jargão, a fase LAG e a fase LOG da curva sigmoidal)? Ignora? Deixa pra lá? Isso não é muito científico, então os cientistas resolveram apelar pra estatística e usaram uma ferramenta criada por um cidadão chamado Bliss, em 1934: a transformação em Probitos.
E o que vem a ser isso? Vamos lá, do começo. Os resultados de testes de toxicidade que medem mortalidade tem um agravante: medem mortalidade. Quer dizer, medem uma variável que é categórica e não contínua: vivo/morto.
Abre parênteses: esses são os dois únicos conceitos estatísticos que eu considero simples. Variáveis contínuas são aquelas que podem ser medidas em uma escala (como de 0 a 10, por exemplo, altura e peso) e categóricas são aquelas que dividem em classes (uma ou mais, como por exemplo sexo, cor dos olhos e também mortalidade. Fecha parênteses.
E com uma variável categórica da pra fazer bem menos coisas do que com uma contínua. Por exemplo, se a morte fosse uma variável contínua, como a pressão sanguínea, então eu poderia avaliar a efeitos intermediários. Quase vivo e quase morto, que são informações importantes. Será que aquele indivíduo que recebeu uma dose muito alta mas sobreviveu estava mais próximo de morrer ou estava vivinho da silva? Com uma variável discreta e binomial como a morte não dá pra eu responder isso. Pelo menos não sem estatística. E é ai que entra a transformação em probitos. Vamos imaginar que existe uma outra variável associada a morte, mas anterior, subjascente, a ela: a ‘quase morte’. A ‘quase morte’ é uma variável contínua e pode ser medida em uma escala que vai de ‘vivinho da silva’ até ‘mortinho da breca’, passando por todos os possíveis estágios intermediários. Qual é posição nessa escala de probabilidade, dadas as condições e os resultados do meu teste, um indivíduo que morreu na concentração 1? e na 2? e na 10?
É isso que a transformação de probitos me dá. A posição da minha variável discreta (qualitativa) na variável imaginária, subjascente, contínua (quantitativa). Ou pelo menos foi isso que eu conclui depois de uma semana debruçado sobre ela. A melhor explicação veio, como sempre, do livro eletrônico de estatística da Statsoft, que eu uso há muito tempo, e que continua sendo o único que me permite entender os conceitos. Talvez porque não venha com todos aqueles p, z, f etc.
O problema está resolvido e com a minha ‘variável contínua’ eu posso calcular a concentração de substância que afetaria 50% da população de animais expostos: A CE50 (que vira CL50 se o efeito em questão for letal). Vou deixar a discussão da validade da CL50 para outro momento, porque ela é longa, mas como é exigida para a publicação, não importa muito nesse momento.
Bom, o problema conceitual está resolvido, mas fazer o cálculo de probitos e estimar a CL50 não é nem um pouco trivial. A agência de proteção ambiental americana criou, muitos e muitos anos atrás, um software que calculava a CL50, mas que não evoluiu e continua em DOS. Gente… o DOS foi muito bom quando apareceu, mas atualmente… que descanse em paz! Qualquer erro de digitação tinha que repetir tudo. E usando MAC que nem eu… o transtorno é maior ainda. Além disso, o TKS não me deixava entrar todas as réplicas, técnicas ou biológicas, pedindo que eu agrupasse os dados para cada concentração. E abrir mão das minhas réplicas? Que deram tanto, mas tanto trabalho? De jeito nenhum!
Abre parênteses: O problema, posso dizer agora, não era só a falta de jeito de um software em DOS. Era que me faltava a compreensão real do que era a tal da transformação. Fecha parênteses.
Tinha de haver uma maneira de fazer isso em um pacote estatístico mais moderno, e eu transformei a tarefa de encontrar essa maneira na minha cruzada dessa semana. Não era possível que a única forma de calcular CL50 fosse com o famigerado TKS ou com o lamentável ‘probit’ (ambos em DOS). Escrevi para meus amigos que trabalham com ecotoxicologia e fazem testes de toxicidade para um monte de empresas, mas todos eles ainda usam o TKS. Não são pessoas doentes que nem eu, e estão plenamente satisfeitas com o DOS delas. Pra que mexer em time que está ganhando?
Sentei na cadeira, abri o meu emulador de Windows, abri o meu pacote preferido, o Statistica e me preparei pra batalha. Primeiro eu queria um botão ou uma expressão que me desse: ‘transformar a coluna 1 em probitos’. Mas não era tão simples assim. A probabilidade com base nessa ‘variável subjascente’ (a ‘quase morte’) só pode ser estimada com base na comparação entre número de vivos e número de mortos em cada concentração. Quando eu consegui achar a janela para a regressão por probitos, não conseguia entender que tantas variáveis eram aquelas que ele pedia. Enfim… como eu disse, foi uma semana de quebra-cabeça.
Mas enfim eu consegui. Calculei a CL50 dos experimentos no Statistica. Fiquei com tanto medo de não conseguir repetir o procedimento depois de dar certo a primeira vez, que tirei fotos da tela e montei um tutorial para mim mesmo (eu sei que daqui a meses ou anos quando tiver que fazer isso de novo, vou precisar rever toooooodos esses conceitos), que eu achei que poderia ser útil, pelo menos para meus amigos que ainda usam o TKS, e disponibilizo aqui: VQEB_tutorial_LC50_prob_stat_2011-Comments.
Update. Esse post deu origem a um trabalho com o epidemiologista Antônio Pacheco da FioCruz e foi publicado em 2013 na Marine Environmental Research