Modelagem em biologia (sintética), um guia para ateus em modelagem.
Para uma pessoa que lida diariamente com biologia, pode ser bastante difícil imaginar uma maneira de abordar matematicamente um problema em sua área ou como isto poderia ter alguma utilidade. A biologia é uma ciência considerada bastante complexa, pois são muitas as variáveis que podem afetar o sistema. Até mesmo um sistema relativamente simples como a expressão de uma proteína em E. coli, pode se tornar um problema bastante complexo de se modelar se todas as variáveis que afetam a expressão desta proteína forem levadas em consideração. Na realidade, não há nem mesmo quem seja capaz de listar todas estas variáveis. Assim sendo, como é possível fazer um modelo disto, se não consigo nem mesmo listar as variáveis que alteram meu sistema? Neste caso, melhor mesmo fazer como o Calvin e ser um ateu em modelagem, não é mesmo?
Na verdade não, fazer um modelo não é tão complicado assim. Pensar que é necessário colocar tudo no modelo é o erro conceitual mais comum de quem tem formação em áreas complexas como a biologia. Já os físicos por exemplo, tem uma visão dita reducionista, de tentar entender um problema dividindo-o em pequenas partes fundamentais e começar pelo modelo mais simples possível para depois aumentar a complexidade, se necessário (ou possível). Reza a lenda que um dono galinheiro certa vez chamou um fisico para solucionar o porquê as galinhas não estavam botando. Uma semana depois o fisico apareceu com a solução. Entretanto, a solução só era válida para galinhas esfericamente simétricas e no vácuo. True story!
Pode parecer contraditório, mas um modelo que leva mais variáveis em consideração não necessariamente é melhor ou mais “realistico”. Na verdade se um modelo leva mais variáveis em consideração do que outro e ambos tem a mesma efeciência, o segundo modelo é considerado melhor, conforme veremos.
Portanto, o melhor caminho para fazer um bom modelo é considerar as poucas e relevantes variáveis do problema, ou seja, ao fazer um modelo, a principal regra é:
Keep it simple, stupid!!
Este é o famoso princípio KISS, uma boa regra para começar um modelo. A maioria dos modelos funcionam melhor e são melhor entendidos se mantidos simples. Complexidade desnecessária deve ser evitada, mas obviamente, simplicidade demasiada não deve resultar em um modelo útil (como no caso das galinhas). Assim, uma boa maneira de se começar um modelo é pensar quais são as variáveis que devem ser realmente importantes para o problema. Tente formular seu modelo com o mínimo de variáveis e veja se seus resultados condizem com o esperado, ou com os experimentos. Se isto não ocorrer, é um sinal de que seu modelo ou é demasiadamente simples e você esqueceu alguma variável muito importante ou você pode ter feito hipóteses que não sejam válidas. Fazer hipóteses condizentes não é uma tarefa na simples e exige um conhecimento profundo do problema em questão.
O principio KISS é um conceito bastante semelhante à famosa navalha de Occam. Este princípio, introduzido por William Occam diz:
“Se em tudo o mais forem idênticas as várias explicações de um fenômeno, a mais simples é a melhor.”
Exemplo
Para exemplificar o que foi dito, vamos brincar de modelar com um simples exemplo que discutimos certa vez em nosso grupo.
O problema consiste em estimar a concentração de uma proteína (nosso caso era a Cre recombinase) dentro das bactérias E.coli, ou seja, quantas Cre-recombinases existem, em média, por bactéria? Esta inferência é base para estimar o PoPS (veja post anterior)
Este parece ser um problema simples mas pode se tornar bastante complicado de resolver caso o princípio KISS não seja utilizado. Quem é importante neste problema? Devo considerar a temperatura? Devo considerar a quantidade de alimento no meio?
Você pode pensar, e com razão, que a temperatura e a quantidade de alimento são importantes pois afetam a taxa de produção das proteínas. Entretanto estes são exemplos de variáveis que não precisam
ser levados em consideração pois, nos experimentos não trabalharemos com situações extremas de escassez de alimento nem de mudanças de temperatura e pequenas variações destas variáveis (fora de um regime extremo) não devem afetar significantemente a produção da proteína. Muitas são as variáveis que não afetam significamente o sistema e ter intuição disto é fundamental e repito, exige um bom entendimento do problema.
OK, mas por onde começar?
Bom, sabemos que para se produzir uma proteína primeiramente precisamos da produção do RNA mensageiro. A quantidade de mRNA certamente é uma variável relevante!!!
Portanto, vamos tentar criar uma equação sobre como o mRNA deve variar no tempo. A variação temporal de uma variável é representada matematicamente pela derivada da variável no tempo
Sabemos que nosso mRNA deve ser produzido pela leitura do DNA, feita pela DNA polimerase. OK, mas com que velocidade ela lê isto? Uma boa referencia, é o Bionumbers (tipo um google para dados biológicos)
Lá encontramos que nossa taxa de transcrição (Ktrans) é de, em média, 40 pares de base por segundo. Mas então precisamos saber qual o tamanho do RNA que gera nossa proteína. No caso da Cre é de 1032 pares de base (Nbp). Portanto, quantidade de proteína produzida por tempo e por volume (V) é de:
Dividimos pelo volume pois queremos saber a variação de concentração, ou seja, quantidade de proteínas por volume (unidade em Molar). Este será o primeiro termo de nossa equação, que se refere a produção do mRNA. Existem outras maneiras dele ser produzido? Se sim, novos termos devem ser adicionados. Neste caso, aparentemente esta é a unica forma dele ser produzido. Mas ele pode ser degradado, não é mesmo? Então precisamos de mais um termo, o de degradação. Novamente se formos até o bionumbers teremos a taxa de degradação (KdRNA) do mRNA. Este novo termo fará com que a taxa do mRNA diminua no tempo, e por este motivo ele é negativo. Portanto nossa equação fica:
Onde o termo positivo se refere a produção e o negativo se refere a degradação.
Agora vamos escrever uma equação para a tradução do mRNA em proteína. Neste caso encontramos uma taxa de tradução de 15 aminoacidos por segundo. Como nossa proteina tem 1032 pares de base ela deve ter 1032/3=344 aminoacidos. Como, além de produzida, nossa proteína também pode ser degradada então temos uma equação bastante semelhate à anterior:
Podemos supor que inicialmente a concentração desta proteína é zero, isto não fará diferença nos cálculos mas suponhamos que não haja proteina inicialmente. Ao longo do tempo, a concentração
desta proteína irá crescer até alcançar o equilibrio entre produção e degradação. Neste equilibrio, a concentração das proteínas não mudam mais no tempo e portanto nossas equações são iguais a zero. Para entender o equilibrio, pense na equação logistica que descreve a curva de crescimento de uma população de bactérias. Inicialmente temos um crescimento exponencial, mas depois de um tempo a população satura, ou seja, estabiliza em uma determinada população. Este ponto de saturação é que chamamos de ponto de equilibrio, onde a quantidade de bactérias não muda mais no tempo. Neste ponto, a quantidade de bactérias que morrem é proporcional às que “nascem”. Matematicamente o ponto de equilibrio é um ponto onde a derivada no tempo é igual a zero, portanto:
ou seja:
e
Agora podemos isolar a concentração do mRNA na primeira equação e substituir na segunda. Com isto, chegamos a:
Qual o sentido deste valor? Bem você pode utilizar o volume da bactéria e calcular qual a concentração de uma única proteína dentro de uma bactéria e você chegará que isto é aproximadamente 1 nM. Portanto, nosso resultado nos diz que há aproximadamente 2.000 proteínas, em média, dentro da bactéria.
OK, isto quer dizer que se eu fizer um experimento eu vou encontrar exatamente 2000 proteínas dentro da bactéria?
Obviamente não, devemos ter em mente a limitação de nosso modelo. Aproximações foram feitas e há muitas variáveis que podem fazer com que este valor mude. Entretanto, podemos dizer com certa segurança que teriamos algo de 1.000 à 10.000 proteínas na bactéria. Pode parecer muito inexato e que nosso modelo não foi tão útil por não ser preciso. Mas devemos lembrar que inicialmente não tínhamos nenhuma ideia de quantas proteínas haviam. Se alguém chutasse que há somente 10 ou 100 proteínas em média poderiamos pensar que era uma estimativa boa. Com o modelo sabemos que esta estimativa não é boa, que devem haver bem mais proteínas que isto!
Além da quantidade de proteína, com este simples modelo poderiamos estimar o tempo que demora para que a quantidade de proteína sature, ou seja, atinja o ponto de equilibrio. Estas são estimativas que podem ser muito úteis na hora de definir um protocolo experimental e pode economizar uma razoável quantidade de tempo e reagentes durante os experimentos. Portanto, não é necessário de ser ateu em modelagem, mas, tampouco, é recomendado acreditar religiosamente no modelo!!