Modelagem em biologia (sintética), um guia para ateus em modelagem.

Para uma pessoa que lida diariamente com biologia, pode ser bastante difícil imaginar uma maneira de abordar matematicamente um problema em sua área ou como isto poderia ter alguma utilidade. A biologia é uma ciência considerada bastante complexa, pois são muitas as variáveis que podem afetar o sistema. Até mesmo um sistema relativamente simples como a expressão de uma proteína em E. coli, pode se tornar um problema bastante complexo de se modelar se todas as variáveis que afetam a expressão desta proteína forem levadas em consideração. Na realidade, não há nem mesmo quem seja capaz de listar todas estas variáveis. Assim sendo, como é possível fazer um modelo disto, se não consigo nem mesmo listar as variáveis que alteram meu sistema? Neste caso, melhor mesmo fazer como o Calvin e ser um ateu em modelagem, não é mesmo?

Na verdade não, fazer um modelo não é tão complicado assim. Pensar que é necessário colocar tudo no modelo é o erro conceitual mais comum de quem tem formação em áreas complexas como a biologia. Já os físicos por exemplo, tem uma visão dita reducionista, de tentar entender um problema dividindo-o em pequenas partes fundamentais e começar pelo modelo mais simples possível para depois aumentar a complexidade, se necessário (ou possível). Reza a lenda que um dono galinheiro certa vez chamou um fisico para solucionar o porquê as galinhas não estavam botando. Uma semana depois o fisico apareceu com a solução. Entretanto, a solução só era válida para galinhas esfericamente simétricas e no vácuo. True story!

Pode parecer contradit√≥rio, mas um modelo que leva mais vari√°veis em considera√ß√£o n√£o necessariamente √© melhor ou mais “realistico”. Na verdade se um modelo leva mais vari√°veis em considera√ß√£o do que outro e ambos tem a mesma efeci√™ncia, o segundo modelo √© considerado melhor, conforme veremos.

Portanto, o melhor caminho para fazer um bom modelo é considerar as poucas e relevantes variáveis do problema, ou seja, ao fazer um modelo, a principal regra é:

Keep it simple, stupid!!
Este √© o famoso princ√≠pio KISS, uma boa regra para come√ßar um modelo. A maioria dos modelos funcionam melhor e s√£o melhor entendidos se mantidos simples. Complexidade desnecess√°ria deve ser evitada, mas obviamente, simplicidade demasiada n√£o deve resultar em um modelo √ļtil (como no caso das galinhas). Assim, uma boa maneira de se come√ßar um modelo √© pensar quais s√£o as vari√°veis que devem ser realmente importantes para o problema. Tente formular seu modelo com o m√≠nimo de vari√°veis e veja se seus resultados condizem com o esperado, ou com os experimentos. Se isto n√£o ocorrer, √© um sinal de que seu modelo ou √© demasiadamente simples e voc√™ esqueceu alguma vari√°vel muito importante ou voc√™ pode ter feito hip√≥teses que n√£o sejam v√°lidas. Fazer hip√≥teses condizentes n√£o √© uma tarefa na simples e exige um conhecimento profundo do problema em quest√£o.

O principio KISS é um conceito bastante semelhante à famosa navalha de Occam. Este princípio, introduzido por William Occam diz:

“Se em tudo o mais forem id√™nticas as v√°rias explica√ß√Ķes de um fen√īmeno, a mais simples √© a melhor.”

 

Exemplo

Para exemplificar o que foi dito, vamos brincar de modelar com um simples exemplo que discutimos certa vez em nosso grupo.

O problema consiste em estimar a concentração de uma proteína (nosso caso era a Cre recombinase) dentro das bactérias E.coli, ou seja, quantas Cre-recombinases existem, em média, por bactéria? Esta inferência é base para estimar o PoPS (veja post anterior)

Este parece ser um problema simples mas pode se tornar bastante complicado de resolver caso o princípio KISS não seja utilizado. Quem é importante neste problema? Devo considerar a temperatura? Devo considerar a quantidade de alimento no meio?

Você pode pensar, e com razão, que a temperatura e a quantidade de alimento são importantes pois afetam a taxa de produção das proteínas. Entretanto estes são exemplos de variáveis que não precisam
ser levados em considera√ß√£o pois, nos experimentos n√£o trabalharemos com situa√ß√Ķes extremas de escassez de alimento nem de mudan√ßas de temperatura e pequenas varia√ß√Ķes destas vari√°veis (fora de um regime extremo) n√£o devem afetar significantemente a produ√ß√£o da prote√≠na. Muitas s√£o as vari√°veis que n√£o afetam significamente o sistema e ter intui√ß√£o disto √© fundamental e repito, exige um bom entendimento do problema.

OK, mas por onde começar?

Bom, sabemos que para se produzir uma proteína primeiramente precisamos da produção do RNA mensageiro. A quantidade de mRNA certamente é uma variável relevante!!!
Portanto, vamos tentar criar uma equação sobre como o mRNA deve variar no tempo. A variação temporal de uma variável é representada matematicamente pela derivada da variável no tempo  

Sabemos que nosso mRNA deve ser produzido pela leitura do DNA, feita pela DNA polimerase. OK, mas com que velocidade ela lê isto? Uma boa referencia, é o Bionumbers (tipo um google para dados biológicos)

Lá encontramos que nossa taxa de transcrição (Ktrans) é de, em média, 40 pares de base por segundo. Mas então precisamos saber qual o tamanho do RNA que gera nossa proteína. No caso da Cre é de 1032 pares de base (Nbp). Portanto, quantidade de proteína produzida por tempo e por volume (V) é de:

Dividimos pelo volume pois queremos saber a variação de concentração, ou seja, quantidade de proteínas por volume (unidade em Molar). Este será o primeiro termo de nossa equação, que se refere a produção do mRNA. Existem outras maneiras dele ser produzido? Se sim, novos termos devem ser adicionados. Neste caso, aparentemente esta é a unica forma dele ser produzido. Mas ele pode ser degradado, não é mesmo? Então precisamos de mais um termo, o de degradação. Novamente se formos até o bionumbers teremos a taxa de degradação (KdRNA) do mRNA. Este novo termo fará com que a taxa do mRNA diminua no tempo, e por este motivo ele é negativo. Portanto nossa equação fica:

Onde o termo positivo se refere a produção e o negativo se refere a degradação.

Agora vamos escrever uma equação para a tradução do mRNA em proteína. Neste caso encontramos uma taxa de tradução de 15 aminoacidos por segundo. Como nossa proteina tem 1032 pares de base ela deve ter 1032/3=344 aminoacidos. Como, além de produzida, nossa proteína também pode ser degradada então temos uma equação bastante semelhate à anterior:

Podemos supor que inicialmente a concentração desta proteína é zero, isto não fará diferença nos cálculos mas suponhamos que não haja proteina inicialmente. Ao longo do tempo, a concentração
desta prote√≠na ir√° crescer at√© alcan√ßar o equilibrio entre produ√ß√£o e degrada√ß√£o. Neste equilibrio, a concentra√ß√£o das prote√≠nas n√£o mudam mais no tempo e portanto nossas equa√ß√Ķes s√£o iguais a zero. Para entender o equilibrio, pense na equa√ß√£o logistica que descreve a curva de crescimento de uma popula√ß√£o de bact√©rias. Inicialmente temos um crescimento exponencial, mas depois de um tempo a popula√ß√£o satura, ou seja, estabiliza em uma determinada popula√ß√£o. Este ponto de satura√ß√£o √© que chamamos de ponto de equilibrio, onde a quantidade de bact√©rias n√£o muda mais no tempo. Neste ponto, a quantidade de bact√©rias que morrem √© proporcional √†s que “nascem”. Matematicamente o ponto de equilibrio √© um ponto onde a derivada no tempo √© igual a zero, portanto:

ou seja:

e

Agora podemos isolar a concentração do mRNA na primeira equação e substituir na segunda. Com isto, chegamos a:

Qual o sentido deste valor? Bem voc√™ pode utilizar o volume da bact√©ria e calcular qual a concentra√ß√£o de uma √ļnica prote√≠na dentro de uma bact√©ria e voc√™ chegar√° que isto √© aproximadamente 1 nM. Portanto, nosso resultado nos diz que h√° aproximadamente 2.000 prote√≠nas, em m√©dia, dentro da bact√©ria.

OK, isto quer dizer que se eu fizer um experimento eu vou encontrar exatamente 2000 proteínas dentro da bactéria?

Obviamente n√£o, devemos ter em mente a limita√ß√£o de nosso modelo. Aproxima√ß√Ķes foram feitas e h√° muitas vari√°veis que podem fazer com que este valor mude. Entretanto, podemos dizer com certa seguran√ßa que teriamos algo de 1.000 √† 10.000 prote√≠nas na bact√©ria. Pode parecer muito inexato e que nosso modelo n√£o foi t√£o √ļtil por n√£o ser preciso. Mas devemos lembrar que inicialmente n√£o t√≠nhamos nenhuma ideia de quantas prote√≠nas haviam. Se algu√©m chutasse que h√° somente 10 ou 100 prote√≠nas em m√©dia poderiamos pensar que era uma estimativa boa. Com o modelo sabemos que esta estimativa n√£o¬†√© boa, que devem haver bem mais prote√≠nas que isto!

Al√©m da quantidade de prote√≠na, com este simples modelo poderiamos estimar o tempo que demora para que a quantidade de prote√≠na sature, ou seja, atinja o ponto de equilibrio. Estas s√£o estimativas que podem ser muito √ļteis na hora de definir um protocolo experimental e pode economizar uma razo√°vel quantidade de tempo e reagentes durante os experimentos.¬† Portanto, n√£o √© necess√°rio de ser ateu em modelagem, mas, tampouco, √© recomendado acreditar religiosamente no modelo!!