Modelagem em biologia (sintética), um guia para ateus em modelagem.

Para uma pessoa que lida diariamente com biologia, pode ser bastante difícil imaginar uma maneira de abordar matematicamente um problema em sua área ou como isto poderia ter alguma utilidade. A biologia é uma ciência considerada bastante complexa, pois são muitas as variáveis que podem afetar o sistema. Até mesmo um sistema relativamente simples como a expressão de uma proteína em E. coli, pode se tornar um problema bastante complexo de se modelar se todas as variáveis que afetam a expressão desta proteína forem levadas em consideração. Na realidade, não há nem mesmo quem seja capaz de listar todas estas variáveis. Assim sendo, como é possível fazer um modelo disto, se não consigo nem mesmo listar as variáveis que alteram meu sistema? Neste caso, melhor mesmo fazer como o Calvin e ser um ateu em modelagem, não é mesmo?

Na verdade não, fazer um modelo não é tão complicado assim. Pensar que é necessário colocar tudo no modelo é o erro conceitual mais comum de quem tem formação em áreas complexas como a biologia. Já os físicos por exemplo, tem uma visão dita reducionista, de tentar entender um problema dividindo-o em pequenas partes fundamentais e começar pelo modelo mais simples possível para depois aumentar a complexidade, se necessário (ou possível). Reza a lenda que um dono galinheiro certa vez chamou um fisico para solucionar o porquê as galinhas não estavam botando. Uma semana depois o fisico apareceu com a solução. Entretanto, a solução só era válida para galinhas esfericamente simétricas e no vácuo. True story!

Pode parecer contraditório, mas um modelo que leva mais variáveis em consideração não necessariamente é melhor ou mais “realistico”. Na verdade se um modelo leva mais variáveis em consideração do que outro e ambos tem a mesma efeciência, o segundo modelo é considerado melhor, conforme veremos.

Portanto, o melhor caminho para fazer um bom modelo é considerar as poucas e relevantes variáveis do problema, ou seja, ao fazer um modelo, a principal regra é:

Keep it simple, stupid!!
Este é o famoso princípio KISS, uma boa regra para começar um modelo. A maioria dos modelos funcionam melhor e são melhor entendidos se mantidos simples. Complexidade desnecessária deve ser evitada, mas obviamente, simplicidade demasiada não deve resultar em um modelo útil (como no caso das galinhas). Assim, uma boa maneira de se começar um modelo é pensar quais são as variáveis que devem ser realmente importantes para o problema. Tente formular seu modelo com o mínimo de variáveis e veja se seus resultados condizem com o esperado, ou com os experimentos. Se isto não ocorrer, é um sinal de que seu modelo ou é demasiadamente simples e você esqueceu alguma variável muito importante ou você pode ter feito hipóteses que não sejam válidas. Fazer hipóteses condizentes não é uma tarefa na simples e exige um conhecimento profundo do problema em questão.

O principio KISS é um conceito bastante semelhante à famosa navalha de Occam. Este princípio, introduzido por William Occam diz:

“Se em tudo o mais forem idênticas as várias explicações de um fenômeno, a mais simples é a melhor.”

 

Exemplo

Para exemplificar o que foi dito, vamos brincar de modelar com um simples exemplo que discutimos certa vez em nosso grupo.

O problema consiste em estimar a concentração de uma proteína (nosso caso era a Cre recombinase) dentro das bactérias E.coli, ou seja, quantas Cre-recombinases existem, em média, por bactéria? Esta inferência é base para estimar o PoPS (veja post anterior)

Este parece ser um problema simples mas pode se tornar bastante complicado de resolver caso o princípio KISS não seja utilizado. Quem é importante neste problema? Devo considerar a temperatura? Devo considerar a quantidade de alimento no meio?

Você pode pensar, e com razão, que a temperatura e a quantidade de alimento são importantes pois afetam a taxa de produção das proteínas. Entretanto estes são exemplos de variáveis que não precisam
ser levados em consideração pois, nos experimentos não trabalharemos com situações extremas de escassez de alimento nem de mudanças de temperatura e pequenas variações destas variáveis (fora de um regime extremo) não devem afetar significantemente a produção da proteína. Muitas são as variáveis que não afetam significamente o sistema e ter intuição disto é fundamental e repito, exige um bom entendimento do problema.

OK, mas por onde começar?

Bom, sabemos que para se produzir uma proteína primeiramente precisamos da produção do RNA mensageiro. A quantidade de mRNA certamente é uma variável relevante!!!
Portanto, vamos tentar criar uma equação sobre como o mRNA deve variar no tempo. A variação temporal de uma variável é representada matematicamente pela derivada da variável no tempo  

Sabemos que nosso mRNA deve ser produzido pela leitura do DNA, feita pela DNA polimerase. OK, mas com que velocidade ela lê isto? Uma boa referencia, é o Bionumbers (tipo um google para dados biológicos)

Lá encontramos que nossa taxa de transcrição (Ktrans) é de, em média, 40 pares de base por segundo. Mas então precisamos saber qual o tamanho do RNA que gera nossa proteína. No caso da Cre é de 1032 pares de base (Nbp). Portanto, quantidade de proteína produzida por tempo e por volume (V) é de:

Dividimos pelo volume pois queremos saber a variação de concentração, ou seja, quantidade de proteínas por volume (unidade em Molar). Este será o primeiro termo de nossa equação, que se refere a produção do mRNA. Existem outras maneiras dele ser produzido? Se sim, novos termos devem ser adicionados. Neste caso, aparentemente esta é a unica forma dele ser produzido. Mas ele pode ser degradado, não é mesmo? Então precisamos de mais um termo, o de degradação. Novamente se formos até o bionumbers teremos a taxa de degradação (KdRNA) do mRNA. Este novo termo fará com que a taxa do mRNA diminua no tempo, e por este motivo ele é negativo. Portanto nossa equação fica:

Onde o termo positivo se refere a produção e o negativo se refere a degradação.

Agora vamos escrever uma equação para a tradução do mRNA em proteína. Neste caso encontramos uma taxa de tradução de 15 aminoacidos por segundo. Como nossa proteina tem 1032 pares de base ela deve ter 1032/3=344 aminoacidos. Como, além de produzida, nossa proteína também pode ser degradada então temos uma equação bastante semelhate à anterior:

Podemos supor que inicialmente a concentração desta proteína é zero, isto não fará diferença nos cálculos mas suponhamos que não haja proteina inicialmente. Ao longo do tempo, a concentração
desta proteína irá crescer até alcançar o equilibrio entre produção e degradação. Neste equilibrio, a concentração das proteínas não mudam mais no tempo e portanto nossas equações são iguais a zero. Para entender o equilibrio, pense na equação logistica que descreve a curva de crescimento de uma população de bactérias. Inicialmente temos um crescimento exponencial, mas depois de um tempo a população satura, ou seja, estabiliza em uma determinada população. Este ponto de saturação é que chamamos de ponto de equilibrio, onde a quantidade de bactérias não muda mais no tempo. Neste ponto, a quantidade de bactérias que morrem é proporcional às que “nascem”. Matematicamente o ponto de equilibrio é um ponto onde a derivada no tempo é igual a zero, portanto:

ou seja:

e

Agora podemos isolar a concentração do mRNA na primeira equação e substituir na segunda. Com isto, chegamos a:

Qual o sentido deste valor? Bem você pode utilizar o volume da bactéria e calcular qual a concentração de uma única proteína dentro de uma bactéria e você chegará que isto é aproximadamente 1 nM. Portanto, nosso resultado nos diz que há aproximadamente 2.000 proteínas, em média, dentro da bactéria.

OK, isto quer dizer que se eu fizer um experimento eu vou encontrar exatamente 2000 proteínas dentro da bactéria?

Obviamente não, devemos ter em mente a limitação de nosso modelo. Aproximações foram feitas e há muitas variáveis que podem fazer com que este valor mude. Entretanto, podemos dizer com certa segurança que teriamos algo de 1.000 à 10.000 proteínas na bactéria. Pode parecer muito inexato e que nosso modelo não foi tão útil por não ser preciso. Mas devemos lembrar que inicialmente não tínhamos nenhuma ideia de quantas proteínas haviam. Se alguém chutasse que há somente 10 ou 100 proteínas em média poderiamos pensar que era uma estimativa boa. Com o modelo sabemos que esta estimativa não é boa, que devem haver bem mais proteínas que isto!

Além da quantidade de proteína, com este simples modelo poderiamos estimar o tempo que demora para que a quantidade de proteína sature, ou seja, atinja o ponto de equilibrio. Estas são estimativas que podem ser muito úteis na hora de definir um protocolo experimental e pode economizar uma razoável quantidade de tempo e reagentes durante os experimentos.  Portanto, não é necessário de ser ateu em modelagem, mas, tampouco, é recomendado acreditar religiosamente no modelo!!

Revistas científicas de Biologia Sintética

Há alguns posts atrás eu reuni alguns laboratórios de biologia sintética espalhados pelo mundo. É muito bacana para saber quem é quem nesse mundo científico. Porém, para saber o que estas pessoas e outras pessoas andam pensando é preciso ler o que eles publicam. Por isso, desta vez eu reuni as principais revistas de Biologia Sintética.

Fica aí a dica: dar uma olhada nessas revistas todo mês para ver o que está acontecendo no mundo synbio!

Nature – Molecular Systems Biology

BMC Systems Biology

Springer – Systems and Synthetic Biology

Journal of Biological Engineering

PLoS – Computational Biology

Journal of the Royal Society – Focus on Systems Biology

 

Grupos de Pesquisas em Biologia Sintética

Uma lista de grupos de pesquisa que trabalham com Biologia Sintética. Vale a pena conferir e acompanhar o trabalho desse pessoal.

Synthetic Biology Labs

Harvard University – Silver Lab

Harvard University – Laboratory for Molecular Automata

CalTech – Center for Biological Circuit Design

CalTech – The Elowitz Lab

CalTech – Frances Arnold Research Group

CalTech – The Pierce Lab

CalTech – Asthagiri Group

University of Michigan – Del Vecchio Lab

University of Michigan – Ninfa Laboratory

University of Minnesota – Riedel Lab

University of Minnesota – Kaznessis Group

Duke University – Laboratory of Biological Networks

Synthetic Biology Engineering Research Center

Lawrence Berkeley National Laboratory – Synthetic Biology Department

UCSF/UCB Center for Engineering Cellular Control Systems

UC Berkeley – Lim Lab

Stanford University – The Kool Group

Stanford University – The Smolke Lab

UCSF – Kortemme Lab

UCSF – Voigt Lab

UCSF – Lim Lab

Virginia Bioinformatics Institute – Peccoud Research Group

Boston University – Gardner Laboratory

Princeton University – Weiss Lab

University of New Mexico – Molecular Computing Group

The University of Texas at Austin – Andrew Ellington

Mount Sinai Hospital – The Pawson Lab

Dresden University of Technology – Schwille Lab

Tokyo Tech – Kiga Lab

EMBL-Heidelberg – Luis Serrano Group

ETHZ – Synthetic Biology Workgroup

ETHZ – Bioprocess Laboratory – Sven Panke

University of Cambridge – Jim Ajioka

University of Cambridge – Jason Chin

The University of Edinburgh – Alistair Elfick

Imperial College London – Paul Freemont

University of Groningen – Centre for Synthetic Biology

Ecole Polytechnique – Alfonso Jaramillo

Università degli Studi di Roma Tre – Luisi Synthetic Biology Lab

System & Synthetic Biology Labs

Oak Ridge National Laboratory & University of Tennessee – Molecular-Scale Engineering and Nanoscale Technologies Research Group

UC Berkeley – Arkin Lab

UC Berkeley – Keasling Lab

UC Davis – Michael A. Savageau

Boston University – Applied Biodynamics Laboratory

CalTech – Richard M. Murray

UCSD – Systems Biodynamics Lab

The University of Texas – Center for Systems & Synthetic Biology

Waseda University – Laboratory for Molecular Cell Network

Keio University – Sakakibara Lab

Kyushu Institute of Technology – Kurata Lab

Spanish National Biotechnology Centre – Logic of Genomic Systems Lab

Universitat Pompeu Fabra – Complex Systems Lab – Ricard Solé

Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional – Systems And Synthetic Biology

Imperial College London – Institute of Systems and Synthetic Biology

RIKEN – Computational Systems Biology Research Group

Biologia sintética e a computação

ResearchBlogging.org

Ontem tivemos nossa primeira reunião do Clube Científico de Biologia Sintética para discutir o artigo “Synthetic biology: new engineering rules for an emerging disciplines.”  A imagem abaixo resume bastante a abordagem dos autores do Departamento de Engenharia Elétrica Princeton para conduzir a revisão sobre o assunto.

Os autores traçam um paralelo entre a biologia e os computadores, no qual, não apenas se procura explicar a biologia celular utilizando a computação como analogia, mas também, mostra que já foram desenvolvidos componentes biológicos que funcionam como componentes de computadores. São dados exemplos de várias construções biológicas sintéticas que funcionam como componentes elétricos, como inversores (inverters devices), flip-flops (toggle-swicthes), osciladores (oscilators), amplificadores de sinais (transcriptonal cascades modules) e desviadores de sinais (diverter scaffolds). Restando assim, poucos módulos para se construir um microcomputador celular sintético.

Os autores comentam como estes módulos sintéticos e a condição endógena celular influenciam o comportamento um do outro,  sendo que qualquer flutuação nos processos da célula hospedeira podem influenciar o módulo e sua reposta (output). Dessa maneira, torna-se necessário combinar técnicas de estimação de parâmetros e técnicas de análises de fluxos metabólicos para entender o contexto celular e os impactos desses módulos na célula. Para explicar isto de uma maneira resumida, a conectividade dos módulos entre si e com a célula não é suficiente para definir a dinâmica de uma rede, é preciso também incluir parâmetros cinéticos e regulatórios (velocidade das reações, feedbacks, efeito de reguladores…) que podem variar sua atividade de acordo com as mudanças realizadas no sistema original. Estes cálculos, porém, são muitos complicados e demandam uma matématica muito avançada. O que demonstra, mais uma vez, a necessidade de equipes multidisciplinares para a formação de grupos de pesquisa em synbio.

O artigo mostra também que células sintéticas estão se tornando cada vez mais fáceis de construir. Não só pela nossa capacidade de manipular os componentes celular, mas pelo aumento da nossa capacidade de sintetizar DNA. Existem porém, desafios e limitações nos tipos de atividades complexas que uma célula independente consegue realizar de uma forma confiável. Assim, uma nova fronteira para a synbio é distribuir redes e módulos sintéticos entre múltiplas células, formando sistemas de comunicações célula-célula, visando aumentar a possibilidade de desenhos e superar a confiança limitada de células sintéticas individuais. Para isso, já estão se desenvolvendo módulos de quorum sensing (mecanismos de comunicação celular) sintéticos que possibilitam a coordenação do comportamento de comunidades microbianas. Verifica-se, portanto, que muitos avanços têm sido realizados para aumentar a complexidade da arquitetura das redes sintéticas.

Este artigo é particularmente interessante porque mostra a visão de engenheiros elétricos do que é a biologia sintética. É importante destacar que existem diferentes visões e abordagens de pesquisa a respeito do que é a biologia sintética e como ela pode ser aplicada, dependendo da especialidade e background do grupo de pesquisa.

Nas próximas reuniões pretendemos abordar tópicos mais específicos da biologia sintética, como a construção de um oscilador sintético, e mostrar diferentes visões da biologia sintética.

Até lá!

Andrianantoandro, E., Basu, S., Karig, D., & Weiss, R. (2006). Synthetic biology: new engineering rules for an emerging discipline Molecular Systems Biology, 2 DOI: 10.1038/msb4100073

Podcast: Futures in Biotech

Preciso divulgar esta dica dada pelo meu estimado colega Atila: o podcast realizado pelo site Futures in Biotech. Já escutei os seis primeiros e são sensacionais. Os dois entrevistadores, Marc Pelletier (Pos-doc em Yale) e Leo Laporte, um especialista em TI interessado em Biotech, conseguem extrair dos entrevistados o conteúdo de suas pesquisas de uma forma simples e ao mesmo tempo profunda. Estou mandando o link das entrevistas mais antigas, acho que vale a pena escutar os episódios dos mais antigos para os mais recentes, para acompanhar os podcasts de uma maneira mais didática.