Seu genoma em um disquete

disk-combobulationdsa

Já dediquei uma coluna à nobre questão sobre o tamanho em bits de nosso genoma, questão que não fica tão nobre quando aplicada à largura de banda de um pênis, mas ainda assim deve ser curiosa.

Assim fico aliviado de não ter cometido nenhum grande erro ao ler estimativas equivalentes… acompanhadas de um novo paper que por outro lado mostra que é possível comprimir os dados do genoma humano para ocupar apenas 4 megabytes.

4 MB. Um disquete. Três disquetes. Que ninguém usa mais.

Provavelmente se referem ao genoma de referência haplóide, o que significa que na prática seriam necessários 8 MB, o que ainda assim é impressionante. Se em alguns anos tivermos tecnologias baratas de sequenciamento, como todos esperam que tenhamos, seria mais do que viável um banco de dados com o genoma de todos os seres humanos vivos que coubesse que provavelmente será a capacidade de um disco rígido padrão em alguns anos (na ordem de Petabytes).

Não sei se isso é assustador ou confortante.

Mais detalhes, em inglês, em Genetic Future: Squeezing the genome: how to shrink your whole-genome sequence to 4 MB

Discussão - 5 comentários

  1. Um disquete convencional tem capacidade para apenas 1.44mb

  2. Kentaro Mori disse:

    É, não sei o que aconteceu, meu cérebro leu 4 MB e confundiu com 1,44 MB.
    Corrigi agora...

  3. Gilson disse:

    Você se surpreenderia com o que 7-Zip é capaz de fazer 😛

  4. Gilson disse:

    Só pra eu não parecer um troll aí em cima...
    Acho que se usar um método específico que comprima partes inalteráveis do genoma humano, genes latentes, dá pra associar partes que são iguais em todos os humanos à um outro arquivo fixo. Daí só as diferenças seriam incluídas.
    Gzip já é patenteado...

  5. Patola disse:

    Se 4 MB for mesmo a compressão de um genoma haplóide, o genoma diplóide não terá 8 MB - o dobro: terá bem menos que isso - digamos, 5MB, no máximo 6 MB, porque dado um determinado filamento genômico, os filamentos que são passíveis de pareamento com ele são um conjunto bem restrito - precisam ser "compatíveis". Logo, a quantidade de informação presente é muito menos que o dobro.

Envie seu comentário

Seu e-mail não será divulgado. (*) Campos obrigatórios.

Sobre ScienceBlogs Brasil | Anuncie com ScienceBlogs Brasil | Política de Privacidade | Termos e Condições | Contato


ScienceBlogs por Seed Media Group. Group. ©2006-2011 Seed Media Group LLC. Todos direitos garantidos.


Páginas da Seed Media Group Seed Media Group | ScienceBlogs | SEEDMAGAZINE.COM