Seu genoma em um disquete
Já dediquei uma coluna à nobre questão sobre o tamanho em bits de nosso genoma, questão que não fica tão nobre quando aplicada à largura de banda de um pênis, mas ainda assim deve ser curiosa.
Assim fico aliviado de não ter cometido nenhum grande erro ao ler estimativas equivalentes… acompanhadas de um novo paper que por outro lado mostra que é possível comprimir os dados do genoma humano para ocupar apenas 4 megabytes.
4 MB. Um disquete. Três disquetes. Que ninguém usa mais.
Provavelmente se referem ao genoma de referência haplóide, o que significa que na prática seriam necessários 8 MB, o que ainda assim é impressionante. Se em alguns anos tivermos tecnologias baratas de sequenciamento, como todos esperam que tenhamos, seria mais do que viável um banco de dados com o genoma de todos os seres humanos vivos que coubesse que provavelmente será a capacidade de um disco rígido padrão em alguns anos (na ordem de Petabytes).
Não sei se isso é assustador ou confortante.
Mais detalhes, em inglês, em Genetic Future: Squeezing the genome: how to shrink your whole-genome sequence to 4 MB
Discussão - 5 comentários
Um disquete convencional tem capacidade para apenas 1.44mb
É, não sei o que aconteceu, meu cérebro leu 4 MB e confundiu com 1,44 MB.
Corrigi agora...
Você se surpreenderia com o que 7-Zip é capaz de fazer 😛
Só pra eu não parecer um troll aí em cima...
Acho que se usar um método específico que comprima partes inalteráveis do genoma humano, genes latentes, dá pra associar partes que são iguais em todos os humanos à um outro arquivo fixo. Daí só as diferenças seriam incluídas.
Gzip já é patenteado...
Se 4 MB for mesmo a compressão de um genoma haplóide, o genoma diplóide não terá 8 MB - o dobro: terá bem menos que isso - digamos, 5MB, no máximo 6 MB, porque dado um determinado filamento genômico, os filamentos que são passíveis de pareamento com ele são um conjunto bem restrito - precisam ser "compatíveis". Logo, a quantidade de informação presente é muito menos que o dobro.