Apesar da sequenciação dos genomas, dos mais diversos organismos, continuar a ser um dos objectivos de um grande número de projectos nesta era pós-genómica, a comunidade científica passou a dar maior ênfase à transformação da grande quantidade de dados existentes em conhecimento.
Uma das primeiras evidências da análise de sequências de biomoléculas (DNA, RNA ou Aminoácidos) prende-se com o facto de que normalmente uma elevada semelhança entre sequências implica também uma elevada semelhança entre funcionalidades ou estruturas.
Citações como a proferida por Eric Wieschaus, um dos vencedores do prémio Nobel da medicina em 1995:
"We didn't know it at the time, but we found out everything in life is so similar, that the same genes that work in flies are the ones that work in humans." [Associated Press, 9 October, 1995]
e a proferida por Francois Jacob em 1977:
"Nature is a tinkerer and not an inventor"[Evolution and tinkering, science 196:1161-1166]
reforçam a ideia de que durante o processo evolutivo nada foi inventado de novo mas sim adaptado a partir de uma plataforma existente.
Desta forma novas sequências de biomoléculas são adaptadas a partir de sequências já existentes em vez de serem inventadas de raiz.
Após a sequenciação de uma molécula de DNA, é muitas vezes possível reconhecer uma semelhança entre a nova sequência e uma sequência sobre a qual já existe alguma informação. Nestas situações é possível, à partida, transferir informação sobre a estrutura e/ou a função biológica para a nova sequência. As sequências que apresentam uma forte semelhança são designadas de sequências homólogas e a informação entre elas é transferida por homologia.
Se considerarmos que uma sequência biológica é uma cadeia de caracteres escrita com um alfabeto de quatro letras (A,C,T,G), então comparar duas sequências biológicas é semelhante a comparar duas cadeias de caracteres.
Muitos dos métodos utilizados para comparar cadeias de caracteres foram e são utilizados para comparar sequências biológicas.
|