Introdução

Apesar da sequenciação dos genomas, dos mais diversos organismos, continuar a ser um dos objectivos de um grande número de projectos nesta era pós-genómica, a comunidade científica passou a dar maior ênfase à transformação da grande quantidade de dados existentes em conhecimento.

Uma das primeiras evidências da análise de sequências de biomoléculas (DNA, RNA ou Aminoácidos) prende-se com o facto de que normalmente uma elevada semelhança entre sequências implica também uma elevada semelhança entre funcionalidades ou estruturas.

Citações como a proferida por Eric Wieschaus, um dos vencedores do prémio Nobel da medicina em 1995:

"We didn't know it at the time, but we found out everything in life is so similar, that the same genes that work in flies are the ones that work in humans." [Associated Press, 9 October, 1995]

e a proferida por Francois Jacob em 1977:

"Nature is a tinkerer and not an inventor"[Evolution and tinkering, science 196:1161-1166]

reforçam a ideia de que durante o processo evolutivo nada foi inventado de novo mas sim adaptado a partir de uma plataforma existente.

Desta forma novas sequências de biomoléculas são adaptadas a partir de sequências já existentes em vez de serem inventadas de raiz.

Após a sequenciação de uma molécula de DNA, é muitas vezes possível reconhecer uma semelhança entre a nova sequência e uma sequência sobre a qual já existe alguma informação. Nestas situações é possível, à partida, transferir informação sobre a estrutura e/ou a função biológica para a nova sequência. As sequências que apresentam uma forte semelhança são designadas de sequências homólogas e a informação entre elas é transferida por homologia.

Se considerarmos que uma sequência biológica é uma cadeia de caracteres escrita com um alfabeto de quatro letras (A,C,T,G), então comparar duas sequências biológicas é semelhante a comparar duas cadeias de caracteres.

Muitos dos métodos utilizados para comparar cadeias de caracteres foram e são utilizados para comparar sequências biológicas.