Agrupamento

A análise por agrupamento (clustering) é uma ferramenta fundamental e importante na análise estatística de informação. No passado técnicas de agrupamento têm sido amplamente usadas em numerosas áreas cientificas, como reconhecimento de padrões, recuperação de informação, análise microbiológica e outras.

Um grupo (cluster) é um conjunto de objectos de informação onde cada objecto é:

Semelhante entre outro objecto do mesmo grupo.
Não semelhante entre outro objectos de um grupo diferente.

O método de agrupamento baseia-se em agrupar um conjunto de informação em diferentes grupos. O número total de grupos é usualmente predefinido e cada grupo é representado por uma classe diferente. O problema de encontrar o número adequado de grupos foca a procura da complexidade correcta do modelo, dado a informação conhecida.

Este método de classificação não é supervisionado, ou seja não existem classes predefinidas.

Como aplicações típicas, este método pode ser utilizado como:

Ferramenta individual: para recolher introspecções sobre a distribuição da informação.
Passo do processamento: como complemento a outros algoritmos.

A figura 1 apresenta um exemplo da aplicação do método de agrupamento. Neste exemplo é feita a classificação de genes tendo em conta três condições.

Condições possíves são por exemplo:

a percentagem de uma dada base azotada ou sequência de bases, existentes no gene
quanto esse gene difere de um dado gene de referência (útil para descobrir potenciais doenças).

Fig. 1: Classificação de genes por agrupamento usando três condições diferentes (3-Dimensões)

Existem várias técnicas de agrupamento, nomeadamente:

Baseado em Partição:

Construir uma partição de um base de dados D, com n objectos em k grupos.
Dado um k, encontrar uma partição de k grupos que optimiza o critério de partição escolhido. Pode ser usado:

Procura por óptimo global: exige enumerar todas as partições o que torna o processo exaustivo
Métodos Heuristicos: algoritmos k-médias e k-medianas

k-médias (MacQueen '67): cada grupo é representado pela centro do grupo.
k-medianas (Kaufman & Rousseeuw’87): cada grupo é representado por um objecto do grupo

Baseado em Hierárquica:

Criar decomposição hierárquica da informação

Baseado em Modelo:

Modelo é colocado em hipótese para cada grupo
Encontrar modelos que melhor se ajustam à informação e entre eles