Agrupamentos em diagrama linear: dendrogramas e métricas

Início » Ciência » Matemática » Estatística » Como encontrar agrupamentos em um diagrama linear

Escolher a distância e o linkage certos muda o formato dos clusters e a leitura do dendrograma.
O corte ideal combina inspeção visual com métodos como cotovelo e estatística da lacuna.
Valide grupos com PERMANOVA, RDA/db-RDA e controle espacial (MEM/MSR).
Métodos baseados em modelos (GLMs multivariados) esclarecem padrões de abundância.

agrupamento em diagrama linear

Encontrar grupos de pontos de dados em um diagrama linear costuma significar interpretar um dendrograma, que nada mais é do que uma árvore de similaridade. Se a sua dúvida é como identificar onde cortar esse diagrama para obter agrupamentos coerentes, a resposta envolve entender distâncias, critérios de ligação e métricas de qualidade do cluster. Ao longo deste guia, vamos do básico ao avançado, conectando o conceito de ‘diagrama linear’ ao uso prático de dendrogramas, bem como a outras técnicas multivariadas que ajudam a validar e explicar os grupos observados.

Além da teoria, trago uma visão prática com exemplos, métricas mais usadas, checklist de preparação de dados e alternativas modernas (como PERMANOVA, RDA e métodos baseados em modelos). A ideia é que você consiga ler um dendrograma com segurança, escolher o número de grupos de maneira objetiva e, quando necessário, complementar com análises robustas para confirmar se os padrões vistos são reais e interpretáveis.

O que é agrupamento hierárquico e por que ele ajuda a ler um ‘diagrama linear’

No agrupamento hierárquico construímos uma ‘árvore’ de semelhanças entre observações, o tal dendrograma, que muitos chamam informalmente de diagrama linear por organizar relações numa linha vertical de distâncias. Existem dois sabores principais: o aglomerativo (de baixo para cima) e o divisivo (de cima para baixo).

No modo aglomerativo, cada ponto começa isolado e, a cada iteração, unimos o par de clusters mais próximo até sobrar um só. No divisivo acontece o inverso: partimos de um único grupo com todas as amostras e vamos separando os subconjuntos mais distantes, quebrando o conjunto em ramos cada vez menores. Em ambos os casos obtém-se uma hierarquia que pode ser ‘cortada’ em diferentes alturas para obter K grupos.

O dendrograma traz no eixo vertical uma medida de distância (ou dissimilaridade): linhas verticais longas indicam fusões entre grupos muito diferentes, e linhas curtas indicam junções entre clusters próximos. É observando esses ‘saltos’ que identificamos cortes naturais em clusters.

Como o método aglomerativo funciona passo a passo

Imagine um conjunto simples, com poucos pontos no plano. No começo, cada ponto é um cluster e seu ‘centro’ coincide com ele mesmo. Calculamos a distância entre todos os pares de clusters, escolhemos o par com menor distância e fundimos em um novo cluster. Repetimos o processo: recomputamos as distâncias do novo cluster para os demais e seguimos unindo pares mais próximos, reduzindo o número de grupos de N para N-1, e assim por diante.

Para medir proximidade, você pode usar várias métricas: Euclidiana (mais comum em espaços contínuos), Manhattan (robusta a outliers em determinados cenários) e Cosseno (bom para vetores de direção). Em contextos ecológicos e de composição, aparecem ainda Bray-Curtis, Jaccard, Sørensen, Hellinger, Chord, Canberra, Mahalanobis e até distância do qui-quadrado, cada uma adequada a um tipo de dado e interpretação.

O ‘como’ calcular a distância entre clusters depende do critério de ligação (linkage): Single (vizinho mais próximo), Complete (vizinho mais distante), Average/UPGMA (média aritmética), Ward (minimiza a soma de quadrados intra-cluster), entre outros. A escolha do linkage altera a forma final do dendrograma e, portanto, a sua leitura do diagrama.

Como escolher o número de clusters no dendrograma

Não existe um K ‘mágico’. O que fazemos é procurar grandes ‘degraus’ no dendrograma: um corte horizontal que evite atravessar ramos longos e preserve ramos curtos. Em termos práticos, trace uma linha horizontal no nível de distância onde há um salto acentuado; o número de interseções com ramos determina K.

Relacionado: Disegno isometrico: significato, caratteristiche, esempi e usi

Além da inspeção visual, há heurísticas úteis: método do cotovelo (elbow) para curvas de soma de quadrados intra-cluster e a estatística da lacuna (gap statistic), que compara o WCSS observado com o esperado sob uma distribuição nula. Também é válido escolher um limiar de distância coerente com o domínio do problema.

Um bom cluster apresenta alta similaridade dentro dos grupos e baixa similaridade entre grupos. A qualidade final depende da métrica de distância, do linkage e do K escolhido; vale experimentar opções e avaliar a que revela padrões mais estáveis e informativos. Fatores práticos a considerar: número de grupos plausíveis, estatísticas por cluster (médias, máximos, mínimos), impacto de outliers e conhecimento de domínio.

Métricas de (dis)similaridade: quando usar cada uma

Para dados contínuos, a distância Euclidiana é padrão. Porém, há alternativas que mudam a ênfase do que é considerado ‘próximo’: Manhattan, Canberra, Mahalanobis (considera covariância), Chord, Hellinger e qui-quadrado. Em ecologia, zeros são comuns e exigem cuidado especial.

Quando lidamos com presença/ausência, índices assimétricos como Jaccard e Sørensen ignoram ausências simultâneas (duplos zeros) e funcionam muito bem para diversidade beta. Para dados de contagem/abundância, coeficientes como Bray-Curtis, Chord, log-Chord, Hellinger, chi-quadrado e Morisita-Horn são frequentes e, em geral, semi-métricos.

Se a sua matriz mistura tipos de variáveis (contínuas, binárias, ordinais, circulares), o índice de Gower é o coringa recomendado. Em modo Q (similaridade entre objetos) usamos (dis)similaridades; em modo R (entre descritores), correlação/covariância. Padronizações e transformações reduzem vieses: z-score para escalar variáveis em unidades diferentes; Hellinger/Chord para atenuar o efeito de abundâncias extremas e múltiplos zeros.

Métodos de ligação e qualidade do dendrograma

UPGMA (média aritmética) dá pesos iguais aos objetos e calcula médias de distâncias entre grupos; Ward minimiza a soma de quadrados dentro dos clusters (similar a OLS/ANOVA) e tende a formar grupos compactos. Trocar o linkage pode mudar a árvore de forma considerável.

Para checar o quanto o dendrograma preserva as (dis)similaridades originais, usamos o coeficiente de correlação cofenética. Valores acima de ~0,7 costumam indicar representação boa, lembrando que é uma regra de polegar, não um dogma. Quando há necessidade de suporte estatístico, pacotes de bootstrap como pvclust estimam estabilidade dos nós, embora possam limitar as distâncias aceitas.

Checklist rápido de pré-processamento: nomes sem espaços; dados de abundância frequentemente pedem transformação de Hellinger; se houver muitos valores discrepantes, considerar log1p (mas evite aplicar log e Hellinger ao mesmo tempo); variáveis em escalas diferentes devem ser padronizadas para média 0 e desvio 1.

Outras abordagens de agrupamento: K-means e afins

O K-means é não hierárquico: você escolhe K previamente, e o algoritmo particiona os dados minimizando a soma de quadrados intra-cluster. É simples e eficiente, mas não revela a hierarquia de grupos (não há dendrograma) e pode convergir a mínimos locais.

Para descobrir K com K-means, repita o ajuste para vários valores e avalie critérios como Calinski-Harabasz e SSI, ou use o método do cotovelo. Ferramentas como cascadeKM ajudam a automatizar a busca de K ótimo. Diferente dos métodos hierárquicos, K-means não mostra grupos menores aninhados em maiores.

Aplicações: do marketing às recomendações

Clustering é onipresente. Em marketing, segmentamos clientes por comportamento de compra. Em mecanismos de busca, organizamos resultados por similaridade temática. Em sistemas de recomendação, agrupamos itens para sugerir opções ‘próximas’ do que a pessoa curte.

Exemplo prático em Python: do dendrograma aos rótulos de cluster

Suponha uma pequena matriz bidimensional. Primeiro, criamos os dados e os visualizamos em um scatter-plot. Em seguida, geramos o dendrograma com linkage de Ward e treinamos um AgglomerativeClustering definindo n_clusters. No fim, plotamos os pontos coloridos pelo rótulo previsto.

Relacionado: Fatos sobre paralelogramos: definição, propriedades e usos

Esboço de etapas (ilustrativo): import matplotlib.pyplot as plt; import pandas as pd; import scipy.cluster.hierarchy as sc; from sklearn.cluster import AgglomerativeClustering. Monte o DataFrame, plote os pontos e anote seus índices para identificar visualmente cada observação. Para o dendrograma: sc.dendrogram(sc.linkage(dados, method='ward')). Para o modelo: AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward').

Sobre hiperparâmetros: n_clusters define o número de grupos de saída; affinity é a métrica (euclidean, manhattan, cosine, precomputed); linkage pode ser ward, average, single ou complete. A escolha de affinity e linkage deve ser coerente com sua métrica/objetivo. Por fim, extraia os rótulos e visualize clusters em cores distintas. Se quiser testar outros K, altere n_clusters e observe mudanças no mapa.

Ordenação: quando a nuvem de pontos precisa virar um mapa legível

Ordenações irrestritas como PCA e PCoA ajudam a resumir dimensões e visualizar padrões. Na PCA, usamos distância Euclidiana; na PCoA, aceitamos outras distâncias (Bray-Curtis, Jaccard, Gower etc.), o que amplia o leque para dados categóricos, binários e mistos.

A PCA centraliza dados, calcula covariâncias e decompõe em autovetores/valores: os autovalores mostram quanta variação cada eixo explica; os loadings indicam o ‘peso’ das variáveis em cada eixo; os escores posicionam objetos no espaço. Cuidado: dados de composição (muitos zeros) podem distorcer a PCA; padronizações como Hellinger ajudam.

Na PCoA começamos por uma matriz de (dis)similaridade adequada ao tipo de dado. Autovalores negativos podem aparecer; correções como Lingoes e Cailliez existem, mas em geral os primeiros eixos relevantes não são afetados. Use PCoA para dados mistos (Gower) ou quando a métrica Euclidiana não faz sentido.

Ordenação restrita: RDA, RDA parcial e db-RDA

A RDA modela relações lineares entre uma matriz de resposta (Y, p.ex. composição de espécies) e preditores (X, p.ex. clima). Ela gera eixos canônicos que maximizam a variação de Y explicada por X, com estatísticas como R² ajustado e testes de permutação. É, grosso modo, uma ‘PCA dos valores preditos por regressões múltiplas’.

Dados espaciais introduzem autocorrelação nos resíduos e podem inflar tipo I. A RDA parcial contorna isso ao incluir preditores espaciais (MEMs) como condicionantes, isolando o efeito ‘puro’ do ambiente. MEMs derivam de redes de vizinhança (como a Minimum Spanning Tree) e de uma matriz de pesos espaciais (SWM) bem escolhida.

Se a resposta natural é uma distância (diversidade beta, Bray-Curtis etc.), a db-RDA começa com uma PCoA da matriz de dissimilaridade, depois relaciona os eixos com X, unindo o melhor dos dois mundos. Em aplicações reais, muitas vezes a db-RDA supera a RDA quando a distância Euclidiana não é a métrica certa.

PERMANOVA e heterogeneidade de dispersões (PERMDISP)

A PERMANOVA testa diferenças entre grupos com base em distâncias e um pseudo-F análogo ao da ANOVA: F_pseudo = (SSa/SSr)*((N-g)/(g-1)). Ela é poderosa para hipóteses multivariadas sem exigir normalidade multivariada.

Mas a estatística pode ser influenciada por diferenças de posição (centroide) e/ou de dispersão (variância intragrupo). Combine com PERMDISP (BETADISPER) para verificar heterogeneidade de dispersões; se significativa, o efeito detectado pela PERMANOVA pode vir principalmente de variâncias desiguais. Juntas, as duas análises ajudam a separar ‘mudança de composição’ de ‘mudança de variabilidade’.

Mantel, Mantel parcial e alternativa espacial moderna

O teste de Mantel correlaciona duas matrizes de distância; o parcial controla por uma terceira (por exemplo, avaliar se dissimilaridade ambiental explica dissimilaridade de espécies controlando pela distância geográfica). É muito usado, mas tem limitações quando há autocorrelação espacial.

Relacionado: Como é removida a área do Pentágono?

Uma alternativa é construir um modelo nulo que preserve a autocorrelação global (Moran Spectral Randomization). Esse procedimento usa a estrutura espacial (via MEMs) para baralhar os dados mantendo o I de Moran, resultando em p-valores mais realistas em cenários com dependência espacial. Em prática, muitas relações ‘significativas’ no Mantel comum deixam de sê-lo com o nulo espacialmente restrito.

Procrustes e PROTEST: concordância entre mapas multivariados

Quando você quer comparar a concordância entre dois espaços ordenados (por exemplo, PCoA de peixes e PCoA de macroinvertebrados), a análise de Procrustes alinha, rotaciona e escala uma matriz para ‘encaixar’ na outra, minimizando a soma dos quadrados dos desvios. A estatística m12 varia de 0 (concordância máxima) a 1 (nenhuma).

O teste PROTEST avalia a significância desse ajuste por aleatorização. Fluxo comum: para dados de distância, rode PCoA (ou nMDS) em cada matriz, aplique Procrustes e depois PROTEST; para dados brutos, use PCA/CA antes do Procrustes. Gráficos de setas ajudam a ver ‘quanto falta’ para um conjunto imitar o outro em cada local.

Métodos multivariados baseados em modelos: quando dissimilaridade não basta

Dados de contagem costumam apresentar relação monotônica entre média e variância (espécies mais comuns variam mais). Métodos baseados em dissimilaridade nem sempre lidam bem com isso; por isso surgiram abordagens de GLMs multivariados, como no pacote mvabund.

Nessa linha, modelamos abundâncias com distribuições apropriadas (Poisson, Binomial negativa, etc.), testando efeitos de fatores (por exemplo, ‘campo vs. coleção’) de forma multivariada. Além de um teste global, dá para decompor a deviância espécie a espécie, identificando quais dirigem o padrão. Outra vantagem é a diagnose de resíduos, melhorando confiança na inferência.

Boas práticas, referências e trilhas de estudo

Antes de mergulhar na análise, garanta preparo dos dados: padronize escalas, trate zeros, reduza colinearidade entre preditores, inspecione outliers e verifique necessidade de transformar variáveis. Em problemas espaciais, planeje o uso de MEMs e de modelos nulos restritos.

Leituras recomendadas incluem: Legendre & Legendre (Numerical Ecology), Borcard et al. (Numerical Ecology with R), Thioulouse et al. (ade4), Ovaskainen & Abrego (JSDM), e guias sobre agrupamentos baseados em modelos. Esses materiais expandem o que discutimos aqui, com exemplos e códigos detalhados.

Exercícios e ideias para praticar

Para fixar: execute um hclust com UPGMA e Bray-Curtis, depois troque a distância e compare o dendrograma. Experimente RDA, RDA parcial (com MEM), db-RDA e PERMANOVA em um mesmo conjunto para perceber como cada uma responde a perguntas diferentes. Por fim, teste Procrustes/PROTEST para medir concordância entre duas comunidades e use um GLM multivariado para investigar fatores que mudam abundâncias conjuntamente.

Se o seu objetivo é simplesmente ‘encontrar um agrupamento em um diagrama linear’, foque em três passos: identifique o salto mais evidente no dendrograma para definir o corte; verifique a robustez com outra métrica/linkage e, se possível, bootstrap; e valide o sentido ecológico/operacional desses grupos com estatísticas complementares (PERMANOVA, RDA/db-RDA) e inspeções de dispersão. Assim, você transforma uma leitura visual em decisão analítica sólida.

A leitura de dendrogramas é só o começo: a força está em combinar a escolha certa de distância e linkage, um corte bem justificado, e a confirmação com ordens e testes que dialoguem com a natureza do seu dado. Quando esse ‘ecossistema’ de métodos trabalha junto, os agrupamentos deixam de ser apenas ramos bonitos no papel e passam a revelar padrões reais e úteis para decisão.