Sådan finder du klynger i et linjediagram

Sidste ændring: December 3, 2025
Forfatter: Virtuel lærer
  • Valg af den rigtige afstand og kobling ændrer klyngernes form og fortolkningen af ​​dendrogrammet.
  • Det ideelle snit kombinerer visuel inspektion med metoder som albue- og mellemrumsstatistik.
  • Valider grupper ved hjælp af PERMANOVA, RDA/db-RDA og spatial kontrol (MEM/MSR).
  • Modelbaserede metoder (multivariate GLM'er) kaster lys over forekomstmønstre.

gruppering i et lineært diagram

At finde grupper af datapunkter i et lineært diagram betyder ofte at fortolke et dendrogram, som ikke er andet end et similaritetstræ. Hvis dit spørgsmål er, hvordan man identificerer, hvor dette diagram skal skæres for at opnå sammenhængende klynger, involverer svaret forståelse af afstande, forbindelseskriterier og metrikker for klyngekvalitet.Gennem denne guide vil vi gå fra det grundlæggende til det avancerede og forbinde konceptet 'lineære diagrammer' med den praktiske brug af dendrogrammer, samt andre multivariate teknikker, der hjælper med at validere og forklare de observerede grupper.

Ud over teorien tilbyder jeg et praktisk perspektiv med eksempler, almindeligt anvendte metrikker, en tjekliste til dataforberedelse og moderne alternativer (såsom PERMANOVA, RDA og modeldrevne metoder). Ideen er, at man med sikkerhed kan læse et dendrogram, objektivt vælge antallet af grupper og, når det er nødvendigt, supplere det med robuste analyser for at bekræfte, om de observerede mønstre er reelle og fortolkelige..

Hvad er hierarkisk klyngedannelse, og hvorfor hjælper det med at læse et 'lineært diagram'?

I hierarkisk klyngedannelse konstruerer vi et 'træ' af ligheder mellem observationer, det såkaldte dendrogram, som mange uformelt kalder et lineært diagram, fordi det organiserer relationer langs en lodret linje af afstande. Der er to hovedsmagsvarianter: den agglomerative (bottom-up) og den splittende (top-down)..

I agglomerativ tilstand starter hvert punkt isoleret, og i hver iteration fusionerer vi det nærmeste par af klynger, indtil kun én er tilbage. I den divisive metode sker det modsatte: vi starter med en enkelt gruppe, der indeholder alle prøverne, og adskiller de mere fjerne delmængder og opdeler sættet i stadig mindre grene.I begge tilfælde opnås et hierarki, der kan 'skæres' i forskellige højder for at opnå K-grupper.

Dendrogrammet viser en afstandsmåling (eller ulighedsmåling) på den lodrette akse: Lange lodrette linjer angiver fusioner mellem meget forskellige grupper, og korte linjer angiver forbindelser mellem nærliggende klynger.Det er ved at observere disse 'spring', at vi identificerer naturlige brud i klynger.

Sådan fungerer den agglomerative metode trin for trin

Forestil dig et simpelt sæt punkter på et plan med kun få. I starten er hvert punkt en klynge, og dets 'centrum' falder sammen med det selv. Vi beregner afstanden mellem alle par af klynger, vælger parret med den mindste afstand og fletter dem sammen til en ny klynge.Vi gentager processen: vi genberegner afstandene fra den nye klynge til de andre og fortsætter med at forbinde tættere par, reducerer antallet af grupper fra N til N-1, og så videre.

For at måle nærhed kan du bruge flere metrikker: Euklidisk (mest almindelig i kontinuerlige rum), Manhattan (robust over for outliers i visse scenarier) og Cosinus (god til retningsvektorer). I økologiske og kompositionelle sammenhænge optræder også andre metoder, såsom Bray-Curtis, Jaccard, Sørensen, Hellinger, Chord, Canberra, Mahalanobis og endda chi-i-anden-afstanden, der hver især er egnet til en specifik type data og fortolkning..

Hvordan man beregner afstanden mellem klynger afhænger af koblingskriteriet: Enkelt (nærmeste nabo), Komplet (fjerneste nabo), Gennemsnit/UPGMA (aritmetisk middelværdi), Ward (minimerer kvadratsummen inden for en klynge) m.fl.Valget af kobling ændrer dendrogrammets endelige form og dermed hvordan diagrammet fortolkes.

Sådan vælger du antallet af klynger i dendrogrammet

Der findes intet 'magisk' K. Det, vi gør, er at lede efter store 'trin' i dendrogrammet: et vandret snit, der undgår at krydse lange grene og bevarer korte grene. I praksis tegnes en vandret linje i afstandsniveauet, hvor der er et skarpt spring; antallet af skæringspunkter med grene bestemmer K..

relateret:  Formel for afstanden mellem to punkter: definition, altid og altid

Ud over visuel inspektion er der nyttige heuristikker: Albuemetoden til intra-klynge sum-of-squares-kurver og gap-statistikken, som sammenligner den observerede WCSS med den forventede WCSS under en nulfordeling.Det er også gyldigt at vælge en afstandstærskel, der er i overensstemmelse med problemdomænet.

En god klynge udviser høj lighed inden for grupper og lav lighed mellem grupper. Den endelige kvalitet afhænger af afstandsmålingen, koblingen og den valgte K-værdi; det er værd at eksperimentere med muligheder og evaluere, hvilken der afslører de mest stabile og informative mønstre.Praktiske faktorer at overveje: antal plausible grupper, statistikker pr. klynge (gennemsnit, maksimum, minimum), indflydelse af outliers og domæneviden.

Målinger af (u)lighed: hvornår man skal bruge hver enkelt

For kontinuerlige data er den euklidiske afstand standard. Dog, Der er alternativer, der flytter vægten af, hvad der betragtes som 'nært': Manhattan, Canberra, Mahalanobis (betragter kovarians), akkord, Hellinger og chi-i-anden.I økologi er nuller almindelige og kræver særlig pleje.

Når man har at gøre med tilstedeværelse/fravær, Asymmetriske indeks som Jaccard og Sørensen ignorerer samtidige fravær (dobbelte nuller) og fungerer rigtig godt for beta-diversitet.For antal/mængdedata er koefficienter som Bray-Curtis, akkord, logaritmisk akkord, Hellinger, chi-i-anden og Morisita-Horn almindelige og generelt semimetriske.

Hvis din matrix blander variabeltyper (kontinuerlig, binær, ordinal, cirkulær), Gowers indeks er det anbefalede jokertegn.I Q-tilstand (lighed mellem objekter) bruger vi (u)ligheder; i R-tilstand (mellem deskriptorer) korrelation/kovarians. Standardiseringer og transformationer reducerer bias. z-score til skalering af variabler i forskellige enheder; Hellinger/Chord til afbødning af effekten af ​​ekstreme forekomster og flere nuller..

Dendrogram-koblingsmetoder og kvalitet

UPGMA (aritmetisk middelværdi) giver objekter lige store vægte og beregner gennemsnitlige afstande mellem grupper; Ward minimerer summen af ​​kvadrater inden for klynger (ligner OLS/ANOVA) og har en tendens til at danne kompakte grupper.Ændring af koblingen kan ændre træet betydeligt.

For at kontrollere, hvor godt dendrogrammet bevarer de oprindelige (u)ligheder, bruger vi den kofenetiske korrelationskoefficient. Værdier over ~0,7 indikerer normalt god repræsentation, men husk at dette er en tommelfingerregel, ikke et dogme.Når statistisk støtte er nødvendig, estimerer bootstrap-pakker som pvclust node-stabilitet, selvom de kan begrænse de accepterede afstande.

Tjekliste til hurtig forbehandling: navne uden mellemrum; Data om overflod kræver ofte en Hellinger-lignende transformation.Hvis der er mange outliers, skal log1p tages i betragtning (men undgå at anvende log og Hellinger samtidig); variabler på forskellige skalaer bør standardiseres til et gennemsnit på 0 og en standardafvigelse på 1.

Andre klyngemetoder: K-means og lignende tilgange

K-means er ikke-hierarkisk: Du vælger K på forhånd, og algoritmen partitionerer dataene ved at minimere kvadratsummen inden for klyngen.Det er enkelt og effektivt, men det afslører ikke gruppernes hierarki (der er intet dendrogram) og kan konvergere mod lokale minima.

For at finde K ved hjælp af K-means, gentag tilpasningen for flere værdier og evaluer kriterier som Calinski-Harabasz og SSI, eller brug albuemetoden. Værktøjer som cascadeKM hjælper med at automatisere søgningen efter optimal K+.I modsætning til hierarkiske metoder viser K-means ikke mindre grupper indlejret i større grupper.

Anvendelser: fra markedsføring til anbefalinger

Clustering er allestedsnærværende. Inden for marketing, Vi segmenterer kunder efter købsadfærd.I søgemaskiner organiserer vi resultater efter tematisk lighed. I anbefalingssystemer grupperer vi elementer for at foreslå muligheder, der er 'tæt på' det, personen kan lide.

Praktisk eksempel i Python: fra dendrogram til klyngeetiketter

Overvej et lille todimensionelt array. Først opretter vi dataene og visualiserer dem i et scatterplot. Dernæst genererede vi dendrogrammet med Wards kobling og trænede en AgglomerativeClustering ved at definere n klynger.Til sidst plotter vi de farvede prikker i henhold til den forudsagte etiket.

relateret:  Generel ligning for en linje, hvis hældning er lig med 2/3

Oversigt over trin (illustrativ): import matplotlib.pyplot as plt; import pandas as pd; import scipy.cluster.hierarchy as sc; from sklearn.cluster import AgglomerativeClustering. Konstruer DataFrame, plot punkterne, og noter deres indekser for visuelt at identificere hver observation.Til dendrogrammet: sc.dendrogram(sc.linkage(dados, method='ward'))For modellen: AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward').

Angående hyperparametre: n_clusters definerer antallet af outputklynger; affinitet er metrikken (euklidisk, Manhattan, cosinus, præberegnet); kobling kan være ward, gennemsnitlig, enkelt eller komplet.Valget af affinitet og kobling bør være i overensstemmelse med din metrik/målsætning. Til sidst skal du udtrække etiketterne og visualisere klynger i forskellige farver. Hvis du vil teste andre K'er, skal du ændre n_clusters og observere ændringer i kortet.

Rækkefølge: når punktskyen skal blive til et læseligt kort.

Ubegrænsede ordninger som PCA og PCoA hjælper med at opsummere dimensioner og visualisere mønstre. I PCA bruger vi euklidisk afstand; I PCoA accepterer vi andre afstande (Bray-Curtis, Jaccard, Gower osv.), hvilket udvider spektret til at omfatte kategoriske, binære og blandede data..

PCA centraliserer data, beregner kovarianser og opdeler dem i egenvektorer/værdier: Egenværdierne viser, hvor meget variation hver akse forklarer; belastningerne angiver 'vægten' af variablerne på hver akse; scorerne placerer objekter i rummet.Advarsel: Sammensætningsdata (mange nuller) kan forvrænge PCA; standardiseringer som Hellingers hjælper.

I PCoA starter vi med en (u)lighedsmatrix, der er passende til datatypen. Negative egenværdier kan forekomme; Korrektioner som Lingoes og Cailliez findes, men generelt påvirkes de første relevante akser ikke.Brug PCoA til blandede data (Gower), eller når den euklidiske metrik ikke giver mening.

Begrænset rækkefølge: RDA, delvis RDA og db-RDA

RDA modellerer lineære sammenhænge mellem en responsmatrix (Y, f.eks. artssammensætning) og prædiktorer (X, f.eks. klima). Den genererer kanoniske akser, der maksimerer variationen i Y forklaret af X, ved hjælp af statistikker såsom justeret R² og permutationstests.Det er groft sagt en 'PCA af de værdier, der er forudsagt af multiple regressioner'.

Spatiale data introducerer autokorrelation i residualerne og kan oppuste type I. Delvis RDA omgår dette ved at inkludere rumlige prædiktorer (MEM'er) som betingende faktorer og isolere den 'rene' effekt af miljøet.MEM'er er afledt af naboskabsnetværk (såsom Minimum Spanning Tree) og en velvalgt rumlig vægtningsmatrix (SWM).

Hvis den naturlige reaktion er en afstand (beta-diversitet, Bray-Curtis osv.), db-RDA starter med en PCoA af dissimilaritetsmatricen og relaterer derefter akserne til X og kombinerer det bedste fra begge verdener.I virkelige applikationer overgår db-RDA ofte RDA, når euklidisk afstand ikke er den korrekte metrik.

PERMANOVA og heterogenitet af dispersioner (PERMDISP)

PERMANOVA tester for forskelle mellem grupper baseret på afstande og en pseudo-F analog med ANOVA: F_pseudo = (SSa/SSr)*((N-g)/(g-1)). Den er effektiv til multivariate hypoteser uden at kræve multivariat normalitet..

Statistikker kan dog påvirkes af forskelle i position (centroid) og/eller spredning (intragruppevarians). Kombinér med PERMDISP (BETADISPER) for at kontrollere heterogenitet i dispersionerne; hvis den er signifikant, kan den effekt, der detekteres af PERMANOVA, primært stamme fra ulige varianser.Sammen hjælper de to analyser med at skelne mellem 'ændring i sammensætning' og 'ændring i variabilitet'.

Kaminhylde, delvis kaminhylde og moderne rumalternativ

Mantel-testen korrelerer to afstandsmatricer; den partielle test kontrollerer for en tredje (f.eks. vurderer om miljømæssig forskellighed forklarer artsforskelle ved at kontrollere for geografisk afstand). Det er meget anvendt, men har begrænsninger, når der er tale om rumlig autokorrelation..

relateret:  Enhedscirklen: trigonometriske funktioner og anvendelser

Et alternativ er at konstruere en nulmodel, der bevarer global autokorrelation (Moran Spectral Randomization). Denne procedure bruger rumlig struktur (via MEM'er) til at blande dataene, samtidig med at Morans I opretholdes, hvilket resulterer i mere realistiske p-værdier i rumligt afhængige scenarier.I praksis ophører mange 'meningsfulde' relationer i den fælles kaminhylde med at være det med det rumligt begrænsede nul.

Procrustes og PROTEST: overensstemmelse mellem multivariate kort

Når du vil sammenligne overensstemmelsen mellem to ordnede rum (for eksempel PCoA for fisk og PCoA for makroinvertebrater), Procrustes-analyse justerer, roterer og skalerer én matrix, så den 'passer' til en anden, og minimerer summen af ​​kvadraterne af afvigelserne.m12-statistikken går fra 0 (maksimal overensstemmelse) til 1 (ingen).

PROTEST-testen vurderer betydningen af ​​denne justering ved randomisering. Fælles arbejdsgang: For afstandsdata, kør PCoA (eller nMDS) på hver matrix, anvend Procrustes, og derefter PROTEST; for rådata, brug PCA/CA før Procrustes.Pilegrafer hjælper med at se, 'hvor langt' ét sæt er fra at imitere det andet på hver placering.

Multivariate modelbaserede metoder: når forskellighed ikke er nok.

Tællingsdata viser normalt en monotonisk sammenhæng mellem middelværdi og varians (mere almindelige arter varierer mere). Ulighedsbaserede metoder håndterer ikke altid dette godt; derfor er der opstået multivariate GLM-tilgange, såsom i mvabund-pakken..

I denne forbindelse modellerer vi mængder med passende fordelinger (Poisson, negativ binomial osv.) og tester virkningerne af faktorer (f.eks. 'felt vs. samling') på en multivariat måde. Ud over en global test er det muligt at opdele afvigelsesarten efter art og identificere, hvilke der driver mønsteret.En anden fordel er residualdiagnose, hvilket forbedrer tilliden til konklusionen.

Bedste praksis, referencer og studieveje.

Før du dykker ned i analysen, skal du sørge for at dine data er forberedt: Standardiser skalaer, håndter nuller, reducer kollinearitet mellem prædiktorer, inspicer outliers, og kontroller behovet for at transformere variabler.I rumlige problemer, planlæg brugen af ​​MEM'er og begrænsede nulmodeller.

Anbefalet læsning inkluderer: Legendre & Legendre (Numerisk Økologi), Borcard et al. (Numerisk Økologi med R), Thioulouse et al. (ade4), Ovaskainen & Abrego (JSDM), og vejledninger om modelbaseret klyngedannelse.Disse materialer uddyber det, vi har diskuteret her, med detaljerede eksempler og kode.

Øvelser og ideer til øvelse

For at bekræfte: udfør en hclust med UPGMA og Bray-Curtis, ændr derefter afstanden og sammenlign dendrogrammet. Prøv RDA, delvis RDA (med MEM), db-RDA og PERMANOVA på det samme datasæt for at se, hvordan hver enkelt besvarer forskellige spørgsmål.Brug endelig Procrustes/PROTEST-testen til at måle overensstemmelse mellem to samfund og en multivariat GLM til at undersøge faktorer, der i fællesskab ændrer mængderne.

Hvis dit mål blot er at 'finde en klynge i et lineært diagram', skal du fokusere på tre trin: identificer det mest åbenlyse spring i dendrogrammet for at definere grænsepunktet; Verificér robusthed ved hjælp af en anden metrik/kobling og, hvis muligt, bootstrap; og validér den økologiske/operationelle betydning af disse grupper med supplerende statistikker (PERMANOVA, RDA/db-RDA) og spredningsinspektioner.Således omdanner du en visuel læsning til en solid analytisk beslutning.

At læse dendrogrammer er kun begyndelsen: Nøglen er at kombinere det rigtige valg af afstand og kobling, en velbegrundet skæring og bekræftelse med ordrer og tests, der resonerer med dine datas natur.Når dette 'økosystem' af metoder fungerer sammen, ophører grupperingerne med blot at være pæne grene på papiret og begynder at afsløre virkelige og nyttige mønstre til beslutningstagning.

Relateret artikel:
Kollineære vektorer: system og eksempler