- Oikean etäisyyden ja kytkennän valinta muuttaa klustereiden muotoa ja dendrogrammin tulkintaa.
- Ihanteellinen leikkaus yhdistää visuaalisen tarkastuksen menetelmiin, kuten kyynärpää- ja rakomittauksiin.
- Validoi ryhmät PERMANOVA:lla, RDA/db-RDA:lla ja spatiaalisella kontrollilla (MEM/MSR).
- Mallipohjaiset menetelmät (monimuuttujaiset GLM:t) valaisevat runsausmalleja.

Lineaaridiagrammista datapisteiden ryhmien löytäminen tarkoittaa usein dendrogrammin tulkintaa, joka ei ole muuta kuin samankaltaisuuspuu. Jos kysymyksesi on, miten tunnistaa kaavion katkaisukohdat koherenttien klusterien saamiseksi, vastaus edellyttää etäisyyksien, kytkentäkriteerien ja klusterien laatumittareiden ymmärtämistä.Tässä oppaassa etenemme perusteista edistyneisiin ja yhdistämme lineaaristen kaavioiden käsitteen dendrogrammien käytännön käyttöön sekä muihin monimuuttujatekniikoihin, jotka auttavat validoimaan ja selittämään havaittuja ryhmiä.
Teorian lisäksi tarjoan käytännön näkökulman esimerkkeineen, yleisesti käytettyine mittareineen, datan valmistelun tarkistuslistoineen ja moderneineen vaihtoehtoineen (kuten PERMANOVA, RDA ja mallipohjaiset menetelmät). Ajatuksena on, että voit luottavaisin mielin lukea dendrogrammin, valita objektiivisesti ryhmien lukumäärän ja tarvittaessa täydentää sitä vankoilla analyyseillä varmistaaksesi, ovatko havaitut kuviot todellisia ja tulkittavissa..
Mitä on hierarkkinen klusterointi ja miksi se auttaa lineaarisen kaavion lukemisessa?
Hierarkkisessa klusteroinnissa konstruoimme havaintojen välisistä yhtäläisyyksistä "puun", niin sanotun dendrogrammin, jota monet epävirallisesti kutsuvat lineaariseksi kaavioksi, koska se järjestää suhteet pystysuoran etäisyysviivan mukaisesti. On olemassa kaksi päätyyppiä: agglomeratiivinen (alhaalta ylöspäin) ja jakava (ylhäältä alaspäin)..
Agglomeratiivisessa tilassa jokainen piste aloittaa erillään ja jokaisessa iteraatiossa yhdistämme lähimmät klusteriparit, kunnes jäljellä on vain yksi. Jakomenetelmässä tapahtuu päinvastoin: aloitetaan yhdestä ryhmästä, joka sisältää kaikki otokset, ja erotellaan kaukaisemmat osajoukot, jolloin joukko jaetaan yhä pienempiin haaroihin.Molemmissa tapauksissa saadaan hierarkia, jota voidaan 'leikata' eri korkeuksille K-ryhmien saamiseksi.
Dendrogrammi näyttää etäisyyden (tai eroavaisuuden) mittauksen pystysuoralla akselilla: Pitkät pystysuorat viivat osoittavat hyvin erilaisten ryhmien välisiä fuusioita ja lyhyet viivat lähellä olevien klusterien välisiä liitoskohtia.Juuri tarkkailemalla näitä 'hyppyjä' tunnistamme klustereiden luonnolliset katkokset.
Agglomeratiivisen menetelmän toimintaperiaate vaihe vaiheelta
Kuvittele yksinkertainen joukko pisteitä tasossa, joissa on vain muutama piste. Aluksi jokainen piste on klusteri, ja sen 'keskipiste' on sama itsensä kanssa. Laskemme kaikkien klustereiden välisen etäisyyden, valitsemme lyhimmän etäisyyden omaavan parin ja yhdistämme ne uudeksi klusteriksi.Toistamme prosessin: laskemme uudelleen etäisyydet uudesta klusterista muihin ja jatkamme läheisempien parien yhdistämistä vähentäen ryhmien määrää N:stä N-1:een ja niin edelleen.
Läheisyyden mittaamiseen voit käyttää useita mittareita: euklidista (yleisin jatkuvissa avaruuksissa), Manhattania (kestää poikkeavia arvoja tietyissä tilanteissa) ja kosinia (hyvä suuntavektoreille). Ekologisissa ja koostumuksellisissa yhteyksissä esiintyy myös muita menetelmiä, kuten Bray-Curtis, Jaccard, Sørensen, Hellinger, Chord, Canberra, Mahalanobis ja jopa khiin neliö -etäisyys, joista jokainen soveltuu tietyntyyppiseen dataan ja tulkintaan..
Klusterien välisen etäisyyden laskeminen riippuu kytkentäkriteeristä: Yksittäinen (lähin naapuri), Täydellinen (kaukaisin naapuri), Keskiarvo/UPGMA (aritmeettinen keskiarvo), Ward (minimoi klusterin sisäisen neliösumman) muiden muassa.Kytkennän valinta muuttaa dendrogrammin lopullista muotoa ja siten sitä, miten kaaviota tulkitaan.
Kuinka valita klusterien lukumäärä dendrogrammissa
Mitään ”taikaa” K:ssa ei ole. Etsimme dendrogrammista suuria ”askelia”: vaakasuoraa leikkausta, joka välttää pitkien oksien ylittämistä ja säilyttää lyhyet oksat. Käytännössä piirrä vaakasuora viiva etäisyystasolle, jossa on jyrkkä hyppy; haarojen leikkauspisteiden lukumäärä määrää K:n..
Visuaalisen tarkastuksen lisäksi on olemassa hyödyllisiä heuristiikkoja: Kyynärpäämenetelmä klusterin sisäisille neliösummakäyrille ja aukkotilasto, joka vertaa havaittua WCSS:ää odotettuun WCSS:ään nollajakauman alla.On myös pätevää valita etäisyyskynnys, joka on yhdenmukainen ongelma-alueen kanssa.
Hyvä klusteri osoittaa paljon samankaltaisuutta ryhmien sisällä ja vähän samankaltaisuutta ryhmien välillä. Lopullinen laatu riippuu etäisyysmittarista, kytkennästä ja valitusta K-arvosta; kannattaa kokeilla eri vaihtoehtoja ja arvioida, mikä niistä paljastaa vakaimmat ja informatiivisimmat kuviot.Käytännön tekijöitä, joita on otettava huomioon: uskaliaiden ryhmien lukumäärä, klusterikohtaiset tilastotiedot (keskiarvot, maksimit, minimit), poikkeavien arvojen vaikutus ja aihealueen tuntemus.
(Eri)samankaltaisuuden mittarit: milloin kutakin käytetään
Jatkuvalle datalle euklidinen etäisyys on standardi. Kuitenkin On olemassa vaihtoehtoja, jotka siirtävät painopistettä siihen, mitä pidetään "lähempänä", kuten Manhattan, Canberra, Mahalanobis (ottaa huomioon kovarianssin), Chord, Hellinger ja khiin neliö.Ekologiassa nollat ovat yleisiä ja vaativat erityistä huolellisuutta.
Kun on kyse läsnäolosta/poissaolosta, Epäsymmetriset indeksit, kuten Jaccard ja Sørensen, jättävät huomiotta samanaikaiset poissaolot (kaksinollat) ja toimivat erittäin hyvin beeta-diversiteetin tarkastelussa.Määrä-/runsaustiedoissa käytetään yleisiä kertoimia, kuten Bray-Curtis, Chord, log-Chord, Hellinger, khiin neliö ja Morisita-Horn, ja ne ovat yleensä puolimetrisiä.
Jos matriisissasi on sekalaisia muuttujia (jatkuva, binääri, ordinaali, ympyrämuuttuja), Gowerin indeksi on suositeltu jokerimerkki.Q-moodissa (objektien välinen samankaltaisuus) käytämme (epä)samankaltaisuuksia; R-moodissa (deskriptorien välinen) korrelaatiota/kovarianssia. Standardoinnit ja muunnokset vähentävät harhoja. z-pistemäärä eri yksiköissä skaalattaville muuttujille; Hellinger/Chord äärimmäisten runsauksien ja useiden nollien vaikutuksen lieventämiseen..
Dendrogrammien linkitysmenetelmät ja laatu
UPGMA (aritmeettinen keskiarvo) antaa kohteille yhtäläiset painot ja laskee ryhmien välisten keskimääräisten etäisyyksien; Ward minimoi klustereiden sisällä olevien neliöiden summan (samanlainen kuin OLS/ANOVA) ja pyrkii muodostamaan kompakteja ryhmiä.Vivuston muuttaminen voi muuttaa puuta merkittävästi.
Tarkistaaksemme, kuinka hyvin dendrogrammi säilyttää alkuperäiset (epä)samankaltaisuudet, käytämme kofeneettistä korrelaatiokerrointa. Yli 0,7:n arvot osoittavat yleensä hyvää edustusta, kunhan muistat, että tämä on nyrkkisääntö, ei dogma.Kun tarvitaan tilastollista tukea, bootstrap-paketit, kuten pvclust, arvioivat solmun vakauden, vaikka ne saattavat rajoittaa hyväksyttyjä etäisyyksiä.
Nopea esikäsittelylista: nimet ilman välilyöntejä; Runsausdata vaatii usein Hellingerin kaltaista muunnosta.Jos poikkeavia arvoja on useita, harkitse log1p:tä (mutta vältä logaritmin ja Hellingerin samanaikaista käyttöä); eri asteikkojen muuttujat tulisi standardoida keskiarvoon 0 ja keskihajontaan 1.
Muita klusterointimenetelmiä: K-keskiarvot ja vastaavat menetelmät
K-keskiarvot eivät ole hierarkkisia: Valitset K:n etukäteen, ja algoritmi osittaa datan minimoimalla klusterin sisäisen neliösumman.Se on yksinkertainen ja tehokas, mutta se ei paljasta ryhmien hierarkiaa (dendrogrammia ei ole) ja saattaa konvergoitua kohti paikallisia minimejä.
K:n löytämiseksi K-keskiarvojen avulla toista sovitus useille arvoille ja arvioi kriteerejä, kuten Calinski-Harabasz ja SSI, tai käytä kyynärpäämenetelmää. Työkalut, kuten cascadeKM, auttavat automatisoimaan optimaalisen K+:n haun.Toisin kuin hierarkkiset menetelmät, K-keskiarvot eivät näytä pienempiä ryhmiä suurempien sisällä.
Sovellukset: markkinoinnista suosituksiin
Klusterimuotoilu on yleistä. Markkinoinnissa Segmentoimme asiakkaita ostotottumusten perusteella.Hakukoneissa järjestämme tulokset temaattisen samankaltaisuuden mukaan. Suositusjärjestelmissä ryhmittelemme kohteita ehdottaaksemme vaihtoehtoja, jotka ovat "lähellä" sitä, mistä henkilö pitää.
Käytännön esimerkki Pythonissa: dendrogrammista klusteritunnisteisiin
Tarkastellaan pientä kaksiulotteista taulukkoa. Ensin luomme datan ja visualisoimme sen sirontakaaviossa. Seuraavaksi loimme dendrogrammin Wardin linkityksen avulla ja koulutimme AgglomerativeClusteringin määrittelemällä n klusteria.Lopuksi piirrämme värilliset pisteet aiotun merkinnän mukaisesti.
Vaiheiden kuvaus (havainnollistava): import matplotlib.pyplot as plt; import pandas as pd; import scipy.cluster.hierarchy as sc; from sklearn.cluster import AgglomerativeClustering. Rakenna DataFrame, piirrä pisteet piirtoon ja merkitse niiden indeksit havaintojen visuaaliseen tunnistamiseen.Dendrogrammia varten: sc.dendrogram(sc.linkage(dados, method='ward'))Mallia varten: AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward').
Hyperparametreista: n_klusterit määrittelee tulosklusterien lukumäärän; affiniteetti on metriikka (euklidinen, Manhattan, kosini, esilaskettu); linkitys voi olla keskiarvoinen, keskimääräinen, yksittäinen tai täydellinen.Affiniteetin ja linkityksen valinnan tulisi olla yhdenmukainen mittarisi/tavoitteesi kanssa. Lopuksi, erota otsikot ja visualisoi klusterit erillisillä väreillä. Jos haluat testata muita K-arvoja, muuta n_clusters-arvoa ja tarkkaile muutoksia kartalla.
Järjestys: kun pistepilvestä on tultava luettava kartta.
Rajoittamattomat järjestykset, kuten PCA ja PCoA, auttavat tiivistämään ulottuvuuksia ja visualisoimaan kuvioita. PCA:ssa käytämme euklidista etäisyyttä; PCoA:ssa hyväksymme muita etäisyyksiä (Bray-Curtis, Jaccard, Gower jne.), mikä laajentaa aluetta kattamaan kategorisen, binäärisen ja sekadatan..
PCA keskittää datan, laskee kovarianssit ja hajottaa sen ominaisvektoreiksi/arvoiksi: Ominaisarvot osoittavat, kuinka paljon vaihtelua kukin akseli selittää; kuormitukset osoittavat muuttujien "painon" kullakin akselilla; pisteet sijoittavat objektit avaruudessa.Varoitus: koostumustiedot (monta nollaa) voivat vääristää PCA:ta; standardoinnit, kuten Hellingerin menetelmä, auttavat.
PCoA:ssa aloitamme tietotyypille sopivalla (epä)samankaltaisuusmatriisilla. Negatiivisia ominaisarvoja voi esiintyä; Lingoesin ja Cailliezin kaltaisia korjauksia on olemassa, mutta yleensä ensimmäisiin asiaankuuluviin akseleihin ne eivät vaikuta.Käytä PCoA:ta sekadatalle (Gower) tai kun euklidinen metriikka ei ole järkevä.
Rajoitettu järjestys: RDA, osittainen RDA ja db-RDA
RDA mallintaa lineaarisia suhteita vastematriisin (Y, esim. lajikoostumus) ja ennustavien tekijöiden (X, esim. ilmasto) välillä. Se luo kanonisia akseleita, jotka maksimoivat X:n selittämän Y:n variaation käyttämällä tilastoja, kuten oikaistua R²:tä ja permutaatiotestejä.Se on karkeasti sanottuna "useiden regressioiden ennustamien arvojen PCA".
Paikkatiedot tuovat mukanaan autokorrelaation residuaaleihin ja voivat paisuttaa tyyppiä I. Osittainen RDA kiertää tämän sisällyttämällä spatiaaliset ennustajat (MEM) ehdollistumistekijöiksi, eristämällä ympäristön "puhtaan" vaikutuksen.MEM-mallit johdetaan naapurustoverkoista (kuten MSP-puusta) ja hyvin valitusta spatiaalisesta painotusmatriisista (SWM).
Jos luonnollinen vaste on etäisyys (beeta-diversiteetti, Bray-Curtis jne.), Db-RDA alkaa erilaisuusmatriisin PCoA:lla ja liittää sitten akselit X:ään yhdistäen molempien maailmojen parhaat puolet.Todellisissa sovelluksissa db-RDA on usein RDA:ta parempi, kun euklidinen etäisyys ei ole oikea metriikka.
PERMANOVA ja dispersioiden heterogeenisuus (PERMDISP)
PERMANOVA testaa ryhmien välisiä eroja etäisyyksien ja pseudo-F:n perusteella, joka on analoginen ANOVA:n kanssa: F_pseudo = (SSa/SSr)*((N-g)/(g-1)). Se on tehokas monimuuttujahypoteeseille ilman, että se vaatii monimuuttujanormaalisuutta..
Tilastoihin voivat kuitenkin vaikuttaa sijainnin (keskipiste) ja/tai hajonnan (ryhmän sisäinen varianssi) erot. Yhdistä PERMDISP (BETADISPER) -funktion kanssa dispersioiden heterogeenisyyden tarkistamiseksi; jos merkittävä, PERMANOVAn havaitsema vaikutus voi johtua pääasiassa epätasaisista varianssien eroista.Yhdessä nämä kaksi analyysia auttavat erottamaan 'koostumuksen muutoksen' 'vaihtelevuuden muutoksesta'.
Takka, osittainen takka ja moderni tilavaihtoehto
Mantel-testi korreloi kaksi etäisyysmatriisia; osittaistesti kontrolloi kolmatta (esim. arvioidaan, selittääkö ympäristön erilaisuus lajien erilaisuuden kontrolloimalla maantieteellistä etäisyyttä). Sitä käytetään laajalti, mutta sillä on rajoituksia, kun spatiaalinen autokorrelaatio on läsnä..
Yksi vaihtoehto on rakentaa nollamalli, joka säilyttää globaalin autokorrelaation (Moranin spektraalinen satunnaistaminen). Tämä menetelmä käyttää spatiaalista rakennetta (MEM-muistien kautta) datan sekoittamiseen säilyttäen samalla Moranin I:n, mikä johtaa realistisempiin p-arvoihin spatiaalisesti riippuvissa skenaarioissa.Käytännössä monet "merkitykselliset" suhteet yhteisessä Mantelissa lakkaavat olemasta sitä paikallisesti rajoitetun nollan myötä.
Prokrustes ja PROTEST: monimuuttujakarttojen välinen yhteensopivuus
Kun haluat verrata kahden järjestetyn avaruuden (esimerkiksi kalojen ja pohjaeläinten) välistä yhteensopivuutta, Prokrustes-analyysi tasaa, kiertää ja skaalaa yhden matriisin "sopimaan" toisen kanssa minimoiden poikkeamien neliöiden summan.m12-tilastoarvo vaihtelee välillä 0 (suurin yhtäpitävyys) - 1 (ei yhtään).
PROTEST-testi arvioi tämän muutoksen merkitystä satunnaistamisen avulla. Yleinen työnkulku: etäisyysdatan osalta aja PCoA (tai nMDS) jokaiselle matriisille, käytä Procrustes-menetelmää ja sitten PROTEST-menetelmää; raakadatan osalta käytä PCA/CA:ta ennen Procrustes-menetelmää.Nuolikaaviot auttavat näkemään, "kuinka kaukana" toinen joukko on toisen jäljittelystä kussakin paikassa.
Monimuuttujamallipohjaiset menetelmät: kun erilaisuus ei riitä.
Laskentatiedoissa keskiarvon ja varianssin välillä on yleensä monotoninen suhde (yleisemmät lajit vaihtelevat enemmän). Erilaisuuspohjaiset menetelmät eivät aina käsittele tätä hyvin; siksi on syntynyt monimuuttujaisia GLM-lähestymistapoja, kuten mvabund-paketissa..
Tämän mukaisesti mallinnamme runsauksia sopivilla jakaumilla (Poisson, negatiivinen binomijakauma jne.) ja testaamme tekijöiden (esim. 'kenttä vs. kokoelma') vaikutuksia monimuuttujamenetelmällä. Globaalin testin lisäksi on mahdollista jakaa poikkeavat lajit lajeittain ja tunnistaa, mitkä niistä ohjaavat kuviota.Toinen etu on jäännösdiagnoosi, joka parantaa luottamusta päätelmiin.
Parhaat käytännöt, viitteet ja opintopolut.
Ennen analyysin aloittamista varmista, että datasi on valmisteltu: Standardoi asteikot, käsittele nollakohtia, vähennä ennustajien välistä kollineaarisuutta, tarkastele poikkeavia arvoja ja tarkista muuttujien muuntamistarve.Spatiaalisissa ongelmissa suunnittele MEM-mallien ja rajoitettujen nollamallien käyttö.
Suositeltavaa luettavaa: Legendre & Legendre (Numeerinen ekologia), Borcard ym. (Numeerinen ekologia R:n avulla), Thioulouse ym. (ade4), Ovaskainen & Abrego (JSDM) sekä oppaat mallipohjaisesta klusteroinnista.Nämä materiaalit laajentavat tässä käsiteltyä asiaa yksityiskohtaisilla esimerkeillä ja koodilla.
Harjoituksia ja ideoita harjoitteluun
Vahvistamiseksi: tee hclust UPGMA:lla ja Bray-Curtisilla, muuta sitten etäisyyttä ja vertaa dendrogrammia. Kokeile RDA:ta, osittaista RDA:ta (MEM:n kanssa), db-RDA:ta ja PERMANOVAa samalla datajoukolla nähdäksesi, miten kukin niistä vastaa eri kysymyksiin.Lopuksi käytä Procrustes/PROTEST-testiä kahden yhteisön välisen yhtäpitävyyden mittaamiseen ja monimuuttujaista GLM-menetelmää tutkiaksesi tekijöitä, jotka yhdessä muuttavat runsauksia.
Jos tavoitteesi on yksinkertaisesti "löytää klusteri lineaarisesta kaaviosta", keskity kolmeen vaiheeseen: tunnista ilmeisin hyppy dendrogrammissa raja-arvon määrittelemiseksi; Varmista luotettavuus käyttämällä toista mittaria/kytkentää ja, jos mahdollista, bootstrap-menetelmää; ja validoi näiden ryhmien ekologinen/operatiivinen merkitys täydentävillä tilastoilla (PERMANOVA, RDA/db-RDA) ja hajontatarkastuksilla.Näin ollen muutat visuaalisen tulkinnan vankaksi analyyttiseksi päätökseksi.
Dendrogrammien lukeminen on vasta alkua: Avainasemassa on oikean etäisyyden ja linkityksen yhdistäminen, hyvin perusteltu rajaus sekä vahvistus tilauksilla ja testeillä, jotka resonoivat datasi luonteen kanssa.Kun tämä menetelmien "ekosysteemi" toimii yhdessä, ryhmittymät lakkaavat olemasta vain kauniita oksia paperilla ja alkavat paljastaa todellisia ja hyödyllisiä päätöksenteon kaavoja.
