- A megfelelő távolság és kapcsoltság megválasztása megváltoztatja a klaszterek alakját és a dendrogram értelmezését.
- Az ideális vágás a vizuális ellenőrzést olyan módszerekkel ötvözi, mint a könyök- és résstatisztika.
- Csoportok validálása PERMANOVA, RDA/db-RDA és térbeli kontroll (MEM/MSR) segítségével.
- A modellalapú módszerek (többváltozós GLM-ek) rávilágítanak az abundancia mintázataira.

Az adatpontok csoportjainak megtalálása egy lineáris diagramban gyakran egy dendrogram értelmezését jelenti, ami nem más, mint egy hasonlósági fa. Ha a kérdésed az, hogy hogyan lehet meghatározni, hol kell elvágni ezt a diagramot ahhoz, hogy koherens klasztereket kapjunk, a válasz a távolságok, a kapcsolódási kritériumok és a klaszterminőségi mérőszámok megértését foglalja magában.Ebben az útmutatóban az alapoktól a haladó szintig haladunk, összekapcsolva a „lineáris diagramok” fogalmát a dendrogramok gyakorlati használatával, valamint más többváltozós technikákkal, amelyek segítenek a megfigyelt csoportok validálásában és magyarázatában.
Az elméleten túl gyakorlati perspektívát kínálok példákkal, gyakran használt metrikák, adat-előkészítési ellenőrzőlista és modern alternatívák (mint például a PERMANOVA, az RDA és a modellvezérelt módszerek) segítségével. Az ötlet az, hogy magabiztosan leolvashatunk egy dendrogramot, objektíven kiválaszthatjuk a csoportok számát, és szükség esetén robusztus elemzésekkel kiegészíthetjük azt annak megerősítésére, hogy a megfigyelt mintázatok valósak és értelmezhetők-e..
Mi a hierarchikus klaszterezés, és miért segít a „lineáris diagramok” olvasásában?
A hierarchikus klaszterezés során a megfigyelések közötti hasonlóságok „fáját”, az úgynevezett dendrogramot konstruáljuk, amelyet sokan informálisan lineáris diagramnak neveznek, mivel a kapcsolatokat a távolságok függőleges vonala mentén rendezi. Két fő íz létezik: az agglomeratív (alulról felfelé) és a megosztó (felülről lefelé)..
Agglomeratív módban minden pont izoláltan indul, és minden iterációban a legközelebbi klaszterpárt egyesítjük, amíg csak egy marad. Az osztó módszernél az ellenkezője történik: egyetlen csoporttal kezdünk, amely az összes mintát tartalmazza, és a távolabbi részhalmazokat szétválasztjuk, egyre kisebb ágakra bontva a halmazt.Mindkét esetben egy olyan hierarchiát kapunk, amely különböző magasságokban „vágható”, hogy K csoportokat kapjunk.
A dendrogram a függőleges tengelyen a távolság (vagy eltérés) mérését mutatja: A hosszú függőleges vonalak nagyon különböző csoportok közötti egyesüléseket, a rövid vonalak pedig a közeli klaszterek közötti csomópontokat jelzik.Ezen „ugrások” megfigyelésével azonosítjuk a klaszterekben található természetes töréseket.
Az agglomerációs módszer működése lépésről lépésre
Képzeljünk el egy egyszerű ponthalmazt a síkon, csak néhány ponttal. Kezdetben minden pont egy klaszter, és a „középpontja” egybeesik önmagával. Kiszámítjuk az összes klaszterpár közötti távolságot, kiválasztjuk a legkisebb távolságú párt, és egy új klaszterré egyesítjük őket.Megismételjük a folyamatot: újraszámoljuk az új klaszter és a többi közötti távolságokat, és folytatjuk a közelebbi párok összekapcsolását, N-ről N-1-re csökkentve a csoportok számát, és így tovább.
A közelség mérésére számos metrika használható: euklideszi (leggyakoribb folytonos terekben), Manhattan (bizonyos esetekben robusztus a kiugró értékekkel szemben) és koszinusz (irányvektorokhoz jó). Ökológiai és kompozíciós kontextusban más módszerek is megjelennek, mint például a Bray-Curtis, Jaccard, Sørensen, Hellinger, Chord, Canberra, Mahalanobis, sőt még a chi-négyzet távolság is, amelyek mindegyike egy adott adattípushoz és értelmezéshez igazodik..
A klaszterek közötti távolság kiszámításának módja a kapcsoltsági kritériumtól függ: Egyedi (legközelebbi szomszéd), Teljes (legtávolabbi szomszéd), Átlagos/UPGMA (számtani átlag), Ward (minimalizálja a klaszteren belüli négyzetösszeget), többek között.A kapcsoltság megválasztása megváltoztatja a dendrogram végső alakját, és így a diagram értelmezését is.
Hogyan válasszuk ki a klaszterek számát a dendrogramban?
Nincs „varázslatos” K. Amit teszünk, az az, hogy nagy „lépcsőket” keresünk a dendrogramban: egy vízszintes vágást, amely elkerüli a hosszú ágak keresztezését, és megőrzi a rövid ágakat. Gyakorlatilag húzz egy vízszintes vonalat azon a távolságszinten, ahol egy éles ugrás van; az ágakkal való metszéspontok száma határozza meg K-t..
A vizuális ellenőrzés mellett hasznos heurisztikák is vannak: A klasztereken belüli négyzetösszeg-görbékhez használt könyökmódszer és a résstatisztika, amely a megfigyelt WCSS-t összehasonlítja a várható WCSS-sel null eloszlás mellett.Az is érvényes, ha a problémakörrel összhangban lévő távolságküszöböt választunk.
Egy jó klaszter nagy hasonlóságot mutat a csoportokon belül, és alacsony hasonlóságot a csoportok között. A végső minőség a távolságmetrikától, a kapcsolóelemektől és a választott K-értéktől függ; érdemes kísérletezni a lehetőségekkel, és értékelni, hogy melyik mutatja a legstabilabb és leginformatívabb mintázatokat.Figyelembe veendő gyakorlati tényezők: a valószínűsíthető csoportok száma, klaszterenkénti statisztikák (átlagok, maximumok, minimumok), a kiugró értékek hatása és a szakterület ismerete.
A (disz)hasonlóság metrikái: mikor melyiket használjuk
Folyamatos adatok esetén az euklideszi távolság a standard. Azonban Vannak alternatívák, amelyek eltolják a hangsúlyt arra, amit „közelítőnek” tekintünk: Manhattan, Canberra, Mahalanobis (a kovarianciát is figyelembe veszi), Chord, Hellinger és khi-négyzet.Az ökológiában a nullák gyakoriak és különös gondot igényelnek.
A jelenlét/hiány kezelésekor Az olyan aszimmetrikus indexek, mint a Jaccard és a Sørensen, figyelmen kívül hagyják az egyidejű hiányokat (dupla nullák), és nagyon jól működnek a béta-diverzitás vizsgálatára.A darabszám/abundancia adatok esetében gyakoriak és általában félmetrikusak az olyan együtthatók, mint a Bray-Curtis, a Chord, a log-Chord, a Hellinger, a chi-négyzet és a Morisita-Horn.
Ha a mátrixod változótípusokat kever (folytonos, bináris, ordinális, cirkuláris), A Gower-index az ajánlott helyettesítő karakter.Q-módban (objektumok közötti hasonlóság) (disz)hasonlóságokat használunk; R-módban (leírók közötti) korrelációt/kovarianciát. A szabványosítás és a transzformációk csökkentik az eltéréseket. z-érték a változók különböző mértékegységekben való skálázásához; Hellinger/Chord a szélsőséges gyakoriságok és a többszörös nullák hatásának mérsékléséhez..
Dendrogram-összekapcsolási módszerek és minőség
Az UPGMA (számtani átlag) egyenlő súlyokat ad az objektumoknak, és kiszámítja a csoportok közötti átlagos távolságokat; Ward minimalizálja a klasztereken belüli négyzetösszeget (hasonlóan az OLS/ANOVA-hoz), és kompakt csoportokat képez.A kötés megváltoztatása jelentősen megváltoztathatja a fát.
Annak ellenőrzésére, hogy a dendrogram mennyire jól őrzi meg az eredeti (különbség)hasonlóságokat, a kofenetikus korrelációs együtthatót használjuk. A ~0,7 feletti értékek általában jó reprezentációt jeleznek, ne feledjük, hogy ez egy ökölszabály, nem pedig dogma.Amikor statisztikai támogatásra van szükség, a bootstrap csomagok, mint például a pvclust, becsülik meg a csomópont stabilitását, bár korlátozhatják az elfogadott távolságokat.
Gyors előfeldolgozási ellenőrzőlista: nevek szóközök nélkül; A bőségi adatok gyakran Hellinger-szerű transzformációt igényelnek.Ha sok kiugró érték van, vegyük figyelembe a log1p-t (de kerüljük a log és a Hellinger egyidejű alkalmazását); a különböző skálákon lévő változókat 0 átlagra és 1 szórásra kell standardizálni.
Egyéb klaszterezési megközelítések: K-középértékek és hasonló megközelítések
A K-közép nem hierarchikus: Előzetesen kiválasztod a K-t, és az algoritmus a klaszteren belüli négyzetösszeg minimalizálásával particionálja az adatokat.Egyszerű és hatékony, de nem tárja fel a csoportok hierarchiáját (nincs dendrogram), és lokális minimumokhoz konvergálhat.
A K-középértékek segítségével történő megtalálásához ismételje meg az illesztést több értékre, és értékelje ki a kritériumokat, például a Calinski-Harabasz és az SSI függvényt, vagy használja a könyökmódszert. Az olyan eszközök, mint a cascadeKM, segítenek automatizálni az optimális K+ keresését.A hierarchikus módszerekkel ellentétben a K-középértékek nem mutatnak kisebb csoportokat a nagyobbakon belül.
Alkalmazások: a marketingtől az ajánlásokig
A klaszterezés mindenütt jelen van. A marketingben Vásárlási szokások alapján szegmentáljuk az ügyfeleket.A keresőmotorokban tematikus hasonlóság szerint rendezzük az eredményeket. Az ajánlórendszerekben csoportosítjuk az elemeket, hogy olyan lehetőségeket javasoljunk, amelyek „közel” állnak ahhoz, amit a felhasználó szeret.
Gyakorlati példa Pythonban: a dendrogramtól a klasztercímkékig
Tekintsünk egy kis kétdimenziós tömböt. Először létrehozzuk az adatokat, és egy szóródási diagramon jelenítjük meg őket. Ezután Ward-féle kapcsolással dendrogramot generáltunk, és n klaszter definiálásával betanítottunk egy AgglomerativeClustering módszert.Végül a kívánt címkének megfelelően ábrázoljuk a színes pontokat.
Lépések vázlata (szemléltető): import matplotlib.pyplot as plt; import pandas as pd; import scipy.cluster.hierarchy as sc; from sklearn.cluster import AgglomerativeClustering. Hozza létre a DataFrame-et, ábrázolja a pontokat, és jegyezze fel az indexeiket az egyes megfigyelések vizuális azonosításához.A dendrogramhoz: sc.dendrogram(sc.linkage(dados, method='ward'))A modellhez: AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward').
A hiperparaméterekkel kapcsolatban: Az n_clusters a kimeneti klaszterek számát határozza meg; az affinitás a metrika (euklideszi, manhattani, koszinusz, előre kiszámított); a kapcsolás lehet előrehaladott, átlagos, egyszeres vagy teljes.Az affinitás és a kapcsoltság megválasztásának összhangban kell lennie a metrikával/célkitűzéseddel. Végül vond ki a címkéket, és jelenítsd meg a klasztereket különböző színekkel. Ha más K-kat is tesztelni szeretnél, módosítsd az n_clusters értékét, és figyeld meg a változásokat a térképen.
Sorrend: amikor a pontfelhőnek olvasható térképpé kell válnia.
A PCA-hoz és a PCoA-hoz hasonló korlátozás nélküli sorrendek segítenek a dimenziók összegzésében és a mintázatok vizualizálásában. A PCA-ban az euklideszi távolságot használjuk; A PCoA-ban más távolságokat is elfogadunk (Bray-Curtis, Jaccard, Gower stb.), amelyek szélesítik a tartományt, és így kategorikus, bináris és vegyes adatokat is magukban foglalnak..
A PCA központosítja az adatokat, kiszámítja a kovarianciákat, és sajátvektorokra/értékekre bontja azokat: A sajátértékek megmutatják, hogy az egyes tengelyek mennyi variációt magyaráznak; a terhelések az egyes tengelyeken lévő változók „súlyát” jelzik; a pontszámok pedig az objektumok térbeli pozicionálását jelzik.Figyelem: az összetételi adatok (sok nulla) torzíthatják a PCA-t; szabványosítás, mint például a Hellinger-féle, segíthet.
A PCoA-ban egy, az adattípusnak megfelelő (disz)hasonlósági mátrixszal kezdünk. Negatív sajátértékek is előfordulhatnak; Léteznek olyan javítások, mint a Lingoes és a Cailliez, de általánosságban az első releváns tengelyeket nem érintik.Használja a PCoA-t vegyes adatokhoz (Gower), vagy ha az euklideszi metrika nem logikus.
Korlátozott rendezés: RDA, részleges RDA és db-RDA
Az RDA lineáris kapcsolatokat modellez egy válaszmátrix (Y, pl. fajösszetétel) és a prediktorok (X, pl. éghajlat) között. Kanonikus tengelyeket generál, amelyek maximalizálják az X által magyarázott Y variációját, olyan statisztikák segítségével, mint a korrigált R² és permutációs tesztek.Nagyjából szólva, ez egy „többszörös regressziók által előrejelzett értékek PCA-ja”.
A térbeli adatok autokorrelációt vezetnek be a reziduálisokban, és felfújhatják az I. típusú korrelációt. A részleges RDA ezt úgy kerüli meg, hogy a térbeli prediktorokat (MEM) kondicionáló tényezőkként foglalja magában, izolálva a környezet „tiszta” hatását.A MEM-ek szomszédsági hálózatokból (mint például a minimális feszítőfából) és egy jól megválasztott térbeli súlyozó mátrixból (SWM) származnak.
Ha a természetes válasz egy távolság (béta-diverzitás, Bray-Curtis stb.), A db-RDA a diszszimiláris mátrix PCoA-jával kezdődik, majd a tengelyeket az X-hez viszonyítja, mindkét világ legjavát ötvözve.Valós alkalmazásokban a db-RDA gyakran felülmúlja az RDA-t, ha az euklideszi távolság nem a megfelelő metrika.
PERMANOVA és a diszperziók heterogenitása (PERMDISP)
A PERMANOVA a csoportok közötti különbségeket távolságok és az ANOVA-hoz hasonló pszeudo-F alapján teszteli: F_pseudo = (SSa/SSr)*((N-g)/(g-1)). Többváltozós hipotézisek esetén hatékony anélkül, hogy többváltozós normalitás szükséges lenne..
A statisztikákat azonban befolyásolhatják a pozícióbeli különbségek (centroid) és/vagy a szóródás (csoporton belüli variancia). Kombinálja a PERMDISP (BETADISPER) programmal a diszperziók heterogenitásának ellenőrzéséhez; ha jelentős, a PERMANOVA által észlelt hatás főként az egyenlőtlen varianciákból eredhet.A két elemzés együttesen segít megkülönböztetni az „összetétel változását” a „változékonyság változásától”.
Kandallópárkány, részleges kandallópárkány és modern tér alternatívája
A Mantel-teszt két távolságmátrixot korrelál; a parciális teszt egy harmadikat kontrollál (pl. azt vizsgálja, hogy a környezeti eltérőség magyarázza-e a fajok eltérőségét a földrajzi távolság kontrollálásával). Széles körben használják, de vannak korlátai, amikor térbeli autokorreláció van jelen..
Az egyik alternatíva egy olyan nullmodell felépítése, amely megőrzi a globális autokorrelációt (Moran spektrális randomizálás). Ez az eljárás térbeli struktúrát (MEM-eken keresztül) használ az adatok keverésére, miközben megőrzi Moran I értékét, ami realisztikusabb p-értékeket eredményez a térben függő forgatókönyvekben.A gyakorlatban a közös kandallóban található számos „jelentős” kapcsolat megszűnik az lenni a térben korlátozott nullhellyel.
Prokrusztész és PROTEST: egyezés a többváltozós térképek között
Amikor két rendezett tér (például halak és makroszkopikus gerinctelenek PCoA-ja) közötti egyezést szeretnénk összehasonlítani, A Prokrusztész-analízis egy mátrixot igazít, forgat és skáláz, hogy „illeszkedjen” egy másikhoz, minimalizálva az eltérések négyzetösszegét.Az m12 statisztika 0-tól (maximális egyezés) 1-ig (nincs egyezés) terjed.
A PROTEST teszt randomizálással méri fel ennek a módosításnak a jelentőségét. Általános munkafolyamat: távolságadatok esetén futtasson PCoA-t (vagy nMDS-t) minden mátrixon, alkalmazza a Prokrusztészt, majd a PROTEST-et; nyers adatok esetén a Prokrusztész előtt használja a PCA/CA-t.A nyíldiagramok segítenek látni, hogy az egyes helyeken milyen messze van az egyik halmaz a másik utánzásától.
Többváltozós modellalapú módszerek: amikor a különbözőség nem elég.
A számlálási adatok általában monoton kapcsolatot mutatnak az átlag és a variancia között (a gyakoribb fajok jobban változnak). A különbözőségen alapuló módszerek nem mindig kezelik ezt jól; ezért jelentek meg a többváltozós GLM-megközelítések, mint például az mvabund csomagban..
Ezen elvek mentén modellezzük a megfelelő eloszlásokkal (Poisson, negatív binomiális stb.) rendelkező abundanciákat, többváltozós módon tesztelve a tényezők (pl. „terep vs. gyűjtés”) hatásait. A globális teszt mellett lehetőség van a deviancia fajok fajonkénti bontására is, azonosítva, hogy mely fajok mozgatják a mintázatot.További előny a reziduális diagnózis, ami növeli a következtetésbe vetett bizalmat.
Bevált gyakorlatok, hivatkozások és tanulmányi útvonalak.
Mielőtt belevágna az elemzésbe, győződjön meg arról, hogy az adatai megfelelően vannak előkészítve: Mérlegek szabványosítása, nullák kezelése, prediktorok közötti kollinearitás csökkentése, kiugró értékek vizsgálata és a változók transzformálásának szükségességének ellenőrzése.Térbeli problémák esetén tervezze meg a MEM-ek és a korlátozott nullmodellek használatát.
Ajánlott olvasmányok: Legendre és Legendre (Numerikus ökológia), Borcard és munkatársai (Numerikus ökológia R-rel), Thioulouse és munkatársai (ade4), Ovaskainen és Abrego (JSDM), valamint útmutatók a modellalapú klaszterezésről.Ezek az anyagok részletes példákkal és kóddal bővítik ki az itt tárgyaltakat.
Gyakorlatok és ötletek a gyakorláshoz
Megerősítéshez: végezzen hclust-ot UPGMA-val és Bray-Curtis-szel, majd változtassa meg a távolságot és hasonlítsa össze a dendrogramot. Próbáld ki az RDA-t, a részleges RDA-t (MEM-mel), a db-RDA-t és a PERMANOVA-t ugyanazon az adathalmazon, hogy lásd, hogyan válaszolnak a különböző kérdésekre.Végül a Prokrusztész/PROTEST teszttel mérjük két közösség közötti egyezést, és egy többváltozós GLM segítségével vizsgáljuk meg azokat a tényezőket, amelyek együttesen változtatják meg az abundanciákat.
Ha a célod egyszerűen az, hogy „egy klasztert találj egy lineáris diagramon”, akkor három lépésre koncentrálj: azonosítsd a dendrogramban a legnyilvánvalóbb ugrást a határpont meghatározásához; A robusztusság ellenőrzése egy másik metrika/összekapcsolás, és ha lehetséges, bootstrap módszerrel; valamint ezen csoportok ökológiai/működési jelentőségének validálása kiegészítő statisztikákkal (PERMANOVA, RDA/db-RDA) és szóródási vizsgálatokkal.Így a vizuális olvasatot szilárd analitikus döntéssé alakítod.
A dendrogramok olvasása csak a kezdet: A kulcs a megfelelő távolság és kapcsolat megválasztása, a jól indokolt vágás, valamint az adatok jellegével összhangban lévő utasításokkal és tesztekkel történő megerősítés.Amikor ez a módszerekből álló „ökoszisztéma” együttműködik, a csoportosítások már nem csupán papíron szép ágak, hanem valódi és hasznos döntéshozatali mintákat kezdenek feltárni.
