כיצד למצוא אשכולות בדיאגרמת קווים

העדכון אחרון: דצמבר 3, 2025
  • בחירת המרחק והקישור הנכונים משנה את צורת הצבירים ואת פרשנות הדנדרוגרמה.
  • החיתוך האידיאלי משלב בדיקה ויזואלית עם שיטות כגון סטטיסטיקות מרפקים ורווחים.
  • אימות קבוצות באמצעות PERMANOVA, RDA/db-RDA ובקרה מרחבית (MEM/MSR).
  • שיטות מבוססות מודל (GLMs רב-משתנים) שופכות אור על דפוסי שפע.

קיבוץ בדיאגרמה לינארית

מציאת קבוצות של נקודות נתונים בדיאגרמה ליניארית פירושה לעתים קרובות פירוש דנדרוגרמה, שהיא לא יותר מעץ דמיון. אם שאלתכם היא כיצד לזהות היכן לחתוך דיאגרמה זו כדי להשיג אשכולות קוהרנטיים, התשובה כרוכה בהבנת מרחקים, קריטריוני קישור ומדדי איכות אשכול.לאורך מדריך זה, נעבור מהבסיסי למתקדם, ונחבר את מושג ה'דיאגרמות לינאריות' לשימוש המעשי בדנדרוגרמות, כמו גם לטכניקות רב-משתניות אחרות המסייעות לאמת ולהסביר את הקבוצות הנצפות.

מעבר לתיאוריה, אני מציע פרספקטיבה מעשית עם דוגמאות, מדדים נפוצים, רשימת בדיקה להכנת נתונים וחלופות מודרניות (כגון PERMANOVA, RDA ושיטות מונחות מודלים). הרעיון הוא שניתן לקרוא בביטחון דנדרוגרמה, לבחור באופן אובייקטיבי את מספר הקבוצות, ובמידת הצורך, להשלים אותה עם ניתוחים חזקים כדי לאשר האם הדפוסים שנצפו אמיתיים וניתנים לפירוש..

מהו אשכול היררכי ומדוע הוא עוזר בקריאת 'דיאגרמה לינארית'?

באשכול היררכי, אנו בונים 'עץ' של קווי דמיון בין תצפיות, מה שנקרא דנדרוגרמה, שרבים מכנים באופן לא פורמלי דיאגרמה לינארית משום שהיא מארגנת קשרים לאורך קו אנכי של מרחקים. ישנם שני טעמים עיקריים: האגגלומרטיבי (מלמטה למעלה) והמפלג (מלמעלה למטה)..

במצב צבירה, כל נקודה מתחילה מבודדת, ובכל איטרציה אנו מאחדים את זוג האשכולות הקרוב ביותר עד שנותר רק אחד. בשיטה המחלקת, קורה ההפך: אנו מתחילים עם קבוצה אחת המכילה את כל הדגימות ומפרידים את תת-הקבוצות המרוחקות יותר, תוך חלוקת הקבוצה לענפים קטנים יותר ויותר.בשני המקרים, מתקבלת היררכיה שניתן 'לחתוך' אותה בגבהים שונים כדי לקבל קבוצות K.

הדנדרוגרמה מציגה מדידת מרחק (או אי-דמיון) על הציר האנכי: קווים אנכיים ארוכים מצביעים על מיזוגים בין קבוצות שונות מאוד, וקווים קצרים מצביעים על צמתים בין אשכולות סמוכים.על ידי התבוננות ב"קפיצות" אלה אנו מזהים שברים טבעיים באשכולות.

כיצד פועלת שיטת האגרומרציה שלב אחר שלב

דמיינו קבוצה פשוטה של ​​נקודות על מישור, עם מעטות בלבד. בתחילה, כל נקודה היא צביר, וה"מרכז" שלה חופף לעצמה. אנו מחשבים את המרחק בין כל זוגות האשכולות, בוחרים את הזוג עם המרחק הקטן ביותר ומאחדים אותם לאשכול חדש.אנו חוזרים על התהליך: אנו מחשבים מחדש את המרחקים מהאשכול החדש לאחרים וממשיכים לחבר זוגות קרובים יותר, תוך צמצום מספר הקבוצות מ-N ל-N-1, וכן הלאה.

כדי למדוד קרבה, ניתן להשתמש במספר מדדים: אוקלידיים (הנפוץ ביותר במרחבים רציפים), מנהטן (עמידים כנגד חריגים בתרחישים מסוימים), וקוסינוס (טוב לווקטורי כיוון). בהקשרים אקולוגיים והלחנתיים, מופיעות גם שיטות אחרות, כגון Bray-Curtis, Jaccard, Sørensen, Hellinger, Chord, Canberra, Mahalanobis, ואפילו מרחק כי בריבוע, כל אחת מתאימה לסוג ספציפי של נתונים ופרשנות..

אופן חישוב המרחק בין אשכולות תלוי בקריטריון הקישור: יחיד (שכן קרוב ביותר), שלם (שכן רחוק ביותר), ממוצע/UPGMA (ממוצע אריתמטי), וורד (ממזער את סכום הריבועים התוך-אשכולי), בין היתר.בחירת הקישור משנה את הצורה הסופית של הדנדרוגרמה, ולכן, את אופן פירוש הדיאגרמה.

כיצד לבחור את מספר האשכולות בדנדרוגרמה

אין ק' "קסום". מה שאנחנו עושים זה לחפש "צעדים" גדולים בדנדרוגרמה: חיתוך אופקי שמונע חציית ענפים ארוכים ושומר על ענפים קצרים. במונחים מעשיים, יש לצייר קו אופקי בגובה המרחק שבו יש קפיצה חדה; מספר החיתוכים עם הענפים קובע את K..

Related:  שברים חלקיים: מקרים ודוגמאות

בנוסף לבדיקה ויזואלית, ישנן היוריסטיקות שימושיות: שיטת המרפק עבור עקומות סכום ריבועים תוך-אשכוליות וסטטיסטיקת הפער, המשווה את התפלגות סכום הריבועים (WCSS) הנצפית עם התפלגות סכום הריבועים הצפויה תחת התפלגות אפסית.כמו כן, תקף לבחור סף מרחק התואם את תחום הבעיה.

אשכול טוב מציג דמיון גבוה בתוך קבוצות ודמיון נמוך בין קבוצות. האיכות הסופית תלויה במדד המרחק, בקישור ובערך ה-K שנבחר; כדאי להתנסות באפשרויות ולהעריך איזו מהן מגלה את הדפוסים היציבים והאינפורמטיביים ביותר.גורמים מעשיים שיש לקחת בחשבון: מספר קבוצות סבירות, סטטיסטיקות לכל אשכול (ממוצעים, מקסימום, מינימום), השפעת חריגים וידע בתחום.

מדדי (אי)דמיון: מתי להשתמש בכל אחד מהם

עבור נתונים רציפים, המרחק האוקלידי הוא הסטנדרט. עם זאת, ישנן חלופות שמשנות את הדגש של מה שנחשב 'קרוב': מנהטן, קנברה, מהלנוביס (מתחשבת בקוואריאנס), אקורד, הלינגר וכי בריבוע.באקולוגיה, אפסים נפוצים ודורשים טיפול מיוחד.

כשמתמודדים עם נוכחות/היעדרות, אינדקסים אסימטריים כמו ג'קארד וסורנסן מתעלמים מהיעדרויות סימולטניות (אפסים כפולים) ועובדים היטב עבור גיוון בטא.עבור נתוני ספירה/שפע, מקדמים כגון Bray-Curtis, Chord, log-Chord, Hellinger, chi בריבוע ומוריסיטה-הורן נפוצים ובדרך כלל חצי-מטריים.

אם המטריצה ​​שלך מערבבת סוגי משתנים (רציף, בינארי, סידורי, מעגלי), מדד גאואר הוא התו הכללי המומלץ.במצב Q (דמיון בין אובייקטים) אנו משתמשים בדמיון (ואי) דמיון; במצב R (בין תיאורים), בקורלציה/שונות משותפת. סטנדרטיזציות וטרנספורמציות מפחיתות הטיות. ציון z עבור קנה מידה של משתנים ביחידות שונות; Hellinger/Chord עבור הפחתת ההשפעה של שכיחות קיצונית ואפסים מרובים..

שיטות קישור דנדרוגרמה ואיכותן

UPGMA (ממוצע אריתמטי) נותן משקלים שווים לאובייקטים ומחשב מרחקים ממוצעים בין קבוצות; וורד ממזער את סכום הריבועים בתוך אשכולות (בדומה ל-OLS/ANOVA) ונוטה ליצור קבוצות קומפקטיות.שינוי הקישור יכול לשנות את העץ באופן משמעותי.

כדי לבדוק עד כמה הדנדרוגרמה משמרת את הדמיון (אי) המקורי, אנו משתמשים במקדם המתאם הקופנטי. ערכים מעל ~0,7 מצביעים בדרך כלל על ייצוג טוב, תוך זכרה שזהו כלל אצבע, לא דוגמה.כאשר נדרשת תמיכה סטטיסטית, חבילות bootstrap כמו pvclust מעריכות את יציבות הצומת, אם כי הן עשויות להגביל את המרחקים המקובלים.

רשימת בדיקה מהירה לעיבוד מקדים: שמות ללא רווחים; נתוני שפע לעיתים קרובות דורשים טרנספורמציה דמוית הלינגר.אם יש הרבה חריגים, יש לקחת בחשבון את log1p (אך יש להימנע מיישום log והלינגר בו זמנית); יש לתקנן משתנים בסולמות שונים לממוצע של 0 וסטיית תקן של 1.

גישות אחרות לקיבוץ אשכולות: K-means וגישות דומות

K-means אינו היררכי: אתה בוחר K מראש, והאלגוריתם מחלק את הנתונים על ידי מזעור סכום הריבועים התוך-אשכולי.זה פשוט ויעיל, אבל זה לא חושף את ההיררכיה של הקבוצות (אין דנדרוגרמה) ועשוי להתכנס למינימה מקומית.

כדי למצוא את K באמצעות K-means, יש לחזור על ההתאמה עבור ערכים מרובים ולהעריך קריטריונים כגון Calinski-Harabasz ו-SSI, או להשתמש בשיטת המרפק. כלים כמו cascadeKM עוזרים להפוך את החיפוש אחר K+ אופטימלי לאוטומטי.בניגוד לשיטות היררכיות, K-means אינו מציג קבוצות קטנות יותר מקוננות בתוך קבוצות גדולות יותר.

יישומים: משיווק ועד המלצות

אשכולות נמצאים בכל מקום. בשיווק, אנו מפלחים לקוחות לפי התנהגות קנייה.במנועי חיפוש, אנו מארגנים תוצאות לפי דמיון נושאי. במערכות המלצה, אנו מקבצים פריטים כדי להציע אפשרויות ש"קרובות" למה שהאדם אוהב.

דוגמה מעשית בפייתון: מדנדרוגרמה לתוויות אשכול

ניקח בחשבון מערך דו-ממדי קטן. ראשית, אנו יוצרים את הנתונים ומציגים אותם בגרף פיזור. לאחר מכן, יצרנו את הדנדרוגרמה באמצעות הקישור של וורד ואימנו AgglomerativeClustering על ידי הגדרת n אשכולות.לבסוף, אנו משרטטים את הנקודות הצבעוניות בהתאם לתווית המיועדת.

Related:  מספרים ממשיים: היסטוריה, דוגמאות, תכונות, פעולות

תיאור השלבים (לדוגמה): import matplotlib.pyplot as plt; import pandas as pd; import scipy.cluster.hierarchy as sc; from sklearn.cluster import AgglomerativeClustering. בנה את DataFrame, שרטט את הנקודות וציין את האינדקסים שלהן כדי לזהות חזותית כל תצפית.עבור הדנדרוגרמה: sc.dendrogram(sc.linkage(dados, method='ward'))עבור המודל: AgglomerativeClustering(n_clusters=3, affinity='euclidean', linkage='ward').

לגבי היפרפרמטרים: n_clusters מגדיר את מספר אשכולות הפלט; זיקה היא המדד (אוקלידי, מנהטן, קוסינוס, מחושב מראש); קישור יכול להיות וולטר, ממוצע, יחיד או שלם.בחירת הזיקה והקישור צריכה להיות עקבית עם המדד/מטרה שלך. לבסוף, חילצו את התוויות והציגו אשכולות בצבעים שונים. אם ברצונכם לבדוק Ks אחרים, שנו את n_clusters ותצפו בשינויים במפה.

סידור: מתי ענן הנקודות צריך להפוך למפה קריא.

סדרים בלתי מוגבלים כמו PCA ו-PCoA עוזרים לסכם ממדים ולהמחיש דפוסים. ב-PCA, אנו משתמשים במרחק אוקלידי; ב-PCoA, אנו מקבלים מרחקים אחרים (Bray-Curtis, Jaccard, Gower וכו'), מה שמרחיב את הטווח כך שיכלול נתונים קטגוריים, בינאריים ומעורבים..

PCA מרכז נתונים, מחשב קווריאנסים ומפרק אותם לווקטורים/ערכים עצמיים: הערכים העצמיים מראים כמה שונות כל ציר מסביר; העומסים מציינים את 'משקל' המשתנים על כל ציר; הציונים ממקמים עצמים במרחב.זהירות: נתוני קומפוזיציה (אפסים רבים) עלולים לעוות את ה-PCA; סטנדרטיזציות כמו שיטת הלינגר מסייעות.

ב-PCoA אנו מתחילים עם מטריצת (אי)דמיון המתאימה לסוג הנתונים. ערכים עצמיים שליליים עשויים להופיע; תיקונים כמו לינגוס וקייאז קיימים, אך באופן כללי הצירים הרלוונטיים הראשונים אינם מושפעים.השתמש ב-PCoA עבור נתונים מעורבים (Gower) או כאשר המדד האוקלידי אינו הגיוני.

הזמנה מוגבלת: RDA, RDA חלקי ו-db-RDA

RDA מדמה קשרים ליניאריים בין מטריצת תגובה (Y, למשל, הרכב מינים) לבין גורמים מנבאים (X, למשל, אקלים). הוא מייצר צירים קנוניים שממקסמים את השונות ב-Y המוסברת על ידי X, באמצעות סטטיסטיקות כגון R² מותאם ומבחני תמורה.זהו, באופן כללי, 'PCA של הערכים שחוזים על ידי רגרסיות מרובות'.

נתונים מרחביים מציגים אוטוקורלציה בשאריות ויכולים לנפח תוצאות מסוג I. RDA חלקי עוקף זאת על ידי הכללת גורמים מנבאים מרחביים (MEMs) כגורמי התניה, ובודד את ההשפעה "הטהורה" של הסביבה.רשתות MEM נגזרות מרשתות שכונות (כגון עץ פורש מינימום) וממטריצת שקלול מרחבית (SWM) שנבחרה בקפידה.

אם התגובה הטבעית היא מרחק (גיוון בטא, בריי-קרטיס וכו'), ה-db-RDA מתחיל עם PCoA של מטריצת האי-סימפילציה, לאחר מכן מקשר את הצירים ל-X, ומשלב את הטוב משני העולמות.ביישומים בעולם האמיתי, db-RDA לרוב עולה על הביצועים של RDA כאשר מרחק אוקלידי אינו המדד הנכון.

פרמנובה והטרוגניות של פיזור (PERMDISP)

PERMANOVA בודק הבדלים בין קבוצות על סמך מרחקים ופסאודו-F אנלוגי לזה של ANOVA: F_pseudo = (SSa/SSr)*((N-g)/(g-1)). זה חזק עבור השערות רב משתנות מבלי לדרוש נורמליות רב משתנית..

עם זאת, סטטיסטיקה יכולה להיות מושפעת מהבדלים במיקום (מרכז) ו/או פיזור (שונות תוך-קבוצתית). שלבו עם PERMDISP ‏(BETADISPER) כדי לבדוק הטרוגניות של פיזורים; אם מובהק, ההשפעה שזוהתה על ידי PERMANOVA עשויה לנבוע בעיקר משונות לא שוויונית.יחד, שני הניתוחים מסייעים להבחין בין 'שינוי בהרכב' לבין 'שינוי בשונות'.

אח, אח חלקי וחלופה מודרנית לחלל

מבחן מנטל מחבר בין שתי מטריצות מרחק; המבחן החלקי שולט על מטריצה ​​שלישית (למשל, הערכה האם שוני סביבתי מסביר את השוני בין מינים על ידי שליטה על מרחק גיאוגרפי). הוא נמצא בשימוש נרחב, אך יש לו מגבלות כאשר קיימת אוטוקורלציה מרחבית..

Related:  מהו מספר קפיקואה? תכונות ודוגמאות

חלופה אחת היא לבנות מודל אפס ששומר על אוטוקורלציה גלובלית (רנדומיזציה ספקטרלית של מורן). הליך זה משתמש במבנה מרחבי (באמצעות MEMs) כדי לערבב את הנתונים תוך שמירה על מקדם I של מורן, וכתוצאה מכך ערכי p מציאותיים יותר בתרחישים תלויי מרחב.בפועל, מערכות יחסים "משמעותיות" רבות במנטל המשותף חדלות להיות כאלה עם האפס המוגבל במרחב.

פרוקרוסטס ו-PROTEST: התאמה בין מפות רב-משתניות

כאשר ברצונך להשוות את ההתאמה בין שני מרחבים מסודרים (לדוגמה, PCoA של דגים ו-PCoA של מקרו-חסרי חוליות), אנליזת פרוקרוסטס מיישרת, מסובבת ומשנה את קנה המידה של מטריצה ​​אחת כדי "להתאים" לאחרת, תוך מזעור סכום הריבועים של הסטיות.הסטטיסטיקה של m12 נעה בין 0 (הסכמה מקסימלית) ל-1 (אין).

מבחן PROTEST מעריך את המשמעות של התאמה זו באמצעות אקראיות. זרימת עבודה נפוצה: עבור נתוני מרחק, יש להריץ PCoA (או nMDS) על כל מטריצה, להחיל Procrustes ולאחר מכן PROTEST; עבור נתונים גולמיים, יש להשתמש ב-PCA/CA לפני Procrustes.גרפי חצים עוזרים לראות 'כמה רחוקה' קבוצה אחת מחיקוי השנייה בכל מיקום.

שיטות מבוססות מודל רב משתנים: כאשר אי-דמיון אינו מספיק.

נתוני ספירה בדרך כלל מראים קשר מונוטוני בין ממוצע לשונות (מינים נפוצים יותר משתנים יותר). שיטות מבוססות אי-דמיון לא תמיד מטפלות בכך היטב; זו הסיבה שצצו גישות GLM רב-משתניות, כמו בחבילת mvabund..

בהתאם לקו זה, אנו ממדלים שפע של גורמים עם התפלגויות מתאימות (פואסון, בינום שלילי וכו'), ובודקים את השפעות הגורמים (למשל, 'שדה לעומת איסוף') באופן רב משתני. בנוסף למבחן גלובלי, ניתן לפרק את מיני הסטייה לפי מינים, ולזהות אילו מהם מניעים את הדפוס.יתרון נוסף הוא אבחון שיורי, המשפר את הביטחון במסקנות.

שיטות עבודה מומלצות, מקורות ונתיבי לימוד.

לפני שתתחילו בניתוח, ודאו שהנתונים שלכם מוכנים: לתקנן סולמות, לטפל באפסים, להפחית קוליניאריות בין גורמים מנבאים, לבדוק חריגים ולבדוק את הצורך לבצע טרנספורמציה של משתנים.בבעיות מרחביות, תכננו שימוש במודלים של MEM ובמודלים של אפס מוגבלים.

קריאה מומלצת כוללת: לג'נדרה ולג'נדרה (אקולוגיה נומרית), בורקארד ואחרים (אקולוגיה נומרית עם R), ת'יולוס ואחרים (ade4), אובסקיינן ואברגו (JSDM), ומדריכים בנושא אשכולות מבוססי מודלים.חומרים אלה מרחיבים את מה שדנו בו כאן, עם דוגמאות מפורטות וקוד.

תרגילים ורעיונות לתרגול

לאישור: בצעו hclust עם UPGMA ו-Bray-Curtis, לאחר מכן שנו את המרחק והשוו את הדנדרוגרמה. נסו RDA, RDA חלקי (עם MEM), db-RDA ו-PERMANOVA על אותו מערך נתונים כדי לראות כיצד כל אחד מהם עונה על שאלות שונות.לבסוף, השתמשו במבחן Procrustes/PROTEST כדי למדוד התאמה בין שתי קהילות ובמבחן GLM רב-משתני כדי לחקור גורמים המשנים יחד את השפע.

אם המטרה שלכם היא פשוט 'למצוא אשכול בדיאגרמה ליניארית', התמקדו בשלושה שלבים: זהו את הקפיצה הברורה ביותר בדנדרוגרמה כדי להגדיר את נקודת החיתוך; יש לאמת את החוסן באמצעות מדד/קישור נוסף, ואם אפשר, באמצעות bootstrap; ולאמת את המשמעות האקולוגית/תפעולית של קבוצות אלו באמצעות סטטיסטיקות משלימות (PERMANOVA, RDA/db-RDA) ובדיקות פיזור.כך, אתם הופכים קריאה חזותית להחלטה אנליטית מוצקה.

קריאת דנדרוגרמות היא רק ההתחלה: המפתח הוא שילוב של בחירה נכונה של מרחק וקישור, חיתוך מוצדק היטב ואישור עם פקודות ובדיקות שמהדהדות עם אופי הנתונים שלך.כאשר "מערכת אקולוגית" זו של שיטות פועלת יחד, הקבוצות מפסיקות להיות רק ענפים יפים על הנייר ומתחילות לחשוף דפוסים אמיתיים ושימושיים לקבלת החלטות.

כתבות קשורות:
וקטורים קולינאריים: מערכת ודוגמאות