- בחרו את פירסון, ספירמן או קנדל בהתבסס על צורת המשחק, הנורמליות וגודל הקמפיונריה.
- Per variabili categoriali usa chi-quadro/Fisher e misura l'associazione con V di Cramér o φ.
- Valuta confondenti con correlazione parziale ותומך בניתוח עם גרפיקה ואבחון.
- אלגברת היחסים (insiemi, funzioni, composizione) מבנה את pensiero ואת היישום במסד הנתונים.

Capire che סוג של legam c'è tra due variabili זהו אחד מהם ששולט בתדירות הגבוהה ביותר ביישומים סטטיסטיים, נתונים מנתונים ומבחנים ניסיוניים ו כַּמוּתִיהדרך ההפוכה לקיחת הקשר היא ליניארית ותמיד חלק מה-cogliere, דרך חזרה נוספת היא מונוטונית אך לא ליניארית, בקטגוריה co-volge oppure ו-non numeri, העוגן תלוי במשתנה שלישי שמעודד את זה: insomma, non è una passeggiata.
במדריך מעשי ותאורטי זה באיטלקית, נדון בכך בצורה אורגנית טיפ עיקרי לגבי קשרים מתמטיים עקב שונות, כיצד לאבחן ויזואלית ובאמצעות בדיקה פורמלית, מקדמים איכותיים בשימוש (פירסון, ספירמן, קנדל), כיצד לשנות עם משתנים קטגוריים וריאביליים (chi-quadro di indipendenza, test esatto di Fisher, V di Cramér, coefficiente di contingenza, phi), כיצד לדלג על ההסכם עבודה עם קאפה, וכיצד לנהל אותה משתנות של בלבול לעבד את המתאם הפרזיאלי. אינולטרה, נשפר פינסטרה דרומיתאלגברה של יחסים (במובן האיסיאמי והחישובי), essenziale per formalizzare concetti מגיעים לתחום, קומפוזיציה, היפוך ופונקציות.
מה שאנו מתכוונים ל"קשר" עקב שונות
בשפה מתמטית, הקשר בין A ל-B הוא סיכום של המכפלה הקרטזית A×B: ogni coppia ordinata (א, ב) appartenente a R מציין שהיסוד a di A הוא "ביחס" עם היסוד b di B. In termini applicati, קשר שהוא דטרמיניסטי (פונקציונלי) oppure probabilistica (associazione stochastica): במקרה הראשון ad ogni a corresponde esattamente una b, ב- secondo osserviamo una נטייה (più או פחות חזק) ו-non un legam uno-a-uno.
כל 'אלגברה פנימית של יחסים' (במובן הסימיסטי) היא מעניינת באופן אישי. רובה-חסר-סיווג (ogni a è ביחס לעצמו), סימטריה ((א, ב) מרמז על (ב, א)), אנטיסימטריה (אם (a, b) ו-(b, a) אלורה a = b) ו- טרנזיטיוויטה (מ-(א, ב) ו-(ב, ג) מגיעים ל-(א, ג)). בעל הנכס המכריע הזה: אם מערכת יחסים היא סימטרית, סימטרית וטרנזיטיבית הופך להיות אחד יחס שקילות che "partiziona" A in classi di elementi equivalenti. אם ה-invece הוא חסר רובים, אנטי-סימטרי וטרנזיטיבי, אנחנו אבביאמו אונה קשר רגיל.
בניתוח זה, אנו מתרגמים רעיון זה הלכה למעשה: אנו מעריכים את סוג השונות (המשך כמותי, ordinali, nominali/dicotomiche) ושם דירוג בסטטיסטיקה הזו ו- scegliamo strumenti adeguati per misurare la relazione, בידיעה ש"relazione" לא תמיד אומר "סיבה-תוצאה".
נקודת מבט חזותית: לאכול דפוס וכיוון ריקונוסריים
Prima di buttarsi nei numeri, un תרשים פיזור זהו משקלו של הדבר הכי אינטליגנטי. ענן לאורך כל קו ישר מרמז על... קשר ליניארי (חיובי או שלילי); בנה את העקומה האינדיקטיבית קשרים לא ליניאריים (הקשר הליניארי, המונוטוני, מה שמקשה עליכם להטמיע דפוס מסוים). אם לא תטמיעו דפוס פנימי, הקשר הליניארי עלול להרוס את ההסכמה.
עם שונות מועטה, אני משתמש בגרף פיזור (ולדוגמה ב-R עם זוגות (נתונים)) וקו שנוטה להתעבות (geom_smooth ב-ggplot2) כך שתוכלו לשים לב אסוציאציות, אשכול וחריגיםתְשׁוּמַת לֵב: חריג גלי Podeno influenzare moltissimo i coefficienti, specie Pearson.
לדוגמה ב-R si può iniziare così: זוגות (נתונים)
# Matrice di grafici a dispersione
pairs(dati)
# Correlazioni grezze (matrice)
cor(dati, use = "pairwise.complete.obs")
סינון חזותי ראשון, מדויק למספר, עבור אל scegliere il test giusto מבוסס על צורה, מונוטוניות וליניאריות נראית לעין.
בדוק את תקינותו: בעת הגשת דאוורו
מבחן מולטי פרמטרי (דוגמה למבחן פירסון) אני מניח, בדרגות שונות, נורמליות האלמנו הוא מבנה סימטרי ללא קוד כבד. כדי לשלוט ב-ipotesi, מגיע חלק ספציפי מהמבנה הגרפי. איסטוגרמות עם צפיפות e עלילת QQ.
ב-R, אונה סוללה מינימלית יש לכלול:
# Istogrammi con densità e curva normale sovrapposta
par(mfrow = c(2, 2))
plot_hist <- function(x) {
hist(x, prob = TRUE)
lines(density(x), col = "red")
curve(dnorm(x, mean(x), sd(x)), add = TRUE, col = "blue")
}
plot_hist(dati$GASTEDU)
plot_hist(dati$GASAUDE)
plot_hist(dati$GASLAZER)
plot_hist(dati$IDADE)
כדי להשוות את התצפיות הכמותיות לתצפיות של תקן רגיל, עלילת QQ בלתי ניתן לעמוד בפניו:
par(mfrow = c(2, 2))
qqfun <- function(x) {
qqnorm(x, main = "", xlab = "Quantili teorici N(0,1)", pch = 20)
qqline(x, col = "red", lty = 1)
}
qqfun(dati$IDADE)
qqfun(dati$GASAUDE)
qqfun(dati$GASLAZER)
qqfun(dati$GASTEDU)
שמור את זה בטווח ראייה, אם אני לא יכול להשתמש בזה מבחן פורמלי של נורמליות עדות לצבירה: Kolmogorov–Smirnov עם הערכות פרמטרים, Lilliefors, Cramér–von Mises, Shapiro–Wilk, Shapiro–Francia, Anderson–Darling e il test di Pearson (chi-quadro) di normalità.
normalita <- function(x) {
t1 <- ks.test(x, "pnorm", mean(x), sd(x)) # Kolmogorov–Smirnov
t2 <- nortest::lillie.test(x) # Lilliefors
t3 <- nortest::cvm.test(x) # Cramér–von Mises
t4 <- shapiro.test(x) # Shapiro–Wilk
t5 <- nortest::sf.test(x) # Shapiro–Francia
t6 <- nortest::ad.test(x) # Anderson–Darling
t7 <- PearsonDS::pearson.test(x) # Pearson chi-quadro di normalità
pv <- c(t1$p.value, t2$p.value, t3$p.value, t4$p.value, t5$p.value, t6$p.value, t7$p.value)
data.frame(p_value = pv, row.names = c(t1$method, t2$method, t3$method, t4$method, t5$method, t6$method, t7$method))
}
normalita(dati$GASAUDE)
אם אני ישן בסביבה כרגיל והקשר הוא ליניארי, מקדם פירסון הוא בן דוד קלטי טוב; אחרת, כדאי להעדיף לערבב את basate sui ranghi עם ספירמן או קנדל.
הקשר בין שונות כמותית: שונות משותפת וקורלציה
La שיתופיות הבעיה היא השונות המשותפת תלוי ביחידת המינון, הם קצת דומה.
La מתאם ליניארי של פירסון פתור את הבעיה באמצעות סטנדרטיזציה לפי סטיית תקן: המקדם r משתנה בין -1 ל-1, מה שנותן ערך של ±1 המצוין קשר ליניארי חזק (חיובי או שלילי) ו-0 מציעים assenza di linearità. שימו לב: R = 0 לא שולל קשרים לא ליניאריים.
קלקולי לקורלציה ב-R:
# Coefficiente di Pearson e test di significatività
cor(dati$GASTEDU, dati$GASAUDE, method = "pearson")
cor.test(dati$GASTEDU, dati$GASAUDE, method = "pearson")
כאשר הקשר הוא מונוטוני אבל לא ליניארי או כשאני לא ישן כרגיל (או מכיל את החריג), יש היגיון להשתמש ספירמן (רנגהי; חזק ומותאם לקמפיוני בינוני-גרנדי) קנדל ט (basato su concordanze/discordanze; preferibile su אלופים קטנים (או עם הרבה פרג'י):
# Correlazioni non parametriche
cor.test(dati$GASTEDU, dati$GASAUDE, method = "spearman")
# Su un sottoinsieme più piccolo, meglio Kendall
dati2 <- head(dati, 20)
cor.test(dati2$IDADE, dati2$GASAUDE, method = "kendall")
לא רעיון שימושי: מקדם הקביעה R² די אן מודל ליניארי פשוט משחזר את חלק המשתנה של Y spiegata באופן ליניארי מ-X. ב-R:
summary(lm(GASAUDE ~ ESTCIVIL, data = dati))$r.squared
דיכוטומיה לפי משתנה לעומת כמותית, המקדם נקודתית-ביסריאלית עולה בקנה אחד עם חישוב פירסון עם משתנה מקודד 0/1; בפועל, צבע (דיכוטומי, כמותי) שיטת קון = "פירסון".
קטגוריות משתנות: אינדיפנדנזה, חוזק האסוציאציה ופיקולי קאמפיוני
כאשר נכנסת לתמונה שונות בשינה נומינלי או סדיר, הקשר בין לימודים שולחן אירוע (לעתים קרובות עם סיווג דופיה). ה-ipotesi האופייני הוא: H0 = indipendenza (אסוציאציה הכרחית), שליטה H1 = dipendenza.
מבחן ההבחנה הוא צ'י-רביעי של עצמאות. זה נשמע תדירות גבוהה (בדרך כלל < 5), אם אתה משתמש בו התיקון של ייטס לכל 2×2 או אם יעבור אל מבחן הבסיס של פישר, מצוין במיוחד עם קמפיוני פיקולי.
# Tabella incrociata e chi-quadro
xtabs(~ PROFI + ESTCIVIL, data = dati) -> tab1
chisq.test(dati$PROFI, dati$ESTCIVIL) # p-value non significativo => indipendenza plausibile
# Campioni piccoli: test di Fisher
chisq.test(dati$PROFI, dati$RENDA)
fisher.test(dati2$PROFI, dati2$RENDA)
לכל כמות l'intensità dell'associazione בטבלה I×J אם משתמשים בה: וי די קרמר (0-1), מקדם תנאי (0–1, הגבלה), וב-2×2 il פי (φ), שהוא רשמית Pearson applicato alla tabella binaria.
# Misure di associazione per tabelle
library(vcd)
xtabs(~ PROFI + RENDA, data = dati) -> tab2
assocstats(tab2) # riporta V di Cramér, coeff. di contingenza e test
# Attenzione: cor() su codifiche numeriche di categorie non è equivalente a φ in generale
זה מתעמת קבוצת השונות הכמותית שלה (es. reddito per professionale), if valutano מבחן t, ANOVA e le rispettive alternative non parametriche, no intervalli di confidenza. בִּכלָל, קוהרנטיות בסוג השונות ובשיטה זה קריטי.
Accordo tra valutatori: Kappa di Cohen
כאשר בשל (או più) giudici מסווגים no gli stessi oggetti בקטגוריה, זה לא מספיק לערבב את אחוז ההסכמה, perché a quota può essere dovuta al מקרה. קאפה די כהן מכמת את ההתאמה הנכונה עבור ההסכמה המקרית: הערכתי עוד יותר ל-0, מה שמציין את ההתאמה עבור כל מקרה, הערכתי את ה-maggiori suggeriscono הסכמה גוברת (אינטרפרטציוני comuni: scarso, דיסקרטי, moderato, buono, molto buono).
ב-R è possibile stimulare Kappa anche in גרסה מתחשבת (לפי קטגוריה סדורה):
set.seed(1)
val1 <- sample(0:1, 10, replace = TRUE)
val2 <- sample(0:1, 10, replace = TRUE)
# Kappa non ponderato
fmsb::Kappa.test(val1, val2)
אם הקטגוריה אינה סדר טבעי (ad empio, lieve/moderata/severa), Kappa ponderato penalizza minor בחוסר הסכמה "vicini" ו-più quelli "lontani", וכתוצאה מכך ספסו più אינפורמטיבי.
Relazioni e variabili di confusione: la correlazione parziale
Può capitare che due variabili X e Y sembrino molto correlate, אבל ב-realtà la strength dell'associazione sia dovuta a una משתנה מבלבלת Z בקורלציה עם אנטראבה. המדובר, אם תלחצו עליו מתאם חלקי שליטה בין X ו-Y לפי Z.
ב-R, עם ggm::pcor si ottiene la correlazione parziale di primo ordine e si può testne la significatività. כדאי להשוות קלאסי r e ר פרזיאלה לכל קפירה בתור Z "spiega" del legam grezzo.
library(ggm)
# Correlazione parziale tra GASLAZER e GASAUDE controllando GASTEDU
rp <- pcor(c("GASLAZER", "GASAUDE", "GASTEDU"), var(dati))
# Correlazione grezza
r <- cor(dati$GASLAZER, dati$GASAUDE)
# Test della correlazione parziale (1 variabile di controllo)
pcor.test(rp, 1, length(dati$GASAUDE))
# Confronto R^2 grezzo vs parziale
data.frame("Senza_controllo" = r^2, "Con_controllo" = rp^2)
אם מכסת הספיגה "קרולה" דופו il controllo, עכשיו ז' היה בעל קונפדרציה חשובכאשר משתנה הבקרה הוא קטגוריה (למשל, professione), איני יכול להשתמש בגישות או מודלים דומים הכוללים את הקטגוריה כגורם.
גבול ופרקטיקה מומלצת לשימוש בקורלציה
תערובת מקדמי פירסון רק הליניאריטהאם הקשר אינו ליניארי (ריבועי, ספוננסיאלי, לוגריתמי), הוא יכול לגרום ל-0 pur בנוכחות תלות חזקה. ספירמן, והופכים אותו למודל לא ליניארי.
Gli חריג,יוצא דופן אני לא יכול לעוות את התוצאה. מסיבה זו, קודם כל, נוח לבדוק את הגרף, ובמידת הצורך, לבצע ניתוח מעמיק או לבדוק את רגישות התוצאות בו זמנית.
עוד קלאסיקה: קורלציה ≠ סיבתיות. בגלל השונות אני לא יכול לתאם שפעת השינה perché נותן שומן שלישי, רק צירוף מקרים או לפי השפעה של מנגנון הפוך. Servono disegni sperimentali, strumenti causali o modelli appropriati per parlare di causa-effetto.
סוג הקשר: ליניארי, מונוטוני, אפס, קטגורי
Nei casi misti (כמותי לעומת dichotomica/nominale/ordinata) הוא עובר מבחן של עימות בין gruppi, correlazioni biseriali/point-biserial oa דגמים (רגרסיה לדוגמה של מודעה עם גורמים צפויים). עם שונות להכניס לקטגוריה, ci si affida a chi-quadro/Fisher e alle misure di strength dell'associazione già viste.
פונציוני אוכלים מערכות יחסים מיוחדות
א funzione זהו קשר אשר, לכל אלמנט אחד של התחום, מקשר בדיוק אלמנט של הדירה. לסיכום, זהו סיפור sottoinsieme di A×B ש-ogni a ב-A משווים סול וולטה עם הרכיב הראשון. פעולות חשובות נוספות באלגברה הקשורה לשינה: הִתאַחֲדוּת (R1 ∪ R2), הִצטַלְבוּת (R1 ∩ R2), קומפוזיציונה (R2 ∘ R1) ו לַהֲפוֹך (R^{-1}, che scambia ciascuna coppia (א, ב) ב (ב, א)).
אלה מטוני קונצ'טואלי טורננו משתמש בסיה נלה מתמטיקה טהורה (equivalenze, ordini, classi di equivalenza) sia in applicazioni בטון דוב משרת פורמאליזר יחסים fra entità.
אלגברה של יחסים ומדעים שנתתי
בעולם מסד הנתונים,אלגברה יחסית זהו המבנה התאורטי של SQL: כיצד לפעול בחר, proiezione, join, unione ו-intersezione sono versioni pratiche di operazioni su relazioni-insiemi. פורמליזציה זו היא נשק רב עוצמה לתיאור, אופטימיזציה ולתמרן דברים במהירות.
בהקשר בינה מלאכותית ולמידת מכונה, היכולת של מידול קשרים כדי לאפשר בניית גרפים קונוסצנטיים, מערכות סיכון וצינור אינטגרציה; ערך זה תקף בכלכלה, ביוסטטיסטיקה ומדעי החברה, הוא כמעט תמיד "צ'י הוא legato a chi, ובמצב che".
דוגמאות קלאסיות של מערכות יחסים בתורת האינסמי
יחסים עם אקוויוולנזה: שינה חסרת רובה, סימטרית וטרנזיטיבית. דוגמאות הכוללות "יש ערך זה כפתרון" הן באמת אמיתיות או קיימות מודולו n הצעתי באופן פנימי. יחסי אוגני של שקילות גורמים מחלקת שקילות che ripartiscono l'insieme in blocchi disgiunti.
יחסיםסמיכה: חסר רובים, אנטי-סימטרי וטרנזיטיבי. Esempi: ≤ sui numeri naturali, l'inclusione ⊆ sull'insieme delle parti P(X), o "חלוקה" (|) sui naturali. שינה פונדמנטלית להגדרה סדנות מלאות או חלקים ולכל אזור ישנם המאסימי, המינימי, הקטן והאנטי-שרשראות שלו.
סדר לסיקוגרפיזה מה שאמרתי. זהו סדר ברצף (מחרוזת, מספר שנכתב ברצף) שמשווה אלמנט אחר אלמנט; יש רעש חשוב במבנה הזה ואני מזניח אלגוריתמים.
סעיף זה שימושי להבנה ש"רלאציונה" במתמטיקה הוא מושג più ampio della sole correlazione: כולל uguaglianze, ordini, קומפוזיציה ועוד הרבה יותר, כולם הכרחיים עבור קומפלסי מערכות מודלים.
זרימת עבודה מעשית: שלטו בתוצאותיה
אפשרות שטיפה בשירותים כדי שלא תאבד את זה אם אתה משתמש בכלי הנגינה והיכן:
- בדיקה גרפית: עלילת פיזור, החלקה, איזטוגרמי, עלילת QQ. Occhio a outlier e forma non lineari.
- לִבדוֹקאם זה עובד, בדוק את הנורמליות; שליטה על הנורמליות אם צפוי מודל ליניארי.
- מקדם הבחירה: פירסון (לינארי, dati circa normali), ספירמן/קנדל (מונוטונה/לא נורמלי/פיקולי קאמפיוני).
- קָטֵגוֹרִי: chi-quadro/Fisher + misure d'associazione (V di Cramér, coeff. di contingenza, φ). להשוואה קבוצתית, t-test/ANOVA או אלטרנטיבה.
- קונפונדנטי: מתאם מודל פרזיאלי או רב משתנים (כולל קטגוריה fattori).
מה קורה, לפרש את ההקשר זה ה-chiave: grandezza dell'effetto, statistica significative, ampiezza del campione e qualità dei dati contano como (אם לא più) del numero finale.
דוגמאות לקוד R ריקורנטי
ריאסומנדו אלקונה כיאמאט שימושי מה שהופך את ניתוח הקשר בין משתנים למדויק יותר, וניתן להתאים אותו למערך הנתונים שלך:
# 1) Correlazioni
cor(x, y, method = "pearson")
cor.test(x, y, method = "spearman")
cor.test(x_small, y_small, method = "kendall")
# 2) Grafici (base e ggplot2)
plot(x, y)
# ggplot2: geom_point() + geom_smooth(method = "lm" o se = FALSE)
# 3) Normalità
shapiro.test(x)
nortest::ad.test(x)
# 4) Tabelle e test
xtabs(~ a + b, data = dati) -> tab
chisq.test(tab)
fisher.test(tab) # campioni piccoli o celle con attesi < 5
vcd::assocstats(tab) # V di Cramér e coeff. di contingenza
# 5) Kappa
afmsb::Kappa.test(giudice1, giudice2)
# 6) Correlazione parziale
ggm::pcor(c("x", "y", "z"), var(dati))
הערה מעשיתכדאי לאמת את ההשערה, להשוות את השיטה, וכאשר היא עובדת, לבנות כתב פיקולו לאבחון השאלה במהירות ובאמינות.
אבביאמו ראה ש"relazione" יכול להתכוון לעתים קרובות יותר מאשר לא: הצורה הליניארית עם פירסון, המונוטוניות עם ספירמן/קנדל, אסוציאציה דקה של הכל בתוך הקטגוריה עם צ'י-קוואדרו/פישר ו-misure עם V di Cramér ו-φ; senza dimenticare ההסכם בין giudici (קאפה) וההנהלה שנתתי בקשר עם המתאם הפרזיאלי. לפיכך, האלגברה ההתייחסותית מנחה את האופן שבו אני מאחסן את מסד הנתונים בארכיון ומחקר את מסד הנתונים. הרעיון הצ'אבי הוא scegliere lo strumento בבסיס אל סוג די וריאבילי, alla forma del legam e agli obiettivi dell'analisi, ricordandoci che nessun coefficiente, da solo, può raccontare tutta la storia.