- Vælg Pearson, Spearman eller Kendall baseret på spillets form, normalitet og størrelsen på campionaria.
- Per variabili categoriali usa chi-quadro/Fisher e misura l'associazione con V di Cramér o φ.
- Valuta confondenti con correlazione parziale og understøtter analysen med grafik og diagnose.
- Relationen algebra (insiemi, funzioni, composizione) strukturerer pensiero og applikationen i databasen.

Capire che type legam c'è tra due variabili Det er en af dem, der dominerer hyppigst i statistiske anvendelser, data fra data og eksperimentelle tests og kvantitativDen anden vej rundt er forholdet lineært og altid en del af cogliere, en anden vej tilbage er monotont, men ikke-lineær, oppure coinvolge kategori og non numeri, ankeret afhænger af en tredje variabel, der forener ham: insomma, non è una passeggiata.
I denne praktiske og teoretiske guide på italiensk diskuterer vi det på en organisk måde I hovedtip om matematiske sammenhænge på grund af variabilitet, hvordan man visuelt diagnosticerer og med en formel test, anvendte kvalitative koefficienter (Pearson, Spearman, Kendall), hvordan man ændrer med variabili kategoriske variabler (chi-quadro di indipendenza, test esatto di Fisher, V di Cramér, coefficiente di contingenza, phi), hvordan afstemme overensstemmelsen arbejde med Kappa, og hvordan man håndterer det uoverensstemmelsesvariabilitet Behandl parziale-korrelationen. Inoltre, vi forbedrer en sydlig finestra'algebra af relationer (i insiemistisk og beregningsmæssig forstand), essenziale per formalizzare concetti kommer domæne, komposition, inversa og funzioni.
Hvad vi tilsigter med "relation" på grund af variabilitet
I matematisk sprog er en sammenhæng mellem A og B en opsummering af det kartesiske produkt A×B: ogni coppia ordinata (a, b) appartenente a R angiver, at elementet a di A er "i relation" med elementet b di B. In termini applicati, et deterministisk (funktionelt) forhold oppure probabilistica (associazione stochastica): i det første tilfælde ad ogni a corresponde esattamente una b, i det secondo osserviamo una Tendenza (più eller mindre stærk) og non un legam uno-a-uno.
Al 'intern algebra af relationer' (i siemistisk forstand) er interessant proprietà come rifleløshed (ogni a è i forhold til sig selv), symmetri ((a, b) indebærer (b, a)), antisymmetri (hvis (a, b) og (b, a) allora a = b) og transitivit (fra (a, b) og (b, c) følger (a, c)). Denne afgørende ejendomsejer: om et forhold er symmetrisk, symmetrisk og transitivt diventa una ækvivalensforhold che "partiziona" A in classi di elementi equivalenti. Hvis invece er riflessive, antisymmetriske og transitive, abbiamo una almindeligt forhold.
I denne analyse omsætter vi denne idé til praksis: vi evaluerer typen af variabilitet (kvantitativ fortsætte, ordinali, nominali/dicotomiche) og der rang i denne statistik og scegliamo strumenti adeguati per misurare la relazione, vel vidende at "relazione" ikke altid betyder "årsag-virkning".
Visuel ispezione: spise riconoscere mønster og retning
Prima di buttarsi nei numeri, un scatter plot Det er vægten af den mest intelligente ting. En sky hele vejen ned ad en lige linje antyder en lineært forhold (positiv eller negativ); strukturer den indikative kurve ikke-lineære relationer (ma magari monotone). Hvis du ikke indarbejder et mønster, kan det lineære forhold ødelægge samtykket.
Med lille variabilitet, jeg panelerer scatterplot (og for eksempel i R med par (data)) og linje, der har tendens til at blive jævn (geom_smooth i ggplot2), så du kan bemærke associationer, klynge og outlierOpmærksomhed: gli-outlier Podeno influenzare moltissimo i coefficienti, specie Pearson.
For eksempel i R si può iniziare così: par (data)
# Matrice di grafici a dispersione
pairs(dati)
# Correlazioni grezze (matrice)
cor(dati, use = "pairwise.complete.obs")
En første visuel screening, korrekt på nummeret, Gå til scegliere il test giusto baseret på form, monotoni og linearitet tilsyneladende.
Tjek dens normalitet: når du serverer davvero
Molti test parametrici (et eksempel på Pearson-testen) Jeg antager, i varierende grad, normalitet Almeno er en symmetrisk struktur uden tung kode. For at kontrollere ipotesi kommer en specifik del af den grafiske struktur. istogrammer med densitet e QQ-plot.
I R, una minimum batteri skal inkludere:
# Istogrammi con densità e curva normale sovrapposta
par(mfrow = c(2, 2))
plot_hist <- function(x) {
hist(x, prob = TRUE)
lines(density(x), col = "red")
curve(dnorm(x, mean(x), sd(x)), add = TRUE, col = "blue")
}
plot_hist(dati$GASTEDU)
plot_hist(dati$GASAUDE)
plot_hist(dati$GASLAZER)
plot_hist(dati$IDADE)
For at sammenligne de kvantitative observationer med en normal standard, QQ-plot er uimodståelig:
par(mfrow = c(2, 2))
qqfun <- function(x) {
qqnorm(x, main = "", xlab = "Quantili teorici N(0,1)", pch = 20)
qqline(x, col = "red", lty = 1)
}
qqfun(dati$IDADE)
qqfun(dati$GASAUDE)
qqfun(dati$GASLAZER)
qqfun(dati$GASTEDU)
Hold den i syne, hvis jeg ikke kan bruge den normalitetsformel test pr. akkumuleringsbevis: Kolmogorov–Smirnov med parameterestimater, Lilliefors, Cramér–von Mises, Shapiro–Wilk, Shapiro–Francia, Anderson–Darling og test af Pearson (chi-quadro) di normalità.
normalita <- function(x) {
t1 <- ks.test(x, "pnorm", mean(x), sd(x)) # Kolmogorov–Smirnov
t2 <- nortest::lillie.test(x) # Lilliefors
t3 <- nortest::cvm.test(x) # Cramér–von Mises
t4 <- shapiro.test(x) # Shapiro–Wilk
t5 <- nortest::sf.test(x) # Shapiro–Francia
t6 <- nortest::ad.test(x) # Anderson–Darling
t7 <- PearsonDS::pearson.test(x) # Pearson chi-quadro di normalità
pv <- c(t1$p.value, t2$p.value, t3$p.value, t4$p.value, t5$p.value, t6$p.value, t7$p.value)
data.frame(p_value = pv, row.names = c(t1$method, t2$method, t3$method, t4$method, t5$method, t6$method, t7$method))
}
normalita(dati$GASAUDE)
Hvis jeg sover normalt, og forholdet er lineært, Pearson-koefficienten er en god keltisk fætter; ellers er det klogt at foretrække at blande basate sui ranghi med Spearman eller Kendall.
Forholdet mellem kvantitativ variabilitet: kovarians og korrelation
La kovarians Problemet er kovariansen afhængig af målingens enhed, hvem er lidt sammenlignelig.
La Pearson lineær korrelation Løs problemet ved at standardisere pr. standardafvigelse: koefficienten r varierer mellem -1 og 1, hvilket giver en værdi på ±1 angivet lineær relationsstyrke (positiv eller negativ) og 0 antyder assenza di linearità. Bemærk venligst: r = 0 udelukker ikke ikke-lineære sammenhænge.
Korrelationskalkulatorer i R:
# Coefficiente di Pearson e test di significatività
cor(dati$GASTEDU, dati$GASAUDE, method = "pearson")
cor.test(dati$GASTEDU, dati$GASAUDE, method = "pearson")
Når forholdet er monotont men ikke-lineær eller når jeg ikke sover normalt (eller indeholder outlieren), er der mening i at bruge Spearman (ranghi; robust og tilpasset til medio-grandi campioni) Kendall t (basato su concordanze/discordanze; preferibile su små mestre (eller med mange pareggi):
# Correlazioni non parametriche
cor.test(dati$GASTEDU, dati$GASAUDE, method = "spearman")
# Su un sottoinsieme più piccolo, meglio Kendall
dati2 <- head(dati, 20)
cor.test(dati2$IDADE, dati2$GASAUDE, method = "kendall")
Ikke nyttigt: bestemmelseskoefficienten R² di un enkel lineær model gendanner den variable andel af Y spiegata lineært fra X. I R:
summary(lm(GASAUDE ~ ESTCIVIL, data = dati))$r.squared
Per variabili dikotomi vs. kvantitativ, koefficienten punkt-biseriel falder sammen med Pearson-beregningen med en kodet variabel 0/1; i praksis, farve (dikotom, kvantitativ) con-metoden = “pearson”.
Variable kategorier: indipendenza, associationsstyrke og piccoli campioni
Når søvnvariabilitet kommer ind i billedet nominaler eller ordinaler, forholdet mellem studier tabel over kontingenter (ofte med doppia-klassifikation). Den typiske ipotesi er: H0 = indipendenza (nødvendig association), kontrol H1 = dipendenza.
Referencetesten er den chi-quadro di indipendenzaSe ci sono frekvens attese troppo basse (typisk < 5), hvis du bruger det Yates' korrektion per 2×2 eller hvis det passerer Fisher-test, især indiceret med campioni piccoli.
# Tabella incrociata e chi-quadro
xtabs(~ PROFI + ESTCIVIL, data = dati) -> tab1
chisq.test(dati$PROFI, dati$ESTCIVIL) # p-value non significativo => indipendenza plausibile
# Campioni piccoli: test di Fisher
chisq.test(dati$PROFI, dati$RENDA)
fisher.test(dati2$PROFI, dati2$RENDA)
Pr. kvantitet l'intensità dell'associazione i tabel I×J hvis du bruger: V di Cramér (0-1), koefficient di contingenza (0–1, begrænsning), og i 2×2 il phi (φ), som formelt er en Pearson r applicato alla binær tabel.
# Misure di associazione per tabelle
library(vcd)
xtabs(~ PROFI + RENDA, data = dati) -> tab2
assocstats(tab2) # riporta V di Cramér, coeff. di contingenza e test
# Attenzione: cor() su codifiche numeriche di categorie non è equivalente a φ in generale
Se l'interesse è confrontor gruppens kvantitative variabilitet (es. reddito per professione), hvis valutano t-test, ANOVA e le rispettive alternativ ikke parametriche, ingen intervalli di confidenza. Generelt, sammenhæng i type af variabilitet og metode er kritisk.
Accordo tra valutatori: Kappa di Cohen
Når due (eller più) giudici klassificerer no gli stessi oggetti i kategori, er det ikke nok at blande procentdelen af enighed, perché a quota può essere dovuta al sag. den Kappa di Cohen kvantificerer den korrekte overensstemmelse for den tilfældige overensstemmelse: Jeg værdisatte yderligere til 0, hvilket angiver overensstemmelsen for hvert tilfælde, jeg værdisatte maggiori suggeriscono voksende enighed (interpretazioni comuni: scarso, diskret, moderato, buono, molto buono).
I R è possibile stimare Kappa anche in version ponderata (per ordinær kategori):
set.seed(1)
val1 <- sample(0:1, 10, replace = TRUE)
val2 <- sample(0:1, 10, replace = TRUE)
# Kappa non ponderato
fmsb::Kappa.test(val1, val2)
Hvis kategorien ikke er en naturlig orden (ad empio, lieve/moderata/severa), Kappa ponderato penalizza minor i uenighed "vicini" og più quelli "lontani", hvilket resulterer i en spesso più informativ.
Relazioni e variabili di confusione: la correlazione parziale
Può capitare che due variabili X e Y sembrino molto korrelerer, men i realtà la styrke dell'associazione sia dovuta a una Z-forvirringsvariablen korreleret med entrabe. Det drejer sig om, hvis du klikker på det delvis korrelation tra X og Y styrende pr. Z.
I R, med ggm::pcor si ottiene la correlazione parziale di primo ordine e si può testne la significatività. Det er nyttigt at sammenligne klassisk r e r parziale per capire som Z "spiega" del legam grezzo.
library(ggm)
# Correlazione parziale tra GASLAZER e GASAUDE controllando GASTEDU
rp <- pcor(c("GASLAZER", "GASAUDE", "GASTEDU"), var(dati))
# Correlazione grezza
r <- cor(dati$GASLAZER, dati$GASAUDE)
# Test della correlazione parziale (1 variabile di controllo)
pcor.test(rp, 1, length(dati$GASAUDE))
# Confronto R^2 grezzo vs parziale
data.frame("Senza_controllo" = r^2, "Con_controllo" = rp^2)
Hvis spiegata-kvoten "crollas" dopo il controllo, nu Z var en vigtig konfødereretNår kontrolvariablen er kategori (f.eks. professione), kan jeg ikke bruge lignende tilgange eller modeller, der inkluderer kategorien som en faktor.
Grænse og god praksis ved brug af korrelationen
Pearson-koefficientblandingen kun linearitetenHvis forholdet er ikke-lineært (kvadratisk, specifikt, logaritmisk), kan det resultere i 0 pur i nærvær af en stærk afhængighed. I dette tilfælde, værdisætte Spearmanog omdanne den til en ikke-lineær model.
Den outlier Jeg kan ikke forvrænge resultatet. Derfor er det først og fremmest praktisk at kontrollere grafen og om nødvendigt udføre en robust analyse eller kontrollere resultaternes følsomhed samtidig.
En anden klassiker: korrelation ≠ kausalitet. På grund af variabilitet kan jeg ikke korrelere perché søvninfluenzat giver et tredje fedtstof, blot tilfældighed eller per effekt af en omvendt mekanisme. Servono disegni sperimentali, strumenti causali o modelli appropriati per parlare di causa-effetto.
Relationstype: lineær, monoton, nul, kategorisk
Nei casi misti (kvantitativ vs dichotomica/nominale/ordinata) består en test af konfrontation mellem gruppi, correlazioni biseriali/point-biserial oa modeller (annonceeksempelregression med forudsagte faktorer). Med variabilitet indskrive kategorisk, ci si affida a chi-quadro/Fisher e alle misure di strength dell'associazione già viste.
Funzioni spiser særlige forhold
en funktion Det er en relation, der, pr. element i domænet, associerer præcis et element af ejerlejligheden. Afslutningsvis er det en sottoinsieme di A×B-fortælling, der ogni a i A sammenligner en sole volta med den første komponent. Andre vigtige operationer i søvnrelateret algebra: Union (R1 ∪ R2), vejkryds (R1 ∩ R2), composizione (R2 ∘ R1) og baglæns (R^{-1}, che scambia ciascuna coppia (a, b) i (b, a)).
Disse Mattoni Concettuali tornano bruger sin egen ren matematik (ækvivalenze, ordini, classi di equivalenza) sia in applicazioni konkrete due tjener formalizzare relationer fra entità.
Algebra af relationer og naturvidenskab, jeg gav
I databasens verden, l'relationel algebra Dette er den teoretiske struktur af SQL: hvordan man fungerer vælg, proiezione, join, unione og intersezione sono versioni pratiche di operazioni su relazioni-insiemi. Denne formalisering er et stærkt våben til at beskrive, optimere og manipulere ting hurtigt.
Inden for kunstig intelligens og maskinlæring, evnen til at modellere relationer til at muliggøre konstruktionen af konoscensegrafer, systemer til beregning og integrationspipeline; Denne værdi er gyldig inden for økonomi, biostatistik og samfundsvidenskab, den er næsten altid “chi er legato a chi, og i che-tilstand".
Klassiske eksempler på relationer i insiemi-teorien
Relationer af ækvivalens: søvn riflesv, symmetrisk og transitiv. Eksempler som "have denne værdi som en løsning" er virkelig reelle eller der kongruensmodulo n Jeg foreslog det internt. Ogni-ækvivalensforholdet inducerer ækvivalensklasse che ripartiscono l'insieme in blocchi disgiunti.
Relationerbestilling: riflessive, antisimmetriche og transitive. Esempi: ≤ sui numeri naturali, l'inclusione ⊆ sull'insieme delle parti P(X), o "dele" (|) sui naturali. Fondamental søvn per definition samlede ordinationer eller parziali og pr. region er dens massimi, minimi, caten og antikæder.
bestilling lesiskografiskDet var det, jeg sagde. Det er en rækkefølge i en sekvens (streng, tal skrevet i rækkefølge), der sammenligner element for element; Der er en vigtig støj i denne struktur, og jeg ignorerer algoritmer.
Dette afsnit er nyttigt til at forstå, at "relazione" i matematik er et begreb più ampio della sole correlazione: inkluderer uguaglianze, ordini, komposition og meget mere, alt sammen uundværligt for modellere system complessi.
Praktisk arbejdsgang: styr dine resultater
En mulig flusso di lavoro så du ikke mister den, hvis du instrumenterer og hvor:
- Grafisk inspektion: spredningsplot, udjævning, istogrammi, QQ-plot. Occhio a outlier e forma non lineær.
- Checks: hvis det virker, test normaliteten; Controlli di omoscedasticità, hvis en lineær model forudses.
- Koefficientens værdi: Pearson (lineare, dati circa normali), Spearman/Kendall (monotona/non normale/piccoli campioni).
- Kategorisk: chi-quadro/Fisher + misure d'associazione (V di Cramér, coeff. di contingenza, φ). Til gruppesammenligning, t-test/ANOVA eller alternativ.
- Forvirrende: korreler parziale eller multivariat model (herunder kategori fattori).
Hvad siger du til det, fortolke i konteksten Det er chiave: grandezza dell'effetto, significative statistica, ampiezza del campione e qualità dei dati contano como (hvis ikke più) del numero finale.
Eksempler på R-kode
Riassumendo alcune chiamat-udnyttelse hvilket gør det mere præcist at analysere forholdet mellem variabler, og som kan tilpasses dit datasæt:
# 1) Correlazioni
cor(x, y, method = "pearson")
cor.test(x, y, method = "spearman")
cor.test(x_small, y_small, method = "kendall")
# 2) Grafici (base e ggplot2)
plot(x, y)
# ggplot2: geom_point() + geom_smooth(method = "lm" o se = FALSE)
# 3) Normalità
shapiro.test(x)
nortest::ad.test(x)
# 4) Tabelle e test
xtabs(~ a + b, data = dati) -> tab
chisq.test(tab)
fisher.test(tab) # campioni piccoli o celle con attesi < 5
vcd::assocstats(tab) # V di Cramér e coeff. di contingenza
# 5) Kappa
afmsb::Kappa.test(giudice1, giudice2)
# 6) Correlazione parziale
ggm::pcor(c("x", "y", "z"), var(dati))
Praktisk bemærkning: hypotesen "hersker" afhængig af data. Det er værd at validere hypotesen, sammenligne metoden og, når den virker, konstruere et piccolo-script til hurtigt og pålideligt at diagnosticere spørgsmålet.
Abbiamo så, at "relazione" oftere end ikke kan betyde: den lineære form med Pearson, monotonien med Spearman/Kendall, tynd all'association inden for kategorien med chi-quadro/Fisher og misure med V di Cramér og φ; senza dimenticare aftalen mellem giudici (Kappa) og ledelsen, jeg gav confondenti med parziale korrelationen. Derfor styrer den relationelle algebra den måde, hvorpå jeg arkiverer og interroghiamo i dati nei databasen. Chiave-ideen er scegliere lo strumento i base al type di variabili, alla forma del legam e agli obiettivi dell'analisi, ricordandoci che nessun coefficiente, da solo, può raccontare tutta la storia.