Types van wiskundige relaties als gevolg van variabiliteit: theorie, test en toepassingen

Laatste update: November 25, 2025
  • Selecteer Pearson, Spearman of Kendall op basis van de vorm van het spel, normaliteit en grootte campionaria.
  • Gebruik verschillende categorieën van chi-quadro/Fisher en mis de associatie met V di Cramér o φ.
  • Waarde confondenti con correlazione parziale en ondersteunt de analyse met grafieken en diagnose.
  • De relatie-algebra (insiemi, funzioni, composizione) structureert het pensiero en de toepassing in de database.

relazione tra due variabili

Capire che type legam c'è tra due variabili Het is een van de meest voorkomende in statistische toepassingen, gegevens uit de data en experimentele tests en kwantitatief. Andersom is de relatie lineair en altijd onderdeel van de cogliere, een andere weg terug is monotoon maar niet-lineair, of omgekeerd, categorie en niet-numeriek, het anker hangt af van een derde variabele die de acque confonde: insomma, non è una passeggiata.

In deze praktische en theoretische gids in het Italiaans bespreken we het op een organische manier De belangrijkste tip van wiskundige relaties als gevolg van variabiliteit, hoe visueel te diagnosticeren en met een formele test, gebruikte kwalitatieve coëfficiënten (Pearson, Spearman, Kendall), hoe te veranderen met variabele categorische variabelen (chi-quadro di indipendenza, test esatto di Fisher, V di Cramér, coëfficiënte di contingenza, phi), hoe misurare l'accordo werken met Kappa en hoe je dat aanpakt variabili di confundimento Verwerk de parziale correlatie. Bovendien zullen we een zuidelijke finestra verbeteren.algebra delle relazioni (in insiemistische en computationele zin), essentieel voor formalizzare concetti zijn domein, compositie, inversa en funzioni.

Wat we bedoelen met “relatie” vanwege de variabiliteit

In wiskundige taal is een relatie tussen A en B: een samenvatting van het cartesisch product A×B: ogni coppia ordinata (a, b) appartenente a R geeft aan dat het element a di A “in relatie” staat met het element b di B. In termini applicati, een relatie die deterministisch is (functie) oppure probabilistica (associazione stochastica): in het eerste geval ad ogni a corresponde esattamente una b, in het tweede geval osserviamo una geneigdheid (più of minder sterk) en non un legam uno-a-uno.

Alle 'interne algebra van relaties' (in siemistische zin) is interessant, proprietà come riflessività (ogni a è in relatie tot zichzelf), symmetrie ((a, b) impliceert (b, a)), antisymmetrie (als (a, b) en (b, a) allora a = b) en transitiviteit (uit (a, b) en (b, c) volgt (a, c)). Deze cruciale eigenaar van het onroerend goed: als een relatie symmetrisch, symmetrisch en transitief is diventa una relazione di equivalenza che “partiziona” A in classi di elementi equivalenti. Als invece geweersief, antisymmetrisch en transitief is, dan abbiamo una relazione d'ordine.

In deze analyse vertalen we dit idee naar de praktijk: we evalueren het type variabiliteit (kwantitatieve continuering, ordinali, nominalei/dicotomiche) en daar rang in deze statistiek en scegliamo strumenti adeguati per misurare la relazione, wetende dat ‘relazione’ niet altijd ‘oorzaak-gevolg’ betekent.

Visuele ispezione: eet riconoscere-patroon en richting

Prima di buttarsi nei numeri, un spreidingsdiagram Het is het gewicht van het meest intelligente ding. Een wolk helemaal in een rechte lijn suggereert een lineaire relatie (positief of negatief); structureer de indicatieve curve niet-lineaire relaties (ma magari monotone). Als je geen patroon invoert, kan de lineaire relatie de instemming vernietigen.

Met weinig variabiliteit, I panelen van scatterplots (en bijvoorbeeld in R met paren(dati)) en een lijn die de neiging heeft om te smusseren (geom_smooth in ggplot2), zodat je kunt opmerken associaties, cluster en outlier. Voorzichtigheid: gli uitschieter kan griep veroorzaken in coëfficiënten, soort Pearson.

Bijvoorbeeld in R si può iniziare così: paren(dati)

# Matrice di grafici a dispersione
pairs(dati)

# Correlazioni grezze (matrice)
cor(dati, use = "pairwise.complete.obs")

Een eerste visuele screening, correct op nummer, Ga naar de scegliere il test giusto gebaseerd op vorm, monotonie en lineariteit schijnbaar.

Controleer de normaliteit: bij het serveren van davvero

Molti-testparametrie (een voorbeeld van de Pearson-test) Ik neem aan dat in verschillende mate, normaliteit De almeno is een symmetrische structuur zonder zware code. Om de ipotesi te besturen, komt een specifiek onderdeel van de grafische structuur. istogrammi con densità e QQ-plot.

In R, una minimale batterij potrebbe includere:

# Istogrammi con densità e curva normale sovrapposta
par(mfrow = c(2, 2))
plot_hist <- function(x) {
  hist(x, prob = TRUE)
  lines(density(x), col = "red")
  curve(dnorm(x, mean(x), sd(x)), add = TRUE, col = "blue")
}
plot_hist(dati$GASTEDU)
plot_hist(dati$GASAUDE)
plot_hist(dati$GASLAZER)
plot_hist(dati$IDADE)

Om de kwantitatieve observaties te vergelijken met die van een normale standaard, QQ-plot è insostituibile:

par(mfrow = c(2, 2))
qqfun <- function(x) {
  qqnorm(x, main = "", xlab = "Quantili teorici N(0,1)", pch = 20)
  qqline(x, col = "red", lty = 1)
}
qqfun(dati$IDADE)
qqfun(dati$GASAUDE)
qqfun(dati$GASLAZER)
qqfun(dati$GASTEDU)

Houd het in het zicht, als ik het niet kan gebruiken test formali di normalità per accumulatiebewijs: Kolmogorov-Smirnov met parameterschattingen, Lilliefors, Cramér-von Mises, Shapiro-Wilk, Shapiro-Francia, Anderson-Darling en de normale Pearson-test (quadro).

normalita <- function(x) {
  t1 <- ks.test(x, "pnorm", mean(x), sd(x))            # Kolmogorov–Smirnov
  t2 <- nortest::lillie.test(x)                         # Lilliefors
  t3 <- nortest::cvm.test(x)                            # Cramér–von Mises
  t4 <- shapiro.test(x)                                 # Shapiro–Wilk
  t5 <- nortest::sf.test(x)                             # Shapiro–Francia
  t6 <- nortest::ad.test(x)                             # Anderson–Darling
  t7 <- PearsonDS::pearson.test(x)                      # Pearson chi-quadro di normalità
  pv <- c(t1$p.value, t2$p.value, t3$p.value, t4$p.value, t5$p.value, t6$p.value, t7$p.value)
  data.frame(p_value = pv, row.names = c(t1$method, t2$method, t3$method, t4$method, t5$method, t6$method, t7$method))
}
normalita(dati$GASAUDE)

Als ik normaal slaap en de relatie lineair is, de Pearson-coëfficiënt is een goede Keltische neef; anders is het verstandiger om basate sui ranghi te mengen met Spearman of Kendall.

related:  Breuken omzetten naar gehele getallen en decimalen: een complete gids

Verband tussen kwantitatieve variabiliteit: covariantie en correlatie

La covariantie fra Het probleem is de covariantie depende dall'unità di misura, quindi è poco comparabile.

La Pearson lineaire correlatie Los het probleem op door te standaardiseren per standaarddeviatie: de coëfficiënt r varieert tussen -1 en 1, wat een waarde van ±1 oplevert forte relazione lineare (positief of negatief) en 0 suggereert assenza di linearità. Let op: r = 0 sluit niet-lineaire relaties niet uit.

Calcoli per correlazioni in R:

# Coefficiente di Pearson e test di significatività
cor(dati$GASTEDU, dati$GASAUDE, method = "pearson")
cor.test(dati$GASTEDU, dati$GASAUDE, method = "pearson")

Quando la relazione è monotona ma non lineare of als ik niet normaal slaap (of de uitschieter niet in bedwang houd), is het zinvol om Spearman (ranghi; robuust en aangepast aan medio-grandi campioni) Kendall τ (basato su concordanze/discordanze; bij voorkeur su kleine kampioenen (of met veel pareggi):

# Correlazioni non parametriche
cor.test(dati$GASTEDU, dati$GASAUDE, method = "spearman")

# Su un sottoinsieme più piccolo, meglio Kendall
dati2 <- head(dati, 20)
cor.test(dati2$IDADE, dati2$GASAUDE, method = "kendall")

Un'idea usefule: de determinatiecoëfficiënt R² di un modello lineare semplice herstelt het variabele aandeel van Y spiegata lineair vanuit X. In R:

summary(lm(GASAUDE ~ ESTCIVIL, data = dati))$r.squared

Per variabili dichotomie versus kwantitatief, de coëfficiënt punt-biserieel komt overeen met de Pearson-berekening met een gecodeerde variabele 0/1; in de praktijk, kleur (dichotoom, kwantitatief) con methode = “pearson”.

Variabele categorieën: indipendenza, associatiekracht en piccoli campioni

Als slaapvariabiliteit een rol speelt nominali od ordinali, la relazione si studia con tabelle di contingentza (vaak met doppia-classificatie). De typische ipotesi is: H0 = indipendenza (noodzakelijke associatie), controle H1 = dipendenza.

Il test di riferimento è il chi-quadro di indipendenza. Se ci sono frequenze attese troppo basse (meestal < 5), als u het gebruikt Yates' correctie per 2×2 o si passa al test esatto di Fisher, met name aangegeven met campioni piccoli.

# Tabella incrociata e chi-quadro
xtabs(~ PROFI + ESTCIVIL, data = dati) -> tab1
chisq.test(dati$PROFI, dati$ESTCIVIL)  # p-value non significativo => indipendenza plausibile

# Campioni piccoli: test di Fisher
chisq.test(dati$PROFI, dati$RENDA)
fisher.test(dati2$PROFI, dati2$RENDA)

Per quantcare De intensiteit van de vereniging in tabelle I×J si usano: V di Cramér (0-1) coefficiente di contingentza (0–1, beperking), en in 2×2 il phi (φ), wat formeel een Pearson-applicato alla tabella binaria is.

# Misure di associazione per tabelle
library(vcd)
xtabs(~ PROFI + RENDA, data = dati) -> tab2
assocstats(tab2)  # riporta V di Cramér, coeff. di contingenza e test

# Attenzione: cor() su codifiche numeriche di categorie non è equivalente a φ in generale

Se l'intersse è confrontore gruppi zijn kwantitatieve variabiliteit (es. reddito per professione), als valutano t-toets, ANOVA Het is een niet-parametrisch alternatief, geen vertrouwensinterval. Over het algemeen samenhang in type variabiliteit en methode het is fundamenteel.

related:  Mechanistische interpreteerbaarheid: hoe AI zijn interne modellen construeert en onthult.

Accordo tra valutatori: Kappa di Cohen

Wanneer due (of più) giudici geen enkele stessi oggetti in categorie classificeren, is het niet voldoende om het percentage van overeenstemming te mengen, een quotum te kiezen dat al dan niet kan worden behaald geval. De Kappa di Cohen kwantificeert de juiste overeenkomst voor de toevallige overeenkomst: ik heb verder gewaardeerd tot 0, wat de overeenkomst voor elk geval aangeeft, ik heb maggiori suggeriscono gewaardeerd groeiende overeenstemming (interpretatie comuni: scarso, discreet, moderato, buono, molto buono).

In Rè possibile stimare Kappa anche in versione ponderata (per categorie ordinali):

set.seed(1)
val1 <- sample(0:1, 10, replace = TRUE)
val2 <- sample(0:1, 10, replace = TRUE)

# Kappa non ponderato
fmsb::Kappa.test(val1, val2)

Als de categorie geen natuurlijke volgorde is (ad empio, lieve/moderata/severa), Kappa ponderato penalizza minor in meningsverschil “vicini” en più quelli “lontani”, resulterend in een spesso più informatief.

Relaties en verwarringsvariaties: de onderlinge correlatie

Het kan allemaal variëren als gevolg van variabiliteit X en Y lijkt veel met elkaar te correleren, maar in werkelijkheid is de kracht van de vereniging een van de dingen die u doet variabile di confundimento Z gecorreleerd met entrabe. In kwestie, als je erop klikt gedeeltelijke correlatie tra X en Y besturen per Z.

In R, met ggm::pcor si de correlatie tussen de eerste orde en het kan de betekenis ervan testen. Het is nuttig om te vergelijken klassieke r e r parziale per capire als Z “spiega” del legam grezzo.

library(ggm)
# Correlazione parziale tra GASLAZER e GASAUDE controllando GASTEDU
rp <- pcor(c("GASLAZER", "GASAUDE", "GASTEDU"), var(dati))

# Correlazione grezza
r  <- cor(dati$GASLAZER, dati$GASAUDE)

# Test della correlazione parziale (1 variabile di controllo)
pcor.test(rp, 1, length(dati$GASAUDE))

# Confronto R^2 grezzo vs parziale
data.frame("Senza_controllo" = r^2, "Con_controllo" = rp^2)

Als het spiegata-quotum “crollas” dopo il controllo is, nu Z was een belangrijke bondgenootAls de controlevariabele een categorie is (bijv. beroep), kan ik geen vergelijkbare benaderingen of modellen gebruiken die de categorie als factor opnemen.

Limiet en goede praktijk bij het gebruik van de correlatie

Het Pearson-coëfficiëntenmengsel solo la linearitàAls de relatie niet-lineair is (kwadratisch, sponenziaal, logaritmisch), kan dit resulteren in 0 pur in aanwezigheid van een sterke afhankelijkheid. In dit geval, valutare Spearmanen transformeert het in een niet-lineair model.

de uitbijter Ik kan het resultaat niet verdraaien. Daarom is het handig om eerst de grafiek te controleren en, indien nodig, tegelijkertijd een grondige analyse uit te voeren of de gevoeligheid van de resultaten te controleren.

Nog een klassieker: correlatie ≠ causaliteit. Vanwege de variabiliteit kan ik niet correleren dat slaapgriep een derde fattore oplevert, louter toeval of als gevolg van een omgekeerd mechanisme. Als u experimenten uitvoert, kunt u causale instrumenten of modellen gebruiken om de oorzaak te bespreken.

Soort relatie: lineair, monotoon, nul, categorisch

Nei casi misti (kwantitatief versus dichotomica/nominale/ordinata) se slaagt voor een test di confrontatie tussen gruppi, correlazioni biseriali/point-biserial oa modellen (voorbeeld van regressie met voorspelde factoren). Met variabiliteit categoriseren, ik bevestig dat een chi-quadro/Fisher en alle sterke banden van mijn vereniging bestaan.

Funzioni eet speciale relaties

een funzione Het is een relatie die per element van het domein een associatie heeft precies een element van het appartement. Concluderend is het een sottoinsieme di A×B-verhaal dat ogni a in A een enkele volta vergelijkt met de eerste component. Andere belangrijke bewerkingen in slaapgerelateerde algebra: unie (R1 ∪ R2), kruispunt (R1 ∩ R2), samenstelling (R2 ∘ R1) en omkeren (R^{-1}, de scambia ciascuna coppia (a, b) in (b, a)).

Deze mattoni concettuali tornano utili sia nella zuivere wiskunde (equivalenze, ordini, classi di equivalenza) in toepassingen dient concrete duif formele relaties van de entiteit.

Algebra van relaties en wetenschap die ik gaf

Nel mondo dei database, l'relationele algebra Dit is de theoretische structuur van SQL: hoe te bedienen select, proiezione, join, unione en intersezione Er zijn ook versies van de werking van uw interne verbinding. Deze formalisering is een krachtig wapen om zaken snel te beschrijven, optimaliseren en manipuleren.

related:  Hoe schrijf je twee breuken gelijk aan een gegeven breuk?

In het veld kunstmatige intelligentie en machinaal leren, het vermogen om relaties te modelleren om de constructie van consensusgrafieken, beoordelingssystemen en integratiepijplijnen mogelijk te maken; Deze waarde is geldig in de economie, biostatistiek en sociale wetenschappen, het is bijna altijd "chi is legato a chi, en in che-modus'.

Klassieke voorbeelden van relaties in de theorie van insiemi

Relazioni di gelijkwaardigheid: geweersieve, symmetrische en transitieve slaap. Voorbeelden zoals "gemiddelde totale waarde" zijn ook reëel. congruentie modulo n Ik heb intern gesuggereerd dat de Ogni-relatie van equivalentie induceert classi di equivalenza che ripartiscono l'insieme in blocchi disgiunti.

Relazioni d'order: geweervrij, antisimmetrisch en transitief. Bijvoorbeeld: ≤ sui numeri naturali, l'inclusione ⊆ sull'insieme delle parti P(X), of “divide” (|) sui naturali. Fondamentali slaap per definitie ordinamenti totali o parziali en per regio zijn de massimi, minimi, catene en antichains.

order lessicografisch: dat zei ik al. Het is een volgorde in een reeks (string, getal geschreven in volgorde) die element voor element vergelijkt. Er zit een belangrijke ruis in deze structuur en ik laat algoritmes buiten beschouwing.

Deze sectie is nuttig om te begrijpen dat ‘relatie’ in de wiskunde een concept is meer van de enige correlasie: omvatten uguaglianze, ordini, compositie en nog veel meer, allemaal onmisbaar voor modellere systeemcomlessi.

Praktische workflow: controleer het resultaat

Een mogelijke spoel de lavaro zodat je het niet kwijtraakt als je instrumenteert en waar:

  • Grafische inspectie: spreidingsdiagram, afvlakking, istogrammen, QQ-plot. Occhio is een uitbijter en is niet lineair.
  • Cheques: als het werkt, test dan de normaliteit; Controle van de omoscedasticiteit als er een lineair model wordt voorzien.
  • Scelta del coefficiente: Pearson (lineare, dati circa normali), Spearman/Kendall (monotona/non normale/piccoli campioni).
  • Categorisch: chi-quadro/Fisher + misure d'associazione (V di Cramér, coeff. di contingenza, φ). Voor groepsvergelijking, t-test/ANOVA of alternatief.
  • Confundenti: correleren parziale of multivariate model (inclusief categorie fattori).

Qualunque sia la scelta, interpretae nel contexto Het is het verschil: grote resultaten, belangrijke statistieken, de omvang van de campagne en de kwaliteit van de gegevens als (zo niet meer) van de numere finale.

Esempi di codice R ricorrenti

Riassumendo alcune chiamate utili waardoor het nauwkeuriger is om de relatie tussen variabelen te analyseren en die kan worden aangepast aan uw dataset:

# 1) Correlazioni
cor(x, y, method = "pearson")
cor.test(x, y, method = "spearman")
cor.test(x_small, y_small, method = "kendall")

# 2) Grafici (base e ggplot2)
plot(x, y)
# ggplot2: geom_point() + geom_smooth(method = "lm" o se = FALSE)

# 3) Normalità
shapiro.test(x)
nortest::ad.test(x)

# 4) Tabelle e test
xtabs(~ a + b, data = dati) -> tab
chisq.test(tab)
fisher.test(tab)  # campioni piccoli o celle con attesi < 5
vcd::assocstats(tab)  # V di Cramér e coeff. di contingenza

# 5) Kappa
afmsb::Kappa.test(giudice1, giudice2)

# 6) Correlazione parziale
ggm::pcor(c("x", "y", "z"), var(dati))

Praktische notitie: le scelte “giuste” dipendono dai dati. Het is de moeite waard om de hypothese te valideren, de methode te vergelijken en, wanneer deze werkt, een piccoloschrift te construeren om de vraag snel en betrouwbaar te diagnosticeren.

Abbiamo zag dat 'relazione' vaker wel dan niet kan betekenen: de lineaire vorm bij Pearson, de monotonie bij Spearman/Kendall, de dunne associatie binnen de categorie bij chi-quadro/Fisher en misure bij V di Cramér en φ; senza dimenticare de overeenkomst tussen giudici (Kappa) en het management gaf ik confondenti met de parziale correlatie. Daarom is de relationele algebra bepalend voor de definitie van dominio, omgekeerd en samengesteld, en de relationele algebra bepaalt de manier waarop ik mijn databanken archiveer en ondervraag. Het chiave-idee is gebaseerd op de variatie van het type, de vorm van het legaat en het analyseren van analyses, de ricordandoci nessun coëfficiënte, da solo, je kunt je verhaal vertellen.

Gerelateerd artikel:
De 13 soorten wiskundige functies (en hun kenmerken)