Cos’è l’indice Chi-quadrato?
L’indice chi-quadrato viene utilizzato per misurare la connessione tra due variabili categoriche, ossia variabili che possono assumere come valori, un numero limitato di categorie. Un esempio di categoria è il genere (uomo o donna), un altro esempio è il titolo di studio (licenza elementare, media, diploma, laurea, ecc..). Per connessione si intende, invece, la dipendenza in distribuzione tra due caratteri (nell’esempio successivo vedremo come l’insorgere del diabete sia legato all’indice di massa corporea BMI).
Come si calcola?
Si parte da una distribuzione doppia di frequenze rappresentate in una tabella a doppia entrata o tabella di contingenza, in cui l’ultima riga e l’ultima colonna costituiscono le frequenze marginali definite come:
Le righe e le colonne interne alla tabella sono invece le frequenze condizionate, ovvero le distribuzioni di un carattere condizionatamente a una modalità dell’altro carattere.
Due caratteri, infatti, possono essere tra loro dipendenti o indipendenti. Si dice che il carattere A è indipendente da B se:
ovvero la modalità i del carattere B non influenza le frequenze relative.
Da questa condizione di indipendenza si ricava la formula per le frequenze teoriche, nell’ipotesi di assenza di connessione, ottenute come:
Generalmente le frequenze teoriche
sono diverse da quelle reali.
Per misurare l’allontanamento dall’assenza di connessione si utilizza l’indice chi-quadrato che ha a numeratore la sommatoria della differenza tra frequenze teoriche e reali al quadrato e a denominatore quelle teoriche, poiché queste ultime, a differenza di quelle reali, non sono mai nulle. Dunque, il chi-quadrato si calcola come:
L’indice varia tra 0 e +ꝏ, dove 0 rappresenta l’assenza di connessione.
Esempio
Proviamo a misurare la connessione tra l’indice di massa corporea (BMI) e l’insorgere del diabete in un gruppo di 846 soggetti tramite il chi-quadrato:
FREQUENZE TEORICHE
calcoli per il CHI-QUADRATO
Dunque, il valore dell’indice chi-quadrato è 177.271, il quale essendo abbastanza lontano da zero ci indica che c’è dipendenza in distribuzione. Tuttavia, la portata di tale dipendenza non è quantificabile, a meno che non si ricorra all’indice di Tschuprow.
Articolo scritto in collaborazione con Marta Iacolino