MEDIA ARITMETICA

Com’è definita?

La media aritmetica è certamente quella più nota e utilizzata nella statistica. È la media analitica di ordine p = 1 e potremmo definirla come il valor medio di una successione di valori .

Come si calcola?

Calcolare la media aritmetica, solitamente indicata con μ o  , equivale a sommare tutti i valori della distribuzione (xi)  e poi dividerli per la numerosità del campione N:

Leggi tutto “MEDIA ARITMETICA”

Indici di posizione (medie)

Perché abbiamo bisogno di calcolare le medie? A cosa servono?

Le medie consentono di sintetizzare in un solo valore rappresentativo l’intera distribuzione di dati.

Esempio:

Ad esempio, se volessimo avere un’idea di quanto guadagnano gli impiegati di un’azienda con 20mila addetti, invece di riportare i singoli stipendi è molto più comodo ed efficace calcolarne la media, in modo da ottenere un unico valore che sintetizza lo stipendio di un addetto.

Le medie possono essere di due tipi:

  • Analitiche
  • Lasche

Leggi tutto “Indici di posizione (medie)”

T DI TSCHUPROW

Indice per misurare una connessione tra due caratteri post chi-quadro

Per misurare la portata di una connessione tra due caratteri, la cui presenza è stata precedentemente verificata con l’indice chi-quadrato  , si ricorre all’indice T di Tschuprow che ha a numeratore l’indice di contingenza quadratico , il quale depura il  dall’effetto della numerosità N. Per costruzione, infatti, il valore dell’indice chi-quadrato aumenta al crescere di N o del numero di classi di una distribuzione.

Leggi tutto “T DI TSCHUPROW”

INDICE CHI-QUADRATO

Cos’è l’indice Chi-quadrato?

L’indice chi-quadrato viene utilizzato per misurare la connessione tra due variabili categoriche, ossia variabili che possono assumere come valori, un numero limitato di categorie. Un esempio di categoria è il genere (uomo o donna), un altro esempio è il titolo di studio (licenza elementare, media, diploma, laurea, ecc..). Per connessione si intende, invece, la dipendenza in distribuzione tra due caratteri (nell’esempio successivo vedremo come l’insorgere del diabete sia legato all’indice di massa corporea BMI).

Leggi tutto “INDICE CHI-QUADRATO”

Indice di concentrazione di Gini

A cosa serve?

L’indice o coefficiente di concentrazione di Gini è una misura di variabilità utilizzata per descrivere la distribuzione di variabili quantitative, come reddito, voto ai partiti politici, numero di impiegati in un’azienda o numero di studenti iscritti alle varie facoltà universitarie. Ad esempio, si può usare per capire se in un determinato Paese del mondo il reddito è distribuito in modo pressoché uguale tra i cittadini o se invece è concentrato nelle mani di pochi ricchi e, dunque, vi è una forte disuguaglianza.

Leggi tutto “Indice di concentrazione di Gini”

Indice di correlazione di Pearson

Indicatore della relazione lineare

È un indicatore che misura la relazione lineare, in termini di forza e direzione, tra due caratteri quantitativi X e Y. Si dice che tra X e Y vi è correlazione positiva o concordanza se crescono o decrescono contemporaneamente. Si ha correlazione negativa o discordanza quando al crescere di un carattere, l’altro tende a decrescere.

Leggi tutto “Indice di correlazione di Pearson”

Indici di valutazione del modello:

Come comprendere se un modello è valido

R2

Il coefficiente di determinazione (R quadro) è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Esso è legato alla frazione della varianza non spiegata dal modello. Tale indice varia da 0 a 1, più si avvicina ad 1 più il modello riesce a spiegare i dati. Tale indice è solitamente utilizzato nei modelli di regressione lineare. R2 tende a sovrastimare la bontà del modello nel caso in cui il modello sia in overfitting, ovvero quando il modello ha troppe variabili X. Per correggere tale problematica solitamente si fa riferimento ad una correzione di tale indice chiamato “R2 corretto” che penalizza i modelli eccessivamente complessi.

Esempio:

Il seguente esempio analizza la relazione, tramite un modello lineare, tra peso e altezza.
Modello lineare
Leggi tutto “Indici di valutazione del modello:”

Alpha di Cronbach

Come comprendere se le domande sono correttamente inserite nei fattori latenti

Alpha di Cronbach è un metodo per valutare l’affidabilità come coerenza interna, è una misura di affidabilità globale di un gruppo di item. Quanto più l’indice Alpha è vicino ad 1 tanto più è elevata l’affidabilità.

Convenzionalmente si ritiene accettabile un valore di Alpha superiore a 0,70.
Leggi tutto “Alpha di Cronbach”

Outlier: valori anomali, come individuarli e trattarli?

Outlier osservazioni che falsano i risultati

Gli outlier sono valori numericamente distanti dal resto dei dati raccolti, ovvero sono valori estremi. Le analisi che derivano da campioni contenenti outlier presenteranno risultati anomali. Il consulente statistico si occupa di comprendere la natura degli outlier, in base alla quale applicherà modelli o test più robusti per l’analisi che consentiranno di ottenere risultati attendibili.

Attenzione gli outlier non sono per forza errori!

Leggi tutto “Outlier: valori anomali, come individuarli e trattarli?”