Bilanciamento del dataset

Training set, Test set e standardizzazione

I modelli supervisionati (classificazione o modelli machine learning) vengono effettuati sulla base di un insieme di addestramento.
Per valutare in modo non distorto le performance predittive dei modelli, il dataset è suddiviso in due parti: training set (80% delle osservazioni) e testing set (20% delle osservazioni). Si sceglie una metodologia di estrazione, solitamente il campionamento casuale.
Poiché le variabili da utilizzare debbono essere espresse nella stessa unità di misura si procede a standardizzare le variabili assunte in input. Si calcolano media μ e varianza σ2 delle distribuzioni di partenza, da esse si ottengono i punti zeta (standardizzati) di ciascuna variabile in base alla seguente espressione:

standardizzazione
Formula per il calcolo dei punti z per la standardizzazione

Leggi tutto “Bilanciamento del dataset”

Indici di valutazione del modello:

Come comprendere se un modello è valido

R2

Il coefficiente di determinazione (R quadro) è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Esso è legato alla frazione della varianza non spiegata dal modello. Tale indice varia da 0 a 1, più si avvicina ad 1 più il modello riesce a spiegare i dati. Tale indice è solitamente utilizzato nei modelli di regressione lineare. R2 tende a sovrastimare la bontà del modello nel caso in cui il modello sia in overfitting, ovvero quando il modello ha troppe variabili X. Per correggere tale problematica solitamente si fa riferimento ad una correzione di tale indice chiamato “R2 corretto” che penalizza i modelli eccessivamente complessi.

Esempio:

Il seguente esempio analizza la relazione, tramite un modello lineare, tra peso e altezza.
Modello lineare
Leggi tutto “Indici di valutazione del modello:”

Alpha di Cronbach

Come comprendere se le domande sono correttamente inserite nei fattori latenti

Alpha di Cronbach è un metodo per valutare l’affidabilità come coerenza interna, è una misura di affidabilità globale di un gruppo di item. Quanto più l’indice Alpha è vicino ad 1 tanto più è elevata l’affidabilità.

Convenzionalmente si ritiene accettabile un valore di Alpha superiore a 0,70.
Leggi tutto “Alpha di Cronbach”

Analisi fattoriale esplorativa

Ricerca dei fattori latenti

Prerequisiti

Prima di effettuare un’analisi esplorativa dovrai scegliere la matrice di partenza. Potrai eseguire l’analisi sulla matrice di correlazioni o sulla matrice di varianze e covarianze. Se disponi del dataset potrai costruire entrambe le matrici. In passato si utilizzava solo la matrice di correlazione. Il vantaggio di tale matrice è che non crea problemi nel caso tu abbia domande con scale differenti; tuttavia essa non consente di effettuare test successivi. Inoltre dovrai effettuare dei test per verificarne la fattibilità.
Leggi tutto “Analisi fattoriale esplorativa”

Analisi fattoriale

Come analizzare le risposte ad un questionario

L’analisi fattoriale è un insieme di tecniche statistiche utilizzate per comprendere quali siano i fattori latenti.
I fattori latenti (o variabili latenti) sono per esempio felicità, QI, sentimenti, qualità di un servizio, ovvero concetti astratti che non sono direttamente misurabili.

L’analisi fattoriale si divide in due fasi differenti:

L’analisi fattoriale esplorativa (AFE) in cui cerchiamo le variabili latenti (es. soddisfazione, felicità, ecc.).

L’analisi fattoriale confermativa (AFC) permette di validare le ipotesi effettuate sulle relazioni tra variabili osservate e latenti, essa è quindi utilizzata quando si hanno idee abbastanza chiare su quali fattori influenzano quali variabili.

Leggi tutto “Analisi fattoriale”

3 passi fondamentali per la preparazione dei dati

Chi ben comincia è già a metà dell’opera

Se hai raccolto i tuoi dati ricordati che la qualità dei dati è importantissima per la tua analisi.

Prima di eseguire qualsiasi test o modello è necessario:

  1.  Effettuare le statistiche descrittive
  2.  Controllare gli outlier
  3.  Comprendere dalle statistiche descrittive se vi sono problemi, come ad esempio degli NA (dati mancanti).

Se tutti questi 3 passi sono stati eseguiti correttamente, avrai dei dati che, statisticamente parlando, sono buoni per la analisi e avrai un idea, grazie alle statistiche descrittive, di come sia composto il tuo campione. Da ciò potrai formulare ipotesi da testare con i modelli o test.

Leggi tutto “3 passi fondamentali per la preparazione dei dati”