Bilanciamento del dataset
Training set, Test set e standardizzazione
I modelli supervisionati (classificazione o modelli machine learning) vengono effettuati sulla base di un insieme di addestramento.
Per valutare in modo non distorto le performance predittive dei modelli, il dataset è suddiviso in due parti: training set (80% delle osservazioni) e testing set (20% delle osservazioni). Si sceglie una metodologia di estrazione, solitamente il campionamento casuale.
Poiché le variabili da utilizzare debbono essere espresse nella stessa unità di misura si procede a standardizzare le variabili assunte in input. Si calcolano media μ e varianza σ2 delle distribuzioni di partenza, da esse si ottengono i punti zeta (standardizzati) di ciascuna variabile in base alla seguente espressione:
3 passi fondamentali per la preparazione dei dati
Chi ben comincia è già a metà dell’opera
Se hai raccolto i tuoi dati ricordati che la qualità dei dati è importantissima per la tua analisi.
Prima di eseguire qualsiasi test o modello è necessario:
- Effettuare le statistiche descrittive
- Controllare gli outlier
- Comprendere dalle statistiche descrittive se vi sono problemi, come ad esempio degli NA (dati mancanti).
Se tutti questi 3 passi sono stati eseguiti correttamente, avrai dei dati che, statisticamente parlando, sono buoni per la analisi e avrai un idea, grazie alle statistiche descrittive, di come sia composto il tuo campione. Da ciò potrai formulare ipotesi da testare con i modelli o test.
Leggi tutto “3 passi fondamentali per la preparazione dei dati”
Outlier: valori anomali, come individuarli e trattarli?
Outlier osservazioni che falsano i risultati
Gli outlier sono valori numericamente distanti dal resto dei dati raccolti, ovvero sono valori estremi. Le analisi che derivano da campioni contenenti outlier presenteranno risultati anomali. Il consulente statistico si occupa di comprendere la natura degli outlier, in base alla quale applicherà modelli o test più robusti per l’analisi che consentiranno di ottenere risultati attendibili.
Attenzione gli outlier non sono per forza errori!
Leggi tutto “Outlier: valori anomali, come individuarli e trattarli?”
Frequenze: cosa sono e quali sono?
Frequenze, indici indispensabili per comprendere i tuoi dati qualitativi
- La frequenza assoluta è il numero o conteggio delle unità che rientra in una determinata classe (intervallo) o fattore.
- La frequenza relativa è la frazione o la percentuale di unità, rispetto al numero totale di unità, che ricade in una determinata classe (intervallo) o fattore. La somma di tutte le frequenze relative è 1 o in caso percentuale, 100%.
- La frequenza cumulata è la frazione o la percentuale di unità che è inferiore ad una data soglia. La prima soglia sarà uguale alla soglia della frequenza relativa, la seconda soglia sarà la somma della prima e della seconda soglia di frequenze relative e così via. L’ultima soglia sarà la somma di tutte le frequenze relative.
Cos’è la statistica descrittiva?
Analizzare e comprendere i dati
La statistica descrittiva è composta da vari indici usati per descrivere e sintetizzare le caratteristiche di base dei dati raccolti. Insieme alla semplice analisi grafica, la statistica descrittiva costituisce la base di partenza di qualsiasi analisi.
Leggi tutto “Cos’è la statistica descrittiva?”