Bilanciamento del dataset

Training set, Test set e standardizzazione

I modelli supervisionati (classificazione o modelli machine learning) vengono effettuati sulla base di un insieme di addestramento.
Per valutare in modo non distorto le performance predittive dei modelli, il dataset è suddiviso in due parti: training set (80% delle osservazioni) e testing set (20% delle osservazioni). Si sceglie una metodologia di estrazione, solitamente il campionamento casuale.
Poiché le variabili da utilizzare debbono essere espresse nella stessa unità di misura si procede a standardizzare le variabili assunte in input. Si calcolano media μ e varianza σ2 delle distribuzioni di partenza, da esse si ottengono i punti zeta (standardizzati) di ciascuna variabile in base alla seguente espressione:

standardizzazione
Formula per il calcolo dei punti z per la standardizzazione

Leggi tutto “Bilanciamento del dataset”

3 passi fondamentali per la preparazione dei dati

Chi ben comincia è già a metà dell’opera

Se hai raccolto i tuoi dati ricordati che la qualità dei dati è importantissima per la tua analisi.

Prima di eseguire qualsiasi test o modello è necessario:

  1.  Effettuare le statistiche descrittive
  2.  Controllare gli outlier
  3.  Comprendere dalle statistiche descrittive se vi sono problemi, come ad esempio degli NA (dati mancanti).

Se tutti questi 3 passi sono stati eseguiti correttamente, avrai dei dati che, statisticamente parlando, sono buoni per la analisi e avrai un idea, grazie alle statistiche descrittive, di come sia composto il tuo campione. Da ciò potrai formulare ipotesi da testare con i modelli o test.

Leggi tutto “3 passi fondamentali per la preparazione dei dati”

Outlier: valori anomali, come individuarli e trattarli?

Outlier osservazioni che falsano i risultati

Gli outlier sono valori numericamente distanti dal resto dei dati raccolti, ovvero sono valori estremi. Le analisi che derivano da campioni contenenti outlier presenteranno risultati anomali. Il consulente statistico si occupa di comprendere la natura degli outlier, in base alla quale applicherà modelli o test più robusti per l’analisi che consentiranno di ottenere risultati attendibili.

Attenzione gli outlier non sono per forza errori!

Leggi tutto “Outlier: valori anomali, come individuarli e trattarli?”

Frequenze: cosa sono e quali sono?

Frequenze, indici indispensabili per comprendere i tuoi dati qualitativi

  • La frequenza assoluta è il numero o conteggio delle unità che rientra in una determinata classe (intervallo) o fattore.
  • La frequenza relativa è la frazione o la percentuale di unità, rispetto al numero totale di unità, che ricade in una determinata classe (intervallo) o fattore. La somma di tutte le frequenze relative è 1 o in caso percentuale, 100%.
  • La frequenza cumulata è la frazione o la percentuale di unità che è inferiore ad una data soglia. La prima soglia sarà  uguale alla soglia della frequenza relativa, la seconda soglia sarà la somma della prima e della seconda soglia di frequenze relative e così via. L’ultima soglia sarà la somma di tutte le frequenze relative.

Leggi tutto “Frequenze: cosa sono e quali sono?”