Outlier osservazioni che falsano i risultati
Gli outlier sono valori numericamente distanti dal resto dei dati raccolti, ovvero sono valori estremi. Le analisi che derivano da campioni contenenti outlier presenteranno risultati anomali. Il consulente statistico si occupa di comprendere la natura degli outlier, in base alla quale applicherà modelli o test più robusti per l’analisi che consentiranno di ottenere risultati attendibili.
Attenzione gli outlier non sono per forza errori!
In una scuola vengono misurate le altezze di tutti gli studenti. Avremo vari valori, ad esempio:
Nome | Altezza (metri) |
Mario | 1,55 |
Giulia | 1,57 |
… | |
Antonio | 3 |
1,50 m, 1,55 m, ecc… un possibile outlier potrebbe essere uno studente che è alto 3 metri !
Antonio in questo esempio è un outlier.
In questo caso siamo sicuramente in presenza di un errore, procederemo quindi ad eliminare tale osservazione anomala.
Prendiamo la popolazione degli Stati nel mondo, esistono Stati molto piccoli e Stati molto grandi. Alcuni Stati risulteranno outlier, per esempio:
- Città del Vaticano, troppo piccola,
- Cina e India, troppo grandi.
Questi outlier non sono errori!
In questo caso non elimineremo tali nazioni dal nostro dataset ma ne dovremo tener conto nell’analisi utilizzando test o modelli “speciali” per non falsarla.
In una scuola elementare vengono misurate le altezze di tutti (studenti e personale scolastico). Noteremo che il personale scolastico verrà considerato outlier perché avrà un’altezza maggiore rispetto agli studenti.
Da ciò comprendiamo che gli outlier possono essere un campanello d’allarme che ci avverte che alcuni dati potrebbero appartenere a una popolazione differente rispetto a quella del resto del campione.
In un grande campione è normale che vi sia una piccola quantità di outlier.