Outlier - Che cos'è, definizione e concetto

Sommario:

Anonim

Un outlier è un'osservazione anormale ed estrema in un campione statistico o in una serie temporale di dati che può potenzialmente influenzare la stima dei suoi parametri.

In parole più semplici, un valore anomalo sarebbe un'osservazione all'interno di un campione o una serie temporale di dati che non è coerente con il resto. Immaginiamo, ad esempio, di misurare l'altezza degli studenti di una classe.

Immaginiamo un campione di 10 studenti. L'altezza di ciascuno è la seguente:

Campione 1
AlunnoAltezza in metri
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

L'altezza media della classe sarebbe 1,73. Se prendiamo in considerazione l'altezza massima (1,85) e l'altezza minima (1,62) e la loro distanza dalla media, vediamo che è rispettivamente 0,113 e 0,117. Come possiamo vedere, la media è approssimativamente nel mezzo dell'intervallo e potrebbe essere considerata una stima abbastanza buona.

L'effetto anomalo

Ora pensiamo a un altro campione di 10 studenti, le cui altezze sono le seguenti:

Campione 1
AlunnoAltezza in metri
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

In questo caso, l'altezza media della classe sarebbe 1,81. Se ora osserviamo l'altezza massima (2,20) e l'altezza minima (1,62) e la loro distanza dalla media, vediamo che è rispettivamente 0,39 e 0,18. In questo caso la media non è più approssimativamente al centro dell'intervallo.

L'effetto delle 2 osservazioni più estreme (2.18 e 2.20) ha fatto spostare la media aritmetica verso il valore massimo della distribuzione.

Con questo esempio, vediamo l'effetto che hanno gli outlier e come possono distorcere il calcolo di una media.

Come rilevare gli outlier?

Come correggere l'effetto degli outlier

In situazioni come questa in cui ci sono valori anomali sostanzialmente diversi dal resto, la mediana è una stima migliore per sapere a che punto si concentra un numero maggiore di osservazioni.

Nel caso di entrambe le distribuzioni e poiché abbiamo un numero pari di valori, non possiamo prendere esattamente il valore che dimezza la distribuzione per calcolare la mediana. Con la quale dopo aver ordinato i valori dal più basso al più alto, prenderemmo la quinta e la sesta osservazione (entrambe lasciano 4 osservazioni per lato) e calcoleremmo la mediana come segue:

Campione 1:

1,75+1,72/2 = 1,73

Campione 2:

1,79+1,71/2 = 1,75

Come si vede, nel campione numero 1, dato che non ci sono outlier o osservazioni anomale, la mediana è 1,73 e coincide con la media. Al contrario, per il campione 2, la media è 1,75. Come possiamo vedere, questo valore è più lontano dall'altezza media, che era 1,81 e ci fornisce una stima del punto di qualità superiore per sapere approssimativamente in quale punto si concentra un numero maggiore di osservazioni.

Stima del punto