Rileva valori anomali utilizzando la distribuzione normale

Sommario:

Rileva valori anomali utilizzando la distribuzione normale
Rileva valori anomali utilizzando la distribuzione normale
Anonim

La rilevazione degli outlier attraverso la distribuzione normale è un processo che prevede la definizione di una soglia di deviazione standard e con la quale si intende trovare valori estremi di un campione.

In altre parole, rilevare gli outlier attraverso la distribuzione normale significa trovare i valori estremi di un set di dati attraverso la formula normale standardizzata.

  • I valori estremi sono chiamati valori anomali in inglese.
  • I valori interno sono chiamati addetti ai lavori in inglese.

Il rilevamento visivo degli outlier può essere un'opzione quando si dispone di pochissimi dati. Quando si lavora con i database è molto poco pratico dover trovare manualmente i valori anomali. Per risolvere questo problema, possiamo calcolare quali sono i valori considerati estremi confrontandoli con una soglia di deviazioni.

Nel caso della distribuzione normale, un valore è considerato estremo quando dista 3 deviazioni standard dalla media. Poiché la distribuzione normale ha 2 code, dobbiamo considerare che può essere rimpicciolita sia sul lato negativo che su quello positivo.

Formula per rilevare valori anomali utilizzando la distribuzione normale

Un insieme di osservazioni può essere espresso nel modo precedente, dove x è il valore medio su cui oscillano i valori e sigma la dispersione dell'oscillazione di detti valori. In altre parole, sigma è la distanza delle osservazioni dal valore medio.

Il fattore moltiplicativo determina se si tratta di un outlier o di un insider. Se z assume i valori di 3 o -3, allora, secondo la distribuzione normale, l'osservazione y sarà un valore anomalo.

Per conoscere il valore di z usiamo l'equazione precedente:

  • Se z> = 3 o z = <-3, allora, secondo la distribuzione normale, possiamo dire che è un valore estremo o outlier.
  • Se z <3 o z <-3, allora, secondo la distribuzione normale, possiamo dire che è un valore interno o un insider.

Standard normale

L'equazione di cui sopra è familiare?

Esatto, è l'espressione di un'osservazione che segue una distribuzione normale una volta standardizzata o tipizzata. Si chiama così perché quando si divide per la deviazione standard o standard, la differenza del numeratore viene espressa in termini di deviazioni.

Per questo motivo, possiamo associare i valori di deviazione a z e quindi poterlo acquistare con la soglia di 3 deviazioni.

Esempio

Trova i valori estremi delle seguenti osservazioni secondo la distribuzione normale:

Rappresentiamo le osservazioni su un grafico:

Fin dall'inizio possiamo già vedere che il valore più lontano dal resto può essere molto probabilmente un valore anomalo.

Per prima cosa calcoliamo la media e la deviazione standard:

x = media = 5.8

sigma = deviazione standard = 10,51

Quindi sostituiamo i valori nella formula e calcoliamo il valore di z per ogni osservazione:

I valori di cui sopra sono i fattori moltiplicativi di sigma, cioè z. Tutto ciò che è maggiore di 3 o minore di -3 sarà un valore estremo.

Possiamo vedere che il valore di z che supera 3 deviazioni standard è quella corrispondente all'osservazione 49.

Pertanto, il valore estremo o anomalo del set di dati sarebbe 49.