Rileva valori anomali utilizzando la distribuzione normale

La rilevazione degli outlier attraverso la distribuzione normale è un processo che prevede la definizione di una soglia di deviazione standard e con la quale si intende trovare valori estremi di un campione.

In altre parole, rilevare gli outlier attraverso la distribuzione normale significa trovare i valori estremi di un set di dati attraverso la formula normale standardizzata.

  • I valori estremi sono chiamati valori anomali in inglese.
  • I valori interno sono chiamati addetti ai lavori in inglese.

Il rilevamento visivo degli outlier può essere un'opzione quando si dispone di pochissimi dati. Quando si lavora con i database è molto poco pratico dover trovare manualmente i valori anomali. Per risolvere questo problema, possiamo calcolare quali sono i valori considerati estremi confrontandoli con una soglia di deviazioni.

Nel caso della distribuzione normale, un valore è considerato estremo quando dista 3 deviazioni standard dalla media. Poiché la distribuzione normale ha 2 code, dobbiamo considerare che può essere rimpicciolita sia sul lato negativo che su quello positivo.

Formula per rilevare valori anomali utilizzando la distribuzione normale

Un insieme di osservazioni può essere espresso nel modo precedente, dove x è il valore medio su cui oscillano i valori e sigma la dispersione dell'oscillazione di detti valori. In altre parole, sigma è la distanza delle osservazioni dal valore medio.

Il fattore moltiplicativo determina se si tratta di un outlier o di un insider. Se z assume i valori di 3 o -3, allora, secondo la distribuzione normale, l'osservazione y sarà un valore anomalo.

Per conoscere il valore di z usiamo l'equazione precedente:

  • Se z> = 3 o z = <-3, allora, secondo la distribuzione normale, possiamo dire che è un valore estremo o outlier.
  • Se z <3 o z <-3, allora, secondo la distribuzione normale, possiamo dire che è un valore interno o un insider.

Standard normale

L'equazione di cui sopra è familiare?

Esatto, è l'espressione di un'osservazione che segue una distribuzione normale una volta standardizzata o tipizzata. Si chiama così perché quando si divide per la deviazione standard o standard, la differenza del numeratore viene espressa in termini di deviazioni.

Per questo motivo, possiamo associare i valori di deviazione a z e quindi poterlo acquistare con la soglia di 3 deviazioni.

Esempio

Trova i valori estremi delle seguenti osservazioni secondo la distribuzione normale:

Rappresentiamo le osservazioni su un grafico:

Fin dall'inizio possiamo già vedere che il valore più lontano dal resto può essere molto probabilmente un valore anomalo.

Per prima cosa calcoliamo la media e la deviazione standard:

x = media = 5.8

sigma = deviazione standard = 10,51

Quindi sostituiamo i valori nella formula e calcoliamo il valore di z per ogni osservazione:

I valori di cui sopra sono i fattori moltiplicativi di sigma, cioè z. Tutto ciò che è maggiore di 3 o minore di -3 sarà un valore estremo.

Possiamo vedere che il valore di z che supera 3 deviazioni standard è quella corrispondente all'osservazione 49.

Pertanto, il valore estremo o anomalo del set di dati sarebbe 49.

Messaggi Popolari

NAFTA e il suo difficile processo di negoziazione

Il NAFTA o Accordo di libero scambio nordamericano è stato firmato nel 1992 ed è in vigore dal 1994. Questo accordo ha stabilito un'area che ha consentito il libero scambio tra Messico, Stati Uniti e Canada. Dopo quasi un quarto di secolo di attività, i tempi sono cambiati ed è oraLeggi di più…

I più grandi fallimenti aziendali della storia

Il fallimento di un'azienda è sempre un dramma, non solo per manager e azionisti. La caduta delle grandi aziende provoca effetti terribili sull'economia: diminuzione dei consumi, disoccupazione e impoverimento della società. Ecco alcuni dei fallimenti più famosi della storia. A capo dei grandi fallimentiLeggi di più…

I creatori di Angry Birds preparano la loro IPO

L'azienda finlandese Rovio Entertainement, nota per essere la creatrice del popolare gioco Angry Birds, sta preparando la sua IPO. A quanto pare, Rovio sta preparando un'Offerta Pubblica di Vendita di azioni del valore di 30 milioni di euro che le consentirà di effettuare acquisizioni. Su Economy-Wiki.com analizziamo i piani dell'azienda scandinava. È buono Leggi di più…