Rileva valori anomali utilizzando la distribuzione normale

La rilevazione degli outlier attraverso la distribuzione normale è un processo che prevede la definizione di una soglia di deviazione standard e con la quale si intende trovare valori estremi di un campione.

In altre parole, rilevare gli outlier attraverso la distribuzione normale significa trovare i valori estremi di un set di dati attraverso la formula normale standardizzata.

  • I valori estremi sono chiamati valori anomali in inglese.
  • I valori interno sono chiamati addetti ai lavori in inglese.

Il rilevamento visivo degli outlier può essere un'opzione quando si dispone di pochissimi dati. Quando si lavora con i database è molto poco pratico dover trovare manualmente i valori anomali. Per risolvere questo problema, possiamo calcolare quali sono i valori considerati estremi confrontandoli con una soglia di deviazioni.

Nel caso della distribuzione normale, un valore è considerato estremo quando dista 3 deviazioni standard dalla media. Poiché la distribuzione normale ha 2 code, dobbiamo considerare che può essere rimpicciolita sia sul lato negativo che su quello positivo.

Formula per rilevare valori anomali utilizzando la distribuzione normale

Un insieme di osservazioni può essere espresso nel modo precedente, dove x è il valore medio su cui oscillano i valori e sigma la dispersione dell'oscillazione di detti valori. In altre parole, sigma è la distanza delle osservazioni dal valore medio.

Il fattore moltiplicativo determina se si tratta di un outlier o di un insider. Se z assume i valori di 3 o -3, allora, secondo la distribuzione normale, l'osservazione y sarà un valore anomalo.

Per conoscere il valore di z usiamo l'equazione precedente:

  • Se z> = 3 o z = <-3, allora, secondo la distribuzione normale, possiamo dire che è un valore estremo o outlier.
  • Se z <3 o z <-3, allora, secondo la distribuzione normale, possiamo dire che è un valore interno o un insider.

Standard normale

L'equazione di cui sopra è familiare?

Esatto, è l'espressione di un'osservazione che segue una distribuzione normale una volta standardizzata o tipizzata. Si chiama così perché quando si divide per la deviazione standard o standard, la differenza del numeratore viene espressa in termini di deviazioni.

Per questo motivo, possiamo associare i valori di deviazione a z e quindi poterlo acquistare con la soglia di 3 deviazioni.

Esempio

Trova i valori estremi delle seguenti osservazioni secondo la distribuzione normale:

Rappresentiamo le osservazioni su un grafico:

Fin dall'inizio possiamo già vedere che il valore più lontano dal resto può essere molto probabilmente un valore anomalo.

Per prima cosa calcoliamo la media e la deviazione standard:

x = media = 5.8

sigma = deviazione standard = 10,51

Quindi sostituiamo i valori nella formula e calcoliamo il valore di z per ogni osservazione:

I valori di cui sopra sono i fattori moltiplicativi di sigma, cioè z. Tutto ciò che è maggiore di 3 o minore di -3 sarà un valore estremo.

Possiamo vedere che il valore di z che supera 3 deviazioni standard è quella corrispondente all'osservazione 49.

Pertanto, il valore estremo o anomalo del set di dati sarebbe 49.

Messaggi Popolari

Trump riesce a ridurre il deficit degli Stati Uniti al livello più basso dell'anno

Buone notizie sono in arrivo per gli Stati Uniti per quanto riguarda il commercio internazionale. Gli americani hanno registrato il loro deficit commerciale più piccolo in 11 mesi. Si tratta di un deficit commerciale che ad agosto si attesta a 42,4 miliardi di dollari. Ma come sono riusciti gli Stati Uniti a ridurre il proprio deficit commerciale? Miglioramento del Leggi di più…

Il FMI avverte che potremmo trovarci di fronte a una nuova crisi finanziaria

Il Fondo Monetario Internazionale (FMI) mette in guardia sugli alti livelli di indebitamento che si stanno verificando nelle famiglie dopo la Grande Recessione del 2008. L'organismo ha affermato che tale indebitamento potrebbe aumentare e diventare un notevole aumento del rischio di una nuova crisi finanziaria globale. Qualcosa che genera il massimoLeggi di più…

Analisi della situazione in Catalogna, e ora cosa facciamo?

A Economy-Wiki.com non ci piace posizionarci politicamente e cerchiamo sempre di essere il più obiettivi possibile. Preferiamo accendere la scintilla nel lettore e trarre le sue conclusioni. Certo, il minimo che andremo sempre a difendere è la democrazia e la libertà delle persone (oltre all'educazione finanziaria ovviamente). Prima diLeggi di più…