Deviazione quartile - Che cos'è, definizione e concetto

Sommario:

La deviazione quartile è una misura statistica della dispersione che restituisce il valore centrale dell'intervallo interquartile e viene utilizzata nei set di dati distorti.

In altre parole, la deviazione del quartile serve a calcolare la mediana dell'intervallo interquartile (IQR) e viene utilizzata in set di dati con alcuni valori estremi.

La scorciatoia per la deviazione del quartile è DQ.

Intervallo interquartile

L'intervallo interquartile è una misura della dispersione di un set di dati generalmente utilizzato nel box plot. In altre parole, l'intervallo interquartile è la differenza tra il penultimo e il primo quartile di una distribuzione utilizzata nel box plot.

IQR = Q3 - Q1

Il vantaggio dell'utilizzo dell'intervallo interquartile è che è possibile calcolare la deviazione del quartile (DQ), che è una misura di dispersione molto adeguata quando abbiamo set di dati distorti.

Formula di deviazione quartile

La deviazione quartile viene calcolata come la divisione dell'intervallo interquartile per 2.

DQ = (Q3 - Q1) / 2 = RIC / 2

Poiché consideriamo solo la dispersione tra il terzo e il primo quartile, ignoriamo tutti i dati al di fuori di tale intervallo. E quindi tutti valori prossimi all'estremo. Quindi, se dividiamo l'intervallo interquartile per due otterremo il valore mediano della dispersione.

Esempio di deviazione quartile

Supponiamo di voler calcolare l'intervallo interquartile e lo scarto quartile del numero di ciclisti che passano da casa nostra durante l'anno.

Per prima cosa contiamo i ciclisti e raccogliamo le informazioni in una tabella.

In secondo luogo, calcoliamo il primo e il terzo quartile per ottenere l'intervallo interquartile.

Q3 = 550

Q1 = 200

IQR = Q3 - Q1 = 550 - 200 = 350

Terzo, calcoliamo la dispersione del quartile semplicemente dividendo l'intervallo interquartile per due.

DQ = (Q3 - Q1) / 2 = IQR / 2 = 350/2 = 175

Lo spread quartile per questo set di dati è 175. Questo numero è il valore centrale dell'intervallo interquartile.

È importante notare che i dati per il mese di luglio sono dati estremi poiché è molte volte superiore a tutti gli altri dati. Quindi, potremmo dire che questo set di dati è sbilanciato verso quel mese. Grazie alla “ignoranza” della dispersione del quartile verso dati estremi, il risultato di questa misura è molto simile a se a luglio circolassero solo 600 ciclisti. Se a luglio ci fossero solo 600 ciclisti, la dispersione del quartile sarebbe 162,5, molto vicina a 175 considerando che il numero di ciclisti in quel mese è 10 volte inferiore.