La deviazione quartile è una misura statistica della dispersione che restituisce il valore centrale dell'intervallo interquartile e viene utilizzata nei set di dati distorti.
In altre parole, la deviazione del quartile serve a calcolare la mediana dell'intervallo interquartile (IQR) e viene utilizzata in set di dati con alcuni valori estremi.
La scorciatoia per la deviazione del quartile è DQ.
Intervallo interquartile
L'intervallo interquartile è una misura della dispersione di un set di dati generalmente utilizzato nel box plot. In altre parole, l'intervallo interquartile è la differenza tra il penultimo e il primo quartile di una distribuzione utilizzata nel box plot.
IQR = Q3 - Q1
Il vantaggio dell'utilizzo dell'intervallo interquartile è che è possibile calcolare la deviazione del quartile (DQ), che è una misura di dispersione molto adeguata quando abbiamo set di dati distorti.
Formula di deviazione quartile
La deviazione quartile viene calcolata come la divisione dell'intervallo interquartile per 2.
DQ = (Q3 - Q1) / 2 = RIC / 2
Poiché consideriamo solo la dispersione tra il terzo e il primo quartile, ignoriamo tutti i dati al di fuori di tale intervallo. E quindi tutti valori prossimi all'estremo. Quindi, se dividiamo l'intervallo interquartile per due otterremo il valore mediano della dispersione.
Esempio di deviazione quartile
Supponiamo di voler calcolare l'intervallo interquartile e lo scarto quartile del numero di ciclisti che passano da casa nostra durante l'anno.
- Per prima cosa contiamo i ciclisti e raccogliamo le informazioni in una tabella.
- In secondo luogo, calcoliamo il primo e il terzo quartile per ottenere l'intervallo interquartile.
Q3 = 550
Q1 = 200
IQR = Q3 - Q1 = 550 - 200 = 350
- Terzo, calcoliamo la dispersione del quartile semplicemente dividendo l'intervallo interquartile per due.
DQ = (Q3 - Q1) / 2 = IQR / 2 = 350/2 = 175
Lo spread quartile per questo set di dati è 175. Questo numero è il valore centrale dell'intervallo interquartile.
È importante notare che i dati per il mese di luglio sono dati estremi poiché è molte volte superiore a tutti gli altri dati. Quindi, potremmo dire che questo set di dati è sbilanciato verso quel mese. Grazie alla “ignoranza” della dispersione del quartile verso dati estremi, il risultato di questa misura è molto simile a se a luglio circolassero solo 600 ciclisti. Se a luglio ci fossero solo 600 ciclisti, la dispersione del quartile sarebbe 162,5, molto vicina a 175 considerando che il numero di ciclisti in quel mese è 10 volte inferiore.