Il rho di Spearman è una misura di dipendenza non parametrica in cui viene calcolata la gerarchia media delle osservazioni, le differenze vengono quadrate e incorporate nella formula.
In altre parole, assegniamo una classifica alle osservazioni di ciascuna variabile e studiamo la relazione di dipendenza tra due variabili date.
Le correlazioni classificate sono un'alternativa non parametrica come misura della dipendenza tra due variabili quando non possiamo applicare il coefficiente di correlazione di Pearson.
Generalmente viene assegnata la lettera giega rho al coefficiente di correlazione.
La stima rho di Spearman è data da:
Procedura Rho Spearman
0. Partiamo da un campione di n osservazioni (Aio, Bio).
1. Classificare le osservazioni di ciascuna variabile aggiustandole per i legami.
- Usiamo una funzione excel che classifica per noi le osservazioni e le regola automaticamente se trova legami tra gli elementi. Questa funzione si chiama HERARCH.MEDIA (classificazione Aio; Una classificazionen;ordine).
- L'ultimo fattore della funzione è facoltativo e ci dice in quale ordine vogliamo ordinare le osservazioni. Un numero diverso da zero ordinerà le osservazioni in ordine crescente. Ad esempio, assegnerà all'elemento più piccolo un rango di 1. Se mettiamo uno zero nella variabile ordine, assegnerà all'elemento più grande un rango di 1 (ordine decrescente).
Esempio pratico
- Nel nostro caso, assegniamo alla variabile d'ordine un numero diverso da zero per ordinare le osservazioni in ordine crescente. Cioè, assegnando all'elemento più piccolo della variabile un rango di 1.
- Verifichiamo che le somme totali delle colonne di Classificazione A sì Classificazione B sono uguali tra loro e si incontrano:
In questo caso n = 10 perché abbiamo un totale di 10 elementi/osservazioni in ogni variabile PER sì B.
La somma totale della Classificazione A è uguale alla somma totale della Classificazione Y e soddisfano anche la formula di cui sopra.
PER | B | Classificazione A | Classificazione B | Differenze al quadrato |
0 | 50 | 2,5 | 8,5 | 36 |
70 | -20 | 9 | 3 | 36 |
-20 | 30 | 1 | 6,5 | 30,25 |
40 | -90 | 6 | 1 | 25 |
30 | 0 | 5 | 4 | 1 |
50 | 30 | 7 | 6,5 | 0,25 |
20 | 20 | 4 | 5 | 1 |
0 | -40 | 2,5 | 2 | 0,25 |
80 | 70 | 10 | 10 | 0 |
60 | 50 | 8 | 8,5 | 0,25 |
Totale | 55 | 55 | 130 |
2. Aggiungi le differenze tra le classifiche e quadrale.
- Una volta che abbiamo tutte le osservazioni classificate tenendo conto dei legami tra di loro, calcoliamo la differenza nella forma:
dio = Aio - Bio
Definiamo (dio) come differenza tra la classificazione di Aio e la classificazione di Bio.
- Una volta ottenuta la differenza, la quadrate. I quadrati delle differenze vengono applicati per avere solo valori positivi.
Definiamo dio2 come la differenza al quadrato tra la classificazione di Aio e la classificazione di Bio.
Nella colonna delle differenze al quadrato avremo:
dio2 = (Aio - Bio)2
3. Calcola rho di Spearman:
- Calcoliamo la somma totale delle differenze al quadrato della forma:
Nel nostro esempio:
- Incorporiamo il risultato nella formula rho di Spearman:
Nel nostro esempio:
Confronto: Pearson vs Spearman
Se calcoliamo il coefficiente di correlazione di Pearson date le osservazioni precedenti e lo confrontiamo con il coefficiente di correlazione di Spearman, otteniamo:
- Pearson = 0,1109
- Lanciere = 0.2121
Possiamo vedere che la dipendenza tra le variabili A e B rimane debole anche usando Spearman invece di Pearson.
Se i valori anomali avessero molta influenza sui risultati, troveremmo una grande differenza tra Pearson e Spearman e, quindi, dovremmo usare Spearman come misura della dipendenza.