Test di Kolmogorov - Smirnoff (K-S)

Il test di Kolmogorov-Smirnoff (K-S) è un test non parametrico che mira a determinare se la frequenza di due diversi set di dati segue la stessa distribuzione attorno alla loro media.

In altre parole, il test di Kolmogorov-Smirnoff (K-S) è un test che si adatta alla forma dei dati e viene utilizzato per verificare se due campioni diversi seguono la stessa distribuzione.

Perché è un test non parametrico?

Il bello della caratteristica “non parametrica” è che si adatta ai dati e, di conseguenza, alle distribuzioni che possono seguire la frequenza dei dati. Inoltre, questa funzione ci evita di dover supporre a priori quale distribuzione segue il campione.

Importanza del test K-S

Quante volte ci sono stati dati due campioni e abbiamo calcolato il coefficiente di correlazione di Pearson senza pensarci due volte? In altre parole, se vogliamo vedere la relazione lineare tra due set di dati, sarebbe giusto calcolare la correlazione, giusto?

Questa deduzione sarebbe vera se le distribuzioni dei due campioni seguono una distribuzione normale. Il coefficiente di correlazione presuppone che le distribuzioni siano normali, se saltiamo questa ipotesi, il risultato del coefficiente di correlazione è sbagliato. Per i test di ipotesi e gli intervalli di confidenza assumiamo inoltre che la popolazione sia distribuita attraverso una distribuzione normale.

Come tutti i test di ipotesi che coinvolgono le statistiche, è importante disporre di un grande volume di dati per avere risultati statisticamente significativi. Possiamo erroneamente rifiutare un'ipotesi nulla perché il campione è piccolo. Inoltre, è anche importante che questo campione abbia alcuni casi estremi (valori anomali, in inglese) per dare consistenza al risultato del test.

Procedura di prova

La procedura dei passaggi successivi.

Ipotesi

Il primo passo sarà verificare se entrambi i campioni hanno la stessa distribuzione. Per fare ciò, eseguiamo un test di ipotesi assumendo che entrambi i campioni abbiano la stessa distribuzione contro l'ipotesi alternativa che siano diversi.

statistica

Lavoriamo con le funzioni di distribuzione cumulativa di due campioni, F1(x) e F2(X):

Niente panico! Analizziamo con calma la formula di cui sopra:

  • La parte importante della formula è il segno di differenza (-). Cerchiamo differenze verticali nelle distribuzioni. Quindi, sottrarremo entrambe le funzioni di distribuzione cumulativa.
  • Il operatore "massimo". Siamo interessati a trovare la differenza più grande o massima per vedere quanto possono essere diverse le due distribuzioni.
  • Il valore assoluto. Usiamo il valore assoluto in modo che l'ordine degli operatori non alteri il risultato. In altre parole, non importa quale F (x) ha il segno negativo:

Valore critico

Per campioni di grandi dimensioni esiste un'approssimazione al valore critico per K-S che dipende dal livello di significatività (%):

Dove1 e n2 sono le dimensioni del campione per il campione F1(x) e F2(x) rispettivamente.

Alcuni valori critici calcolati:

Regola di rifiuto

App

Molto spesso si vuole verificare se due distribuzioni sono sufficientemente diverse tra loro quando si vogliono costruire scenari di previsione (si lavora con due campioni) o quando si vuole valutare quale distribuzione si adatta meglio ai dati (si lavora con un solo campione).

Aiuterete lo sviluppo del sito, condividere la pagina con i tuoi amici

wave wave wave wave wave