Multicollinearità - Cos'è, definizione e concetto

Sommario:

Anonim

La multicollinearità è la forte relazione di dipendenza lineare tra più di due variabili esplicative in una regressione multipla che viola l'assunzione di Gauss-Markov quando è esatta.

In altre parole, la multicollinearità è l'elevata correlazione tra più di due variabili esplicative.

Sottolineiamo che la relazione lineare (correlazione) tra le variabili esplicative deve essere forte. È molto comune che le variabili esplicative della regressione siano correlate. Quindi, va sottolineato che questa relazione deve essere forte, ma mai perfetta, per essere considerata un caso di multicollinearità. La relazione lineare sarebbe perfetta se il coefficiente di correlazione fosse 1.

Quando questa forte relazione lineare (ma non perfetta) si verifica solo tra due variabili esplicative, diciamo che è un caso di collinearità. Sarebbe multicollinearità quando la relazione lineare forte si verifica tra più di due variabili indipendenti.

L'assunzione di Gauss-Markov sulla non multicollinearità esatta definisce che le variabili esplicative in un campione non possono essere costanti. Inoltre, non dovrebbero esistere relazioni lineari esatte tra variabili esplicative (nessuna collinearità esatta). Gauss-Markov non ci consente la multicollinearità esatta, ma approssima la multicollinearità.

Analisi di regressione

Applicazioni

Ci sono casi molto particolari, solitamente poco realistici, in cui le variabili di regressione sono completamente slegate tra loro. In questi casi si parla di esogeneità delle variabili esplicative. Le scienze sociali sono generalmente famose per aver incorporato la multicollinearità approssimativa nelle loro regressioni.

Multicollinearità esatta

La multicollinearità esatta si verifica quando più di due variabili indipendenti sono una combinazione lineare di altre variabili indipendenti nella regressione.

I problemi

Quando Gauss Markov proibisce la multicollinearità esatta è perché non possiamo ottenere lo stimatore dei minimi quadrati ordinari (OLS).

Esprimendo matematicamente il beta sub-i stimato in forma matriciale:

Quindi, se esiste una multicollinearità esatta, fa sì che la matrice (X'X) abbia un determinante 0 e, quindi, non sia invertibile. Non essere invertibile implica non essere in grado di calcolare (X'X)-1 e di conseguenza nemmeno il Beta stimato sub-i.

Multicollinearità approssimata

La multicollinearità approssimativa si verifica quando più di due variabili indipendenti non sono esattamente (approssimazione) una combinazione lineare di altre variabili indipendenti nella regressione.

La variabile k rappresenta una variabile casuale (indipendente e identicamente distribuita (i.i.d)). La frequenza delle tue osservazioni può essere approssimata in modo soddisfacente a una distribuzione Normale standard con media 0 e varianza 1. Poiché è una variabile casuale, implica che in ogni osservazione i, il valore di k sarà diverso e indipendente da qualsiasi valore precedente.

I problemi

Esprimendo matematicamente in forma matriciale:

Quindi, se esiste una multicollinearità approssimativa, la matrice (X'X) è approssimativamente 0 e il coefficiente di determinazione molto vicino a 1.

Soluzione

La multicollinearità può essere ridotta eliminando i regressori delle variabili con un'elevata relazione lineare tra loro.

Coefficiente di correlazione lineare