Criterio dell'informazione bayesiana

Il criterio dell'informazione bayesiana o criterio di Schwarz è un metodo che si concentra sulla somma dei quadrati dei residui per trovare il numero di periodi ritardati p che minimizzano questo modello.

In altre parole, vogliamo trovare il numero minimo di periodi ritardati che includiamo nell'autoregressione per aiutarci con la previsione della variabile dipendente.

In questo modo, avremo il controllo sul numero di periodi ritardati p che includiamo nella regressione. Quando supereremo questo livello ottimale, il modello di Schwarz smetterà di diminuire e quindi avremo raggiunto il minimo. Cioè, avremo raggiunto il numero di periodi ritardati p che minimizzano il modello di Schwarz.

Viene anche chiamato criterio informativo di Bayes (BIC).

Articoli consigliati: autoregressione, somma dei quadrati dei residui (SCE).

Formula del criterio di informazione bayesiana

Sebbene a prima vista sembri una formula complicata, esamineremo le parti per capirla. Prima di tutto, in linea generale dobbiamo:

I logaritmi in entrambi i fattori della formula rappresentano l'effetto marginale dell'inclusione di un periodo ritardato p più in auto-regressione.
N è il numero totale di osservazioni.
Possiamo dividere la formula in due parti: parte sinistra e parte destra.

La parte a sinistra:

Rappresenta la somma dei quadrati dei residui (SCE) dell'autoregressione dip periodi ritardati, diviso per il numero totale di osservazioni (N).

Per stimare i coefficienti utilizziamo i minimi quadrati ordinari (OLS). Quindi, quando includiamo nuovi periodi ritardati, la SCE (p) può essere solo mantenuta o ridotta.

Quindi, l'aumento di un periodo ritardato nell'autoregressione provoca:

SCE (p): diminuisce o rimane costante.
Coefficiente di determinazione: aumenta.
EFFETTO TOTALE: un aumento in un periodo ritardato provoca una diminuzione nella parte sinistra della formula.

Ora la parte giusta:

(p + 1) rappresenta il numero totale di coefficienti nell'autoregressione, cioè i regressori con i loro periodi ritardati (p) e l'intercetta (1).

Quindi, l'aumento di un periodo ritardato nell'autoregressione provoca:

(p + 1): aumenta perché incorporiamo un periodo ritardato.
EFFETTO TOTALE: un aumento in un periodo ritardato provoca un aumento nella parte destra della formula.

Esempio pratico

Supponiamo di voler fare una previsione sui prezzi delskipass per la prossima stagione 2020 con un campione di 5 anni ma non sappiamo quanti periodi di latenza utilizzare: AR (2) o AR (3)?

Scarichiamo i dati e calcoliamo i logaritmi naturali dei prezzi del skipass.

1. Stimiamo i coefficienti utilizzando OLS e otteniamo:

Somma dei quadrati dei residui (SCE) per AR (2) = 0,011753112

Coefficiente di determinazione per AR (2) = 0,085

2. Aggiungiamo un altro periodo ritardato per vedere come cambia la SCE:

Somma dei quadrati dei residui per AR (3) = 0.006805295

Coefficiente di determinazione per AR (3) = 0.47

Possiamo vedere che quando aggiungiamo un periodo ritardato nell'autoregressione, il coefficiente di determinazione aumenta e l'SCE diminuisce in questo caso.

Calcoliamo il criterio dell'informazione bayesiana:

Più piccolo è il modello BIC, più preferito è il modello. Allora AR (3) sarebbe il modello preferito rispetto ad AR (2) dato che il suo coefficiente di determinazione è più alto, lo SCE è più basso e anche il modello di Schwarz o criterio di informazione bayesiano è più basso.