Coefficiente di determinazione (R al quadrato)

Il coefficiente di determinazione è la proporzione della varianza totale della variabile spiegata dalla regressione. Il coefficiente di determinazione, detto anche R al quadrato, riflette la bontà di adattamento di un modello alla variabile che intende spiegare.

È importante sapere che il risultato del coefficiente di determinazione oscilla tra 0 e 1. Più il suo valore è vicino a 1, maggiore è l'adattamento del modello alla variabile che stiamo cercando di spiegare. Viceversa, più vicino allo zero sarà il modello meno stretto e, quindi, meno affidabile.

Nell'espressione precedente abbiamo una frazione. Quindi, andiamo per parti. Per prima cosa, analizzeremo il numeratore, cioè la parte superiore.

Per coloro che non conoscono l'espressione della varianza, consiglio di leggere l'articolo a riguardo. Per coloro che lo conoscono, possono rendersi conto che è l'espressione della varianza, ma con due differenze fondamentali.

La prima differenza è che la Y ha un accento circonflesso o ciò che gli insegnanti chiamano didatticamente un "cappello". Ciò che quel cappello descrive è che Y è la stima di un modello di ciò che secondo le variabili esplicative vale Y, ma non è il valore reale di Y, ma una stima di Y.

In secondo luogo, sarebbe necessario dividere per T. Che, in altri casi, è indicato come N o numero di osservazioni. Tuttavia, poiché anche la formula del denominatore lo riporterebbe, rimuoviamo i denominatori (in basso) da entrambe le formule per semplificare l'espressione. In questo modo è più facile lavorarci.

Successivamente, eseguiremo la stessa analisi con la parte denominatore (parte inferiore).

In questo caso, l'unica differenza rispetto alla formula della varianza originale è l'assenza del denominatore. Cioè, non dividiamo per T o N. In questo modo, una volta spiegate le due parti dell'espressione generica di R al quadrato o coefficiente di determinazione, vedremo un esempio.

Coefficiente di variazioneCoefficiente di correlazione lineareAnalisi di regressione

Interpretazione del coefficiente di determinazione

Supponiamo di voler spiegare il numero di goal segnati da Cristiano Ronaldo in base al numero di partite giocate. Partiamo dal presupposto che più partite giocate, più gol segnerà. I dati si riferiscono alle ultime 8 stagioni. Quindi, dopo aver estratto i dati, il modello fornisce la seguente stima:

Come possiamo vedere dal grafico, la relazione è positiva. Più partite giocate, ovviamente, più gol segna in stagione. L'adattamento, basato sul calcolo R-squared, è 0,835. Ciò significa che si tratta di un modello le cui stime si adattano abbastanza bene alla variabile reale. Sebbene tecnicamente non sarebbe corretto, potremmo dire qualcosa del genere che il modello spiega l'83,5% della variabile reale.

Il problema del coefficiente di determinazione

Il problema del coefficiente di determinazione, e il motivo per cui si pone il coefficiente di determinazione corretto, è che non penalizza l'inclusione di variabili esplicative non significative. Cioè, se al modello si aggiungono cinque variabili esplicative che hanno poca relazione con i gol che Cristiano Ronaldo segna in una stagione, la R al quadrato aumenterà. Questo è il motivo per cui molti esperti di econometria, statistica e matematica si oppongono all'uso di R al quadrato come misura rappresentativa della bontà dell'adattamento reale.

Il coefficiente di determinazione corretto

Il coefficiente di determinazione corretto (R al quadrato corretto) è la misura che definisce la percentuale spiegata dalla varianza della regressione rispetto alla varianza della variabile spiegata. Cioè, lo stesso della R al quadrato, ma con una differenza: il coefficiente di determinazione corretto penalizza l'inclusione delle variabili.

Come abbiamo detto prima, il coefficiente di determinazione di un modello aumenta anche se le variabili che includiamo non sono rilevanti. Trattandosi di un problema, per cercare di risolverlo, la R al quadrato rettificata è tale che:

Nella formula, N è la dimensione del campione e k è il numero di variabili esplicative. Per deduzione matematica, più alti sono i valori di k, più lontano sarà l'R al quadrato corretto dal normale R al quadrato. Viceversa, a valori inferiori di k, più la frazione centrale sarà vicina a 1 e, quindi, l'R al quadrato corretto e l'R al quadrato normale saranno più simili.

Ricordando che k è il numero di variabili esplicative, deduciamo che questo non può essere zero. Se fosse zero, non ci sarebbe nessun modello. Per lo meno, dovremo spiegare una variabile in termini di un'altra variabile. Poiché k deve essere almeno 1, l'R al quadrato corretto e l'R al quadrato normale non possono avere lo stesso valore. Inoltre, l'R al quadrato corretto sarà sempre inferiore al normale R al quadrato.

Messaggi Popolari

Google, il più grande esponente dell'ingegneria fiscale

Il motore di ricerca, ora integrato nella società Alphabet, ha inviato quasi 11.000 milioni di euro al paradiso fiscale delle Bermuda dalla sua sede europea nei Paesi Bassi, al fine di evitare le tasse corrispondenti all'anno finanziario 2014. Le informazioni rilasciate dalla filiale di Amsterdam assicurano che la società online ha pagato solo 2,8 milioni di euroLeggi di più…

New York apre le porte all'innovazione straniera

La più grande metropoli degli Stati Uniti promuove nuove strategie rivolte agli imprenditori stranieri che hanno in mente un'idea imprenditoriale fattibile, pratica e che, insomma, possa aggiungere valore aggiunto all'economia. L'iniziativa, rivolta agli immigrati e che, quindi, è accompagnata da un programma che facilita il visto perLeggi tutto…

La concorrenza cinese mina il settore siderurgico

L'industria siderurgica non sta attraversando il suo momento più dolce. Negli ultimi otto anni, secondo l'associazione dei datori di lavoro Eurofer, si è perso il 20% dei suoi dipendenti, mentre il rallentamento del colosso asiatico ha portato alla sua penultima crisi, che include sia il surplus produttivo che una sanguinosa guerra dei prezzi. TheLeggi di più…

Il turismo a Madrid cresce anche se non spende abbastanza

I turisti che hanno visitato la Comunità nel 2015 sono stati oltre 5 milioni, il 13% in più rispetto all'anno precedente, secondo i dati pubblicati dall'Istituto nazionale di statistica (INE). Il risultato è un completo successo per una regione spesso associata al turismo interno, nonostante la bassa spesa da parte dei viaggiatori.Leggi di piùRead…