Una statistica sufficiente per un parametro è quella in grado di raccogliere o riassumere tutte le informazioni che contiene il campione di una variabile casuale X.
Sappiamo che una statistica è una funzione reale del campione. Cioè, prende i valori reali contenuti nel campione. Da lì, come abbiamo visto nell'articolo in cui viene definito il concetto di statistica, dobbiamo assicurarci che lo statistico abbia determinate proprietà. Perché richiedere tali proprietà? Per garantire che la statistica sia utile per i nostri scopi.
La sufficienza è una di quelle proprietà. In modo molto più semplice diremo che una statistica è sufficiente se utilizza tutte le informazioni contenute nel campione.
Come sapere se una statistica è sufficiente?
Logicamente, la domanda che sorge è: come posso sapere se una statistica T soddisfa la proprietà di sufficienza? Oppure Come posso trovare, se esiste, una statistica che soddisfi la proprietà di sufficienza. La risposta a queste due domande si trova in due teoremi:
- Criterio di fattorizzazione di Fisher-Neyman: Questo criterio afferma che data una statistica T, se soddisfa determinate condizioni, allora sarà una statistica sufficiente.
- Teorema di Darmois: Questo teorema risponde alla seconda domanda. Cioè, ci permette di trovare una statistica sufficiente attraverso una serie di procedure.
Esempio di una statistica sufficiente
Supponiamo di voler calcolare il reddito medio annuo delle famiglie residenti in Cile. Per fare ciò, seguiremo il seguente processo:
- Raccogliere informazioni (campione): Poiché non possiamo chiedere a ciascuna delle famiglie residenti in Cile quanto guadagnano annualmente, prenderemo un campione rappresentativo, ad esempio, di 1.000 famiglie.
- Identificare la variabile casuale oggetto di studio: La variabile casuale oggetto di studio è il reddito familiare. Quindi: X → Reddito familiare
- Scegli la statistica giusta: La statistica appropriata per calcolare il reddito medio non è altro che l'aspettativa di X. In altre parole, la media campionaria di X.
- Come posso sapere se la statistica media campionaria è una statistica sufficiente? Poiché abbiamo già l'espressione matematica della statistica, utilizzeremo il criterio di fattorizzazione di Fisher-Neyman. Oppure, il teorema di Darmois. Sono formule create per questo scopo.
Dopo aver applicato i calcoli corretti, concludiamo che la statistica media campionaria soddisfa il requisito o la proprietà di sufficienza. Assicurandoci che soddisfi questo requisito, garantiamo che questa funzione (statistica), che ci permette di sintetizzare le informazioni (il reddito medio), utilizzi tutte le informazioni contenute nel campione (le 1.000 famiglie).
Perché è importante utilizzare tutte le informazioni nel campione?
Ora che sappiamo che la media campionaria è una statistica sufficiente, assumiamo un caso. Che senso avrebbe voler calcolare il reddito medio in base a quelle 1.000 famiglie cilene e che usiamo solo i dati di 500 famiglie?
Ovviamente non avrebbe alcun senso. Vogliamo un riassunto di tutte le informazioni. Cioè quella che abbiamo definito statistica sufficiente.