La statistica descrittiva è una disciplina che è responsabile della raccolta, dell'archiviazione, dell'ordinamento, della creazione di tabelle o grafici e del calcolo dei parametri di base sul set di dati.
La statistica descrittiva è, insieme all'inferenza statistica o statistica inferenziale, uno dei due grandi rami della statistica. Il suo stesso nome lo indica, cerca di descrivere qualcosa. Ma non descriverlo in alcun modo, ma in modo quantitativo. Considera il peso di una scatola di verdure, l'altezza di una persona o la quantità di denaro che guadagna un'azienda. Potremmo dire molte cose su queste variabili. Ad esempio, potremmo indicare che questa o quella scatola di pomodori pesano molto o pesano meno delle altre. Continuando con un altro esempio, potremmo dire che il reddito di un'azienda varia molto nel tempo o che una persona ha un'altezza media.
Per dettare le affermazioni di cui sopra, su una variabile molto, piccola, alta, bassa, molto variabile o piccola, abbiamo bisogno di variabili di misurazione. Cioè, dobbiamo quantificarli, offrire un numero. Con questo in mente, potremmo usare grammi o chilogrammi come unità di misura per trovare il peso di tante scatole di pomodori quante ne consideriamo. Una volta pesate trenta scatole, sapremo quali pesano di più, quali pesano di meno, quanto è la più ripetuta o se c'è molta disparità tra i pesi delle diverse scatole.
La statistica descrittiva è nata con questa idea, al fine di raccogliere dati, archiviarli, fare tabelle o anche grafici che ci offrono informazioni su un determinato argomento. Inoltre, ci offrono misure che riassumono le informazioni di una grande quantità di dati.
Tipi di variabili statistiche
All'interno delle statistiche descrittive, possiamo descrivere i dati qualitativamente o quantitativamente.
- Variabile qualitativa: Si riferisce a una qualità. Esempi: il colore degli occhi o il colore dei capelli di una persona.
- Variabile quantitativa: Si riferisce a una misura quantitativa. Esempi: l'altezza di una persona in centimetri o il peso di una persona in chilogrammi.
Pertanto, su queste variabili possono essere calcolati alcuni parametri. Soprattutto sulle variabili quantitative. Dal momento che, ad esempio, qual è il valore medio del colore degli occhi? Se ci sono cinque persone con il colore degli occhi blu e cinque con il colore degli occhi verdi, la media non sarà che abbiano un colore medio degli occhi blu-verde. Pertanto, in tal caso non sarebbe possibile calcolare alcuni dei parametri che vedremo di seguito.
Variabile statisticaParametri statistici di base
Per sintetizzare le informazioni sono state ideate diverse formule che offrivano misure di un certo tipo. Quindi, ci sono quelli che ci offrono informazioni sul centro, altri sulla dispersione o variabilità e altri sulla posizione di un valore.
- Misure di tendenza centrale: Così chiamati perché forniscono informazioni sul dataset center. Ad esempio, la media è una misura della tendenza o della posizione centrale poiché la media ci fornisce un valore centrato del set di dati. Dove potremmo dire che si trova il punto medio? In centro, a metà circa. Un altro esempio di misura di tendenza centrale è la mediana.
- Misure di dispersione: Sono anche conosciute come misure di variabilità. Ad esempio, la deviazione standard è una misura della variabilità poiché ci dice se i valori di un set di dati sono molto disparati o meno. Altri due esempi di misure di dispersione potrebbero essere la varianza e l'intervallo statistico.
- Misure di posizione: Non sono i più conosciuti, ma sono usati frequentemente. Un esempio di ciò si trova nei percentili o nei decili. Quando un dato specifico si trova nel 90° percentile, significa che il 90% dei dati è al di sotto di quel dato. Esistono altre misure di posizione come i quartili o alcune varianti come il primo quartile.
Distribuzione di frequenza
È anche interessante vedere come sono distribuite le frequenze. Per questo, ci sono alcuni concetti che dobbiamo conoscere:
- Frequenza assoluta: è il numero totale di volte in cui viene ripetuta un'osservazione. Le osservazioni possono talvolta essere presentate a intervalli.
- Frequenza relativa: è il numero in percentuale di ripetizione di un'osservazione o di un insieme di esse.
- Frequenza accumulata: può essere accumulata relativa o accumulata assoluta. Indica l'importo accumulato fino a una certa osservazione.
Tabelle e grafici in statistica descrittiva
Sebbene tabelle e grafici non siano esclusivi della statistica descrittiva, la caratterizzano. Nelle relazioni, negli studi e nelle ricerche, l'uso dei grafici è molto comune. Ci aiutano a mostrare le informazioni in modo più semplice e limitato.
Naturalmente, all'interno delle tabelle e dei grafici ci sono una quantità immensa di tipi. Di seguito sono riportati alcuni esempi di grafici e tabelle utilizzati di frequente.
- Istogramma.
- Grafico a barre.
- Grafico a torta.
- Tabelle di probabilità.
- Tabelle bidimensionali.
- Grafico a scatola.
Esempi di statistiche descrittive
Un esempio di statistica descrittiva potrebbe essere quando vogliamo calcolare la media dei goal a partita di un calciatore. È statistica descrittiva, poiché cerchiamo di descrivere una variabile (numero di obiettivi). In questo caso, calcolando una metrica.
Quindi dire che Ronaldo ha segnato 1,05 gol a partita nelle ultime 30 partite è una corretta frase statistica descrittiva.
Potremmo anche dire, per esempio, che il 30% dei compagni di classe di Juan ha gli occhi azzurri, il 60% castani e il restante 10% neri. Sarebbe una variabile qualitativa (colore degli occhi), ma stiamo descrivendo la frequenza con cui appare.