Cluster analysis - Cos'è, definizione e concetto

L'analisi dei cluster è un insieme di tecniche statistiche multivariate che mirano a raggruppare un insieme di casi o individui in cluster o cluster.

L'analisi dei cluster, quindi, è un tipo di raggruppamento statistico. L'obiettivo è rendere i dati in ogni cluster il più simili possibile tra loro e il più diversi possibile in relazione agli altri gruppi. Si può fare anche con le variabili.

Trasformazione dei dati nell'analisi dei cluster

Uno dei problemi che incontriamo quando raggruppiamo i dati è che a volte i dati sono in diverse unità di misura. Per questo motivo, è necessario eseguire un passaggio di analisi pre-cluster che consenta il clustering.

Il metodo più comune è la standardizzazione. Questo viene utilizzato per trasformare i dati in modo che abbiano unità di misura simili. Bisogna tenere conto di due regole, le variabili binarie non sono standardizzate e, se sono categoriali, diventano binarie (presenza/assenza).

Metodi nell'analisi dei cluster

Esistono molti metodi per eseguire la cluster analysis, ma in Economy-Wiki.com, seguendo il principio di semplicità che ci caratterizza, vedremo schematicamente i più rilevanti.

Metodi gerarchici

Una prima classificazione sarebbe metodi gerarchici o non gerarchici. I primi raggruppano gli individui in fasi gerarchiche (da cui il loro nome). In questo modo, solo un oggetto alla volta cambia gruppo, il resto rimane nello stesso posto.

Questi, a loro volta, sono classificati in:

Metodi agglomerativi

Consiste nel raggruppare ogni volta gli individui in meno cluster. Si parte da un numero di gruppi pari al numero di casi ed è in diminuzione.

I più noti sono:

  • Metodo del vicino più vicino: in questo caso si utilizza un algoritmo per raggruppare i dati. Quello che stai cercando è la distanza minima tra gli individui più vicini. È molto sensibile ai dati che possono causare il cosiddetto "rumore". Il metodo del vicino più lontano è simile.
  • Metodo della media tra i gruppi: Quello che fa è calcolare la media della distanza tra gli individui di un gruppo e uno di loro in particolare. È molto utile per ridurre il cosiddetto "rumore".
  • Il metodo di Ward: Quello che fa è aggiungere i quadrati delle deviazioni tra ogni individuo e la media del suo cluster, per evitare la perdita di informazioni. È uno dei più conosciuti e presenta i vantaggi del metodo basato sulla media, ma un maggiore potere discriminatorio.

Metodi dissociativi

In questo caso, quello che fai è dividere. Si inizia con un singolo cluster e vengono proposte divisioni in base a una serie di requisiti.

I più comuni sono:

  • Metodo della media tra i gruppi, del vicino più prossimo e del più vicino possibile: Questi tre metodi sono simili al caso precedente, ma utilizzano il metodo dissociativo. Cioè, questa volta ciò che facciamo è separare e non raggruppare.
  • Metodo del centroide: È ampiamente utilizzato nei problemi di ottimizzazione della posizione delle strutture. Utilizza questo tipo di analisi per trovare quelle più adatte.

Metodi non gerarchici

In questo caso iniziano con una soluzione preimpostata. Questo è il punto di partenza per l'analisi dei cluster. In questo modo i gruppi vengono stabiliti preventivamente e ogni caso verrà inserito in uno di essi, a seconda delle sue caratteristiche. A loro volta, possiamo dividerli in altri sottogruppi.

  • Metodi di riassegnazione: I più rilevanti sono i metodi del centroide, come k-means. Quelli dei medioidi, come PAM. O quello delle nuvole dinamiche.
  • Metodi diretti: il più importante è il clustering di blocchi, ampiamente utilizzato nel data mining.
  • Metodi riduttivi: Si basano sull'analisi fattoriale.
  • Metodi di ricerca della densità: Da un lato ci sarebbero quelli degli approcci tipologici, come l'analisi modale. Dall'altro abbiamo quelli probabilistici, come quello di Wolf.

Esempi di analisi di cluster

Vediamo, infine, alcuni esempi di applicazioni di cluster analysis.

  • Immaginiamo di avere un gruppo di paesi che vogliamo raggruppare in base a determinate variabili macroeconomiche, come l'inflazione o la disoccupazione. Possiamo utilizzare questo tipo di analisi per creare gruppi omogenei, ad esempio paesi più o meno sviluppati.
  • Un altro esempio potrebbe essere una serie di consumatori con determinate caratteristiche sociodemografiche. L'idea è quella di creare gruppi con individui simili e che, a loro volta, sono molto diversi tra loro.
  • Ma oltre all'economia, l'analisi dei cluster è utile in altre scienze. Ad esempio in biologia, per classificare le specie, o in geologia, per fare lo stesso con i minerali.

Aiuterete lo sviluppo del sito, condividere la pagina con i tuoi amici

wave wave wave wave wave