La normalizzazione è usata per eliminare i dati ridondanti e garantisce che vengano generati cluster di buona qualità che possono migliorare l'efficienza degli algoritmi di clustering. Quindi diventa un passaggio essenziale prima del clustering come distanza euclidea è molto sensibile ai cambiamenti nelle differenze[3].
Dobbiamo normalizzare i dati per il clustering K-medie?
Come nel metodo k-NN, le caratteristiche utilizzate per il raggruppamento devono essere misurate in unità comparabili. In questo caso, le unità non sono un problema poiché tutte e 6 le caratteristiche sono espresse su una scala a 5 punti. La normalizzazione o la standardizzazione non sono necessarie.
Come prepari i dati prima del clustering?
Preparazione dei dati
Per eseguire un'analisi cluster in R, generalmente, i dati dovrebbero essere preparati come segue: le righe sono osservazioni (individui) e le colonne sono variabili. Qualsiasi valore mancante nei dati deve essere rimosso o stimato. I dati devono essere standardizzati (cioè scalati) per rendere le variabili comparabili.
I dati dovrebbero essere ridimensionati per il clustering?
Nel clustering, calcoli la somiglianza tra due esempi combinando tutti i dati delle caratteristiche per quegli esempi in un valore numerico. La combinazione dei dati delle caratteristiche richiede che i dati abbiano la stessa scala.
Perché è importante normalizzare le funzionalità prima del clustering?
La standardizzazione è un passaggio importante dei datipreelaborazione.
Come spiegato in questo articolo, la k-mean minimizza la funzione di errore utilizzando l'algoritmo di Newton, ovvero un algoritmo di ottimizzazione basato su gradiente. La normalizzazione dei dati migliora la convergenza di tali algoritmi.