La normalizzazione è utile quando i tuoi dati hanno scale variabili e l'algoritmo che stai utilizzando non fa supposizioni sulla distribuzione dei tuoi dati, come k-neiest neighbors e neurale artificiale reti. La standardizzazione presuppone che i dati abbiano una distribuzione gaussiana (curva a campana).
Quando dovremmo normalizzare i dati?
I dati dovrebbero essere normalizzati o standardizzati per portare tutte le variabili in proporzione tra loro. Ad esempio, se una variabile è 100 volte più grande di un' altra (in media), il tuo modello potrebbe comportarsi meglio se normalizzi/standardizzi le due variabili in modo che siano approssimativamente equivalenti.
Qual è la differenza tra normalizzazione e standardizzazione?
Normalizzazione in genere significa ridimensionare i valori in un intervallo di [0, 1]. La standardizzazione in genere significa ridimensionare i dati per avere una media di 0 e una deviazione standard di 1 (varianza unitaria).
Quando e perché abbiamo bisogno della normalizzazione dei dati?
In termini più semplici, normalizzazione assicura che tutti i tuoi dati appaiano e vengano letti allo stesso modo in tutti i record. La normalizzazione standardizzerà i campi inclusi nomi di società, nomi di contatti, URL, informazioni sull'indirizzo (vie, stati e città), numeri di telefono e titoli di lavoro.
Come scegli la normalizzazione e la standardizzazione?
Nel mondo degli affari, "normalizzazione" in genere significa che l'intervallo di valori lo è"normalizzato per essere compreso tra 0,0 e 1,0". "Standardizzazione" in genere significa che l'intervallo di valori è "standardizzato" per misurare quante deviazioni standard il valore è dalla sua media.