Quando normalizzare o standardizzare i dati?

Quando normalizzare o standardizzare i dati?
Quando normalizzare o standardizzare i dati?
Anonim

La normalizzazione è utile quando i tuoi dati hanno scale variabili e l'algoritmo che stai utilizzando non fa supposizioni sulla distribuzione dei tuoi dati, come k-neiest neighbors e neurale artificiale reti. La standardizzazione presuppone che i dati abbiano una distribuzione gaussiana (curva a campana).

Quando dovremmo normalizzare i dati?

I dati dovrebbero essere normalizzati o standardizzati per portare tutte le variabili in proporzione tra loro. Ad esempio, se una variabile è 100 volte più grande di un' altra (in media), il tuo modello potrebbe comportarsi meglio se normalizzi/standardizzi le due variabili in modo che siano approssimativamente equivalenti.

Qual è la differenza tra normalizzazione e standardizzazione?

Normalizzazione in genere significa ridimensionare i valori in un intervallo di [0, 1]. La standardizzazione in genere significa ridimensionare i dati per avere una media di 0 e una deviazione standard di 1 (varianza unitaria).

Quando e perché abbiamo bisogno della normalizzazione dei dati?

In termini più semplici, normalizzazione assicura che tutti i tuoi dati appaiano e vengano letti allo stesso modo in tutti i record. La normalizzazione standardizzerà i campi inclusi nomi di società, nomi di contatti, URL, informazioni sull'indirizzo (vie, stati e città), numeri di telefono e titoli di lavoro.

Come scegli la normalizzazione e la standardizzazione?

Nel mondo degli affari, "normalizzazione" in genere significa che l'intervallo di valori lo è"normalizzato per essere compreso tra 0,0 e 1,0". "Standardizzazione" in genere significa che l'intervallo di valori è "standardizzato" per misurare quante deviazioni standard il valore è dalla sua media.