La normalización es útil cuando sus datos tienen escalas variables y el algoritmo que está utilizando no hace suposiciones sobre la distribución de sus datos, como k-vecinos más cercanos y neural artificial redes La estandarización asume que sus datos tienen una distribución gaussiana (curva de campana).
¿Cuándo deberíamos normalizar los datos?
Los datos deben normalizarse o estandarizarse para poner todas las variables en proporción entre sí. Por ejemplo, si una variable es 100 veces más grande que otra (en promedio), entonces su modelo puede comportarse mejor si normaliza/estandariza las dos variables para que sean aproximadamente equivalentes.
¿Cuál es la diferencia entre normalización y estandarización?
La normalización generalmente significa reescalar los valores en un rango de [0, 1]. La estandarización generalmente significa reescalar los datos para tener una media de 0 y una desviación estándar de 1 (varianza unitaria).
¿Cuándo y por qué necesitamos normalizar los datos?
En términos más simples, la normalización asegura que todos sus datos se vean y lean de la misma manera en todos los registros. La normalización estandarizará campos que incluyen nombres de empresas, nombres de contactos, direcciones URL, información de direcciones (calles, estados y ciudades), números de teléfono y cargos.
¿Cómo elige la normalización y la estandarización?
En el mundo de los negocios, "normalización" generalmente significa que el rango de valores es"normalizado para ser de 0.0 a 1.0". "Estandarización" normalmente significa que el rango de valores está "estandarizado" para medir cuántas desviaciones estándar hay entre el valor y su media.