La normalización se utiliza para eliminar datos redundantes y garantiza que se generen clústeres de buena calidad que pueden mejorar la eficiencia de los algoritmos de agrupamiento. Por lo tanto, se convierte en un paso esencial antes del agrupamiento como distancia euclidiana es muy sensible a los cambios en las diferencias[3].
¿Necesitamos normalizar los datos para el agrupamiento de K-medias?
Al igual que en el método k-NN, las características utilizadas para la agrupación deben medirse en unidades comparables. En este caso, las unidades no son un problema ya que las 6 características se expresan en una escala de 5 puntos. La normalización o estandarización no es necesaria.
¿Cómo se preparan los datos antes de agruparlos?
Preparación de datos
Para realizar un análisis de conglomerados en R, generalmente, los datos deben prepararse de la siguiente manera: las filas son observaciones (individuos) y las columnas son variables. Cualquier valor f altante en los datos debe ser eliminado o estimado. Los datos deben estar estandarizados (es decir, escalados) para que las variables sean comparables.
¿Deberían escalarse los datos para la agrupación?
En la agrupación, calcula la similitud entre dos ejemplos combinando todos los datos de características para esos ejemplos en un valor numérico. La combinación de datos de entidades requiere que los datos tengan la misma escala.
¿Por qué es importante normalizar las funciones antes de la agrupación?
La estandarización es un paso importante de los datospreprocesamiento.
Como se explica en este documento, k-means minimiza la función de error utilizando el algoritmo de Newton, es decir, un algoritmo de optimización basado en gradientes. La normalización de los datos mejora la convergencia de dichos algoritmos.