Show Menu
TEMAS×

Clustering 2.0

El Generador de clústeres ahora incluye un algoritmo KMeans++ (solo se admitía anteriormente el algoritmo KMeans) que utiliza un método más rápido para encontrar centros para un proceso de generación acelerada de clústeres.

Algoritmos KMeans

En el Generador de clústeres , ahora puede seleccionar Options > Algorithm para seleccionar algoritmos al definir clústeres.
  • KMeans . Este algoritmo utiliza la agrupación en canopy para definir los centros del clúster.
  • KMeans++ . Este algoritmo acelera la creación de clústeres cuando se ejecuta con grandes conjuntos de datos.
KMeans++ es una implementación mejorada del algoritmo de clúster KMeans porque proporciona una mejor inicialización de los centros k iniciales. (El algoritmo original de KMeans elige los centros iniciales al azar). KMeans++ selecciona el primer centro al azar. Los centros k-1 restantes se elegirán uno por uno en función de la distancia que un punto de datos se encuentre al centro existente más cercano. Los puntos de datos más alejados tienen más posibilidades de ser elegidos como un nuevo centro que los puntos de datos cercanos. Una vez elegido el centro inicial, el procedimiento se realiza exactamente igual que el agrupamiento original de KMeans.
El flujo de trabajo para KMeans++ es exactamente el mismo que el flujo de trabajo para la agrupación en clúster KMeans, excepto que necesita seleccionar Opciones > Algoritmo > KMeans++ en el generador de clústeres.
Cada DPU ejecuta su propio procedimiento KMeans++ en su propia porción de datos. Si el DPU tiene suficiente memoria disponible (la proporción se puede configurar en el archivo PAServer.cfg), entonces los datos de las variables involucradas se llevarán a la memoria. El resto de la selección central inicial k-1 y las iteraciones convergentes se producen en la memoria, lo que es más rápido que el anterior agrupamiento de KMeans.