Show Menu
THEMEN×

Clustering 2.0

Der Cluster Builder enthält jetzt einen KMeans++-Algorithmus (bisher wurde nur der KMeans-Algorithmus unterstützt), der einen schnelleren Ansatz bei der Suche nach Zentren für einen beschleunigten Prozess der Clusterbildung verwendet.

KMeans-Algorithmen

Im Cluster Builder können Sie jetzt beim Definieren von Clustern Options > wählen, Algorithm um Algorithmen auszuwählen.
  • KMeans . Dieser Algorithmus verwendet Baumkronen-Clustering, um die Zentren des Clusters zu definieren.
  • KMeans++ . Dieser Algorithmus beschleunigt die Clusterbildung, wenn er mit großen Datensätzen ausgeführt wird.
KMeans++ ist eine verbesserte Implementierung des KMeans-Clustering-Algorithmus, da es eine bessere Initialisierung der anfänglichen k-Zentren ermöglicht. (Der ursprüngliche KMeans-Algorithmus wählt anfängliche Zentren zufällig aus.) KMeans++ wählt das erste Zentrum zufällig aus. Die verbleibenden k-1-Zentren werden je nach Entfernung eines Datenpunkts zum nächstgelegenen vorhandenen Zentrum ausgewählt. Die am weitesten entfernten Datenpunkte haben eine bessere Chance, als nahe gelegene Datenpunkte als neue Zentren gewählt zu werden. Nach der Auswahl des anfänglichen Zentrums wird die Prozedur genau wie das ursprüngliche KMeans-Clustering durchgeführt.
Der Arbeitsablauf für KMeans++ ist mit dem Arbeitsablauf für KMeans-Clustering identisch, allerdings müssen Sie im Cluster-Builder Optionen > Algorithmus > KMeans++ auswählen.
Jede DPU führt ihre eigene KMeans++-Prozedur auf ihrem eigenen Datenteil aus. Wenn die DPU über ausreichend verfügbaren Speicher verfügt (das Verhältnis ist in der Datei PAServer.cfg konfigurierbar), werden die Daten der beteiligten Variablen in den Speicher geladen. Die verbleibenden k-1 anfänglichen Mittelauswahlen und konvergierende Iterationen passieren alle im Speicher, was schneller ist als das vorherige KMeans Clustering.