Show Menu
ARGOMENTI×

Clustering 2.0

Cluster Builder ora include un algoritmo KMeans++ (in precedenza era supportato solo l'algoritmo KMeans) che utilizza un approccio più veloce per individuare i centri per un processo di generazione dei cluster accelerato.

Algoritmi KMeans

In Cluster Builder , è ora possibile selezionare Options > Algorithm per selezionare gli algoritmi al momento della definizione dei cluster.
  • KMeans (Progetto > scarica CSV). Questo algoritmo utilizza il clustering canoy per definire i centri del cluster.
  • KMeans++ (Progetto > scarica CSV). Questo algoritmo consente di velocizzare la creazione dei cluster quando viene eseguito su grandi set di dati.
KMeans++ è una migliore implementazione dell'algoritmo di clustering KMeans perché fornisce una migliore inizializzazione dei centri k iniziali. L’algoritmo KMeans originale sceglie i centri iniziali in modo casuale. KMeans++ seleziona il primo centro in modo casuale. I restanti centri K-1 saranno scelti uno per uno in base alla distanza che un punto dati è al centro esistente più vicino. I punti dati più avanzati hanno maggiori possibilità di essere scelti come un nuovo centro rispetto ai punti dati vicini. Dopo aver scelto il centro iniziale, la procedura viene eseguita esattamente come il cluster KMeans originale.
Il flusso di lavoro per KMeans++ è identico al flusso di lavoro per il clustering KMeans, con la differenza che è necessario selezionare Opzioni > Algoritmo > KMeans++ nel generatore di cluster.
Ogni DPU esegue la propria procedura KMeans++ sulla propria porzione di dati. Se il DPU dispone di memoria sufficiente (il rapporto è configurabile nel file PAServer.cfg), i dati delle variabili coinvolte saranno messi in memoria. La selezione iniziale del centro k-1 e le iterazioni convergenti rimanenti avvengono in memoria, il che è più veloce del precedente clustering KMeans.