Show Menu
SUJETS×

Mise en grappe 2.0

Le créateur de grappes comprend désormais un algorithme KMeans++ (seul l’algorithme KMeans était auparavant pris en charge) qui utilise une approche plus rapide pour rechercher des centres pour un processus accéléré de génération de grappes.

Algorithmes KMeans

Dans le créateur de grappes, vous pouvez désormais sélectionner Options > Algorithm pour sélectionner des algorithmes lors de la définition de grappes.
  • KMeans . Cet algorithme utilise la mise en grappe de canopées pour définir les centres de la grappe.
  • KMeans++ . Cet algorithme accélère la création de grappe lorsqu’il s’exécute sur de grands ensembles de données.
KMeans++ est une implémentation améliorée de l'algorithme de mise en grappe KMeans, car il fournit une meilleure initialisation des centres k initiaux. (L’algorithme KMeans d’origine choisit les centres initiaux de manière aléatoire.) KMeans++ sélectionne le premier centre de manière aléatoire. Les autres centres k-1 seront choisis un par un en fonction de la distance entre un point de données et le centre existant le plus proche. Les points de données les plus éloignés ont une meilleure chance d’être choisis comme nouveau centre que les points de données avoisinants. Une fois le centre initial choisi, la procédure est exécutée exactement de la même manière que la mise en grappe KMeans d'origine.
Le flux de travail pour KMeans++ est exactement le même que celui pour la mise en grappe de KMeans, sauf que vous devez sélectionner Options > Algorithme > KMeans++ dans le créateur de grappes.
Chaque DPU exécute sa propre procédure KMeans++ sur sa propre portion de données. Si le DPU dispose de suffisamment de mémoire disponible (le ratio est configurable dans le fichier PAServer.cfg), les données des variables concernées seront alors transférées en mémoire. Le reste de la sélection de centre de k-1 et des itérations convergentes se produisent dans la mémoire, ce qui est plus rapide que la mise en grappe précédente de KMeans.