Show Menu
主題×

Clustering 2.0

Cluster Builder現在包含KMeans++演算法(之前僅支援KMeans演算法),可使用更快的方式來尋找加速叢集產生程式的中心。

KMeans演算法

在「叢集產 生器」中 ,您現在可以選取 Options >,以 Algorithm 在定義叢集時選取演算法。
  • KMeans 。該算法利用樹冠聚類來定義樹冠的中心。
  • KMeans++ 。該算法在對大量資料集運行時加快了集群構建。
KMeans++是KMeans聚類算法的一種改進實現方式,它提供了較好的初始k中心初始化。 (原始KMeans算法隨機選擇初始中心。)KMeans++隨機選擇第一個中心。 剩餘的k-1中心將根據資料點與最近現有中心之間的距離逐個選擇。 與附近的資料點相比,最遠的資料點更有可能被選擇為新的中心。 選擇初始中心後,該過程與原始KMeans聚類完全相同。
KMeans++的工作流程與KMeans叢集的工作流程完全相同,但您必須在叢集產生器中選取 Options > Algorithm > KMeans++
每個DPU在其自己的資料部分上運行其自己的KMeans++過程。 如果DPU有足夠的可用記憶體(此比率可在PAServer.cfg檔案中配置),則這些相關變數的資料將帶入記憶體。 剩餘的k-1初始中心選擇和收斂迭代都發生在記憶體中,比以前的KMeans聚類快。