Show Menu
トピック×

Clustering 2.0

クラスタービルダーには、優先クラスター生成処理の中心を見つけるためのより高速な手法を使用する KMeans++ アルゴリズム(以前は KMeans アルゴリズムのみがサポートされていました)が含まれるようになりました。

K 平均法アルゴリズム

In the Cluster Builder , you can now select Options > Algorithm to select algorithms when defining clusters.
  • KMeans ​をインストールします。このアルゴリズムでは、キャノピークラスターリングを使用して、クラスターの中心を定義します。
  • KMeans++ ​をインストールします。このアルゴリズムでは、大量のデータセットに対して実行した場合に、クラスターが迅速に構築されます。
KMeans++ は、KMeans クラスタリングアルゴリズムの強化実装で、k 個の初期中心をより適切に初期化します(元の KMeans アルゴリズムでは、初期中心がランダムに選択されます)。KMeans++ では、最初の中心がランダムに選択されます。残り k-1 個の中心は、データポイントと最も近い既存の中心との距離に基づいて 1 つずつ選択されます。最も遠いデータポイントは、近くのデータポイントよりも、新しい中心として選択される可能性が高くなります。初期中心を選択した後は、元の KMeans クラスタリングとまったく同じ処理が実行されます。
KMeans++ のワークフローは、クラスタービルダーで​ オプション アルゴリズム KMeans++ を選択する必要がある以外、KMeans クラスタリングのワークフローとまったく同じです。
各DPUは、独自のデータ部分で独自のKMeans++プロシージャを実行します。 DPU に利用可能なメモリが十分にある場合(割合は PAServer.cfg ファイルで設定できます)、必要な変数のデータをメモリに読み込みます。最初の中心のうち残りの k-1 個の選択と収束するまでの反復は、すべてメモリ内で実行されます。これにより、以前の K 平均法クラスタリングよりも速く実行されます。