クラスタリング
くらすたりんぐ
ひとことで言うと
システム分野では複数コンピュータを連携させる技術を、データ分析分野ではデータを類似性でグループ分けする手法を指す二義語。
解説
複数のコンピュータを連携させて一つのシステムとして動作させる技術、またはデータ分析においてデータを類似性に基づいてグループ分けする手法。システム分野では可用性向上や負荷分散を目的として使用される。データ分析分野では機械学習の教師なし学習の代表的手法として活用されている。
くわしく解説
クラスタリングは使われる文脈によって意味が異なる重要な用語である。システム・インフラ分野では、複数の物理サーバを連携させて1つのシステムとして動作させる技術を指す。目的により、一方が障害時に他方が引き継ぐ高可用性クラスタ(フェイルオーバークラスタ)と、複数台で処理を分担する負荷分散クラスタに分類される。一方、データ分析・機械学習分野では、ラベルなしデータを特徴量の類似性に基づいて自動的にグループ(クラスタ)に分類する教師なし学習の手法を指す。代表的アルゴリズムはk-means法(k個のクラスタ中心に最も近いデータを割り当てる)である。試験では両方の意味が出題されるため、文脈から判断する能力が必要である。
具体例で考えよう
ECサイトがクラスタリング分析で100万人の顧客購買データを解析し、「高頻度少額購入層」「低頻度高額購入層」「休眠顧客層」の3グループに自動分類してそれぞれ異なるマーケティング施策を展開する。
試験対策ポイント
システム用語としてのクラスタリング(高可用性・負荷分散)とデータ分析用語としてのクラスタリング(教師なし学習・グループ分け)の2つの意味を文脈で区別すること。k-means法も確認。