レプトのBtoBマーケティングのブログ|株式会社LEAPT(レプト)

クラスター分析の具体的なやり方と分析実行のための手法・言語(SPSS、Pythonなど)を紹介

データ分析能力は、今のマーケターに求められる基本スキルのひとつです。2017年のガートナーの「マーケティング業務の変化に関する調査結果」においても、企画・立案能力(72.1%)に続き、「データ分析能力(62.4%)」が第2位につけています。

とはいえデータ分析スキルも初級〜上級レベルまでさまざま。初級者であれば、まず「どのような分析手法があり、どのようなシーンで活用すべきか」から理解していきましょう。今回はマーケティング担当者が知っておくべきデータ分析手法の中でも、比較的難しいといわれる「クラスター分析」を紹介します。

クラスター分析は、事前に明確な分類基準を設定しない状態で、大量のデータから類似した特性を持つデータを拾い上げクラスター(グループ)を生成する分析手法です。

既存顧客、SNSのユーザー層、顧客アンケートなどのデータから、自分では予想もしていなかった新たなグループを発見してくれることもあるため、セグメンテーション、マーケティング戦略立案などに非常に役立ちます。

本記事では、クラスター分析の具体的な方法と、クラスター分析に活用できるツールなどを紹介します。

クラスター分析とは

クラスター分析とは、混在したデータの中から「似ている性質のデータ」を集めてグループ化する分析手法です。以下の語源からイメージできるように、データからクラスター(グループ)を生成することが目的です。

  • 語源:Cluster(クラスター):ブドウの房状のもの、集団、群れ

クラスター分析の特徴は、「教師なし学習」です。一般的な分析のように、例えば、年代、性別、地域など事前に基準を設定して行うのではなく、分類基準を設定しない状態でデータから類似性によってグループ化していきます。

グループ化(セグメンテーション)する際に、クラスター分析は他手法と以下の点で異なります。

クラスター分析は、データとデータの類似性によって機械的にグループを生成するため、人のバイアス、思い込みの影響を受けにくく、ファクト(事実)の違った面を提示してくれます。

クラスター分析の重要性

クラスター分析は、大量のデータを単純化して理解、考察しやすくするので、データ分析の過程で重要な役割を果たします。

膨大なデータ、混在したデータなどを人の能力で分類することには限度があるでしょう。しかしクラスター分析なら、機械的に類似度を基準にデータ内のグループを見つけてくれます。そのため、大量のデータを扱う政府、自治体、研究機関でよく使用されています。

以下は、内閣府が先進国の経済システムをクラスター分析で比較した図です。2000年代後半に日本の経済システムの特殊性がかなり薄れた可能性が高いことが指摘されています。このようなグローバルなデータ分析にも適しています。

(出典:内閣府

また、対象をどのようにカテゴライズすればよいかわからないときや、既存の分類基準では見えない隠れた層を探したいときにも役立ちます。

例えば、以下は電通パパラボが、働くパパに対してクラスター分析を行った結果をポジショニングマップにしたものです。家事育児に協力するパパが増えたのは最近なので、このような分類があると社会の理解が進みます。同サイトではパパクラスター診断もできます。

(出典:電通パパラボ

このようにクラスター分析をすると、分析者の想像になかったグループを発見できるときがあります。そこからインサイトを得られ、仮説をたてることができるのです。

クラスター分析はどのような時に使うのか

クラスター分析は、ビジネス領域でも特にマーケティングで、さまざまな目的で活用されています。目的によってデータ分析の前工程に使うことも、後工程に使うこともできる手法です。以下に代表的な使用シーンを紹介します。

活用シーン:

  • 購買パターンに基づく顧客のグループ分け
  • 新しい市場、ペルソナの発見
  • 消費者のライフスタイル分析
  • ブランドのポジショニング分析
  • ダイレクトメールの配信先のカスタマイズ
  • アンケートや市場調査の分析
  • SNSアカウントのユーザー分析
  • チャーン分析と効果的なリテンション施策
  • ビッグデータの全体理解のための分析

単独ではもちろん、ほかの分析手法と組み合わせることで、マーケティング上の意志決定の精度を高めてくれるでしょう。

クラスター分析の種類

クラスター分析は、大きくわけると階層クラスター分析と非階層クラスター分析があります。

階層クラスター分析

(出典: 244976639 ©カテリーナ・コン | Dreamstime.com

階層クラスター分析とは、1 つずつ類似度の高いサンプルを階層的にクラスタリングしていく手法です。上図のような樹形図(テンドログラム)が形成されます。

階層クラスター分析は、直感的にデータの全体像を判断しやすいところが長所ですが、データの数が多くなると解釈が困難になる点が短所です。

階層クラスタ―分析の手法には、「ウォード法」「群平均法」「最短距離法」「最長距離法」などの手法があります。いずれの計算方法でも、分類の過程で階層構造(樹形図)ができます。

ウォード法(ウォード法):

ウォード法は、クラスターを結合する際に、その結​​合によってクラスター内のデータの分散が最小限になるようにする方法です。この方法は、クラスター内の継続性を重視する特徴があります。

群平均法

群平均法とは、2つのクラスターを構成するデータの距離を、すべての組み合わせで計算し、その平均を新たなクラスター間の距離とする手法です。

群平均法では、すべての距離の平均値を用いるため、ウォード法と比べて計算量が少なく、外れ値があった場合でも影響を受けにくく分析結果が安定しています。クラスターが帯状に連なる鎖効果が起こりにくい点が長所です。

このウォード法、群平均法は、一般によく用いられる手法です。

最短距離法(シングルリンク方式):

最短距離法とは、2つのクラスターに属する対象のうち、最も近い対象間の距離をクラスター間の距離と設定して分類する方法です。主となるクラスターを発見しやすい点や、異常値の発見をしやすい点が長所です。

最長距離法(完全連結方式):

最長距離法では、集団内で最も距離が遠い2つのデータの距離を、クラスター間の距離とする方法です。一つのクラスターが極端に大きくなるのを抑えられるため、クラスターのサイズの差が最短距離法より少なくなります。

これらの手法は、データセットや解析の目的によって使いわけられます。それぞれの手法には長所と短所があり、適切な手法を選択することが重要です。

非階層クラスター分析

(出典:191260278 © Anastasiia Usenko | Dreamstime.com

非階層クラスター分析とは、はじめにいくつかの中心点を決め、その中心点に近い(非類似度が小さい)サンプルを一括してクラスタリングしていく非階層的クラスター分析です。階層クラスター分析よりも計算量が軽いため、データの量が多くても問題なく、ビッグデータ解析にも適しています。

ただし、事前にクラスターの数を定める必要があります。また、階層クラスター分析のように明快な図にはならないため、分析担当者に結果からインサイトを読み取る能力が必要です。

非階層クラスター分析の手法には「超体積法」「k平均法(k-means法)」があります。

k平均法(k-means法)

k平均法は非階層的クラスタリングの実行方法のひとつで、最も代表的な手法です。

あらかじめ指定さ れた数のデータを「プロトタイプ」と指定して、それに最も近い個体データ(プロトタイプ以外のもの) のクラスターを割り当てます。

超体積法

超体積法では、データの分布状況の密度が高い領域をクラスターとして認識し、グループ化します。非階層クラスター分析の中でも、この手法はクラスターの数を事前に指定する必要がありません。この手法は、クラスター数を決定するために活用されることもあります。

クラスター分析の種類と特徴をまとめると、このような図になります。

(参考:内閣府南山大学

クラスター分析のやり方

クラスター分析を行うステップを解説します。

分析のやり方①:分析する目的を明確にする

まず、クラスター分析の目的を明確にします。マーケティングの場合、活用シーンはさまざまです。以下のような目的が考えられます。

例:

  • 既存顧客のアップセル、クロスセルに活用
  • 新しく進出する市場のリサーチ
  • マーケティングペルソナ作成
  • ブランドのポジショニング分析
  • アンケートや市場調査などのデータ分析
  • チャーン分析を行い効果的なリテンション施策
  • SNS分析

例えば「既存顧客の売上げ拡大が目的」であれば、活用度合い、予算ゾーン、顧客の価値観などを反映した複数のグループを生成します。それぞれのグループによりそったマーケティング戦略が立案できれば、アップセル、クロスセルにつながるでしょう。

また、ペルソナを作成するためにも活用できます。優良顧客インタビューの内容(定性的な情報)をクラスター分析することで、ペルソナの人間性、志向性がいくつかに分類されるので、精度の高いペルソナを設定できるでしょう。

SNSマーケティングを成功させるという目的のためなら、フォロワー層のツイートや、競合他社のツイートをクラスター分析することで、自社が何をどのように発信するかの戦略に役立てることができます。

分析のやり方②:分析の目的に合わせてデータを収集する

目的に合わせて必要なデータを収集します。

どのようなデータを集めるかも目的によって異なります。例えば前述のアップセル、クロスセル向上のための分析であれば、CRMの企業情報と購買履歴データ、Web上の行動データなどがあるとよいでしょう。

ペルソナ作成が目的なら、優良顧客に限定したインタビュー情報やアンケートのデータがあると望ましいので、目的に応じてアンケート調査の実施から始める必要があります。

SNS分析の場合、プラットフォームのAPI機能でデータを得ることが可能です(有料の場合もあります)。

活用できるデータ例:

  • 顧客データ(売上げ、購買)
  • 顧客アンケートのデータ
  • 市場調査結果
  • SNSデータ(全体的なトレンド分析、自社の投稿データ)
  • 地域データ

分析のやり方③:最適な分析手法を決める

次にどの手法で分析するかを決めましょう。まず、階層クラスター分析か非階層クラスター分析かを決め、それぞれの形成方法を決めます。データの量によってもどちらがよいかは変わります。

  • 100個以下:階層クラスター分析
  • 100〜300個:階層クラスター分析と非階層クラスター分析
  • 300個以上:非階層クラスター分析

また、階層クラスター分析のように「樹形図」のかたちの分析結果が見たいのか、それとも非階層クラスター分析のように複数のグループを視覚化しやすい結果が見たいのか、なども判断基準のひとつ。全体像を把握したいときには前者、顧客のセグメンテーションなどが目的なら後者が理解しやすいでしょう。

データの量、アウトプットの形式を踏まえて手法を決めましょう。もちろん、両方実施しても問題ありません。

分析のやり方④:類似度(距離)の定義をする

クラスター分析では、データ同士が似ているかどうかを判断するためにデータ間の距離を測定しています。そして、そもそも「距離」の定義も以下のようにいろいろあります。

距離の定義

(出典:明治大学

ユークリッド距離:最も一般的な距離です。変数同士に相関があるときに用いられます。ユークリッド距離は、認識空間内における二点間の直線距離を計測します。

マンハッタン距離:どのルートでも最短距離をとります。データがグリッド状に配置されており、直角に移動することが一般的な場合に適しています。都市間の距離や、特徴量の絶対的な視野を考慮する場合に使用されます。

チェビシェフ距離:チェビシェフ距離では、各変数の値の差について、絶対値の最大値を距離とします。データ内のノイズのような変数の影響を抑えたいときに適しています。

マハラノビス距離:変数間の相関関係が強いときに有効な距離です。変数間の相関関係を考慮しながら距離が計算されるため、図のように原点からの距離が同じ集合が楕円状になります。

マーケターが活用する場合「ユークリッド距離」になることが一般的です。

分析のやり方⑤:クラスターの形成方法を決める

階層クラスター分析か非階層クラスター分析か決めたら、次はクラスターの形成方法を決めます。

階層クラスター分析の手法には、ウォード法、群平均法、最短距離法、最長距離法などがあります(一般に活用されているのは、計算量が多くて精度が高い「ウォード法」「群平均法」)です。非階層クラスタ―分析にはk-means法、超体積法があります。

改めてこちらの図を見て形成方法を確認のうえ、適した手法を決めましょう。

分析のやり方⑥:分析結果を解釈する

すべての方法を決め、いずれかの統計ソフトでクラスター分析をすると結果が出てきます。分析ソフトでできることは、あくまでデータのクラスター分析(データをいくつかの手段にわけること)。そのグループをどう解釈するかが分析担当者の仕事です。

イメージで言えば、以下の図のアウトプットまでが自動的にできること。その後は自分でそれぞれのグループがどのような特徴があるか、どう意味付けするかを決める必要があります。

データからはいろいろなことが読み取れますが、元の目的によって結果の活用方法は異なります。新たなペルソナを設定するのか? マーケティング戦略のセグメンテーションの方針を変えるのか? 離脱可能性グループにリテンション施策をとるかなど、仮説を立ててマーケティング施策に活かしてみましょう。

クラスター分析はExcelではなく統計ソフトやプログラミング言語を活用する

クラスター分析はExcelでもできることはできますが、かなり複雑な計算を何度も行うので、統計ソフトを活用したほうがスムーズです。以下にクラスター分析に使えるおすすめのソフトやプログラミング言語を紹介します。

SPSS(統計ソフト)

(出典:https://spssorder.com/spss-products/spss-statistics-base/

概要:SPSS とは、1968年に誕生し、全世界で28万人以上が利用するロングセラーの統計解析ソフトウェアです。SPSS はクラスター分析を含む、さまざまな統計手法が統合されており、K-means、階層的クラスタリングほか、いくつかのクラスタリング アルゴリズムを提供しています。

SPSS でクラスター分析を実行するには、「SPSS Statistics Premium Edition」 または 「Direct Marketing 」オプションが必要です。

特徴:

  • 統計の基礎知識があれば初心者でも使いやすい
  • ユーザーフレンドリーUIと操作性に優れている

価格:永久ライセンス版とサブスクリプション版があります。

R(統計ソフト)

(出典:https://cran.r-project.org/

概要:「R」は、ニュージーランドのオークランド大学で開発された無料の統計解析と、データセキュリティ化のためのプログラミング言語です。オープンソースであり、世界中のデータサイエンティストや統計学者が利用しています。Rは統計パッケージにはクラスター分析も実装されています。

特徴:

  • オープンソースで誰でも使用できる
  • 有料の解析ソフトウエアに匹敵する機能
  • データクレンジングに有用
  • 可視化やグラフ化が容易
  • 他の言語やツールとの互換性が高い
  • どのOSでも簡単にセットアップできる
  • WindowsやMacなどの環境で使用できる
  • オンライン上には学習リソースが豊富

価格:無料

SAS(統計ソフト)

(参考:https://www.sas.com/

概要:SASは、統計解析やデータ分析などに使用されるソフトウェアであり、クラスター分析もサポートしています。SASのプランは、利用目的や機能によって異なります。

マーケティングの用途であれば、SASの基本的な統計解析機能やクラスター分析が含まれているパッケージが適しているので、「SAS/STAT」が含まれる基本セットが望ましいでしょう。

価格:要見積もり ※無償体験版あり

Python(プログラミング言語)

(参考:https://www.python.org/

概要:Python(パイソン)とは、データ分析と機械学習のための、ライブラリとツールのエコシステムを備えたオープンソースのプログラミング言語です。

パイソンには、さまざまなクラスタリング用アルゴリズムがあります。オープンソースの機械学習ライブラリ「scikit-learn」「scipy」「numpy」などを実装して行います。中でも「scikit-learn」は、標準的なクラスタリングアルゴリズムが搭載されており汎用的です。

特徴:

  • 初心でもわかりやすい
  • データ分析の機能が豊富
  • Webスクレイピング(Webから情報を抽出する技術)
  • 自動化、APIとの連携、
  • タブローなどのBIツールと連携できる
  • 無料または低コストの学習コースが多数

価格:無料

クラスター分析の活用事例

クラスター分析は、金融、社会科学、生物学、ビジネス領域においてさまざまな分野で幅広く活用されています。以下でマーケティング領域の活用事例を紹介します。

ソーシャル メディア 分析

SNSはリアルタイムで人々が意見を寄せ合う、貴重なデータの宝庫です。一国の人口に匹敵するユーザー数を持っているため、クラスター分析によってさまざまなインサイトを得ることができます。

人気SNSアカウントの分析:シャープ

愛知学院大学とセンコークリエイティブマネジメント株式会社は、「企業 Twitterアカウントによる共感を生み出す呟きの分析」というテーマで、何社かの企業のTwitter 担当者に対する意識調査のアンケートと、全ツイートデータのテキストマイニングを行いました。

その中で、シャープのツイートをクラスター分析した図が以下です。「ありがとう」「oO(吹き出しを意味する)」「誕生」「おめでとう」などの関わりが強いことがわかります。シャープアカウントでは、ほぼ毎日、著名人やアニメキャラクターなどに対して、「お誕生日おめでとうございます」と呟いていることがわかりました。

(出典:Japan Markting Academy

訪日外国人旅行者をクラスター分析を行い、5つのクラスターを把握

公益財団法人日本交通公社は2021年、世界12地域の6139人の訪日経験のある外国人旅行者に、訪日旅行の意向調査をアンケートで実施し、コロナ収束後の訪日インバウンド市場再開に向けたターゲット戦略の参考資料として公開しました。

クラスター分析の結果、5つのクラスターが判明し、特にクラスター3の「訪日旅行想定」の特徴、女性・若い世代・中国在住者が多いという特徴が注目されました。

(出典:公益財団法人日本交通公社観光政策研究部

その他、いろいろな業界の顧客セグメンテーション、解約可能性顧客の特定とリテンション施策、クレーマー顧客の特定などに活用されています。

まとめ

クラスター分析は、混在したデータの中にある似たもの同士をグループ化するための分析手法です。マーケティング部門であれば「顧客のセグメンテーション」「新たなペルソナの把握」「顧客アンケートの深掘り」「解約可能性の高い顧客の特定」などに活用できます。

シンプルな活用法として、商品アンケート結果や顧客満足度調査などをクラスター分析するだけでも、これまで気づかなかった購買グループ、意外な理由で満足度が高い層、予想外の理由で不満を持つ層を把握できる可能性があります。

人間には思い込みもあれば、バイアスもあります。成功体験を積むことで縛られることもあります。クラスター分析は、そのような固定化しがちな人の脳にインサイトを提示してくれる分析手法。活用していくと、マーケターの視点が広がり発想も浮かびやすくなるでしょう。

分類基準を明確にして行う分析手法とあわせて、クラスター分析も活用していきましょう。