はじめに

トレジャーデータはクラウドでデータマネージメントサービスを提供しています。

トレジャーデータで実践:Basket 分析(頭の体操編)
バスケット分析(併売分析)は,アウトプットイメージやその分析の有用性についてはマーケティング業界の誰もが周知しているのに反して,実際にそれを実践できている所...

トレジャーデータで実践:Basket 分析(心の準備編)
前回の「頭の体操編」では,数字やトランプの組み合わせの抽出をSQLで実践してみました。本題に入る前に,今回はこの「組み合わせ」が引き起こすバスケット分析の本質的...

トレジャーデータで実践:Basket 分析(実行編)
バスケット分析シリーズの第3回目です。実際に実行するところまで見ていきましょう。EC購買サンプルログ前回の最後にも記載しましたが,今回使用する…

ここまで,任意のペアで共起回数,共起係数を計算していきました。共起係数はアイテムの登場回数が少なく(≃共起回数が少ない)ても関連性の強いペアを見つけてくれるものでした。一方で分析者ではない現場の人たちにとっては,この「共起係数」に意味を見いだせず,あくまで共起回数を使いたいというごもっともな意見もあります。

そこで今回は人工的にペアをカテゴライズして,その中で共起回数を見ていくことにしましょう。

出現回数比によるカテゴライズ

出現回数比 10%

アイテムA,アイテムBの単独での出現回数 | A |, | B | に対して,大きい方と小さい方の比が 1:10(小さい方の出現回数が大きい方の出現回数の10%以下)である極端なペアのみを抽出してきます。

このレンジで共起回数が大きいペアでは前回紹介した Simpson係数 も大きい傾向があります。

下のテーブルでは出現回数比を Pair Cnt Ratio カラム,| A |, | B | を total_cnt1, total_cnt2 カラム, | A ∩ B | を cnt  カラムとしています。

 

出現回数比 10% 〜 50%

 

 

出現回数が少ない方が多い方の半分以下であるケースです。

出現回数比 50% 〜 90%

 

 

出現回数が少ない方が多い方の50%〜90%であるケースです。

 

出現回数比 90% 〜

 

 

最後は出現回数がほとんど同じペアの共起回数です。

価格比によるカテゴライズ

価格比 10%

 

 

次はアイテムA,アイテムBの価格差でカテゴライズしていきましょう。

大きい方と小さい方の価格比が 1:10 である極端なペアのみを抽出してきます。このカテゴリに入るペアは

  • テレビ本体とリモコンや外付けHDDなどの付属品とのペア
  • スマートフォン本体とケースや保護シールなどのアクセサリとのペア

などの,本体とオプションパーツといったものになります。

下のテーブルでは価格比を Pair Price Ratio カラムとしています。

 

価格比 10% 〜 50%

つぎは,価格が小さい方の出現回数が大きい方の半分以下のペアに絞ってみます。

 

 

このようなペアは,

  • ゲーム機本体とゲームソフトのペア
  • お弁当とドリンク

などが考えられます。

価格比 50% 〜 90%

つぎは,価格が小さい方の出現回数が大きい方がそれなりに近いペアです。

  • お総菜のペア

など,割と多くのペアがこのカテゴリに属します。

 

価格比 90%〜

 

 

最後は,価格がほとんど同じペアとなります。

  • 銘柄違いのビール
  • フロントタイヤとリアタイヤ

などです。

次回は「意外性の発見」をテーマに発展編を進めて行きます。