はじめに

トレジャーデータが提供する Treasure Data JavaScript SDK は,HTML 内にタグを埋め込む事で簡単にアクセスに関する情報を収集することができます。

docs.treasuredata.com

既に既存のアクセスログ収集ツールが多くある中で,このトレジャーデータの SDK を活用するメリットは以下に挙げられます:

  • データは随時トレジャーデータに集約されるので,ツールに縛られない自由な分析や可視化が可能。
  • トレジャーデータ上の他のデータと統合して分析がすぐに始められる。
  • トレジャーデータSDKユーザー向けに豊富なクエリテンプレートを用意。
  • トレジャーデータの強力な分析基盤の上でパス分析やバスケット分析などの発展的な分析が行える。

HTML内にて上記のタグを挿入することで,以下のカラム名をもったデータがトレジャーデータに集約されていきます。

  • td_version : td-js-sdk’s version
  • td_client_id : client’s uuid
  • td_title : document title
  • td_url : document url
  • td_host : document host
  • td_path : document pathname
  • td_referrer : document referrer
  • td_ip : request IP (server)
  • td_os_version : client operating system version (server)
  • td_browser_version : client browser version (server)
  • etc…

トレジャーデータのホームページ のアクセスログテーブル。

アクセスログを可視化する

従来のアクセスログ分析ツールと異なり,トレジャーデータらしいアクセス分析の一つに「パス分析」があります。パス分析は従来のアクセス数や離脱数を,テーブルや棒グラフなどのチャートで表現したものとは違い,「ダイアグラム」と呼ばれるノードとエッジを持った図によって可視化されるコンバージョン分析の一種です。

※ ここでダイアグラムと言っているものは,数学や情報の学術方面で一般的にグラフと呼ばれているものです。ただし,データ分析の脈略ではグラフは棒グラフや折れ線チャートなどの「チャート」と同一視されやすいので,それと区別するためにダイアグラムと呼ぶことにしています。

パス分析に関しては本ブログのシリーズとして過去に多数の記事があります。

今回の記事はトレジャーデータ SDK で使われるカラムを用いてパス分析のクエリとダイアグラムを説明することで,SDKユーザーの皆様が簡単に実践できるように書きました。

本シリーズ第1回目は,アウトプットとなるいくつかのダイアグラムを紹介します。

1. 遷移ダイアグラム

遷移ダイアグラムは,サイト内のページからページへの遷移回数をノードと辺で表現したダイアグラムです。辺には遷移回数の値と,その値の大きさに応じた太さを持たせています。また,遷移回数はごくごくシンプルなKPIですが,これをダイアグラムにすることで,サイト内を回遊するユーザーの動きを一目で察する事のできるダイナミカルなKPIです。

※ 画像をクリックすると拡大します。また,画像をダウンロードするとオリジナルサイズを参照することができます。

↑ トレジャーデータのホームページ内でのユーザーの遷移をダイアグラムにしました。興味深いのは右上にある「お客様事例一覧」ノードからから出ている「各事例ページ」への遷移回数の比較が一目できることです。また「ホーム」から「お客様事例一覧」には直接的に辿り着けないことも把握できます。

また,ダイアグラムはそもそものサイト全体の構成(サイトマップ)とページ間の接続性を可視化するという根本的な理解を助けるという意味でも有効性があります。

2. 遷移ダイアグラム(コンバージョンポイント指定)

※ 画像をクリックすると拡大します。また,画像をダウンロードするとオリジナルサイズを参照することができます。

特定のページをコンバージョンポイントと設定し,目立つようにダイアグラムを描くと,この遷移ダイアグラムはより意義のあるものになります。

今,トレジャーデータホームページのコンバージョンポイントを「お問い合わせ」および「資料ダウンロード」として,そのノードを赤い菱形で表示するようにしました。これらのコンバージョンポイントがその他のノードとどのように接続されているかが一目瞭然ですね。

また,先ほどよりも少し多くのノードを表示するように設定しました。ノードが少し増えるだけでも,辺の数はその数倍増えることなるのでダイアグラムは非常に複雑になります。そのため,通常はノードの数や遷移回数の下限を設けて図が複雑になりすぎないように常に工夫する必要があります。

また,この中で注目すべきコンバージョンポイントを見失わないようにするために,色づけ・形分けを行うと便利です。

3. コンバージョンダイアグラム(遷移回数)

※ 画像をクリックすると拡大します。また,画像をダウンロードするとオリジナルサイズを参照することができます。今回はグラフの配置を「横」から「縦」に変更して表示しています。

先ほどまでの「遷移回数」というKPIは,サイトに訪れた「全てのユーザー」を対象にカウントしたものでした。

これを「コンバージョンしたユーザー」に限定してダイアグラムを見ることは,より関心度の高い良質なユーザーの動きを捉えるという意味で大変有効です。これを「コンバージョンダイアグラム」と呼ぶことにします。

このダイアグラムにおいて,コンバージョンポイントに至るまでの太い線で接続された連続的なノードをパス(ルート)として見ることで,コンバージョンへ到達しやすいルートを把握することができます。稀に,とても太い線が連続して繋がっているパスを見かけることがあります。これをコンバージョンに向かう最適なパスの一つと重要視して「ゴールデンパス」と呼ぶことにします。

ゴールデンパスが見つかれば,今後とるべく施策は明確で,他のユーザーをこのゴールデンパスのレールにうまく乗せるようなサイト構成を見直すことです。サイト構成の見直しもまた,ダイアグラムのおかげで作業がスムーズに進むはずです。

4. コンバージョン率ダイアグラム

※ 画像をクリックすると拡大します。また,画像をダウンロードするとオリジナルサイズを参照することができます。今回はグラフの配置を「横」から「縦」に変更して表示しています。

先ほどのコンバージョンダイアグラムは,遷移回数を辺の値と太さに設定していました。このダイアグラムで把握できないところに,

  • コンバージョンしたユーザーも多いが,していないユーザーも多く通っている辺も太くなってしまう(本来は重要視してほしくない)
  • コンバージョンしたユーザー特有の辺であっても,絶対数が少なければ太いパスとして表現されない(本来は重要視してほしい)

というのがあります。そこで,辺の値に「絶対的な値」ではなく「相対的な値=度数」を採用します。パス分析ではコンバージョンしたユーザーとしなかったユーザーでテーブルを分けますので,それぞれの遷移回数を求め,

CV率 =(CVしたユーザーの遷移回数)/ {(CVしたユーザーの遷移回数)+(CVしなかったユーザーの遷移回数)}

を辺の値および太さに採用します。これがコンバージョン率ダイアグラム(上図)です。コンバージョンしたユーザー特有の遷移ほど辺が太く浮かび上がりますので,その辺やそれに連なるパスを最も重要視して追っていくことに意義が生まれます。

この「絶対数」と「相対数」の使い分けは,バスケット分析についても同じ事が言えました。バスケット分析では共起回数に変わって共起度を採用することでこの問題を切り抜けました。

トレジャーデータで実践:Basket 分析(実行編)
バスケット分析シリーズの第3回目です。実際に実行するところまで見ていきましょう。EC購買サンプルログ前回の最後にも記載しましたが,今回使用する…

終わりに

次回はこれらダイアグラムを作り出すためのクエリ,および可視化ツールの紹介をしていきます。トレジャーデータ SDK ユーザーの皆様は,是非ともダイアグラムを描いてみて下さい!