トレジャーデータで実践「離脱分析」 〜 コホート分析と生存時間分析 〜

ほとんど全ての会員制サービスには,顧客の「入会」と「退会」という概念があります。そして退会(ここでは離脱と呼びます)における分析は,それを防止するという目的…


トレジャーデータで実践:Path 分析(アウトプット編2:遷移ダイアグラム)

「トレジャーデータで実践:Path 分析」シリーズでは,過去にWeb,広告,リアル店舗でのログを元に,コンバージョンパステーブルの…


トレジャーデータで実践:Path 分析(アウトプット編1:頻出パターンマイニング)

「トレジャーデータで実践:Path 分析」シリーズでは,過去にWeb,広告,リアル店舗でのログを元に,コンバージョンパステーブルの…


トレジャーデータで実践:A/B テスト(問題集編)

さて,本シリーズの最後として他のテスト(統計的仮説検定)の事例を紹介します。
全ての問題で共通においている前提
※ 検定方向ついて…


トレジャーデータで実践:A/B テスト(実践編その4)

(平均と比率について)
実践その1,その2では以下のような事例を考えました。
Q.(平均の差)…


トレジャーデータで実践:A/B テスト(実践編その3)

実例A/Bテスト2
Q. (対応のあるデータ)
あるECストアの2011年(A)と2012年(B)のサブカテゴリごとの売上について…


トレジャーデータで実践:A/B テスト(実践編その2)

前回,A/Bの平均値の差違について,サンプル数が多い場合に適用できる「z検定」と喚ばれる最も一般的な手法についてポイントと手順を説明しました。今回は前回の続きで…


トレジャーデータで実践:A/B テスト(実践編その1)

今回は,具体的なデータを事例にしてA/Bテストをわかりやすく紹介します。本記事では理論的なところは控えめに,手順とポイントについて詳しく紹介していきます。実のところ…


トレジャーデータで実践:A/B テスト(心の準備編)

これから数回にかけて,A/B テストおよび仮説検定(A/Bテストはこの検定の枠組みに含まれます)の数学的な理解からトレジャーデータプラットフォームを使っての実践までを…


トレジャーデータで実践:Window関数(その3)

基本形3:AGGR_FUNC() OVER (PARTITION BY c ORDER BY d ROWS BETWEEN m PRECEDING AND n FOLLOWING)
基本形3 はPARTITION BY でグループ化…


トレジャーデータで実践:Window関数(その2)

前回は集約関数と比する形でWindow関数の紹介をしました。今回はWindow関数の記述および代表的な関数を分かりやすく説明していきます。


トレジャーデータで実践:Window関数(その1)

トレジャーデータでは最新のアップデートにより,バッチクエリ(Hive)でもWindow関数をサポートするようになりました。また,アドホッククエリ(Presto)では元々Window関数を…


トレジャーデータで実践:RFM分析(前編)

EC や POS、Web サービス、Game など、購買行動を伴う一連の行動ログは活用意義のある大変貴重なものとして古くから分析が行われて来ました。


Treasure Data × HEMS がもたらすスマートなエネルギー統合管理(後編)

前回はHEMSについて簡単な紹介をしましたが、電力消費管理の具体的なイメージを持ってもらえるようにサンプルデータをもとに可視化してみました。


Treasure Data × HEMS がもたらすスマートなエネルギー統合管理(前編)

最近よく耳にするようになった「HEMS」という言葉は、元は住宅・電機メーカー業界では2000年代から扱われていた概念でした。
しかし最近,IoTへの意識の高まりと…


トレジャーデータで実践:Basket 分析(応用編3)「共起」から「遷移」へ

今回は「共起」の概念を拡張して「遷移」を見ていきます。また,「推移」を見ることはリコメンデーションロジックを求める事と…


トレジャーデータで実践:Basket 分析(応用編2)

今回はバスケット分析シリーズの第5回(応用編2)となります。
意外性のあるペアの発見
さて,これまで共起度または共起係数の…


トレジャーデータで実践:Basket 分析(応用編1)

ここまで,任意のペアで共起回数,共起係数を計算していきました。共起係数はアイテムの登場回数が少なく(≃共起回数が少ない)ても関連性の強いペアを見つけてくれるものでした。


トレジャーデータで実践:Basket 分析(実行編)

バスケット分析シリーズの第3回目です。実際に実行するところまで見ていきましょう。
EC購買サンプルログ
前回の最後にも記載しましたが,今回使用する…


トレジャーデータで実践:Basket 分析(心の準備編)

前回の「頭の体操編」では,数字やトランプの組み合わせの抽出をSQLで実践してみました。本題に入る前に,今回はこの「組み合わせ」が引き起こすバスケット分析の本質的な問題の…


トレジャーデータで実践:Basket 分析(頭の体操編)

バスケット分析(併売分析)は,アウトプットイメージやその分析の有用性についてはマーケティング業界の誰もが周知しているのに反して,実際にそれを実践できている所はそれ程…


トレジャーデータで実践:Path 分析(広告編,その4)広告配信ログ(アトリビューション)分析

スコアリング
「広告をどのサイトにどれだけの数を出せば良いのか」を判断するためのベンチマークは…


トレジャーデータで実践:Path 分析(広告編,その3)広告配信ログ(アトリビューション)分析

サイトコンバージョン
第三者広告配信ログと呼ばれるこの業界のログはWeb SiteやECのログが自身の「Site」内で…


トレジャーデータで実践:Path 分析(広告編,その2)広告配信ログ(アトリビューション)分析

前回までイベント(「インプレッション」,「クリック」,「サーチクリック」,「インタラクション」,「パネル」)をノードにした…


トレジャーデータで実践:Path 分析(広告編,その1)広告配信ログ(アトリビューション)分析

アトリビューション分析とは
「寄与」を意味するアトリビューション分析は、主に金融業界と広告業界で数年前から…


トレジャーデータで実践:Path 分析(応用編,後編)実店舗における買い物回遊パス分析

前回に引き続きで、具体的な分析を行って行きます。
コンバージョンパス


トレジャーデータで実践:Path 分析(応用編,前編)実店舗における買い物回遊パス分析

Armadillo-IoT がもたらす「お買い物革命」
前回のWebにおけるパス分析の応用として,実店舗におけるユーザーのお買い物時の…


トレジャーデータで実践:Path 分析(後編)

前編ではパス分析の概念とパス全体に関するKPIを見てきました。
後編はさらにパスを類別して掘り下げていきます。


トレジャーデータで実践:Path 分析(前編)

トレジャーデータで実戦可能なパス分析ソリューションは,主にWebや広告業界向けのコンバージョン分析の応用(コンバージョン「パス」に主眼をおいた分析を行うもの)と位置付け…


データサイエンティストのためのHiveQL分析クエリテンプレート その5

D. Activeness
アクティブネスはユーザーのPVやUUなどのユーザーの活況度を知るための基本的なKPIです。


データサイエンティストのためのHiveQL分析クエリテンプレート その4

C. バスケット分析
バスケット分析はアイテム間の関連度を知るための重要な指標であり,レコメンデーション…


データサイエンティストのためのHiveQL分析クエリテンプレート その2

B. < m1 | Bin(m2), Bin(m3) > パターン
前回はディメンジョンdim1, dim2を直接セグメントとして渡していましたが,今回はメジャー…


データサイエンティストのためのHiveQL分析クエリテンプレート その6

E. リテンション分析
最後はリテンションに関するクエリテンプレートです。


Login(アクセス)ログからわかる12の指標 その4

前回(その3)の続きです。
11. Streak 5:5日連続ログインユーザーリスト
直近(2012-04-04)で5日連続ログインしてくれているユーザーリストを取得します。


Login(アクセス)ログからわかる12の指標 その3

前回(その2)の続きです。
10. 直近のログインユーザーの,(i) 登録時からのプレイ期間,および (ii) 登録日,の分布
直近1週間内にログインのあったユーザーが…


Login(アクセス)ログからわかる12の指標 その2

前回(その1)の続きです。
6. Frequency(リピート回数の分布)
特定期間におけるユーザー当たりの訪問回数の分布を見たものです。


Login(アクセス)ログからわかる12の指標 その1

本シリーズの主張は,例え単純な ”ログイン”(アクセス)の記録のみを取るだけでも,それにユーザーIDが付くことでトレジャーデータ上で遙かにリッチな示唆を得ることができる…


データサイエンティストのためのHiveQL分析クエリテンプレート その3

その2に引き続いてB. < m1|Bin(m2), Bin(m3) >に属するパターンを見ていきます。
パターン B-3:< m1 | Bin(m2) >


データサイエンティストのためのHiveQL分析クエリテンプレート その1

Treasure Dataでは,カラムナデータベースであるTreasure Cloud Storageに対してSQL ライクなHiveQLでデータの集計・分析が可能に…


Treasure Data Analytics 第9回 〜Social Gaming Analytics Vol.3: 退会ユーザーに関する分析〜

前回はチュートリアルの全ステップを通過し,登録に至るまでの状況をファンネル分析で見てきました。


Treasure Data Analytics 第8回 〜Social Gaming Analytics Vol.2: チュートリアルにおけるファンネル分析〜

図1:チュートリアルのアクションを表現したファンネルグラフ。入口である step=1 には 8 人の user が流入したのにもかかわらず途中で…


Treasure Data Analytics 第7回 〜Social Gaming Analytics Vol.1: イントロダクション〜

今回から数回に渡って Social Gaming Analytics シリーズが始まります。本シリーズの目的は,特定のゲームに依存しない,一般的な…


Treasure Data Analytics 第5回 〜ブックレビューデータセットによるデータ解析入門(実践編2)

前回の続きです。
5. 複数のノード・アクションをまたいだ分析
前回までは主に個々のノード・アクションの…


Treasure Data Analytics 第4回 〜ブックレビューデータセットによるデータ解析入門(実践編1)〜

準備編ではデータセット:Book-Crossing Dataset を用意し, Treasure Data のツールベルト一式を導入した上でインポートし…


Treasure Data Analytics 第3回 〜ブックレビューデータセットによるデータ解析入門(準備編)〜

前回まで Treasure Data Cloud Warehouse の紹介をしていましたが,今回からはパブリックデータを利用したデータ解析のユースケースを…