トレジャーデータで実践:Window関数(その3)

基本形3:AGGR_FUNC() OVER (PARTITION BY c ORDER BY d ROWS BETWEEN m PRECEDING AND n FOLLOWING)
基本形3 はPARTITION BY でグループ化…


トレジャーデータで実践:Window関数(その2)

前回は集約関数と比する形でWindow関数の紹介をしました。今回はWindow関数の記述および代表的な関数を分かりやすく説明していきます。


トレジャーデータで実践:Window関数(その1)

トレジャーデータでは最新のアップデートにより,バッチクエリ(Hive)でもWindow関数をサポートするようになりました。また,アドホッククエリ(Presto)では元々Window関数を…


(2014年総集編3)アドホッククエリーの登場,大規模データセットに対しても高速なレスポンスを実現

「Treasure Query Accelerator: アドホッククエリー」の登場は「クエリーを実行したその場で結果が返ってくる」という,一見当たり前の…


トレジャーデータ管理コンソールからクエリを実行する

トレジャーデータにサインアップしていただいた全てのユーザーに対して、管理コンソールが用意されております。従来のコマンドラインベースでの操作に比べてこの管理コンソールは…


トレジャーデータと Tableau で実現する自動レポーティング

Site Catalyst や Google Analytics をはじめとした分析ツールは,こちらが何も手を加えなくてもあらゆるチャート・テーブルを参照することができる非常に良く精錬されたツールです。


トレジャーデータのバッチクエリとアドホッククエリを理解する3:アドホッククエリ編

前回はバッチクエリを,外部のデータマートに定期的に書き出す前段の処理の役割として紹介しました。もちろん結果書き込みを…


トレジャーデータのバッチクエリとアドホッククエリを理解する2:バッチクエリ編

バッチ型はデイリーなどの特定の時間インターバルで処理を実行するもので,その場で結果が返ってくることを期待しておりません。


トレジャーデータのバッチクエリとアドホッククエリを理解する1

バッチ型もアドホック型も共にSQLライクのクエリによってデータ処理が可能になっています。大きな違いは,バッチクエリはデータソースに対して大規模な並列分散処理を行うのに…


『Prestoとは何か,Prestoで何ができるか』

Hadoop Conference Japan 2014
以前に告知したHadoop Conference Japan 2014で,弊社Software Architectの古橋が発表しました。テーマは,Facebookが公開した…


データサイエンティストのためのHiveQL分析クエリテンプレート その5

D. Activeness
アクティブネスはユーザーのPVやUUなどのユーザーの活況度を知るための基本的なKPIです。


データサイエンティストのためのHiveQL分析クエリテンプレート その4

C. バスケット分析
バスケット分析はアイテム間の関連度を知るための重要な指標であり,レコメンデーション…


データサイエンティストのためのHiveQL分析クエリテンプレート その2

B. < m1 | Bin(m2), Bin(m3) > パターン
前回はディメンジョンdim1, dim2を直接セグメントとして渡していましたが,今回はメジャー…


Treasure Data Service はどのようなケースに向いているか?

前回は Treasure Data Service が生データストレージにあげられているという前提(つまりTreasure Data Service を利用している前提)で,それとBIなどのフロントエンドを…


Treasure Data Service と Redshift のハイブリッドアーキテクチャ

Treasure Data Service はそれ自身がデータの収集から可視化までの一気通貫したサービスですが,他の様々なサービスと連携することによって各々の分析ニーズにマッチした…


データサイエンティストのためのHiveQL分析クエリテンプレート その6

E. リテンション分析
最後はリテンションに関するクエリテンプレートです。


Login(アクセス)ログからわかる12の指標 その4

前回(その3)の続きです。
11. Streak 5:5日連続ログインユーザーリスト
直近(2012-04-04)で5日連続ログインしてくれているユーザーリストを取得します。


Login(アクセス)ログからわかる12の指標 その3

前回(その2)の続きです。
10. 直近のログインユーザーの,(i) 登録時からのプレイ期間,および (ii) 登録日,の分布
直近1週間内にログインのあったユーザーが…


Login(アクセス)ログからわかる12の指標 その2

前回(その1)の続きです。
6. Frequency(リピート回数の分布)
特定期間におけるユーザー当たりの訪問回数の分布を見たものです。


Login(アクセス)ログからわかる12の指標 その1

本シリーズの主張は,例え単純な ”ログイン”(アクセス)の記録のみを取るだけでも,それにユーザーIDが付くことでトレジャーデータ上で遙かにリッチな示唆を得ることができる…


データサイエンティストのためのHiveQL分析クエリテンプレート その3

その2に引き続いてB. < m1|Bin(m2), Bin(m3) >に属するパターンを見ていきます。
パターン B-3:< m1 | Bin(m2) >


データサイエンティストのためのHiveQL分析クエリテンプレート その1

Treasure Dataでは,カラムナデータベースであるTreasure Cloud Storageに対してSQL ライクなHiveQLでデータの集計・分析が可能に…