HyperLogLog++(ハイパーログログプラスプラス)というGoogleのアルゴリズムがあります。これは、Googleが提供するアクセス解析ツールであるGA4の推定アルゴリズムなのだそうです。何を推定するのかというと、設置したウェブサイトのアクセス数などを推定するとのこと。実は、GA4でレポート表示されるデータは、サンプリング(データが膨大なとき、処理を軽くするため、データを統計的に問題ない範囲で間引いて軽くする処理)をされずとも、そもそも推定データなのだそうです。
GoogleのHyperLogLog++とは
GoogleがGA4で稼働させている推定処理をするアルゴリズムです。GA4が取得したWebサイトやアプリからの閲覧トラフィックデータから、値を推定していGA4などのレポートに推定値を表示させる、というものです。
わたしはその存在を知らなったのですが、Ichさんのツイートで知りました。ありがとうございました。
GA4とBigQueryで計算した数値に差異が出る理由がここに書いてあった。
簡潔に言うとGA4UIに表示されるデータはHyperLogLog++アルゴリズムに基づいて算出された推定値で
正確な数値はBigQuery側で計算したものということサンプリングがかかっていなくても推定値。https://t.co/v26AqB7XmP
— Ich (@S4RngeNhBvAlC9f) January 5, 2023
実際、Ichさんは、BigQueryのデータをHyperLogLog++で計算し、その値がGA4とほぼ近くなったとしています。そうだったのですね。。。
プロが教えるいちばん詳しいGoogle アナリティクス 4 | NRIネットコム株式会社, 神崎健太
GA4で使われるHyperLogLog++
GA4で表示されるレポートのデータは、サンプリングされていなくとも、どうやらこのHyperLogLog++が推定して出した算出値のようです。本当に正確な実数は、どうやらBigQueryでないとダメらしい。
>>Ultimate Guide to Querying Google Analytics 4 Properties or Firebase Data in BigQuery | Bounteous
>>GA4 BigQuery と GA4 データの不一致
BigQuery と Google アナリティクスで見られる最も一般的な違いの 1 つは、ユーザー数です。Google アナリティクスの事前集計レポートは、HyperLogLog ++ と呼ばれる確率的カーディナリティ推定アルゴリズムに依存しています。このアルゴリズムは、分析インターフェースのユーザー数を概算しており、通常は許容範囲内 (~1 ~ 2%) です。(DeepL機械翻訳)
あとは、Googleの公式のドキュメントを参照しましょう。
>>[GA4] アナリティクスのセッションについて – アナリティクス ヘルプ
BigQuery では十分な時間とリソースを使って正確なセッション数を計算するため、前述の効率的なセッション指標の計算方法(HyperLogLog++ アルゴリズム)は適用されません。
>>Google アナリティクスのユニークカウントの近似値 | Google Analytics BigQuery Export | Google Developers
大規模なデータセットで正確な個数(カーディナリティなど)を測定するには、かなりのメモリが必要になり、パフォーマンスに影響します。Google アナリティクス 4 プロパティでは、HyperLogLog++(HLL++)アルゴリズムを使用して、アクティブ ユーザーやセッションなど、最も使用されている指標のカーディナリティを推定します。
どうやらそもそも、HyperLogLogというアルゴリズムが存在し、HyperLogLog++はGoogleが拡張したものらしいです。
カーディナリティとは
カーディナリティについてはこちらがわかりやすいです。基本的にはデータの濃さというか、付随する種類数というか。
例えば性別なら、男と女の二種類である。
カラムのデータの種類が、テーブルのレコード数に比べて二種類と少ない。このことを カーディナリティが低い という。
実は2019年からHyperLogLog++
>>Cloud Dataflow support for HyperLogLog ++ for count-distinct | Google Cloud Blog
すでにBigQueryでのHyperLogLog++を試みるレポートがGoogle公式でも出されていて、大量のビッグデータをどう高速に扱うか、というのは昔からの命題だったのですね。
さて早速、PCの日本語変換辞書にHyperLogLog++と登録しようとしたら、自動ふりがなが「Hyぺrぉgぉg++」と表示されて、ちょっとほっこりした。PCもかなり焦っているようで面白かったです。
ネガティブフィードバック「言いにくいこと」を相手にきちんと伝える技術 : 難波 猛
・ ・ ・ ・ ・
>>安っ!アマゾンで半額以下になっている食品タイムセール
セール特設ページを見る
↓↓↓無料のニュースレターを配信中です