Googleのハイパーログログプラスプラス アルゴリズムとは

HyperLogLog++(ハイパーログログプラスプラス)というGoogleのアルゴリズムがあります。これは、Googleが提供するアクセス解析ツールであるGA4の推定アルゴリズムなのだそうです。何を推定するのかというと、設置したウェブサイトのアクセス数などを推定するとのこと。実は、GA4でレポート表示されるデータは、サンプリング(データが膨大なとき、処理を軽くするため、データを統計的に問題ない範囲で間引いて軽くする処理)をされずとも、そもそも推定データなのだそうです。

GoogleのHyperLogLog++とは

GoogleがGA4で稼働させている推定処理をするアルゴリズムです。GA4が取得したWebサイトやアプリからの閲覧トラフィックデータから、値を推定していGA4などのレポートに推定値を表示させる、というものです。

わたしはその存在を知らなったのですが、Ichさんのツイートで知りました。ありがとうございました。

実際、Ichさんは、BigQueryのデータをHyperLogLog++で計算し、その値がGA4とほぼ近くなったとしています。そうだったのですね。。。

プロが教えるいちばん詳しいGoogle アナリティクス 4 | NRIネットコム株式会社, 神崎健太

GA4で使われるHyperLogLog++

GA4で表示されるレポートのデータは、サンプリングされていなくとも、どうやらこのHyperLogLog++が推定して出した算出値のようです。本当に正確な実数は、どうやらBigQueryでないとダメらしい。

>>Ultimate Guide to Querying Google Analytics 4 Properties or Firebase Data in BigQuery | Bounteous
>>GA4 BigQuery と GA4 データの不一致

BigQuery と Google アナリティクスで見られる最も一般的な違いの 1 つは、ユーザー数です。Google アナリティクスの事前集計レポートは、HyperLogLog ++ と呼ばれる確率的カーディナリティ推定アルゴリズムに依存しています。このアルゴリズムは、分析インターフェースのユーザー数を概算しており、通常は許容範囲内 (~1 ~ 2%) です。(DeepL機械翻訳)

あとは、Googleの公式のドキュメントを参照しましょう。

>>[GA4] アナリティクスのセッションについて – アナリティクス ヘルプ

BigQuery では十分な時間とリソースを使って正確なセッション数を計算するため、前述の効率的なセッション指標の計算方法(HyperLogLog++ アルゴリズム)は適用されません。

>>Google アナリティクスのユニークカウントの近似値  |  Google Analytics BigQuery Export  |  Google Developers

大規模なデータセットで正確な個数(カーディナリティなど)を測定するには、かなりのメモリが必要になり、パフォーマンスに影響します。Google アナリティクス 4 プロパティでは、HyperLogLog++(HLL++)アルゴリズムを使用して、アクティブ ユーザーやセッションなど、最も使用されている指標のカーディナリティを推定します。

どうやらそもそも、HyperLogLogというアルゴリズムが存在し、HyperLogLog++はGoogleが拡張したものらしいです。

>>HyperLogLog – Wikipedia

カーディナリティとは

カーディナリティについてはこちらがわかりやすいです。基本的にはデータの濃さというか、付随する種類数というか。

>>カーディナリティについてまとめてみた – Qiita

例えば性別なら、男と女の二種類である。
カラムのデータの種類が、テーブルのレコード数に比べて二種類と少ない。このことを カーディナリティが低い という。

実は2019年からHyperLogLog++

>>Cloud Dataflow support for HyperLogLog ++ for count-distinct | Google Cloud Blog

すでにBigQueryでのHyperLogLog++を試みるレポートがGoogle公式でも出されていて、大量のビッグデータをどう高速に扱うか、というのは昔からの命題だったのですね。

さて早速、PCの日本語変換辞書にHyperLogLog++と登録しようとしたら、自動ふりがなが「Hyぺrぉgぉg++」と表示されて、ちょっとほっこりした。PCもかなり焦っているようで面白かったです。

ネガティブフィードバック「言いにくいこと」を相手にきちんと伝える技術 : 難波 猛

・ ・ ・ ・ ・

>>安っ!アマゾンで半額以下になっている食品タイムセール
セール特設ページを見る

↓↓↓無料のニュースレターを配信中です

HyperLogLog++