こんにちは!JADEの郡山です。
2023年7月から従来のバージョンのGoogleアナリティクス「ユニバーサルアナリティクス」が順次計測を停止していき、いよいよGA4へ完全移行する段階が訪れました。
同じ「Googleアナリティクス」というアクセス解析ツールではありますが、UAとGA4は計測する仕組み(仕様)がまったくの別物となっています。
ゼロからGA4を学び、向き合い、活用することが求められるわけですが、
一方で「UAではこういう仕組みでデータを集計していた」という知識をお持ちの方ほどUAとGA4の仕様の違いに頭を悩まされることも多いのではないでしょうか。
今回はGA4の基本的なデータである「ユーザー」指標について、 UAとGA4でどのような仕様の違いがあるのかを解説してみます。
管理画面に表示されているデータは、一体どんな仕組みで集計されたものなのか。
その仕組を、(基本的な部分だけでよいので)理解しておくと GA4管理画面の苦手意識が少しやわらいでくれるかと思います。
UAとGA4の「ユーザー」指標について
仕様に関する公式のドキュメント
参考:[UA→GA4] 指標の比較: Google アナリティクス 4 とユニバーサル アナリティクス - アナリティクス ヘルプ
参考:Google アナリティクスによるウェブサイトでの Cookie の使用 | Google アナリティクス 4 プロパティ | Google for Developers
UAの仕組み
ユーザーがウェブサイトを訪問すると、
UAはブラウザごとのCookieというメモ帳のような機能に、各ユーザーを判定するための「クライアントID」という識別子を記録します。(_gaというGoogleが発行するファーストパーティCookieに保存される値で、2年保持されます。)
こちらのクライアントIDが一人一人のユーザーごとの固有のIDとして集計されるため、同じユーザーが複数のブラウザで同じウェブサイトを訪問した場合、すべて別人としてカウントされます。
「ユーザー > ユーザーエクスプローラー」のレポートでクライアントIDごと=ユーザーごとのサイト内行動を確認することができました。
また、「ユーザー > 概要」のレポートでは集計期間中の合計ユーザー数などを確認できました。
ユーザー:ブラウザに記録されるクライアントIDをカウント=「ブラウザ数」とほぼ同義
新規ユーザー:初めてサイトを訪問したブラウザの数をカウント(クライアントIDが無いブラウザ)
このようにブラウザのCookie情報を参照して判断、集計をするというシンプルなものでした。
UAの注意点
UAの管理画面で集計する場合、「サンプリング」という仕様が適用されるケースがあります。
参考:データのサンプリングについて - アナリティクス ヘルプ
管理画面のレポート上に黄色のラベルが表示されていると、サンプリングが適用された状態での集計結果になっています。
集計対象となるデータが一定量を超える大ボリュームであるケースでは、
全てを集計するのではなく、一部のデータをもとに全体を推測した集計結果を返している状態です。よって、正確な実績とは若干異なる結果を表示することがありえます。
GA4の仕組み:レポート用識別子
参考:[GA4] レポート用識別子 - アナリティクス ヘルプ
GA4もUAと同様に、
ユーザーがウェブサイトを訪問すると、
ブラウザごとのCookieに、「デバイスID」という識別子を記録します。(_gaというGoogleが発行するファーストパーティCookieに保存される値で、2年保持されます。)
デバイスIDはユーザーを識別するための情報として利用されるのですが、
GA4はデバイスIDだけでユーザーを判定する仕様ではありません。
プロパティの「レポート用識別子」という設定で選択したルールに基づいてユーザーを判定・カウントします。
レポート用識別子では、2023年8月現在では3種類の設定を選択することができます。
GA4が「ユーザーを判定する際にどのような情報を使うのか」というルールを決めるものです。
- User-ID(会員情報などの一意の値)
- Google シグナル(Google社独自のユーザー識別情報)
- デバイス ID(ブラウザのCookieに記録される情報)
- モデリング(一定の条件を満たすと適用される、推測による判定)
という4つの情報・手段でユーザーを判定します。
詳細はアナリティクス ヘルプをご覧頂ければと思いますが、「ユーザーのプライバシーに配慮した上で、高精度のユーザー判定を行う」ということができるようになっています。
- ハイブリッド(すべての情報を利用して高精度の判定をするルール)
- 計測データ(モデリングという推測によるユーザー判定を含まないルール)
- デバイスベース(Cookieに保存されている識別子のみで判定するルール)
上記の3種類を選択できますが、デフォルトでは「ハイブリッド」になっています。
どの設定も間違いではなく、サイトやGA利用者の運用方針に則って選ぶのが良いかと思います。(例:UAと同等の集計ルールを希望する場合は「デバイスベース」を設定)
覚えておきたいのは、UAと同様のユーザー判定ルールでユーザー数をカウントしたい場合は「デバイスベース」へレポート用識別子を変更する必要があるという点です。
GA4の「総ユーザー数」と「ユーザー」
アナリティクス ヘルプにそれぞれ説明が記載されていますが、 GA4はサイトを1秒以上滞在したユーザーをアクティブユーザーとみなす、UAにはなかった判定軸の指標が登場しました。
GA4では【ユニークユーザーの合計数】をカウントする「総ユーザー数」指標と
【アクティブユーザー数】をカウントする「ユーザー」指標が存在します。
GA4管理画面の標準レポートでは「ユーザー」指標がデフォルトで組み込まれているレポートが多いですが、これはUAの同名の指標とは異なる集計をしている指標です。
サイトを訪問して1秒未満で離脱するユーザーは、GA4の「ユーザー」指標ではカウントしません。よって、同じ名称の指標ではありますがUAとGA4それぞれで異なる集計ロジックであるため、実績が一致しないことがありえます。
GA4の仕組み:サンプリングとしきい値
ユーザーを判定する情報、ルールが異なるというだけでなく 他にも様々なGA4独自の仕様が「ユーザー」指標の集計に関わっています。
次にご紹介するのが「サンプリング」「しきい値」という2つの仕様です。
参考:[GA4] データ サンプリングについて - アナリティクス ヘルプ
参考:[GA4] データのしきい値 - アナリティクス ヘルプ
サンプリング:対象となるデータの一部を集計し、拡大推計した「おおよその集計結果」を表示
しきい値:ユーザーのプライバシーに配慮し、高精度な集計ができないよう「データが除外された少ない結果」を表示
それぞれ、適用されると警告のようなアイコンがレポート上に表示されます。
サンプリングについては、UAと同じ捉え方でよいですが しきい値に関しては、「集計対象のデータ自体が一部取り除かれている」という少ない母数を対象とした集計になるため、実際のデータよりも少ない結果になります。
GA4管理画面で利用できる「標準レポート」「探索レポート」は、それぞれ下記のように異なるデータを参照して集計をしています。
それぞれのレポートについて丁寧に説明するととんでもない長話になってしまうのですが
- それぞれ異なるデータを参照している
- それぞれ異なる制限がある
という点だけ今回はご説明します。
まず、標準レポートを利用する場合は「サンプリング」は発生しません。
すでに集計済みのデータを表示しているため、集計期間を長くしたりセカンダリディメンションを組み合わせても「表示されるのは集計済みのデータ」です。
一方、探索レポートを利用する場合は「サンプリング」が発生するケースがあります。 未処理のデータを自由形式レポートなどでデータを組み合わせて集計させるため、データボリュームが大きい場合などはサンプリングが適用されます。
また、標準レポートと探索レポートどちらにも「しきい値」は適用されるケースがあります。
ユーザーやセッションに関連したディメンションや指標を含んでいる集計では、ユーザーのプライバシーに配慮するという意図でしきい値が適用されることがあります。
よって、サンプリングによる推測データと、しきい値による除外データを考慮した集計が必要となります。
GA4の仕組み:データの更新速度
参考:[GA4] データの更新速度とサービスレベル契約の制約 - アナリティクス ヘルプ
GA4の仕様で覚えておきたいのが「計測されたデータが各レポートに反映されるタイミング」です。
GA4は、プロパティごとに記録するイベント数のボリュームに応じて「カテゴリ」が決まっています。過去31日で記録したイベント数が 250 億個未満の場合は「標準」というカテゴリになるため、多くのGA4プロパティがこちらに該当するかと思います。
有償版のGA4 360プロパティや、カテゴリごとに各レポートへデータが反映されるまでの間隔が異なっています。
無償版のGA4プロパティで「標準」カテゴリに該当する場合、
前日のデータを集計する際は12時間程度待たないと反映しきれていないデータがあると考えられます。(実際には12時間以上の時間が経過してから反映されるケースも確認しています)
UAは4時間程度待てば前日の実績を確認できましたが、GA4ではもう少し待たないといけないため、注意が必要です。
GA4の仕組み:レイトヒット
参考:[UA→GA4] ユニバーサル アナリティクスと Google アナリティクス 4 のデータ - アナリティクス ヘルプ
そして、GA4独自の仕様として「イベントが最大72時間遅れて到着した場合でもイベントが処理される」という【レイトヒット】という仕様についても触れておきたいと思います。
例えば飛行機や地下鉄を利用している時、通信速度制限の状態の端末を利用している時など「計測すべきイベントが即時計測できなかった」「翌日、同サイトを再閲覧」といった行動が発生した場合、前日のデータが遅れて届いて反映されるという仕組みがあります。
この「レイトヒット」という仕組みにより、直近72時間以内の集計結果は微増するケースがあります。
GA4の仕組み:HyperLogLog++(HLL++)アルゴリズム
参考:Google アナリティクスのユニークカウントの近似値 | Google アナリティクスの BigQuery Export | Google for Developers
GA4管理画面とData APIという外部での集計(LookerStudioなど)では、
ユーザー、セッション関連の指標を集計する際に推定値を含む集計結果が表示される「HLL++」という仕様があります。
集計結果にどの程度の推定データが含まれているか判別する方法は今のところありません。BigQueryを利用してローデータの集計を行う際に、管理画面の集計結果と一致しない要因として覚えておきましょう。
まとめ
GA4というツールは名前こそ「Google アナリティクス」を冠していますが、 ユニバーサルアナリティクスとは根本から異なる仕様で設計されている別物のツールです。
UA時代にKPI指標として追っていたデータを、GA4で計測できる近しいデータに置き換えて新しいKPI指標として定義することがあるかと思います。 その際は、「GA4で利用できる指標がどのようなものなのか」を正しく把握して、過去の指標のイメージのまま扱うことのないようにご注意頂くと良いかと思います。
ダッシュボードや用語集、運用資料などを作成する方がステークホルダー向けに周知していくと新指標への理解がスムーズに浸透していくのではと考えています。
また、Apple社の「Safari」ブラウザに搭載されているサイトトラッキング防止機能 ITP(Intelligent Tracking Prevention)などCookieの規制が強化されていく流れもあります。
ユーザーのプライバシーに配慮した上で、可能な範囲で精確なユーザー判定・集計をしていくことがより重要になってきます。
GA4で確認したい大切な「ユーザー数」という指標を、どう捉えていくか理解する上でこの記事がお役に立てば幸いです。