GA4を利用していると「以前と同じ条件でレポートを作成したはずなのに、今回は異なる数値が表示された」というケースに遭遇することがあります。このような場合、作成したレポートにサンプリングが適用されている可能性があります。
サンプリングとは、対象となる全データのうち、一部のみを抽出してレポートを作成する仕組みです。仕組みや適用される条件を正しく理解していないと、施策の結果を誤って判断してしまう恐れがあります。
本記事では、GA4におけるサンプリングが適用される条件や「しきい値」との違いなどの基本的な仕組みを解説しつつ、サンプリングの適用を防ぐための4つの具体的な方法をご紹介します。
なお、弊社EVERRISEでは、GA4のデータの高速抽出・AWS連携をスムーズにするツールとして「JetJunction」を提供しています。JetJunctionを利用することで、ユーザー単位ですべてのRAWデータを取得できるため、サンプリングの適用を回避し、より正確な分析を実現できます。JetJunctionについて、詳しくは下記の無料資料をご覧ください。
GA4のサンプリングとは
サンプリングとは、大量のデータを効率的に処理するために、一部のデータを抽出して分析に利用する手法です。GA4では、分析対象のデータが大量になった場合、サンプリングが自動的に適用されます。
サンプリングが適用されると、レポート作成に使用されたデータの割合が画面上に表示されます。この割合は「サンプリングレート」と呼ばれ「50%」と表示された場合は、全体の半分のデータをもとにレポートが作成されたことを意味します。サンプリングレートが高いほど、実際のデータをより多く利用してレポートが作成されている状態です。
サンプリングが適用されることによる弊害
サンプリングが適用された場合、一部のデータを利用したレポートのため、実際の結果と数値にずれが生じます。
Google広告のキャンペーンのCVRのように、施策の評価において重要な指標を扱う際には特に注意が必要です。GA4で作成したレポートにサンプリングが適用されている場合は、数値のずれが生じる可能性があることを理解したうえで、施策の評価を行う必要があります。
また、社内外の報告にてサンプリングが適用されているGA4のレポートを利用する場合、定期的にデータを抽出する中で、中間報告と最終報告でズレが発生する可能性があることの説明や共通認識の形成が難しく、信頼や説得力を損なう可能性があります。
サンプリングが適用される条件
GA4でレポートを作成した際に、必ずサンプリングが適用されるわけではありません。サンプリングは「探索レポート」を作成する際に、処理対象となる「イベント数」が上限を超えた場合にのみ適用されます。
GA4では、ページの閲覧・スクロール・リンクのクリック・商品購入など、ユーザーがweb上で行った操作はすべて「イベント」として記録されます。レポートで対象となるイベント数の合計が上限を超えると、サンプリングが適用される可能性があります。
この上限は、GA4プロパティの種類によって異なります。無料版のGA4である標準プロパティと、アップグレードされた有料のGA4という位置付けのGoogleアナリティクス360のデータ上限は下記のとおりです。
- 標準プロパティ:1,000万イベント
- Googleアナリティクス360:10億イベント
特に、ECサイトやオウンドメディアなど、トラフィックの多いサイトを運営している場合は注意が必要です。例えば、分析期間が長い探索レポートを作成した場合、GA4の内部で処理されるイベント数が増加し、上限を超えることでサンプリングが適用される可能性があります。
サンプリングとしきい値の違い
サンプリングとは異なる条件でデータが除外される仕組みとして「しきい値」があります。GA4におけるしきい値とは、ユーザーのプライバシーを保護することを目的に、特定の条件下でレポートから一部のデータを除外する仕組みです。
レポートに年齢や性別などのフィルタをかけた際、対象ユーザーが少ない場合に個人が特定できてしまうことを避けるために、しきい値が適用されてデータが非表示になることがあります。また、GA4のレポートでは、ユーザーがサイト内検索で入力した「検索語句」も分析できますが、個人の特定に繋がる恐れがあるため、しきい値が適用されてデータが表示されないことがあります。
サンプリングとしきい値の違いをまとめた表がこちらです。
サンプリング | しきい値 | |
---|---|---|
目的 | データ処理の効率化 | プライバシー保護 |
適用される条件 |
・標準プロパティ:1,000万イベントを超える ・Googleアナリティクス360:10億イベントを超える |
いずれかの条件を満たす場合 ・ユーザー属性データが含まれている ・検索語句の情報が含まれている |
起きる現象 | 数値の精度が落ちる | データが表示されない |
対象 | 探索レポート | 標準・探索レポート |
しきい値の詳細は、Googleの公式サイトをご確認ください。
GA4で作成したレポートにサンプリングが適用されているか確認する方法
GA4で作成したレポートにサンプリングが適用されているかを確認する方法は、下記の通りです。
- 確認したいレポートを開く
- 画面右上の赤色の△マークの部分にカーソルを合わせる
- 「サンプリング データ」と表示される場合、該当のレポートにサンプリングが適用されている
この画像のレポートの場合、サンプリングレートは52.8%です。
なお、同じ方法で、しきい値が適用されているかどうかも確認可能です。
GA4でサンプリングが適用されることを防ぐ4つの方法
GA4でサンプリングが適用されることを防ぐために有効な4つの方法を紹介します。
- イベント数が少なくなるようにレポートを調整する
- Googleアナリティクス360を利用する
- GA4のRAWデータを利用する(BigQueryを利用する)
- JetJunctionを利用する
イベント数が少なくなるようにレポートを調整する
処理対象となるイベント数を抑えることは、サンプリングの適用を防ぐことに繋がります。具体的な調整方法の例は、下記のとおりです。
- 分析期間を短くする
- 不要なディメンションを削除する
- フィルタ・セグメント機能で対象データを限定する
このような調整により、レポート作成時に処理するイベント数が減り、サンプリングの適用を防げる可能性があります。また、サンプリングが適用されている場合でも、サンプリングレートの改善が可能です。
一方で、このような方法はあくまで一時的・表面的な防止策にすぎず、分析の自由度や網羅性が制限されるという課題があります。例えば、分析期間を短くした場合、中長期的なトレンドの把握や全体傾向の分析が難しくなります。
大規模なデータを正確に分析したい場合には、別のアプローチを検討する必要があります。
Googleアナリティクス360を利用する
通常プロパティのイベント数の上限は1,000万件である一方で、Googleアナリティクス360の上限は10億件です。Googleアナリティクス360を利用することで、処理可能なイベント数が大きく増加し、サンプリングの適用を防げます。
しかし、Googleアナリティクス360はエンタープライズ企業向けのサービスであり、中小規模の事業者や用途が限定的なケースでは、費用対効果が見合わない可能性が高いことに注意が必要です。
Googleアナリティクス360の詳細は、Googleの公式サイトをご確認ください。
GA4のRAWデータを利用する(BigQueryを利用する)
BigQueryに連携したRAWデータを利用することで、GA4におけるサンプリングの適用を防ぎ、柔軟なデータ分析が可能になります。
BigQueryとは、Google Cloudが提供するクラウドDWHで、GA4のRAWデータをエクスポートして蓄積・分析できます。そのため、探索レポートと同様の分析を、期間やディメンションなどの制限を受けることなく、サンプリングの適用を防ぎながら実施できます。加えて、独自のKPI設計やビジネス要件に応じた柔軟な集計にも対応できるため、GA4単体では難しい柔軟な分析も可能です。
関連:GA4とBigQueryの連携で実現できること|RAWデータ活用でコスト削減する方法
しかし、RAWデータを利用するためには、JSONデータを解析して必要な形に加工したり、扱いやすい形にデータを定義・加工する前処理が必要です。マーケターだけでは対応が難しく、社内にSQLを扱える人材がいない場合は外部の支援が必要になるケースもあります。
また、BigQueryは母体がGoogleのサービスであるため、Googleのクラウド環境に依存します。AWS環境をメインで利用している場合、GA4データ分析のためだけにGCPを運用する必要があり、管理や運用のコストが増える懸念もあります。
関連:GA4のデータをAWS環境に連携する2つの方法|GCPの管理コスト削減を実現
さらに、BigQueryは各種処理の実行量に応じたコストがかかります。課金体系が複雑であるため、コスト管理が難しいという問題もあります。
関連:GA4とBigQueryを連携する料金はいくら?料金目安の計算方法と料金を抑える方法
JetJunctionを利用する
GA4のデータ利用において、RAWデータ利用の課題を解決するのがJetJunctionです。
JetJunctionとは、GA4のデータを簡単に抽出・集計できる、EVERRISEが提供するツールです。
JetJunctionはBigQueryと同様にGA4のRAWデータを扱うことができるため、サンプリングの適用を防ぐことができます。簡単なSelect / JoinレベルのSQLの知識でデータを利用でき、エンジニアの工数も削減可能です。
また、JetJunctionはGA4のデータをAmazon RedshifやS3にも出力できます。そのため、AWS環境をメインとしている企業でも、GA4のデータのためにBigQueryを使う必要がなくなり、GCPの管理工数の削減にも繋がります。
JetJunctionを利用する場合も費用が発生しますが、イベント数やテーブル数に基づいた料金プランが用意されており、BigQueryと比較してコスト管理がしやすくなっています。
JetJunctionのより詳しい機能や特長、料金の目安について、詳しくは下記の無料資料をご覧ください。
無料資料:JetJunctionご紹介資料
データ活用の幅を広げるCDP
データ活用の最初のステップとして、まずGA4(webトラッキング)のデータ分析に取り組み、そこからメール配信履歴や購入履歴、実店舗への来店履歴など、ほかのデータと組み合わせた活用を検討するケースが多く見られます。
それらのデータを組み合わせてより複雑な分析・施策を行うためには、自社のデータを一元管理するデータ基盤が必要となりますが、その選択肢の1つにCDPの導入があります。
CDPとは「カスタマー データ プラットフォーム:Customer Data Platform」の略称で、企業が持つ顧客データを「実在する個人」に紐付けて統合・管理し、顧客一人ひとりの正確な理解を可能にするプラットフォームです。CDPを使うことで、GA4データを含めて顧客に関するあらゆるデータを最大限活用できるようになります。
関連:CDPとは?機能や部門・業界別の活用例、今後の動向などをまとめて解説
CDPを利用することで、オンライン・オフライン問わず、あらゆる顧客データを一元管理できるようになります。また、CDPは顧客一人ひとりに合わせた体験が提供できるよう、BIツールやMAツール、プッシュ通知、web接客ツールなどの分析・施策を行うツールと連携できます。
具体的には、下記のようなツールと連携可能です。
ツール名 | BI / 分析ツール | MA / メール配信 / その他施策 |
---|---|---|
ツールの例 |
・Tableau ・Looker Studio(旧Google Data Portal) ・Yellowfin ・Amazon QuickSight ・DOMO ・Redash など |
・Marketo ・Marketing Cloud Account Engagement(旧 Pardot) ・HubSpot ・Synergy! ・Karte ・DLPO ・LINE ・Repro ・WEBCAS email など |
JetJunctionとCDPを連携させることで、GA4のデータに加えて、位置情報や実店舗への来店履歴など、GA4単体では取得できないデータも組み合わせた分析が可能になります。その結果、分析の幅が広がり、顧客をより深く正確に理解できるようになります。
また、組み合わせたデータをもとに顧客単位でセグメントを作成し異なるコンテンツを提供するなど、それぞれの顧客の状況に合わせた施策を実行可能です。
CDPについて、詳しくは下記の無料資料をご覧ください。CDPの機能や役割、ほかのツールとの違いなど、導入前に知っておくべき情報をまとめて紹介しています。