顧客の属性データや行動データを統合を進めるうえで、Data Lake(データレイク)やETL(Extract/Transform/Load)、DWH(Data Warehouse:データウェアハウス)といったシステムの役割について知る必要があります。
また、CDP(Customer Data Platform:カスタマーデータプラットフォーム)は、それらのシステムを用いて構成されます。
本記事では、非エンジニアがデータ統合を検討するうえで知っておきたいシステムに関する基礎知識を紹介します。
データ統合基盤「CDP」とは
CDPは、顧客データを管理するためのプラットフォームで、さまざまなシステムやマーケティングツールでバラバラで管理されてしまっているデータを統合管理し、活用するための基盤です。
取り扱うデータはさまざまで、ECサイトであればまずは購入情報を管理するデータベース、在庫を管理するデータベースなどが、中心となるデータです。また、サイト上の行動を管理するアクセス分析のツールや、メール配信ツールやMA(マーケティングオートメーション)、web接客ツールにもユーザーとのコミュニケーションに関するデータが存在します。
さらにECサイトだけでなく店舗も運営している場合には、会員カードや会員アプリで保有しているデータや、POSデータ、受発注管理のデータなどがあります。
これらのデータを統合することで、戦略の立案やマーケティング施策の実施と振り返りに活用できるようになります。
データを統合してBIツールなどを用いることで、それぞれのデータによる断片的な判断ではなく、全体を俯瞰できる情報による正しい判断ができるようになったり、手作業で統合、可視化していた作業を自動化して業務効率化やスピーディーな意思決定が行えるようになったりします。
また、各種マーケティングツールにて個別に判断をして実施していた施策を統合されたデータをもとにセグメントを切って実施し、評価についてもツールごとではなくユーザーの一連の行動をもとに評価できるようになります。
CDPについて、詳しくは下記の記事をご覧ください。
関連:CDPとは?カスタマーデータプラットフォームの機能やメリット、活用例を解説
データ統合に必要な仕組みData Lake/ETL/DWH
CDPの検討を含め、データ統合を進めようという話になるとData Lakeや ETL、DWHという言葉に出会うことになりますが、聞いたことはあるがいまいち理解できていないという人も多いのではないでしょうか。
それらの仕組みについて、技術者以外でもイメージができるように大まかな粒度で説明すると次のとおりです。
Data Lake
- 各種RAWデータを保管する箱(ストレージ)
ETL(Extract/Transform/Load)
- RAWデータを加工してDWHに連携するハブ
- DWHに格納されているデータを加工して他のツールに連携、Data Lakeに格納するハブ
DWH(Data Warehouse)
- 利用しやすいように構造化したデータを保管する箱(データベース)
ストレージ(Data Lake)とデータベース(DWH)の2つが必要となる理由についてはイメージしづらい部分かもしれません。主な理由としては次のとおりです。
まず、大量のデータを扱う際に 直接データベースにデータを保存しようとすると、システムの負荷が大きく、システム全体のパフォーマンスが悪くなり、結果的にデータの欠損が生じてしまうリスクが大きくなります。RAWデータという形でまずはData Lake にストックし、DWHに入れるという構成にすることでリスクを低減できます。
また、システム間連携において直接データベースと接続する開発にコストが発生しますが、CSVなどのファイルを用いた連携であればコストを下げられるため、それらのファイルをDataLakeなどの外部ストレージとの間でデータを入出力しやすい構成にしておくことにメリットがあります。
AWSやGCPにおけるData Leke/ETL/DWH
データ統合を進めるにあたり、Data Lake/ETL/DWHという言葉ではなくAWS(Amazon web Service)やGCP(Google Cloud Platform)の提供しているサービスの名称が出てくることが少なくありません。
AWSやGCPが提供しているサービスで、データ統合におけるData Lake / ETL / DWHに該当するサービスは次のとおりです。ただし、それぞれ指しているものや概念として異なる部分があるため、より詳しく知りたい場合は各サービスが提供している情報をご確認ください。
Data Lake
ETL
DWH
CDPの構成
Data Lake およびETL、DWHを用いてデータ基盤を構築するにあたり簡易なイメージとしては次のような形となります。CDPと呼ばれるシステムでは、下図のCDPの領域の構成に加えて独自の機能を持っています。
主なデータの扱い方については次のとおりです。
- CRM・ERP系のデータについてはData LakeにRAWデータを配置、ETLで必要な形に加工してDWHに格納
- 多くのCDPではwebサイトやモバイルアプリのデータをトラッキングする仕組みがあり、それらをDWHに格納 ※1
- DWHに格納されたデータをETLを用いてBIツールや広告媒体、メール配信やプッシュ通知配信のツールに連携 ※2
- 広告媒体やメール配信、プッシュ通知配信の結果をETLを用いてDWHに格納 ※2
※1 バックアップとしてData Lakeにもトラッキングデータを配置するケースも多い
※2 ツールによってはData Lakeを介してCSVで連携
CDPが独自に持っている機能
CDPの構成のうちデータの扱い方としては前段落のようなイメージを持っていただければ良いですが、AWSやGCPにある、該当のシステムを並べるだけではCDPとしては機能しません。
CDPにおいて重要となるのが、収集した顧客ごとのデータの統合や名寄せの処理、集計の処理です。
データの統合や名寄せの処理は、例えばECサイトの顧客データと店舗の会員カードの顧客データの統合がイメージしやすいかと思います。データをただ集めるだけではなく統合するための処理が重要です。
集計の処理は、分析を行ったりセグメントを作成したりする際に扱いやすいデータにしておく必要があり重要です。例えば、webサイトのアクセスログをもとにセッション(※3)といった単位のデータを作成しておくことではじめて、ユーザーの月間の訪問回数をもとにした分析やセグメントの作成ができるようになります。
CDPではこれらを自動処理する機能と管理画面から任意の処理設定を行える機能を持っていますがAWSやGCPなどを用いて構築する場合には、これらの処理をゼロから開発する必要があります。
また、CDPによりますがSQLを書かずに管理画面から自由にセグメントを作成できる機能を提供しているツールが多くあります。このような機能ををゼロから開発しようと思うと、金額的なコストも時間的なコストも非常に大きなものとなってしまいます。
※3 セッションの定義はさまざまですが、アクセスログで確認できる最後のアクセスから30分経過したらセッションが切れるといった定義にすることが多いです。また、その他の複合的な要素を加味して集計の処理を行います。
まとめ
本記事はデータ統合に必要な仕組み関連するシステム Data Lake / ETL / DWH とCDPの構成についてご紹介しました。
データの統合は必ずしもCDPが必要ではありませんが、データ統合を行ったうえでのデータの可視化や分析、各種マーケティングツールでのデータ活用という観点ではCDPの導入を検討した方が良いケースも多いです。
なぜデータ統合を行うのか、どのような分析を行いたいのか、どのような施策を行いたいのかなど目的を整理したうえで、どのような構成が必要となるのかを検討することが重要です。
弊社EVERRISEでは、顧客データをノーコードで管理できるCDP「INTEGRAL-CORE」を提供しており、これまでTVer様やhoyu様などを含め複数社の導入実績がございます。
また、CDPの提供だけでなく、デジタルマーケティング領域における300件以上の開発実績で培ったノウハウから、データ活用基盤構築のためのコンサルティングや自社の基幹システムを含めた各種システムと連携を行うための開発も可能です。
CDP「INTEGRAL-CORE」の機能や特長、ユースケース、実際の画面については、以下の無料資料で詳しく紹介しています。データ活用にお困りの際はぜひお気軽にご相談ください!