デジタル化の急速な進展とともに、顧客接点や顧客のニーズが多様化しています。そうした中で、顧客とより良い関係を築くために、企業における顧客データ活用への関心も高まっています。
本記事では、企業が顧客データを活用するために必要となる、顧客データ統合の仕組みと関連するシステム、統合の基本的な流れについて紹介します。また、顧客データの収集・統合・連携に特化したデータ基盤であるCDPについても紹介します。
顧客データの統合が必要な理由
マーケティングDXの推進には、顧客一人ひとりの行動やニーズを正確に把握し、最適なタイミングで適切なコミュニケーションを行うことが求められます。
しかし、企業内に存在する顧客データがデータのサイロ化によって部門ごと、システムごとにバラバラに管理されているケースが多々あります。サイロ化により、1人の顧客に関するデータが部門やシステムごとに複数存在し、異なる管理体制で別人として扱われてしまうと、顧客との誤ったコミュニケーションや業務効率の低下を招く原因となります。
このような課題を解消するために、企業は顧客データの統合に取り組む必要があります。顧客データの統合と適切な管理は、より深い顧客理解に繋がり、的確なターゲティングやパーソナライズされた顧客体験の提供を可能にします。
顧客データ統合の重要性について、詳しくは下記の無料動画をご覧ください。データ統合により期待できる変化を、ビジネスモデル別に事例を交えながら紹介しています。
無料動画:データ統合で何が変わる?顧客体験を高める顧客データ統合の基礎
顧客データ統合に必要なシステム|データレイク・ETL・DWH・データマート
さまざまなシステムやツールでバラバラに管理されているデータを統合管理するためには、それを支えるシステム基盤の構築が必要です。
一連のデータ統合作業を実行するためには、データ統合の各工程で必要な機能を備えた、データレイク・ETL・DWH・データマートといったシステムを組み込む必要があります。これらのシステムにはクラウドサービスが用いられることが多いです。
各システムとそれぞれに対応する代表的なクラウドサービス、およびその機能を紹介します。
データレイク | ETL | DWH | データマート | |
---|---|---|---|---|
目的 | ローデータをそのまま保存する | データの抽出・変換と引き渡しをする | 多目的な分析に対応するデータを保存する | 特定のテーマに特化したデータを蓄積する |
データの状態 |
・構造化データ ・半構造化データ ・非構造化データ |
ー | 構造化データ | 構造化データ |
データの特徴 | ローデータでフォーマットも多様 | ー | 幅広い利用目的のために整形・変換済み | 利用目的に応じて最適化された形式 |
データの保存期間 | 長期(無期限の場合もあり) | ー | 中期(数年程度) | 短期(必要な範囲のみ) |
処理内容 | 加工なし(保存が中心) | 抽出・変換・読み込み | 高度な集計処理 | 目的別に最適化された集計データの整形処理 |
代表的なサービス |
・Amazon S3(AWS) ・Azure Blob Storage(Azure) ・Cloud Storage(GCP) |
・AWS Glue(AWS) ・Azure Data Factory(Azure) ・Cloud Data Fusion、Dataflow(GCP) |
・Amazon Redshift(AWS) ・Azure Synapse Analytics(Azure) ・BigQuery(GCP) |
・Amazon Redshift(AWS) ・Azure Synapse Analytics(Azure) ・BigQuery(GCP) |
役割 | データ蓄積の出発点 | データレイクからDWH・データマートへの変換経路 | 分析基盤の中核 | 利用部門が分析やレポート作成に活用する出力先 |
データレイク
データレイク(Data Lake)とは、データの保管庫(ストレージ)のことです。社内システムやツール・webサイト・アプリなどの異なる取得元(データソース)から収集した大量のデータを一時的に保管する場所として使われます。
保存するデータの種類に制限がないため、構造化データ(表形式のデータ)・半構造化データ(XML・JSON・YAMLなどのデータ形式)・非構造化データ(画像・動画・音声・PDFなど)もすべてまとめて格納することが可能です。そのため、データレイクはデータ統合の最初のステップとして、あらゆる形式のローデータを受け入れる受け皿の役割を担います。
また、後工程でのデータ加工や分析に活用しやすくするため、データレイクではデータを取得元と同じ形式のままコピーして保管します。加工前のデータを保持しておくことで、変換処理や統合処理に後から問題が生じた場合でも、差分の確認や再処理を効率的に行うことができます。
代表的なクラウドサービスには、下記のようなものがあります。
- Amazon S3(AWS)
- Azure Blob Storage(Azure)
- Cloud Storage(GCP)
ETL
ETLとはExtract(抽出)・Transform(変換)・Load(読み込み)の頭文字をとった略語で、データの抽出・変換・読み込みを行うプロセスのことです。統合した後の顧客データを活用しやすい形式に整えて次に引き渡す工程です。
Extractでは、顧客管理システム(CRM)や販売管理、webログなど、さまざまなシステムに分散しているデータを収集します。
Transformでは、取り出したデータを目的に応じて整形・加工します。例えば、住所の表記揺れを統一する、日付や通貨の形式を揃える、不要なデータを除去する、複数のテーブルを結合して分析しやすい構造にする、などの処理を行います。データ統合においては、この過程でデータクレンジングなどの処理も実施されます。
Loadでは、整えたデータを分析や活用のためのデータベースや、次に紹介するDWHに格納します。
ETLを行うためのシステムはETLツールとして、さまざまなデータソースから未加工のデータを収集・加工・連携し、ほかのシステムに格納するためのハブとして使われます。
代表的なクラウドサービスには、下記のようなものがあります。
- AWS Glue(AWS)
- Azure Synapse Analytics(Azure)
- Cloud Data Fusion、Dataflow(GCP)
DWH
DWH(Data Warehouse:データウェアハウス)とは、時系列やテーマごとに分類・整理・構造化されたデータを保管する箱(データベース)のことです。販売実績・アクセスログ・顧客情報など、日々の業務で発生するデータを分析しやすい形式で保管できます。
通常のデータベースは多くの場合、パフォーマンスやコストの制約のために長期間のデータ保管をしないよう設計されています。一方で、DWHの場合は、多角的なデータ分析・活用のため、長期間かつ大量のデータを保管・蓄積し続けることを前提に構成されています。
代表的なクラウドサービスには、下記のようなものがあります。
- Amazon Redshift(AWS)
- Azure Synapse Analytics(Azure)
- BigQuery(GCP)
関連:CDPとDWHの違い|個人プロファイルと柔軟なセグメント作成による分析を可能にするCDP
データマート
データマート(Data Mart)は、特定の目的に合わせて集計したデータを保管するデータベースのテーブル、あるいはそのテーブル群のことで、DWH内のデータから切り出されたテーブルでもあります。
データレイクとは異なり、データマートには部門ごとや月・週単位など、分析などをしやすい単位で集計されたデータを保管します。
DWHよりもさらに目的別に整理され、利用者ごとに使いやすく構成されたデータを持つデータマートを作成することで、より効率的なデータへのアクセスと分析が可能です。
代表的なクラウドサービスには、下記のようなものがあります。
- Amazon Redshift(AWS)
- Azure Synapse Analytics(Azure)
- BigQuery(GCP)
顧客データ統合の仕組みと基本的な流れ
データ統合基盤では、データ統合そのもの以外にも必要な工程が存在します。ここでは、顧客データ統合の仕組みとデータ統合基盤に関わる工程の全体の流れを紹介します。
- データ収集
- データ統合
- データ連携
1.データ収集
データソースの決定
データ統合の前に、データの提供元となるデータソースを整理し、どのデータソースでどのようなデータを扱うかを決めておく必要があります。データソースはCRM・MAをはじめとするマーケティングツールやPOSシステム・社内システム・webサイト・アプリなど多岐にわたります。
データ統合システム構築プロジェクトのよくある失敗例として、社内にどのようなデータが存在しているのかを把握しないまま構築を進めてしまうケースが挙げられます。データソースの整理は、単に種類を洗い出すだけでなく、それぞれのデータソースが「どのようなデータを」「どのような形式で」保持しているのかまで確認することが重要です。
また、実際にシステムを構築した後で、データのボリュームが足りない、統合に必要なキー情報が存在しない、といった問題が発覚することもあります。このような事態を防ぐためにも、事前のデータソース整理と内容の精査は欠かせません。
弊社EVERRISEでは、データ統合基盤構築の前段階として「データ統合アセスメントサービス」を提供しています。スムーズにデータを統合・活用できる状態まで構築できるよう、データの整理や品質評価、プロジェクト計画の作成までサポートが可能です。
データ統合アセスメントサービスについて、詳しくは下記の無料資料をご覧ください。
データ収集・一時保管
データソースからデータを収集し、必要に応じてデータレイクに一時保管する処理を行います。データレイクに一時保管せず、そのまま次の工程へデータを渡す場合もあります。
収集すべきデータや収集時の注意点について、詳しくは下記の記事をご覧ください。
関連:顧客データ収集の方法と有効なツール4選|収集すべき2種類のデータとは
2.データ統合
データの抽出・変換
収集したデータを抽出し、データを利用しやすい形に変換する処理を行います。
データレイク内のデータは、重複していたり形式が統一されていなかったりすることがあるため、抽出・変換の工程において、データクレンジングや名寄せを行い、正確で一貫性のあるデータへと整えます。
関連:データクレンジングと名寄せとは?正確な顧客データ管理のやり方と効果的なツール
データの格納・蓄積
必要な形に変換したデータを、DWHに格納する処理を行います。DWHにはこれまでの工程で集約されたすべてのデータが格納されるため、データ量が膨大になります。
3.データ連携
データは統合して終わりではなく、データ統合基盤から各種ツールへ受け渡し、活用することが重要です。データ連携の処理によって、分析のためのBIツールや顧客コミュニケーションを実行するツールでのデータ活用の準備が整います。
データの抽出・変換
データ統合後にもさらに各種ツールに適した形にするために、データの抽出・変換をあらためて実行する場合があります。
データの一時保管
DWHから目的に応じて整形したフォーマットのデータを、データマートとして管理する場合があります。ほかのシステム・ツールへのデータの受け渡しにデータマートのデータを使うことで、DWH内から直接探すよりもスピーディーにデータを利用可能です。
顧客データ活用が進まない原因や大手企業のプロジェクト推進例について、詳しくは下記の無料資料をご覧ください。
無料資料:顧客データ活用が進まない6つの原因と解決策|効率的なチーム体制と施策実行までのステップ
顧客データ統合に有効なCDP
顧客データ統合のために、CDPを導入するという選択肢もあります。
CDPとは「カスタマー データ プラットフォーム:Customer Data Platform」の略称で、企業が持つ顧客データを「実在する個人」に紐付けて統合・管理し、顧客一人ひとりの正確な理解を可能にするプラットフォームです。
データ統合の一連の流れにおいて、CDPの領域は上図の青枠の部分です。CDPはデータレイク・ETL・DWH・データマートなどの機能を備えています。
CDPが提供する専用タグにより、アクセス解析ツールなどを使わずにwebサイト・アプリの行動データをトラッキングすることも可能です。
関連:CDPとは?機能や部門・業界別の活用例、今後の動向などをまとめて解説
CDPを導入することで、顧客データの統合から活用までを一貫して効率的に推進できるようになります。特に、下記のようなメリットがあります。
効率的なデータ統合を実現できる
従来のデータ基盤では、DWHやデータマートから必要なデータを抽出・集計するために、SQLの知識やスキルが必要であり、エンジニアの支援を前提とするケースが一般的でした。
一方、CDPは名寄せやセグメント作成など、顧客データの管理・活用に必要な機能があらかじめ備わっているため、データ統合基盤を1から構築することなく、効率的に顧客データの統合・活用を進めることができます。
ローコストでスピーディーにデータ活用ができる
CDPを活用することで、ローコストかつスピーディーにデータ活用を進めることが可能です。
管理画面上でさまざまな設定が可能なCDPであれば、統合したデータから顧客ごとのプロファイルやセグメントの作成を画面上で行うことができます。
通常、DWHやデータマートから必要なデータを抽出・加工するには、エンジニアがSQLを用いて集計処理を行う必要があります。そのため、都度開発リソースが必要となり、スピードやコスト面での制約が発生しがちです。
一方、CDPを導入した場合、SQLの専門知識がないマーケターや営業担当者でも、管理画面上でデータの確認・分析が可能です。これにより、意思決定のスピードを高めつつ、エンジニアリングのコストを抑えることができます。
CDPについて、詳しくは下記の無料資料をご覧ください。CDPの機能や役割、ほかのツールとの違いなど、導入を考える適切なタイミングなどを紹介しています。