近年、DX(デジタルトランスフォーメーション)の取り組みの中で、自社の顧客データの活用の実施・検討をする企業が増えています。一方で、顧客データを適切な形で統合できないということがシステム構築上の課題となっている企業も少なくありません。
顧客データを統合する前段階の作業として重要なのが「データクレンジング」と「名寄せ」です。正確に顧客データを統合するためには、適切なデータクレンジングと名寄せの処理が欠かせません。データクレンジングと名寄せを行うことで、より正確に顧客データを統合できます。
本記事では、データクレンジングと名寄せとはなにか、なぜ重複したデータが発生するのか、データクレンジングと名寄せの進め方について紹介します。
データクレンジング・名寄せとは
本記事では、データクレンジングと名寄せについて、顧客データ統合の観点から説明します。
データクレンジングとは
データクレンジングとは、重複や誤記、表記ゆれを削除・修正してデータの品質を高める作業です。機械学習の観点ではそれらに加えて、破損したデータや異常値を含むデータなどを標準化する処理も含めてデータクレンジングと呼ぶことが多いです。
データクレンジングと似た用語に、データクリーニングがあります。名称が異なるものの、データクレンジングとデータクリーニングは同じ処理を指す用語です。クレンジング(cleansing)は洗浄、クリーニング(cleaning)は掃除と和訳されます。不正確、不完全、または一貫性のないダーティデータを綺麗にするということが、データクレンジングやデータクリーニングという用語の由来です。
例えば、会社名の「株式会社」と「(株)」が混在している場合、同じ会社であっても表記が一致していないために、データを分析する際に別々の会社と判別してしまいます。ほかにも、電話番号の表記が統一されていなかったり、生年月日の和暦と西暦が混在している場合にも別々のデータとしてプログラムが判別します。
データクレンジングではこのような各種データの表記ゆれなどを、主に以下の手法で整理します。
手法名 | 内容 |
---|---|
重複データ除去 | 重複している同一内容のレコードを削除する |
データの正規化 | データの表記・形式を揃える |
データトリミング | データの先頭や末尾に存在する不用意なスペースを削除する |
フィルタリング | 必要な範囲でデータを絞り込む |
エンコーディング | 質的データを量的データに変換する |
欠損値の処理 | 欠損値を含むレコードを削除したり、平均値・代表値で補完する |
データ型変換 | 扱いやすいデータ型に変更する |
単位変換 | 扱いやすい単位に変更する |
異常値除去 | 外れ値などデータの基本統計量に大きな影響を及ぼすレコードを削除する |
データクレンジングが行われていない状態だと、検索してもうまくデータが出てこなかったり、重複して抽出されるデータが生じる可能性があります。またCRMや、MAといったツールを使用する際に、同じ人物に営業を行ったり、同じ内容のメールを送信してしまうということも発生する可能性があります。
名寄せとは
名寄せとは、複数のデータベースにある顧客データを1つの顧客データとして統合する作業です。
例えば、江原昇さんという顧客がECサイトマスタにも店舗マスタにも登録されている場合、名寄せされていないと、まったくの別人として認識されてしまいます。このような状況を回避するために、顧客データ統合および名寄せを行います。
顧客を識別する際に共通のIDが存在する場合にはIDをKeyにして統合を行います。共通のIDが存在しない場合には名前、メールアドレス、住所、電話番号などの属性データをKeyにし、一致する顧客を「同一顧客」と識別し統合を行います。
データクレンジングはデータの表記ゆれなどを削除・修正してデータの品質を高める作業で、名寄せは複数あるデータベースの顧客データを1つのデータベースに統合するために行う作業です。
単に名寄せの処理を行うのみでは、重複したデータや誤ったデータが生成される可能性があるため、必要に応じてデータクレンジングの処理を事前に行っておく必要があります。
関連:顧客データ統合の失敗ケースと最適な進め方|解決策となるデータ基盤のCDP
重複した顧客データが発生する理由
顧客データの重複は、主に2つのタイミングで発生します。1つ目はデータの入力・登録時に発生するケース、2つ目は複数のシステム・データベースに存在する顧客データを統合する際に発生するケースです。
1つ目の入力・登録時に発生するケースは具体的には次のような状況です。
- 顧客がwebフォームなどに直接データを入力する際、会社名や氏名の表記ゆれが原因で、システム上別人として認識される
- 入力ルールが担当者や部門によって異なり、同じ顧客でも異なる形式で登録される
- 同じ顧客が別のメールアドレスで複数回登録しており、それぞれ別人として扱われている
- ルールが整備されていなかった時期に収集されたデータや、ルール変更後も過去の基準で登録されたデータが残っており、表記ゆれが発生している
単体のデータベースにおいてこのような重複が発生しますが、これらはデータクレンジングの作業で重複を減らすことができます。
2つ目の複数のシステム・データベースを統合する際は、同一人物であるかどうかの判別を何らかのルールで行う必要があり、ルール次第で重複が発生します。
顧客データ統合におけるデータクレンジングと名寄せの役割
顧客データの統合は、特に「攻めのDX」を推進するうえでは、次のようなテーマに対しての前段階の取り組みとして行います。
- データの可視化
- 既存商品・サービスの提供価値向上
- 顧客体験観点でのコミュニケーション改善
- 新たなビジネスモデルの構築
このようなテーマに取り組み、売上の向上やLTV(顧客生涯価値)の最大化、他社との差別化および競争力の強化を目指す企業が増えています。その実現には、正確な顧客データの統合が欠かせません。
しかし、データの品質が低いまま統合を行ってしまうことで、施策や分析に悪影響を及ぼすケースが少なくありません。
例えば、データの品質が低い状態で統合した場合、一人の顧客を別の顧客として扱ってしまうことがあります。その結果、チャネルをまたいだ一貫性のある顧客体験を提供できず、顧客にストレスを与えたり、ブランドへの信頼を失う要因になる可能性があります。また、重複データを含んだ状態で分析した場合、施策を正しく評価できないことも考えられます。
このようなリスクを回避するためには、データの品質を高め、適切に統合することが不可欠であり、その役割を果たすのがデータクレンジングと名寄せです。データクレンジングによりデータの品質を向上させ、名寄せ処理を適切に行うことで、正確な顧客データ統合が可能になります。
データベースごとにデータの持ち方が異なるケースが多いため、それぞれのデータベースの個別のデータに対してクレンジングを行い、名寄せの処理を経て統合する必要があります。
顧客データ統合に取りかかる前には、まず自社の中でどのようにデータを持ち、管理するかを整理しておくことが重要です。
企業を強くするデータの持ち方について、詳しくは下記の無料資料をご覧ください。意味のあるデータの使い方や大手企業の取り組み例なども紹介しています。
無料資料:企業を強くするデータの持ち方・使い方
データクレンジングと名寄せのやり方
データクレンジングと名寄せのやり方は以下のとおりです。
- データの全体像の理解
- 目的と基準の設定
- 実行と検証
- 継続的な改善とメンテナンス
これらのステップを踏むことで、データの品質を維持・向上させることができます。データクレンジングや名寄せは、データを利用するすべてのタスクにおいて、その質を高める基盤となります。
1. データの全体像の理解
データクレンジングや名寄せを始める前に、まずはデータの内容・形式・構造・範囲を詳細に理解することが重要です。保持しているデータの特性を知ることで、必要な作業の範囲、方法を決定することができます。
2. 目的と基準の設定
データクレンジングや名寄せの目的を明確に定義することで、作業の方向性や優先順位を設定する基盤となります。さらに、この目的に基づいてデータクレンジングや名寄せのルールや基準を設定することで、作業の効率化と品質向上が期待できます。
データクレンジングのためのルールとしては、不正な文字列や数字、書式の設定などを決めることです。また、名寄せは、同一人物や企業の異なる表記を統一するためのルールや基準の設定になります。
3. 実行と検証
設定したルールや基準に従って、データクレンジングや名寄せを実行します。実行後は、その結果を検証し、期待通りのデータ品質が得られているかを確認することが必要です。この検証の過程で新たな問題点や改善点が見えてくることもあります。
4. 継続的な改善とメンテナンス
データは常に変動し、新しい課題が生まれる可能性があるため、定期的なデータクレンジングや名寄せの実施と、それに伴うルールや基準の見直しが必要です。持続的なデータ品質の維持を目指すことで、顧客分析や施策評価の品質が向上します。
データクレンジングと名寄せの難しさ・課題
データクレンジングや名寄せは、データの品質を向上させるための基本的なステップですが、これらの作業は一筋縄ではいかない難しさをはらんでいます。
その要因として、以下の3点が挙げられます。
- データの多様性と圧倒的な量
- ルール設定とツールの制約
- 人的リスクと持続的な取り組み
データの多様性と圧倒的な量
ECサイトや実店舗の購入履歴、顧客のweb行動、アンケートなど、情報は日常的に膨大な量で流入しています。このようにデータソースが広範囲に渡ると、多種多様なデータを活用できる一方で、データクレンジングや名寄せの作業、データの管理において、多くの課題を引き起こします。特に、同じ内容や意味を持つデータが、異なる表記や形式で存在する場合、それらのデータを整理することは大変で、適切に統合することが難しくなります。
ECサイトと実店舗を筆頭としたオンラインとオフラインのチャネルを融合し、より良い顧客体験を提供していこうという考え方はOMO(Online Merges with Offline)と呼ばれ、昨今のマーケティングにおけるキーワードの1つです。
そのような背景を踏まえると、顧客体験の向上を図るマーケティング活動を行うためにも、多様化したデータをいかに統合し活用できるかが重要となります。
関連:OMOとは?効果的なマーケティング戦略を立てるポイントや成功事例を紹介
ルール設定とツールの制約
データクレンジングや名寄せを行う際のルールや基準はビジネス要件やデータの性質によって変わるため、一般的なルールが適用しづらいことが多いです。さらに、使用するツールや技術の制約によっては、期待するデータクレンジングや名寄せを効率的に行うことが難しい場合もあります。
3. 人的リスクと持続的な取り組み
データクレンジングや名寄せは手動で行われることが多く、その際の人的ミスのリスクが高まります。また、データは常に更新されるため、一度のデータクレンジングや名寄せでは十分でなく、持続的な取り組みが必要です。
名寄せ・顧客データ統合のアプローチの1つにCDP
データの多様性、一貫性の欠如、適切なルールの設定とその適用、さらには持続的なメンテナンスなど、データの管理と活用は複雑なタスクを伴います。このような背景から、多くの企業でCDPの導入が増えています。CDPは、顧客単位でのデータの名寄せ=統合を行うアプローチの1つです。
CDPとは「カスタマー データ プラットフォーム:Customer Data Platform」の略称で、企業が持つ顧客データを「実在する個人」に紐付けて統合・管理し、顧客一人ひとりの正確な理解を可能にするプラットフォームです。
CDPは「名寄せ」と「継続的な情報の更新」が可能なうえに、統合した顧客データを分析や施策に活用することもできます。
関連:CDPとは?機能や部門・業界別の活用例、今後の動向などをまとめて解説
CDPと連携可能な主なBIツール、施策ツールは以下のとおりです。
ツール名 | BI / 分析ツール | MA / メール配信 / その他施策 |
---|---|---|
ツールの例 |
・Tableau ・Looker Studio(旧Google Data Portal) ・Yellowfin ・Amazon QuickSight ・DOMO ・Redash など |
・Marketo ・Marketing Cloud Account Engagement(旧 Pardot) ・HubSpot ・Synergy! ・Karte ・DLPO ・LINE ・Repro ・WEBCAS email など |
CDPをこれらのツールと連携し、統合された顧客データを分析したうえでそれらをもとにマーケティング施策を実施することで、よりパーソナライズされた一貫性のある顧客体験を提供できるようになります。
例えば、統合した顧客データをもとに優良顧客の分析を行った結果、「新作ページを閲覧している顧客は、店舗への来店および高単価商品の購入が多い」といった傾向が見られたとします。その分析結果をもとに、「新作ページを閲覧している顧客に店舗への来店を促すメールを送る」といった施策を行うことが可能です。
CDPについて、詳しくは下記の無料資料をご覧ください。CDPの機能や役割、ほかのツールとの違いなど、導入前に知っておくべき情報をまとめて紹介しています。