2023.10.04

データクレンジングと名寄せとは?顧客データを正確に管理する方法

データクレンジングと名寄せとは?顧客データを正確に管理する方法

近年、DX(デジタルトランスフォーメーション)の取り組みの中で、自社の顧客データの活用の実施・検討をする企業が増えている一方、顧客データを適切な形で統合できないということがシステム構築上の課題となっている企業も少なくありません。顧客データを統合する前段階の作業として重要なのが「データクレンジング」と「名寄せ」です。

本記事では、データクレンジングと名寄せとはなにか、なぜ重複したデータが発生するのか、データクレンジングと名寄せの進め方について紹介します。

データクレンジング・名寄せとは

データクレンジングとは

本記事では、顧客データ統合の観点でのデータクレンジングについて説明します。データクレンジングとは、重複や誤記、表記ゆれを削除・修正してデータの品質を高める作業です。機械学習の観点ではそれらに加えて、破損したデータや異常値を含むデータなどを標準化する処理も含めてデータクレンジングと呼ぶことが多いです。

データクレンジングと似た用語に、データクリーニングがあります。名称が異なるものの、データクレンジングとデータクリーニングは同じ処理を指す用語です。クレンジング(cleansing)は洗浄、クリーニング(cleaning)は掃除と和訳されます。不正確、不完全、または一貫性のないダーティデータを綺麗にするということが、データクレンジングやデータクリーニングという用語の由来です。

data cleansing name identification 01
表記ゆれのイメージ

例えば、会社名の「株式会社」と「(株)」が混在している場合、同じ会社であっても表記が一致していないために、データを分析する際に別々の会社と判別してしまいます。他にも、電話番号の表記が統一されていなかったり、生年月日が和暦西暦が混在している場合にも別々のデータとしてプログラムが判別します。

データクレンジングではこのような各種データの表記ゆれなどを、主に以下の手法で整理します。

手法名 内容
重複データ除去 重複している同一内容のレコードを削除する
データの正規化 データの表記・形式を揃える
データトリミング データの先頭や末尾に存在する不用意なスペースを削除する
フィルタリング 必要な範囲でデータを絞り込む
エンコーディング 質的データを量的データに変換する
欠損値の処理 欠損値を含むレコードを削除したり、平均値・代表値で補完する
データ型変換 扱いやすいデータ型に変更する
単位変換 扱いやすい単位に変更する
異常値除去 外れ値などデータの基本統計量に大きな影響を及ぼすレコードを削除する

データクレンジングが行われていない状態だと、検索してもうまくデータが出てこなかったり、重複して抽出されるデータが生じる可能性があります。またCRMや、MAといったツールを使用する際に、同じ人物に営業を行ったり、同じ内容のメールを送信してしまうということも発生する可能性があります。

名寄せとは

名寄せは、複数のデータベースにある顧客データを、1つの顧客データとして統合する作業です。

data cleansing name identification 02
名寄せされていない状態のイメージ

例えば、江原昇さんという顧客がECサイトマスタにも店舗マスタにも存在している場合、名寄せされていないと、まったくの別人として認識されてしまいます。このような状況を回避するために、顧客データ統合および名寄せを行います。

顧客を識別する際に共通のIDが存在する場合にはIDをKeyにして統合を行います。共通のIDが存在しない場合には名前、メールアドレス、住所、電話番号などの属性データをKeyにし、一致する顧客を「同一顧客」と識別し統合を行います。

data cleansing name identification 03
統合のKeyとなるデータ

データクレンジングはデータの表記ゆれなどを削除・修正してデータの品質を高める作業で、名寄せは複数あるデータベースの顧客データを1つのデータベースに統合するために行う作業です。

単に名寄せの処理を行うのみでは、重複したデータや誤ったデータが生成される可能性があるため、必要に応じてデータクレンジングの処理を事前に行っておく必要があります。

同一人物の顧客データが複数あることで起きる問題・顧客データ統合の必要性

誤ったデータや重複データが生成されてしまうと、正確に顧客を分析できなくなります。また、メールとモバイルアプリやプッシュ通知といった複数のプッシュ型のコミュニケーションチャネルを提供している場合に、顧客データが散らばっている状態だと同じ顧客に対して同じ内容の通知を何度もプッシュしてしまい、顧客にとって「うっとうしい」コミュニケーションをしてしまう可能性があります。

顧客ごとに受け取りたい情報やチャネルは異なるため、適切な配信除外の設定が行えるようセグメンテーションする必要があります。

そのためには、顧客データ統合が不可欠であり、より正確な顧客データ統合を行うために、データクレンジングでデータの品質を高めたうえで名寄せを行い、顧客データの重複を減らすことが重要です。データベースごとにデータの持ち方が異なるケースが多いため、それぞれのデータベースに存在するデータに対してデータクレンジングを行い、名寄せの処理を行い統合する必要があります。

DXがバズワードとして存在しますが、特に「攻めのDX」の観点においては次のようなテーマに対しての取り組みの前段階として顧客データの統合を行います。

  • データの可視化
  • 既存商品・サービスの提供価値向上
  • 顧客体験観点でのコミュニケーション改善
  • 新たなビジネスモデルの構築

売上の向上やLTV向上、他社との差別化および競争力の強化を目的として、このようなテーマに取り組む企業や検討している企業が増えています。

顧客データ統合に取りかかる前には、まず自社の中でどのようにデータを持ち、管理するかを整理しておくことが重要です。

なぜ重複した顧客データが発生するのか

顧客データの重複は、主に2つのタイミングで発生します。1つ目はデータの入力・登録時に発生するケース、2つ目は複数のシステム・データベースに存在する顧客データを統合する際に発生するケースです。

1つ目の入力・登録時に発生するケースは具体的には次のような状況です。

  • webのフォームなどで、顧客が入力する際にゆらぎが発生する
  • 顧客データの入力方法が統一されておらず、担当者ごとに異なる形式で入力する
  • 導入運用が決まっていない段階で発生した顧客データが存在している
  • 運用が変更になったが、変更前のデータが残っている

単体のデータベースにおいてこのような重複が発生します。これらは表記ゆれから発生するもので、データクレンジングの作業で重複を減らすことができます。

2つ目の複数のシステム・データベースを統合する際は、同一人物であるかどうかの判別を何らかのルールで行う必要があり、ルール次第で重複が発生します。

データクレンジングと名寄せの進め方

データクレンジングと名寄せの進め方は以下の通りです。これらのステップを踏むことで、データの品質を維持・向上させることができます。データクレンジングや名寄せは、データを利用するすべてのタスクにおいて、その質を高める基盤となります。

1. データの全体像の理解

データクレンジングや名寄せを始める前に、まずはデータの内容・形式・構造・範囲を詳細に理解することが重要です。保持しているデータの特性を知ることで、必要な作業の範囲、方法を決定することができます。

2. 目的と基準の設定

データクレンジングや名寄せの目的を明確に定義することで、作業の方向性や優先順位を設定する基盤となります。さらに、この目的に基づいてデータクレンジングや名寄せのルールや基準を設定することで、作業の効率化と品質向上が期待できます。

データクレンジングのためのルールとしては、不正な文字列や数字、書式の設定などを決めることです。また、名寄せは、同一人物や企業の異なる表記を統一するためのルールや基準の設定になります。

3. 実行と検証

設定したルールや基準に従って、データクレンジングや名寄せの実行を行います。実行後は、その結果を検証し、期待通りのデータ品質が得られているかを確認することが必要です。この検証の過程で新たな問題点や改善点が見えてくることもあります。

4. 継続的な改善とメンテナンス

データは常に変動し、新しい課題が生まれる可能性があるため、定期的なデータクレンジングや名寄せの実施と、それに伴うルールや基準の見直しが必要です。持続的なデータ品質の維持を目指すことで、顧客分析や施策評価の品質が向上します。

データクレンジングと名寄せの難しさ・課題

データクレンジングや名寄せは、データの品質を向上させるための基本的なステップですが、これらの作業は一筋縄ではいかない難しさをはらんでいます。

1. データの多様性と圧倒的な量

ECサイトや実店舗の購入履歴、顧客のweb行動、アンケートなど、情報は日常的に膨大な量で流入しています。このようにデータソースが広範囲に渡ると、多種多様なデータを活用できる一方で、データクレンジングや名寄せの作業、データの管理において、多くの課題を引き起こします。特に、同じ内容や意味を持つデータが、異なる表記や形式で存在する場合、それらのデータを整理することは大変で、適切に統合することが難しくなります。

2. ルール設定とツールの制約

データクレンジングや名寄せを行う際のルールや基準はビジネス要件やデータの性質によって変わるため、一般的なルールが適用しづらいことが多いです。さらに、使用するツールや技術の制約によっては、期待するデータクレンジングや名寄せを効率的に行うことが難しい場合もあります。

3. 人的リスクと持続的な取り組み

データクレンジングや名寄せは手動で行われることが多く、その際の人的ミスのリスクが高まります。また、データは常に更新されるため、一度のデータクレンジングや名寄せでは十分でなく、持続的な取り組みが必要です。

名寄せ・顧客データ統合のアプローチの1つにCDP

データの多様性、一貫性の欠如、適切なルールの設定とその適用、さらには持続的なメンテナンスなど、データの管理と活用は複雑なタスクを伴います。このような背景から、多くの企業でCDP(カスタマーデータプラットフォーム)の導入が増えています。CDPは、顧客単位でのデータの名寄せ=統合を行うアプローチの1つです。

CDPは、データ統合を行ったうえでのデータの可視化や分析、各種マーケティングツールでのデータ活用のために必要な機能を備えています。また、データの統合を行うための機能もあり、今回の名寄せという処理を自動で行い利用可能なデータを作ることが可能です。

CDPについて、詳しくは下記の記事をご覧ください。

関連:CDPとは?カスタマーデータプラットフォームの機能やメリット、活用例を解説

EVERRISEが提供するCDP「INTEGRAL-CORE」

弊社EVERRISEでは、顧客データをノーコードで管理できるCDP「INTEGRAL-CORE」を提供しており、これまでTVerさまやキーコーヒーさま、hoyuさまなどを含め複数社の導入実績がございます。

  • CDP「INTEGRAL-CORE」の特長
    • 顧客に関するあらゆるデータを収集・統合
    • ノーコードでデータ集計やセグメント作成
    • 外部連携機能でBIツール・MA・CRMなどへデータを渡し、マーケティング施策へ活用可能
    • 自社開発システムならではの総合支援体制
    • 専用環境での提供も可能な国産CDP

CDP「INTEGRAL-CORE」の機能や特長、ユースケース、実際の画面については、以下の無料資料で詳しく紹介しています。データ活用にお困りの際はぜひお気軽にご相談ください!

無料資料:CDP「INTEGRAL-CORE」サービス資料のダウンロードはこちら

Related Post

関連記事