Show Menu
トピック×

読み込んだファイルからのデータの重複を除外する

この例では、データをデータベースにロードする前にインポートしたファイルからデータの重複除外を行う方法を示します。 この手順により、データベースに読み込まれるデータの品質が向上します。
ワークフローは次の要素で構成されます。
  • プロファイルのリストを含むファイルは、 Load file アクティビティを使用して読み込みます。 この例では、インポートされるファイルは.csv形式で、10プロファイルが含まれています。
    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    
    
    このファイルは、列の形式を検出および定義するためのサンプルファイルとしても使用できます。 タブから、読み込んだファイルの各列が正しく設定されていることを確認し Column definition ます。
  • 重複排除 - 重複 アクティビティ。 重複排除 - 重複は、ファイルのインポート後、およびデータベースにデータを挿入する前に、直接実行されます。 したがって、この値は Temporary resource Load file アクティビティの値に基づく必要があります。
    この例では、ファイルに含まれる一意の電子メールアドレスごとに1つのエントリを保持します。 したがって、重複識別は、一時リソースの email 列で行われます。 ただし、2つの電子メールアドレスがファイル内に2回出現します。 したがって、2行が重複と見なされます。
  • Update data 」アクティビティを使用すると、重複排除 - 重複プロセスから保持されたデータをデータベースに挿入できます。 インポートされたデータがプロファイルディメンションに属していると識別されるのは、データが更新された場合のみです。
    ここでは、データベースにまだ存在し Insert only ないプロファイルを使用します。 これを行うには、ファイルの電子メール列と プロファイル ディメンションの電子メールフィールドを紐付けキーとして使用します。
    データの挿入元となるファイルの列と、 Fields to update タブのデータベースフィールドとの間のマッピングを指定します。
次に、ワークフローを開始します。 次に、重複排除 - 重複プロセスから保存されたレコードがデータベース内のプロファイルに追加されます。