Show Menu
主题×

从导入的文件中删除数据重复项

此示例展示了如何在将数据加载到数据库之前,删除导入文件中的数据重复项。此过程可提高数据库加载数据的质量。
该工作流由以下步骤组成:
  • A file that contains a list of profiles is imported using a Load file activity. 在本例中,导入的文件为 .csv 格式,且包含 10 个用户档案:
    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    
    
    此文件还可用作检测和定义列格式的样例文件。在 Column definition 选项卡中,确保已正确配置导入文件的每个列。
  • 个外部重复数据删除 活动。 在导入文件后及将数据插入数据库之前,直接执行重复数据删除。这样,即可使用来自 Load file Temporary resource 数据,以其为基础执行重复数据删除。
    在本例中,我们希望对文件中包含的每个唯一电子邮件地址保留一个条目。因此,应对临时资源的 email 列执行重复项识别。现在,两个相同的电子邮件地址会在文件中显示两次。此时,这两行将被视为重复项。
  • An Update data activity allows you to insert the data kept from the deduplication process into the database. 只有在更新数据时,导入的数据才会被标识为属于用户档案维度。
    在此,我们希望 Insert only 数据库中不存在的数据。我们将使用文件的电子邮件列和​ 用户档案 ​维度中的 email 字段作为协调键值,以执行此操作。
    Fields to update 选项卡中指定要插入数据的文件列与数据库字段之间的映射。
然后,启动工作流。接下来,在重复数据删除流程保存的记录,将被添加到数据库中的用户档案。