从导入的文件中删除数据重复项 deduplicating-the-data-from-an-imported-file

Last update: Fri Dec 29 2023 00:00:00 GMT+0000 (Coordinated Universal Time)

主题：
Workflows

创建对象：

Intermediate
Developer

此示例展示了如何在将数据加载到数据库之前，删除导入文件中的数据重复项。此过程可提高数据库加载数据的质量。

该工作流由以下步骤组成：

使用导入包含用户档案列表的文件加载文件活动。在本例中，导入的文件为 .csv 格式，且包含 10 个用户档案：

code language-none

code language-none
lastname;firstname;dateofbirth;email Smith;Hayden;23/05/1989;hayden.smith@example.com Mars;Daniel;17/11/1987;dannymars@example.com Smith;Clara;08/02/1989;hayden.smith@example.com Durance;Allison;15/12/1978;allison.durance@example.com Lucassen;Jody;28/03/1988;jody.lucassen@example.com Binder;Tom;19/01/1982;tombinder@example.com Binder;Tommy;19/01/1915;tombinder@example.com Connor;Jade;10/10/1979;connor.jade@example.com Mack;Clarke;02/03/1985;clarke.mack@example.com Ross;Timothy;04/07/1986;timross@example.com

lastname;firstname;dateofbirth;email
Smith;Hayden;23/05/1989;hayden.smith@example.com
Mars;Daniel;17/11/1987;dannymars@example.com
Smith;Clara;08/02/1989;hayden.smith@example.com
Durance;Allison;15/12/1978;allison.durance@example.com
Lucassen;Jody;28/03/1988;jody.lucassen@example.com
Binder;Tom;19/01/1982;tombinder@example.com
Binder;Tommy;19/01/1915;tombinder@example.com
Connor;Jade;10/10/1979;connor.jade@example.com
Mack;Clarke;02/03/1985;clarke.mack@example.com
Ross;Timothy;04/07/1986;timross@example.com

此文件还可用作检测和定义列格式的样例文件。在 Column definition 选项卡中，确保已正确配置导入文件的每个列。

A 删除重复项活动。在导入文件后及将数据插入数据库之前，直接执行重复数据删除。这样，即可使用来自 Load file 的 Temporary resource 数据，以其为基础执行重复数据删除。

在本例中，我们希望对文件中包含的每个唯一电子邮件地址保留一个条目。因此，应对临时资源的 email 列执行重复项识别。现在，两个相同的电子邮件地址会在文件中显示两次。此时，这两行将被视为重复项。
An 更新数据利用活动，可将重复数据删除流程中保留的数据插入数据库。只有在更新数据时，导入的数据才会被标识为属于用户档案维度。

在此，我们希望 Insert only 数据库中不存在的数据。我们将使用文件的电子邮件列和 用户档案 维度中的 email 字段作为协调键，以执行此操作。

从 Fields to update 选项卡中指定要插入数据的文件列与数据库字段之间的映射。

然后，启动工作流。接下来，在重复数据删除流程保存的记录，将被添加到数据库中的用户档案。

recommendation-more-help

3ef63344-7f3d-48f9-85ed-02bf569c4fff