Show Menu
TÓPICOS×

Desduplicando os dados de um arquivo importado

Este exemplo mostra como desduplicar dados de um arquivo importado antes de carregar os dados no banco de dados. Esse procedimento melhora a qualidade dos dados carregados no banco de dados.
O fluxo de trabalho é composto de:
  • Um arquivo que contém uma lista de perfis é importado usando uma atividade de arquivo Carregar arquivo Load. Neste exemplo, o arquivo importado está no formato .csv e contém 10 perfis:
    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    
    
    Esse arquivo também pode ser usado como um arquivo de amostra para detectar e definir o formato das colunas. Na Column definition guia, verifique se cada coluna do arquivo importado está configurada corretamente.
  • Uma atividade Desduplicação-duplicada . O Desduplicação-duplicado é realizado diretamente após a importação do arquivo e antes da inserção dos dados no banco de dados. Deve, por conseguinte, basear-se no Temporary resource resultado da Load file atividade.
    Neste exemplo, queremos manter uma única entrada por endereço de email exclusivo contido no arquivo. A identificação do Duplicado é, portanto, realizada na coluna de email do recurso temporário. No entanto, dois endereços de email são exibidos duas vezes no arquivo. Por conseguinte, serão consideradas duplicados duas linhas.
  • Uma atividade de dados Atualização de dados Update permite inserir os dados mantidos do processo desduplicação-duplicado no banco de dados. Somente quando os dados são atualizados é que os dados importados são identificados como pertencendo à dimensão do perfil.
    Aqui, gostaríamos de ver Insert only os perfis que ainda não existem no banco de dados. Vamos fazer isso usando a coluna de e-mail do arquivo e o campo de e-mail da dimensão do Perfil como a chave de reconciliação.
    Especifique os mapeamentos entre as colunas do arquivo a partir das quais deseja inserir os dados e os campos do banco de dados na Fields to update guia.
Em seguida, start o fluxo de trabalho. Os registros salvos do processo desduplicação-duplicado são adicionados aos perfis no banco de dados.