Desduplicação deduplication

A desduplicação exclui duplicatas dos resultados das atividades de entrada. A desduplicação pode ser executada no endereço de e-mail, número de telefone ou outro campo.

A atividade Deduplication é usada para remover linhas duplicadas de um conjunto de dados. Por exemplo, os registros abaixo podem ser considerados duplicados, pois têm o mesmo endereço de email e o mesmo celular e/ou telefone residencial.

Data da última modificação
Nome
Sobrenome
Email
Telefone celular
Telefone
03/02/2020
Bob
Tisner
bob@mycompany.com
444-444-4444
888-888-8888
19/05/2020
Robert
Tisner
bob@mycompany.com
444-444-4444
777-777-7777
22/07/2020
Bobby
Tisner
bob@mycompany.com
444-444-4444
777-777-7777

A atividade Deduplication tem a capacidade de manter uma linha inteira como o registro exclusivo após a identificação de duplicatas. Por exemplo, no caso de uso acima, se a atividade estiver configurada para manter somente o registro com o Date mais antigo, o resultado será:

Data
Nome
Sobrenome
Email
Telefone celular
Telefone
03/02/2020
Bob
Tisner
bob@mycompany.com
444-444-4444
888-888-8888

O registro principal selecionado transportará os dados sem mesclar os dados de campo com outros dados relevantes nas linhas duplicadas.

Complemento:

Data
Nome
Sobrenome
Email
Telefone celular
Telefone
19/05/2020
Robert
Tisner
bob@mycompany.com
444-444-4444
777-777-7777
22/07/2020
Bobby
Tisner
bob@mycompany.com
444-444-4444
777-777-7777

Práticas recomendadas best-practices

Durante a desduplicação, os fluxos de entrada são processados separadamente. Se por exemplo, o destinatário A for encontrado no resultado da query 1, bem como no resultado da query 2, eles não serão desduplicados.

Esse problema precisa ser resolvido da seguinte maneira:

  • Crie uma atividade Union para unificar cada fluxo de entrada.
  • Crie uma atividade Deduplication após a atividade Union.

Configuração configuration

Para configurar uma desduplicação, insira o rótulo, o método e os critérios de desduplicação e as opções referentes ao resultado.

  1. Clique no link Edit configuration… para definir o modo de desduplicação.

  2. Selecione o tipo de target para essa atividade (por padrão, a desduplicação vinculada aos destinatários) e o critério a ser usado, isto é, o campo cujos valores idênticos permitem identificar duplicatas.

    note note
    NOTE
    Se os dados externos estiverem sendo usados como entrada, por exemplo, de um arquivo externo, selecione a opção Temporary schema.
    Na próxima etapa, a opção Other permite selecionar o critério ou os critérios a serem usados:

  3. Na próxima etapa, a opção Other permite selecionar o critério ou os critérios a serem usados em caso de valores idênticos.

  4. Na lista suspensa, selecione o método de desduplicação a ser usado e insira o número de duplicatas a serem mantidas.

    Os métodos seguintes estão disponíveis:

    • Choose for me: seleciona aleatoriamente o registro a ser mantido fora das duplicatas.

    • Following a list of values: permite definir uma prioridade de valor para um ou mais campos. Para definir os valores, selecione um campo ou crie uma expressão e adicione o(s) valor(es) à tabela apropriada. Para definir um novo campo, clique no botão Add localizado acima da lista de valores.

    • Non-empty value: permite manter registros para os quais o valor da expressão selecionada não está vazio como uma prioridade.

    • Using an expression: permite manter registros com o valor mais baixo (ou mais alto) da expressão fornecida.

    note note
    NOTE
    A funcionalidade Merge, acessível por meio do link Advanced parameters, permite configurar um conjunto de regras para mesclar um campo ou grupo de campos em um único registro de dados resultante. Para obter mais informações, consulte Mesclar campos em um único registro.
  5. Clique em Finish para aprovar o método de desduplicação selecionado.

    A seção intermediária da janela resume a configuração definida.

    Na seção inferior da janela do editor de atividades, é possível modificar o rótulo da transição de saída do objeto gráfico e inserir um código de segmento que será associado ao resultado da atividade. Esse código pode ser usado posteriormente como um critério de target.

  6. Marque a opção Generate complement se desejar explorar a população restante. O complemento consiste de todas as duplicatas. Uma transição adicional será adicionada à atividade, da seguinte maneira:

Exemplo: identificar as duplicatas antes de uma entrega example--identify-the-duplicates-before-a-delivery

No exemplo a seguir, a desduplicação lida com a união entre três queries.

O objetivo do workflow é definir o target de uma entrega excluindo duplicatas para evitar o envio para o mesmo destinatário várias vezes.

As duplicatas identificadas também serão integradas em uma lista de duplicatas dedicada que podem ser reutilizadas se necessário.

  1. Adicione e vincule as várias atividades necessárias para que o workflow funcione conforme mostrado acima.

    A atividade Union é usada aqui para "unificar" as três queries em uma única transição. Assim, a desduplicação não funcionará para cada query individualmente, mas para toda a query. Para obter mais informações sobre este assunto, consulte Melhores práticas.

  2. Abra a atividade de desduplicação e clique no link Edit configuration… para definir o modo de desduplicação.

  3. Na nova janela, selecione Database schema.

  4. Selecione Recipients como dimensões de filtragem e direcionamento.

  5. Selecione o campo de ID para as duplicatas de Email a fim de enviar a entrega somente uma vez para cada endereço de email, depois clique em Next.

    Se desejar basear as IDs duplicadas em um campo específico, selecione Other para acessar a lista de campos disponíveis.

  6. Escolha manter apenas uma entrada quando o mesmo endereço de email for identificado para vários destinatários.

  7. Selecione o modo de desduplicação Choose for me para que os registros salvos no caso de duplicatas identificadas sejam escolhidos aleatoriamente, depois clique em Finish.

Ao executar o workflow, todos os destinatários identificados como duplicatas são excluídos do resultado (e, portanto, da entrega) e adicionada à lista de duplicatas. Essa lista pode ser usada novamente em vez de ter que reidentificar as duplicatas.

Mesclar campos em um único registro de dados merging-fields-into-single-record

A funcionalidade Merge permite configurar um conjunto de regras para que a desduplicação defina um campo ou grupo de campos a serem mesclados em um único registro de dados resultante.

Por exemplo, com um conjunto de registros duplicados, você pode optar por manter o número de telefone mais antigo ou o nome mais recente.

Um caso de uso que utiliza esse recurso está disponível nesta seção.

Para fazer isso, siga estes passos:

  1. Na etapa de seleção Deduplication method, clique no link Advanced Parameters.

  2. Selecione a opção Merge records para ativar a funcionalidade.

    Se desejar agrupar vários campos de dados em cada condição de mesclagem, ative a opção Use several record merging criteria.

  3. Depois de ativar a funcionalidade, uma guia Merge é adicionada à atividade Deduplication. Isso permite que você defina grupos de campos a serem mesclados e suas regras associadas.

    Para obter mais informações, consulte o caso de uso detalhado disponível nesta seção.

Parâmetros de entrada input-parameters

  • tableName
  • schema

Cada evento de entrada deve especificar um target definido por esses parâmetros.

Parâmetros de saída output-parameters

  • tableName
  • schema
  • recCount

Esse conjunto de três valores identifica o target resultante da desduplicação. tableName é o nome da tabela que salva os identificadores de direcionamento, schema é o esquema da população (geralmente nms:recipient) e recCount é o número de elementos na tabela.

A transição associada ao complemento tem os mesmos parâmetros.

recommendation-more-help
601d79c3-e613-4db3-889a-ae959cd9e3e1