Show Menu
TÓPICOS×

Eliminação de duplicação

Descrição

A Deduplication atividade permite excluir duplicados nos resultados das atividades de entrada.

Contexto de utilização

A Deduplication atividade é geralmente usada após atividades de definição de metas ou após a importação de um arquivo e antes das atividades que permitem o uso de dados direcionados.
Durante o desduplicação-duplicado, as transições de entrada são processadas separadamente. Por exemplo, se o perfil 'A' estiver presente no resultado do query 1 e também no resultado do query 2, ele não será desduplicado.
Por conseguinte, é aconselhável que um desduplicação-duplicado tenha apenas uma transição de entrada. Para fazer isso, você pode combinar seus diferentes query usando atividades que correspondam às suas necessidades de direcionamento, como uma atividade de união, uma atividade de interseção etc. Por exemplo:
Tópicos relacionados

Configuração

Para configurar uma atividade desduplicação-duplicada, é necessário inserir um rótulo, o método e os critérios desduplicação-duplicados, bem como as opções relacionadas ao resultado.
  1. Arraste e solte uma Deduplication atividade no seu fluxo de trabalho.
  2. Selecione a atividade e abra-a usando o botão das ações rápidas que aparecem.
  3. Selecione o Resource type objeto do desduplicação-duplicado:
    • Database resource se o desduplicação-duplicado for realizado com dados que já existem na base de dados. Selecione o Filtering dimension e o Targeting dimension , dependendo dos dados que você deseja desduplicar. Por padrão, é desduplicação-duplicado nos perfis .
    • Temporary resource se o desduplicação-duplicado for executado nos dados temporários do fluxo de trabalho: selecione os dados Targeted set que contêm os dados a serem desduplicados. Esse caso de uso pode ser encontrado após a importação de um arquivo ou se os dados no banco de dados foram enriquecidos (com um código de segmento, por exemplo).
  4. Selecione o Number of unique records to keep . O valor padrão para esse campo é 1. O valor 0 permite manter todos os duplicados.
    Por exemplo, se os registros A e B forem considerados duplicados do registro Y e um registro C for considerado um duplicado do registro Z:
    • Se o valor do campo for 1: apenas os registros Y e Z são mantidos.
    • Se o valor do campo for 0: todos os registros são mantidos.
    • Se o valor do campo for 2: os registros C e Z são mantidos e dois registros de A, B e Y são mantidos, por acaso ou em função do método desduplicação-duplicado selecionado posteriormente.
  5. Defina os Duplicate identification critérios adicionando condições na lista fornecida. Especifique os campos e/ou expressões cujos valores idênticos permitem a identificação dos duplicados: endereço de email, nome, sobrenome etc. A ordem das condições permite que você especifique as condições para serem processadas primeiro.
  6. Na lista suspensa, selecione a opção Deduplication method a ser usada:
    • Choose for me : seleciona aleatoriamente o registro a ser mantido fora das duplicatas.
    • Following a list of values : permite definir uma prioridade de valor para um ou mais campos. Para definir os valores, selecione um campo ou crie uma expressão e adicione o(s) valor(s) à tabela apropriada. Para definir um novo campo, clique no botão Add localizado acima da lista de valores.
    • Non-empty value : permite manter registros para os quais o valor da expressão selecionada não está vazio como uma prioridade.
    • Using an expression : isso permite manter os registros nos quais o valor da expressão inserida é o menor ou o maior.
  7. Se necessário, gerencie as Transições de atividade para acessar as opções avançadas para a população de saída.
  8. Confirme a configuração da atividade e salve o fluxo de trabalho.