Show Menu
SUJETS×

Déduplication

La déduplication supprime les doublons dans le ou les résultats des activités entrantes. La déduplication peut être effectuée en fonction de l'adresse email, du numéro de téléphone ou d'un autre champ.

Bonnes pratiques

Lors d'une déduplication, les flux entrants sont traités séparément. Si par exemple, un destinataire 'A' est présent dans le résultat de la requête 1 et également dans le résultat de la requête 2, il ne sera pas dédupliqué.
Ce cas de figure doit s'aborder de cette manière :
  • Créer une activité Union pour unifier chaque flux entrant.
  • Créer une activité Déduplication positionnée après l'activité Union .

Configuration

Pour paramétrer une déduplication, vous devez renseigner son libellé, la méthode et les critères de déduplication et les options relatives au résultat.
Cliquez sur le lien Editer la configuration... pour définir le mode de déduplication.
  1. Choix de la cible
    Sélectionnez le type de cible de cette activité (par défaut, la déduplication porte sur les destinataires) et le critère à utiliser, c'est-à-dire le champ pour lequel des valeurs identiques permettent d'identifier les doublons : l'adresse email, le numéro de mobile ou de téléphone, le fax ou l'adresse postale.
    Si vous utilisez des données externes comme entrée, provenant par exemple d’un fichier externe, veillez à sélectionner l’option Schéma temporaire.
    L'option Autre permet, à l'étape suivante, de sélectionner le ou les critères à utiliser :
  2. Méthodes de déduplication
    Sélectionnez dans la liste déroulante la méthode de déduplication à utiliser et indiquez le nombre de doublons à conserver.
    Les méthodes disponibles sont les suivantes :
    • Choisir pour moi  : sélectionne au hasard parmi les doublons l'enregistrement à conserver.
    • Par ordonnancement de valeurs  : permet de définir un ordre de priorité des valeurs pour un ou plusieurs champs. Pour définir les valeurs, sélectionnez un champ ou créez une expression puis ajoutez la ou les valeurs dans le tableau correspondant. Cliquez sur le bouton Ajouter situé au-dessus de la liste des valeurs pour définir un nouveau champ.
    • Valeur non vide  : permet de conserver en priorité les enregistrements pour lesquels la valeur de l'expression sélectionnée n'est pas vide.
    • A partir d'une expression : permet de conserver les enregistrements dont la valeur de l'expression renseignée est la plus petite (ou la plus grande).
      Cliquez sur Terminer pour valider la méthode de déduplication sélectionnée.
    La section centrale de la fenêtre résume le paramétrage défini.
    Dans la section inférieure de la fenêtre d'édition de l'activité, vous pouvez modifier le libellé de la transition sortante de l'objet graphique et saisir un code segment qui sera associé au résultat de l'activité. Ce code pourra être utilisé ultérieurement comme critère de ciblage.
    Cochez l'option Générer le complémentaire si vous souhaitez exploiter la population restante. Le complémentaire est constitué de tous les doublons. Une transition supplémentaire sera alors ajoutée à l'activité, comme suit :

Exemple : identifier des doublons avant une diffusion

Dans l'exemple suivant, la déduplication porte sur l'union de trois requêtes.
Le workflow a pour but de définir la cible d'une diffusion en excluant les doublons afin d'éviter d'envoyer cette dernière plusieurs fois à un même destinataire.
Les doublons identifiés seront également intégrés à une liste constituée exclusivement de doublons qui pourra être réutilisée en cas de besoin ultérieur.
  1. Placez et reliez les différentes activités nécessaires au déroulement du workflow comme indiqué dans l'illustration ci-dessus.
    L'activité d'union est ici utilisée pour « unifier » les trois requêtes en une seule transition. Ainsi, la déduplication ne s'opérera pas individuellement sur chaque requête mais sur l'ensemble. Pour plus d’informations, consultez la section Meilleures pratiques .
  2. Ouvrez l'activité de déduplication puis cliquez sur le lien Editer la configuration... afin de pouvoir définir le mode de déduplication.
  3. Dans la fenêtre qui s'ouvre, sélectionnez Schéma de la base .
  4. Sélectionnez Destinataires en tant que dimensions de ciblage et de filtrage.
  5. Sélectionnez le champ d'identification des doublons Email afin de n'envoyer la diffusion qu'une seule fois par adresse mail, puis cliquez sur Suivant .
    Si vous souhaitez baser l'identification des doublons sur un champ précis, sélectionnez Autre afin d'accéder à la liste des champs disponibles.
  6. Choisissez de ne conserver qu'une seule entrée lorsque la même adresse e-mail est identifiée pour plusieurs destinataires.
  7. Sélectionnez le mode de déduplication Choisir pour moi afin que l'enregistrement conservé en cas de doublons identifiés soit choisi au hasard, puis cliquez sur Terminer .
Lors de l'exécution du workflow, les destinataires identifiés comme étant des doublons seront exclus du résultat (et donc de la diffusion) et ajoutés à la liste des doublons. Cette liste pourra être réutilisée afin de ne pas avoir à identifier de nouveau les doublons.

Paramètres d'entrée

  • tableName
  • schema
Chacun des événements entrants doit spécifier une cible définie par ces paramètres.

Paramètres de sortie

  • tableName
  • schema
  • recCount
Ce triplet de valeurs identifie la cible résultant de la déduplication. tableName est le nom de la table qui mémorise les identifiants de la cible, schema est le schéma de la population (habituellement nms:recipient) et recCount est le nombre d'éléments dans la table.
La transition associée au complémentaire possède les mêmes paramètres.