Show Menu
ARGOMENTI×

Deduplicazione dei dati da un file importato

Questo esempio mostra come deduplicare i dati da un file importato prima di caricare i dati nel database. Questa procedura migliora la qualità dei dati caricati nel database.
Il flusso di lavoro è costituito da:
  • Un file che contiene un elenco di profili viene importato utilizzando un'attività Carica file . In questo esempio, il file importato è in formato .csv e contiene 10 profili:
    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    
    
    Questo file può essere utilizzato anche come file di esempio per rilevare e definire il formato delle colonne. Dalla Column definition scheda, accertatevi che ogni colonna del file importato sia configurata correttamente.
  • Un'attività di deduplicazione . La deduplicazione viene eseguita direttamente dopo l'importazione del file e prima di inserire i dati nel database. Dovrebbe pertanto basarsi sul Temporary resource risultato dell' Load file attività.
    Per questo esempio, desideriamo mantenere una voce singola per indirizzo e-mail univoco contenuto nel file. L’identificazione duplicata viene quindi eseguita nella colonna e-mail della risorsa temporanea. Tuttavia, due indirizzi e-mail vengono visualizzati due volte nel file. Due righe sono pertanto considerate duplicati.
  • Un'attività Aggiorna dati consente di inserire nel database i dati conservati dal processo di deduplicazione. È solo quando i dati vengono aggiornati che i dati importati vengono identificati come appartenenti alla dimensione del profilo.
    A questo punto, vorremmo vedere Insert only i profili che non esistono già nel database. A tal fine, utilizzeremo la colonna e-mail del file e il campo e-mail dalla dimensione Profilo come chiave di riconciliazione.
    Specificare i mapping tra le colonne del file da cui si desidera inserire i dati e i campi del database dalla Fields to update scheda.
Quindi avviate il flusso di lavoro. I record salvati dal processo di deduplicazione vengono quindi aggiunti ai profili nel database.