Show Menu
主題×

從導入的檔案中消除重複資料

此示例說明如何在將資料載入到資料庫中之前從導入的檔案中消除重複資料。 此過程提高了在資料庫中載入的資料的質量。
工作流由以下幾部分組成:
  • 包含配置檔案清單的檔案使用「載入檔案」( Load file )活動導入。 在此範例中,匯入的檔案為。csv格式,並包含10個描述檔:
    lastname;firstname;dateofbirth;email
    Smith;Hayden;23/05/1989;hayden.smith@example.com
    Mars;Daniel;17/11/1987;dannymars@example.com
    Smith;Clara;08/02/1989;hayden.smith@example.com
    Durance;Allison;15/12/1978;allison.durance@example.com
    Lucassen;Jody;28/03/1988;jody.lucassen@example.com
    Binder;Tom;19/01/1982;tombinder@example.com
    Binder;Tommy;19/01/1915;tombinder@example.com
    Connor;Jade;10/10/1979;connor.jade@example.com
    Mack;Clarke;02/03/1985;clarke.mack@example.com
    Ross;Timothy;04/07/1986;timross@example.com
    
    
    此檔案也可用作範例檔案,以偵測並定義欄的格式。 在頁籤 Column definition 中,確保已導入檔案的每一列都配置正確。
  • 重複數 據消除 。 重複資料消除直接在導入檔案後和將資料插入資料庫之前執行。 因此,它應以活動 Temporary resource 為基礎 Load file
    在此範例中,我們希望每個檔案中包含的唯一電子郵件地址保留一個項目。 因此,在臨時資源的電子郵 件列 上執行重複標識。 不過,檔案中會出現兩個電子郵件地址。 因此,兩行將視為重複行。
  • 「更 新資料 」活動允許您將重複資料消除過程中保留的資料插入到資料庫中。 只有在更新資料時,匯入的資料才會被識別為屬於描述檔維度。
    在此,我們希望 Insert only 看到資料庫中不存在的配置檔案。 我們將使用檔案的電子郵件欄和「描述檔」維度的電子郵件欄位作為 協調金鑰 ,來執行此動作。
    指定要從中插入資料的檔案列與頁籤中資料庫欄位之間的映 Fields to update 射。
然後啟動工作流程。 然後,從重複資料消除過程中保存的記錄將添加到資料庫中的配置檔案中。