文件 Experience Platform Data Science Workspace 指南

使用筆記型電腦分析資料

Last update: Thu May 25 2023 00:00:00 GMT+0000 (Coordinated Universal Time)

主題：
Data Science Workspace

建立對象：

User
Developer

本教學課程著重於如何使用內建於Data Science Workspace的Jupyter Notebooks，存取、探索及視覺化您的資料。在本教學課程結束時，您應該已瞭解Jupyter Notebooks提供的部分功能，以便更清楚瞭解您的資料。

以下概念已匯入：

JupyterLab： JupyterLab 是Project Jupyter的下一代網頁型介面，並緊密整合至 Adobe Experience Platform.
批次： 資料集是由批次組成。批次是一段時間內收集的一組資料，並作為一個單元一起處理。將資料新增至資料集時，會建立新批次。
資料存取SDK （已棄用）： 資料存取SDK現已棄用。請使用 Platform SDK 指南。

探索資料科學工作區中的筆記本

在本節中，會探索先前擷取到零售銷售結構描述中的資料。

資料科學工作區可讓使用者建立 Jupyter Notebooks 透過 JupyterLab 他們可以在其中建立和編輯機器學習工作流程的平台。 JupyterLab 是伺服器使用者端共同作業工具，可讓使用者透過網頁瀏覽器編輯筆記本檔案。這些筆記型電腦可包含可執行程式碼和RTF元素。出於我們的目的，我們將使用Markdown作為分析說明和可執行的工具 Python 執行資料探索和分析的程式碼。

選擇您的工作區

啟動時 JupyterLab，我們會看到Jupyter Notebooks的網頁型介面。根據我們挑選的筆記型電腦型別，將會啟動對應的核心。

在比較要使用的環境時，我們必須考量每個服務的限制。例如，如果我們使用熊貓資料庫，搭配 Python，一般使用者的RAM限製為2 GB。即使身為進階使用者，RAM容量限製為20 GB。如果處理較大的計算，則使用 Spark 提供1.5 TB的容量，可與所有筆記型電腦執行個體共用。

依預設，Tensorflow配方會在GPU叢集中運作，而Python會在CPU叢集中執行。

建立新的筆記本

在 Adobe Experience Platform UI，選取資料科學，前往資料科學工作區。從此頁面，選取 JupyterLab 以開啟 JupyterLab 啟動器。您應該會看到類似此的頁面。

在教學課程中，我們將使用 Python 3 （在Jupyter Notebook中）來顯示如何存取及探索資料。在「啟動器」頁面中，提供範例筆記本。我們將使用「零售業」配方 Python 3.

零售方式是獨立的範例，使用相同的零售資料集來顯示如何在Jupyter Notebook中探索和視覺化資料。此外，筆記型電腦還進一步深入訓練與驗證。有關此特定記事本的詳細資訊，請參閱以下內容逐步解說.

存取資料

NOTE

此 data_access_sdk_python 已過時，不再建議使用。請參閱將資料存取SDK轉換為Platform SDK 轉換程式碼的教學課程。此教學課程仍適用下列相同步驟。

我們將透過內部存取資料 Adobe Experience Platform 和外部資料。我們將使用 data_access_sdk_python 資料庫以存取內部資料，例如資料集和XDM結構描述。對於外部資料，我們將使用大熊貓 Python 資料庫。

外部資料

開啟零售銷售筆記本後，找到「載入資料」標頭。下列專案 Python 程式碼使用熊貓 DataFrame 資料結構和 read_csv() 用於讀取託管於的CSV的函式 Github 放入DataFrame：

Pandas的DataFrame資料結構是2維標籤資料結構。若要快速檢視資料的維度，我們可以使用 df.shape. 這會傳回代表DataFrame維度的Tuple：

最後，我們可以檢視資料的外觀。我們可以使用 df.head(n) 若要檢視第一個 n DataFrame的列：

Experience Platform 資料

現在，我們將繼續存取 Experience Platform 資料。

依資料集ID

針對本節，我們使用「零售業」資料集，此資料集與「零售業」範例筆記本中使用的資料集相同。

在Jupyter Notebook中，您可以從資料標籤左側。選取索引標籤後，會提供兩個資料夾。選取 資料集 資料夾。

現在在資料集目錄中，您可以看到所有擷取的資料集。請注意，如果您的目錄大量填入資料集，載入所有專案可能需要幾分鐘的時間。

由於資料集相同，因此我們想取代上一個使用外部資料的區段的載入資料。選取下的程式碼區塊 載入資料 並按下 'd' 鍵盤按鍵兩次。請確定焦點在區塊上，而不是文字中。您可以按下 'esc' 在按下前逸出文字焦點 'd' 兩次。

現在，我們可以用滑鼠右鍵按一下 Retail-Training-<your-alias> 資料集，並在下拉式清單中選取「在筆記本中探索資料」選項。您的記事本中將會出現一個可執行程式碼專案。

TIP

請參閱 Platform SDK 轉換程式碼的指南。

from data_access_sdk_python.reader import DataSetReader
from datetime import date
reader = DataSetReader()
df = reader.load(data_set_id="xxxxxxxx", ims_org="xxxxxxxx@AdobeOrg")
df.head()

如果您使用以外的其他核心 Python，請參閱此頁面以存取上的資料 Adobe Experience Platform.

選取可執行檔儲存格，然後按一下工具列中的播放按鈕，即可執行可執行檔程式碼。的輸出 head() 會是表格，以資料集的索引鍵為欄，且是資料集中的前n列。 head() 接受整數引數，以指定要輸出多少行。預設值為5。

如果您重新啟動核心並再次執行所有儲存格，應該會取得與之前相同的輸出。

探索您的資料

現在我們可以存取您的資料了，接下來讓我們使用統計和視覺效果來關注資料本身。我們使用的資料集是零售資料集，提供指定日期45個不同商店的其他資訊。特定的一些特性 date 和 store 包含下列專案：

storeType
weeklySales
storeSize
temperature
regionalFuelPrice
markDown
cpi
unemployment
isHoliday

統計摘要

我們可以善用 Python’s 熊貓資料庫，以取得每個屬性的資料型別。下列呼叫的輸出會提供每個欄的專案數和資料型別的相關資訊：

df.info()

此資訊很有用，因為知道每欄的資料型別能讓我們知道如何處理資料。

現在來看看統計摘要。只會顯示數值資料型別，因此 date， storeType、和 isHoliday 將不會輸出：

df.describe()

透過此圖示，我們可以看到每個特性有6435個例項。此外，也會提供平均值、標準差(std)、最小值、最大值以及四分位數等統計資訊。這可提供資料偏差的相關資訊。在下一節中，我們將介紹視覺效果，它可與此資訊搭配使用，讓我們對資料有良好的瞭解。

檢視以下專案的最小值和最大值： store，則可看到資料代表的獨特儲存區有45個。此外還有 storeTypes 區分商店的獨特功能。我們可以看到 storeTypes 方法是執行下列動作：

這表示22家店屬於 storeType A，17個 storeType B和6為 storeType C.

資料視覺效果

現在我們知道資料框架值了，我們想透過視覺效果來補充這些值，讓事情變得更清晰、更易於識別模式。將結果傳達給對象時，圖表也很有用。部分 Python 適用於視覺效果的資料庫包括：

在本節中，我們將快速說明使用每個程式庫的一些優點。

Matplotlib 是最舊的 Python 視覺效果套件。他們的目標是讓「簡單的事情變得容易，而困難的事情變得可能」。由於套件功能非常強大，但同時也伴隨著複雜性，因此這點通常是對的。要取得看起來合理的圖表，而不需要花費大量的時間和精力，並不總是很容易。

熊貓主要用於其DataFrame物件，允許透過整合索引進行資料操作。不過，熊貓也包含以matplotlib為基礎的內建繪圖功能。

Seaborn 是在matplotlib上建立的套件。其主要目標是讓預設圖表更具視覺吸引力，並簡化建立複雜圖表的工作。

格子圖是同樣以matplotlib建置的套件。不過，主要差異在於此工具是R的ggplot2連線埠。與seaborn類似，目標是改善matplotlib。熟悉R的ggplot2的使用者應考慮此資料庫。

單變數圖表

單變數圖表是個別變數的圖表。常見的單變數圖表是方塊和鬍鬚圖，可用來視覺化您的資料。

使用先前提供的零售資料集，我們可以為45家商店及其每週銷售額分別產生盒子和鬍鬚圖。繪圖是使用 seaborn.boxplot 函式。

方塊和須狀圖可用來顯示資料的分佈。繪圖的外線顯示上四分位元和下四分位元，而方塊橫跨四分位元之間的範圍。方塊中的線條會標籤中位數。任何超過四分位數上方或下方1.5倍的資料點都會標示為圓形。這些點會被視為離群值。

多變數圖表

多變數繪圖可用來檢視變數之間的互動。透過視覺效果，資料科學家可以看到變數之間是否有任何關聯或模式。常用的多變數圖表是關聯矩陣。透過相關矩陣，多個變數之間的相依性會以相關係數量化。

使用相同的零售業資料集，我們就能產生關聯矩陣。

請注意中心對角線1的向下。這表示在比較變數與其本身時，變數具有完全的正相關性。強正相關具有更接近1的量級，而弱相關將更接近0。負相關以負係數顯示，顯示反向趨勢。

後續步驟

本教學課程說明如何在資料科學工作區中建立新的Jupyter Notebook，以及如何從外部存取資料 Adobe Experience Platform. 具體來說，我們已進行下列步驟：

建立新的Jupyter Notebook
存取資料集和結構描述
探索資料集

現在您已準備好繼續使用下一節封裝配方並匯入資料科學工作區。

recommendation-more-help

cc79fe26-64da-411e-a6b9-5b650f53e4e9