文档 Experience Platform Data Science Workspace 指南

使用笔记本分析数据

Last update: Thu May 25 2023 00:00:00 GMT+0000 (Coordinated Universal Time)

主题：
Data Science Workspace

创建对象：

User
Developer

本教程重点介绍如何使用Jupyter Notebooks（构建于Data Science Workspace内）访问、探索和可视化您的数据。在本教程结束时，您应该了解Jupyter Notebooks提供的一些功能，以便更好地了解您的数据。

介绍了以下概念：

JupyterLab： JupyterLab 是Project Jupyter的下一代基于Web的界面，与紧密集成 Adobe Experience Platform.
批次： 数据集由批量组成。批次是指一段时间内收集并作为一个单元一起处理的一组数据。向数据集中添加数据时会创建新批次。
数据访问SDK（已弃用）： Data Access SDK现已弃用。请使用 Platform SDK 指南。

探索Data Science Workspace中的笔记本

在本节中，将探究之前摄取到零售模式的数据。

数据科学工作区允许用户创建 Jupyter Notebooks 通过 JupyterLab 他们可以在其中创建和编辑机器学习工作流的平台。 JupyterLab 是一种服务器 — 客户端协作工具，允许用户通过Web浏览器编辑笔记本文档。这些笔记本可以包含可执行代码和富文本元素。出于我们的目的，我们将使用Markdown提供分析描述和可执行文件 Python 执行数据探索和分析的代码。

选择您的工作区

启动时 JupyterLab，我们为Jupyter Notebooks提供了一个基于Web的界面。根据选择的笔记本类型，将启动相应的内核。

在比较要使用的环境时，我们必须考虑每个服务的限制。例如，如果我们使用熊猫库 Python，作为常规用户，RAM限制为2 GB。作为高级用户，我们最多只能使用20 GB的RAM。如果处理较大的计算，则使用 Spark 它提供1.5 TB的容量，可与所有笔记本实例共享。

默认情况下，Tensorflow方法在GPU群集中工作，Python在CPU群集中运行。

创建新笔记本

在 Adobe Experience Platform UI，选择数据科学，以转到数据科学工作区。在此页面中，选择 JupyterLab 以打开 JupyterLab 发射器。您应会看到一个类似于此内容的页面。

在我们的教程中，我们将使用 Python 3 ，以展示如何访问和浏览数据。在“启动器”页面中，提供了示例笔记本。我们将使用“零售”方法来 Python 3.

零售方式是一个独立的示例，它使用相同的零售数据集来显示如何在Jupyter Notebook中探索和可视化数据。此外，该笔记本在培训和验证方面也更加深入。有关此特定笔记本的更多信息，请参阅此处演练.

访问数据

NOTE

此 data_access_sdk_python 已弃用，不再推荐。请参阅将数据访问SDK转换为Platform SDK 教程以转换代码。以下相同步骤仍适用于本教程。

我们将从内部访问数据 Adobe Experience Platform 以及外部数据。我们将使用 data_access_sdk_python 库，用于访问数据集和XDM架构等内部数据。对于外部数据，我们将使用大熊猫 Python 库。

外部数据

打开零售笔记本后，找到“加载数据”标头。以下各项 Python 代码使用熊猫 DataFrame 数据结构和 read_csv() 用于读取托管的CSV的函数 Github 到DataFrame：

大熊猫的DataFrame数据结构是一种二维标记数据结构。要快速查看数据的维度，我们可以使用 df.shape. 这将返回一个表示DataFrame维度的元组：

最后，我们可以看看我们的数据是什么样的。我们可以使用 df.head(n) 查看第一个 n DataFrame的行：

Experience Platform 数据

现在，我们将转到访问 Experience Platform 数据。

按数据集ID

对于此部分，我们使用零售业数据集，该数据集与零售业示例笔记本中使用的数据集相同。

在Jupyter Notebook中，您可以从数据选项卡左边。选择选项卡后，提供了两个文件夹。选择 数据集 文件夹。

现在，在“数据集”目录中，您可以看到所有摄取的数据集。请注意，如果您的目录中填充了大量数据集，则加载所有条目可能需要一分钟。

由于数据集相同，因此我们希望替换使用外部数据的上一节中的加载数据。选择下的代码块 加载数据 然后按下 'd' 两次键盘按键。确保焦点在块上而不是文本中。您可以按下 'esc' 在按之前对文本焦点进行转义 'd' 两次。

现在，我们可以右键单击 Retail-Training-<your-alias> 数据集，然后在下拉列表中选择“在笔记本中浏览数据”选项。您的笔记本中将显示一个可执行代码条目。

TIP

请参阅 Platform SDK 代码转换指南。

from data_access_sdk_python.reader import DataSetReader
from datetime import date
reader = DataSetReader()
df = reader.load(data_set_id="xxxxxxxx", ims_org="xxxxxxxx@AdobeOrg")
df.head()

如果您使用的是 Python，请参阅此页面以访问 Adobe Experience Platform.

选择可执行单元格，然后按工具栏中的播放按钮将运行可执行代码。输出 head() 将是一个表，其中数据集的键为列，而数据集的前n行为列。 head() 接受一个整数参数以指定要输出的行数。默认情况下，此值为5。