Show Menu
主题×

客户数据馈送

有关( Customer Data Feed )文件CDF的基本信息以及如何开始的说明。 如果您对接收文件感兴趣或只想获 CDF 取更多信息,请从此处开始。

文件内容和用途

文 CDF 件包含事件调用()发送 Audience Manager 到我们服务器的 /event 相同数据。 这包括诸如用户ID、特征ID、区段ID等数据,以及事件调用捕获的所有其他参数。 内部 Audience Manager 系统将事件数据处理为一个文件, CDF 其中内容组织为按固定顺序显示的字段。 Audience Manager 尝试每小时生成 CDF 文件并将它们存储在服务器上的一个安全、特定于客户的存储 Amazon S3 桶中。 我们提供这些文件,以便您能够 Audience Manager 使用超出我们用户界面限制的数据。
您不应将文 CDF 件用作监视页面流量、协调报表差异或计费等的代理。

快速入门

不存在启动文件交付的自助 CDF 流程。 Contact your Audience Manager consultant or Customer Care to get started. 在实施过程中,您的 Audience Manager 代表将:
  • 设置存储 Amazon S3 桶。
  • 为文件存储存 S3 储桶提供只读身份验证凭据。 您将无法查看或访问属于其他客户的目录和文件。
文件通知 CDF 和文件在准备好下载 S3 后将显示在存储桶中。 您负责从您分配的目录中监视和下载文 S3 件。 请参阅 客户数据馈送文件处理通知

后续步骤

以下部分和客户数 据馈送常见问题解答 ,可以帮助您更熟悉此服务。

已定义客户数据馈送内容

按外观顺序列出和定义文件中 CDF 的数据元素和数组。 定义包括数据类型,但此信息不是文件的一 CDF 部分。

定义

文 CDF 件包括下面定义的部分或全部字段。 有关内部文件组织的信息,请参阅客 户数据馈送文件结构
字段 数据类型 描述
Event Time
时间戳
数据收集服务器 (DCS)处理CDF文件的时间。 时间戳使用 yyyy-mm-dd hh:mm:ss 格式,并在UTC时区中设置。
注意:活动时 间不是 :
Device
字符串
这是唯 一用户ID (UUID),它是站点访客的38位设备ID。 另请参阅 Audience Manager 中的 ID 索引
Container ID
数值
触发ID同步的容器的ID。
Realized Traits
数组
一组特征ID,其中包含访客在事件调用中实现(符合)的所有特征。
请注意,该数组可包含访客在此事件调用中曾获得资格且重新获得资格的特征。
Realized Segments
数组
一组区段ID,其中包含访客在事件调用中实现(符合条件)的所有区段。
Request Parameters
字符串
捕获所有参数(变量、ID、键值对、设备广告ID等)的字符串在活动调用中传入。
缩短示例:
d_rtbd:json,c_contextData.a.CarrierName:mobile,c_contextData.a.adid:92D56353-49C5-431E-B474-FC528D585810,c_contextData.a,RunMode:Application,c_contextData.a.DaysSinceLastUpgrade:61,d_cid_ic:xid%01EACB6E40-AC65-4012-9FE9-ABD59965E9C4%011,c_contextData.a.PrevSessionLength:583
Referer Data Type
字符串
引用页面的未编码URL(如果有)。
IP Data Type
字符串
在活动调用中捕获的访客的IP地址。
MCDevice
字符串
配给网站访客的Experience Cloud ID(MID)。 另请参阅 Cookie和Adobe Experience Platform Identity Service
All Segments
数组
一组区段ID,其中包含访客符合条件的先前实现的区段和新区段。
All Traits
数组
一组第一方和第三方特征ID,其中包含访客自上次生成的数据馈送以来限定的先前实现的特征和新特征。

客户数据馈送文件结构

列出并定义文件的数据结 CDF 构。 这包括数据序列、字段分隔符和分隔符、数据文件映射和示例文件。

数据字段标识符和序列

CDF 文件不包含标记的列或字段标题。 相反,文 CDF 件定义具有非打印字符的字段和数 ASCII 组。 此外,文 CDF 件按特定顺序列出每个字段和数组。 了解字段标识符和顺序将有助于您正确解析文件。
CDF文件元素 描述
字段分隔符和分隔符
这些非打印字符定义了CDF文件的元素和结构:
  • Ctrl + a(ASCII或 001 ^A )可使用非打印空间指示符分隔各个字段中的数据。
  • Ctrl + b(ASCII或 002 ) ^B 可将数据与数组和请求参数分离。
  • Ctrl + c(ASCII或 003 ^C )定义键值对。
字段序列
重要说明:Audience Manager保留在将来版本中向CDF文件末尾添加新字段的权利。 这意味着您的文件分析系统的技术设计不应假定固定的列数(尽管它可能采用固定的现有列顺序)。
CDF文件中的数据按以下顺序显示。
  1. 活动时间
  2. 设备
  3. 容器 ID
  4. 实现的特征
  5. 实现的细分
  6. 请求参数
  7. Referer
  8. IP 地址
  9. Experience Cloud设备ID(或MID)。 另请参阅 Cookie和Adobe Experience Platform Identity Service
  10. 所有细分
  11. 所有特征
有关字段说明,请参阅 定义的客户数据馈送内容

CDF文件映射

CDF 文件数据按如下所示的顺序显示。

识别阵列

文件中的数 CDF 组以字段分隔符开始和结 Ctrl + a 束。 这使数组中的第一个元素看起来就像独立的数据字段。 例如,实现的traits数组以开头 ^A1234 。 此条目后面是数组分 ^B5678 隔符和ID。 因此,您可能会想到,已实现特征数组中的第一个元素是ID 5678(因为它以 ^B 开头)。 但情况并非如此,因此您需要熟悉数据文件的顺序和结构。 即使实现的特征数组(或文件中的任何其他数组)中的第一个元素以开头, CDF ^A 文件中的外观或位置顺序也定义数组的开头。 并且,数组中的第一个元素始终与前面的条目分开 ^A

示例CDF文件

示例文 CDF 件可能类似于以下内容。 我们在此示例中插入了换行符,以帮助它适应页面。

客户数据馈送文件命名约定

下面的部分列出并定义文件名中 CDF 的元素。

CDF文件名:语法和示例

典型文 CDF 件名包含以下列出的元素。 Note, italics indicates a variable placeholder:

语法

s3://aam-cdf/YOUR-S3-BUCKET-NAME/day=yyyy-mm-dd/hour=hh/AAM-CDF-PARTNER-ID-AAM PROCESS-ID_0.gz

示例

s3://aam-cdf/dataCompany/day=2017-09-14/hour=17/AAM_CDF_1234_000058_0.gz

在存储 S3 存储段中,文件按合作伙伴ID(PID)、日和小时的升序排序。

CDF文件名元素已定义

下表列出并定义文件名中的 CDF 元素。
文件名元素 描述
s3://aam-cdf/
这是Amazon S3服务器上CDF文件的默认根存储存储桶。
your S3 bucket name
只读存储CDF文件的S3存储段的名称。
day= yyyy-mm-dd
文件的处理日期。
hour= hh
以24小时表示法表示并在UTC时区中设置的时间值。 另请参阅客 户数据馈送文件名时间和文件内容时间…… .
partner ID
您的合作伙伴ID。
AAM process ID _0
内部Audience Manager 流程 ID。
.gz
gzip文件扩展名。 CDF文件压缩为gzip。

客户数据馈送文件处理通知

Audience Manager 将文 .info 件写入目 S3 录,以便在( CDF)准备下载时通知您。 该文 .info 件还包含有 JSON 关文件内容的格式化元数据 CDF 。 有关此通知文件使用的语法和字段的信息,请查看此部分。

示例信息文件

每个 .info 文件都包含 Files Totals 部分。 该部 Files 分包含一个数组,其中包含每个每小时文件的特定度量。 该部 Totals 分包含特定日期所有文件 CDF 中汇总的指标。 文件的内 .info 容可能与以下示例类似。
{
    "Files": [
        {
            "FileByteSize": 2709730,
            "FileChecksumMD5": "a9ea418e79511642cff11c2a898037dc-1",
            "FileName": "AAM_CDF_1109_000000_0.gz",
            "FileSequenceNumber": 1
        },
        {
            "FileByteSize": 2783351,
            "FileChecksumMD5": "7b469485d60274b6991acd0817855840-3",
            "FileName": "AAM_CDF_1109_000001_0.gz",
            "FileSequenceNumber": 2
        }
    ],
    "Totals": {
        "Day": "2017-09-26",
        "Hour": "18",
        "TotalByteSize": 150092997,
        "TotalNumberFiles": 2
    }
}

信息文件字段已定义

下表列出并定义文件中的 CDF .info 元素。

文件对象

字段 描述
Files
启动包含有关CDF文件的元数据的数组。
FileByteSize
文件大小(以字节为单位)。
FileChecksumMD5
Amazon S3 ETag。 连字符后面的数字显示在多部件上传期间用于构建文件的部件数。 与 ETag 文件的MD5校验和不相同。
FileName
文件名。 请参阅 客户数据馈送文件命名约定
FileSequenceNumber
每个文件的索引编号。

Totals对象

字段 描述
Totals
启动包含所有CDF文件的聚合数据的对象。
Day
数据可用的日期。 使用 yyyy-mm-dd格式
Hour
可用数据的小时数。 使用UTC时区中设置的24小时格式。
TotalByteSize
该日期所有CDF文件的总大小(以字节为单位)。
TotalNumberFiles
上传到S3目录的文件总数。

客户数据馈送文件名时间和文件内容时间不同

您的 CDF 文件在文件名和文件内容中包含时间戳。 这些时间戳记录同一文件的不同事件 CDF 进程。 在同一文件的名称和内容中看到不同的时间戳并不少见。 了解每个时间戳有助于避免在处理这些数据或尝试按时间排序时出现的常见错误。

查找CDF文件时间戳

CDF 文件在两个不同位置记录的时间不同。

理解时间戳之间的差异

下表提供了有关文件时间戳的更 CDF 多详细信息以及如何正确使用它们的信息。
时间戳位置
描述
文件名
CDF文件名中的时间戳标记开始准备文 Audience Manager 件以进行交付的时间。 此时间戳以UTC时区设置。 它使用该 hour= 参数,时间格式设置为24小时表示法的2位数小时。 此时间可以不同于文件内容中记录的事件时间。 处理CDF文件时,有时您会注意到S3存储段在特定小时内为空。 空桶装置可以表示以下任一情况:
  • 那个小时没有数据。
  • 我们的服务器负载很重,在某个小时内无法处理文件。 当服务器启动时,它将本应在较早时间段中存储的文件放入一个稍后时间值的存储段中。 例如,您会看到,应该在17小时存储段中的文件出现在18小时存储段中(文件名 hour=18 中包含)。 在这种情况下,服务器可能在17小时内开始处理您的文件,但无法在该时间间隔内完成它。 相反,文件会被推到下一个每小时的时段。
重要说明​ :请勿使用文件名时间戳按时间对事件分组。 如果需要按时间分组,请使用文 EventTime 件内容中的时间戳。
文件内容
CDF文件内容中的时间戳标记数据收集服务器开始处理文件的时间。 此时间戳以UTC时区设置。 它使用字 EventTime 段,时间格式设置为 yyyy-mm-dd hh:mm:ss 。 此时间接近页面上活动的实际时间,但可能与文件名中的小时指示符不同。
提示 :与文件名 hour= 中的时间戳不同,您可以按时间 EventTime 使用数据分组。