Show Menu
主题×

关于元数据菜单

使用“元数据”菜单可自定义搜索定义和索引注入。

关于定义

您可以使 Definitions 用自定义HTML和元数据字段的内容和相关性,当客户提交搜索查询时,这些字段会被考虑。
您可以编辑已预定义的字段。 或者,您也可以根据元数据标记内容创建新的用户定义的字段。 每个定义都显示在页面上的单行 Staged Definitions 上。
另请参阅 关于数据视图

添加新的meta标记字段

您可以定义和添加自己的元数据标记字段。
在新元标记定义的效果对客户可见之前,您必须重新构建站点索引。
添加新的meta标记字段
  1. 在产品菜单上,单击 Settings > Metadata > Definitions
  2. 在页面 Definitions 上,单击 Add New Field
  3. 在页 Add Field 面上,设置所需的选项。
    选项
    描述
    字段名称
    指定用于引用字段的名称。
    字段名称必须符合以下规则:
    • 名称只能包含字母数字字符。
    • 名称中允许使用虚线,但不允许使用空格。
    • 最多可输入20个字符的名称。
    • 名称不区分大小写,但会完全按您键入的名称显示和存储。
    • 不能使用预定义字段中存在的名称,如“分阶段定义”页上的表中 所示 的名称。
    • 不能将单词“any”用作用户定义的字段名称的值。
    • 不能编辑预定义字段的名称。
    字段名称示例:
    • 作者
    • 发布日期
    • 野性
    元标记名称
    确定与定义的字段关联的内容。
    名称的列表最长可为255个字符。 并且,名称可以包含HTML meta标记的name属性中允许的任何字符。
    您可以在单个字段定义中指定多个meta标签。
    多个值必须以逗号分隔,在任何给定网页上找到的最左边的meta标记名称优先。
    例如,假定您定义了一个名为“auth”的字段。 字段名称具有关联的元标记“author, dc.author”。 在这种情况下,如果网页上同时出现两个元标记,则将索引“author”元标记中的内容并搜索“dc.author”的内容。
    用户定义的字段在其定义中必须至少有一个元标记名称。 预定义字段不需要具有关联的meta标记。 但是,如果指定了一个或多个元标记,则元标记的内容将覆盖每个标记的当前数据源。
    例如,如果元标记“dc.title”与预定义的“title”字段相关联,则“dc.title”元标记中的内容将索引到任何特定文档的标 <title> 记上。
    请参见如下示例:
    • dc.date
    • 描述
    • 独资企业
    数据类型
    每个字段都有关联的数据类型,如文本、数字、日期、版本、排名或位置。 此数据类型确定如何索引、搜索和(可选)排序字段的内容。
    创建字段定义后,无法更改数据类型。
    使用以下信息帮助您选择与字段包含的信息相关的数据类型。
    • 文本 数据类型字段被视为字符串。
    • 数字 数据类型字段被视为整数或浮点数值。
    • 日期 数据类型字段被视为日期/时间说明符。 在添加或编辑新字段时,可以自定义允许的日期/时间格式。
    • 版本 数据类型字段被视为自由形式的数字数据。 例如,1.2.3在1.2.2之前排序。
    • 名数据类型字段与“编号”类型字段一样,只是这些字段还会影响搜索结果中的排名/相关性计算。
      请参阅 有关规则排名
    • 位置 数据类型字段被视为世界上任何位置的物理位置。 允许的位置格式包括:
      • 5位或9位ZIP代码,DDDDD或DDDD-DDDD格式,其中每个“D”是0-9位数字。
      • 以DDD形式的三位数区域代码。
      • 纬度/经度对的形式为±DD.DDDD±DDD.DDDD,其中第一个数字指定纬度,第二个数字指定经度。
    允许列表
    仅当选择数据类型“文 本” 或“编 号”时 可用。
    在此字段的元数据内容中单独索引分隔的值。
    例如,当选择“允许列表”时,内容“Red”、“Yellow”、“Green”、“Blue”被视为四个单独的值。 此处理对于范围搜索(使 sp_q_min 用、 sp_q_max 或) sp_q_exact 以及对、 <search-field-value-list> 和最有用 <search-field-values> <search-display-field-values>
    如果选择了“版本”数据类型,则不可用。
    动态彩块化
    注意:此功能在默认情况下不启用。请与技术支持联系以激活供您使用。 激活后,它会显示在用户界面中。
    将标识的facet设置为动态。
    彩块化构建在元标记字段的顶部。 元标签字段是AdobeSearch&Promote的低级核心搜索层。 彩块化,另一方面是GS(向导搜索)的一部分-AdobeSearch&Promote的高级表示层。 但是,Facet自有的meta标签字段对facet一无所知。
    请参 阅关于动态彩 块化。
    允许重复数据消除
    选中此选项可启用此字段的外部重复数据删除。 即,允许通过Search CGI参数在搜索时指定 sp_dedupe_field 此字段。
    请参 阅搜索CGI参 数。
    表名
    将给定字段与给定表名永久关联。
    只要在核心搜索CGI参数或模板标签中提到此字段,表名就会自动提供。 此功能允许通过表匹配来选择动态彩块化,但您也可以将其用于非动态彩块化字段(如果需要)。
    列表分隔符
    仅在选择 允许列表 时可用。
    指定单个列表值的字符。 您可以指定多个字符,每个字符都被视为值分隔符。
    默认搜索
    当选择该字段时,即使在给定的搜索查询中未明确指定该字段,也搜索该字段内容。 如果取消选择此选项,则仅在请求时搜索字段。
    垂直更新字段
    注意:此功能在默认情况下不启用。请与技术支持联系以激活供您使用。 激活后,它会显示在用户界面中。
    将标识的字段设置为“垂直更新”字段。
    “垂直更新”字段是通过“垂直更新”过程(“索引”>“ 垂直更 新”) 进行更新的 候选字段。 由于进行垂直更新的方式,因此无法在自由文本搜索中搜索来自这些字段的内容。 选中此选项将导致在任何类型的索引操作期间不将此字段的内容添加到“word”索引。 它还允许在“垂直更新”操作期间更新此字段。
    要进一步了解垂直更新,请参阅 关于垂直更 新。
    相关性
    您可以编辑预定义字段和用户定义的字段的相关性。
    在比例1-10中指定相关性。 设置为1表示其相关性最低,设置为10表示其相关性最高。 当软件考虑每个字段中的查询匹配时,会考虑这些值。
    排序
    指定何时按命名字段,通过Search CGI参数对结果 sp_s 进行排序。
    请参 阅搜索CGI参 数。
    语言
    仅当选择数据类型 “排名 ”、 “编号” 或“日期”时 可用。
    控制为此字段的日期、数字和排名值编制索引时应用的语言和区域设置约定。
    您可以选择应用帐户语言(“语言”>“单词和语言”)。 或者,您也可以应用与包含每个数字或日期值的文档或特定语言关联的语言。
    日期格式
    仅当选择数据类型“日 期” 时可用。
    控制为此字段的日期值编制索引时识别的日期格式。
    为每个日期字段提供日期格式字符串的默认列表。 您可以添加到列表或编辑列表以满足您自己站点的需要。
    请参阅 日期格 式。
    测试日期格式
    仅当数据类型“日 期” 被选为“数据类型”时可用。
    允许您预览您指定的日期格式,以确保其格式正确。
    时区
    仅当数据类型“日 期” 被选为“数据类型”时可用。
    控制在为未指定时区的此字段的日期值编制索引时应用的假定时区。
    例如,如果帐户时区设置为“America/Los Angeles”,并且您选择“ Use Account Time Zone” ,则以下元日期值(没有指定时区)将被视为太平洋时间,计算夏令时:
    <meta name="dc.date" content="Mon, 2012年9月05日:12:00">
    最不重要的秩值
    仅当数据类型“排名” 被选 为“数据类型”时,才可用。
    控制表示任何文档的最低排名的排名值。
    如果您的文档排名从最低排名的0到最高排名的10,则将此值设置为0。
    如果您的文档排名从最高排名的1到最低排名的10,则将此值设置为10。
    默认排名值
    仅当数据类型“排名” 被选 为“数据类型”时,才可用。
    控制在文档不包含为此排名字段定义的任何元标记时使用的排名值。
    最重要的排名值
    仅当数据类型“排名” 被选 为“数据类型”时,才可用。
    控制表示任何文档的最大排名的排名值。
    如果您的文档排名从最低排名的0到最高排名的10,则将此值设置为10。
    如果您的文档排名从最高排名的1到最低排名的10,则将此值设置为1。
    默认单位
    仅当选择数据类型“位 置” 作为“数据类型”时可用。
    控制距离值的处理以进行接近性搜索。
    如果将默认单位设 置为 Miles,则应用于此字段的任何接近搜索最小/最大距离标准(通过或搜索CGI参数 sp_q_min[_#] sp_q_max[_#] )都将被视为mils,否则被视为km。
    此选项还控制在应用于邻近搜索输出字段时应用于搜索 <Search-Display-Field> 结果模板标签输出的默认距离单位。
    请参 阅关于接近性 搜索。
    创建范围描述?
    仅当选择“ 字”作为数据类型时可用。
    控制自动创建字段范围说明,以与“设计”>“导 航” >“ 块化” 一起使用
    请参 阅关于彩 块化。
    注意: 如果此字段已选 中“垂直更 新字段”,则在“垂直更新”期间将更新生成的字段范围描述字段。 但是,建议在“范围字段”中标识的 字段也 选中“ 垂直更新字 段”。
    范围字段
    仅当选中“创 建范围说明” 时可用。
    要用 前字段的范围描述更新的文本字段。 此列表包含所 尚未与其他字段一起用于生成字段范围的文本字段。
    范围值
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    创建“字段范围”说明时要使用的数据点的空分列表。 例如:
    10&nbsp;20&nbsp;50&nbsp;100&nbsp;1000
    您可以按任意顺序输入这些值。 保存值之前,对这些值进行排序并删除重复。 您还可以指定负值和非整数值。
    对于此字段的每个值:
    • 如果值小于(<)范围值中 的最小值 ,则 使用“小于” 格式
    • 如果值大于或等于“范围值”中的最大值( >=) ,则使 用“大于” 格式。
    • 否则,会找到“范围”,其中字段值介于两个连续的 范围值 (大于(>)小值且小于或等于(<=)大值)之间,并使用 中间格 式。
    例如,上面的一组值示例将为值定义一组描述:
    • 少于10
    • 大于或等于10且小于20
    • 大于或等于20且小于50
    • 大于或等于50且小于100
    • 大于或等于100且小于10000
    • 大于或等于10000
    请参 阅使用大于测试? 更改执行这些测试的方式。
    “小于”格式
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    这是用于指定小于“范围值”中最小值的值的范围描述的 模板 。 最小值将使用数字占位符标记 ~N~表示 。 例如:
    Less&nbsp;than&nbsp;~N~
    或:
    ~N~&nbsp;and&nbsp;below
    通常,该值的格式为“原样”-即,对于“范围值 定义“5 10 20”和提供的值1,生成的范围描述将仅类似于“小于5”。 如果您希望它为“4.99及更低版本”,请将“精度” 设置 2并 使用以下格式:
    ~n~&nbsp;and&nbsp;below
    “小于”格 式中,小写 ~n~将使值根据精确度设置 向下 舍入
    注意:要按原样在范围描述中包含任何数字占位符,请使用反斜杠(\)前缀进行指定——例如 \~N~ \~n~ 。 要包含反斜杠字符,请使用另一个反斜杠指定它——例如, \\ a.
    中间格式
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    这是用于指定介于范围值中最小值和最大值之间的值的范围描述 的模板 。 对于给定范围,低范围值将使用数字占位符标记 ~L~ 表示,而高范围值将使用标记 ~H~表示 。 例如:
    ~L~&nbsp;to&nbsp;~H~
    或:
    Between&nbsp;~L~&nbsp;and&nbsp;~H~
    或:
    Less&nbsp;than&nbsp;~H~&nbsp;and&nbsp;greater&nbsp;than&nbsp;~L~
    通常,这些值将格式化为“原样”-即,对于范围值定 为“5 10 20”,而提供的值为8,生成的范围描述将仅类似于“5到10”。 如果您希望它为“5到9.99之间”,并且较高的值向下调 ,请将 Precision 设置为 2并 使用以下格式:
    Between&nbsp;~L~&nbsp;and&nbsp;~h~
    同样 ,~L ~可以被 ~l~取代 ,使低值向上调节 ,也可以根据 Precision Light的设置 来进行。 这意味着定义如下:
    Between&nbsp;~l~&nbsp;and&nbsp;~H~
    如果 Precision 值为 2,则 将创建“5.01到10”。
    小写 ~l ~将使低值按精度设置向上 舍入 ,小写 ~h~将使高值变为四舍 入。
    注意:要按原样在范围描述中包含任何数字占位符,请使用反斜杠(\)前缀进行指定——例如 \~L~ or \~h~ . 要包含反斜杠字符,请使用另一个反斜杠指定它——例如, \\ a.
    “大于”格式
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    这是用于指定大于范围值中最大值的值的范围描述 的模板 。 最大值将使用数字占位符标记 ~N~表示 。 例如:
    Greater&nbsp;than&nbsp;~N~
    或:
    ~N~&nbsp;and&nbsp;above
    通常,该值的格式为“原样”-即,对于“范围值”定 为“5 10 20”,而提供的值为30,则生成的范围描述将仅类似于“大于20”。 如果您希望它为“20.01及更高版本”,请将“精度” 设置 2并 使用以下格式:
    ~n~&nbsp;and&nbsp;above
    “大于” 格式中,小写 ~n~将使值根据精确度设置 进行 四舍 入。
    注意:要按原样在范围描述中包含任何数字占位符,请使用反斜杠(\)前缀进行指定——例如 \~N~ \~n~ 。 要包含反斜杠字符,请使用另一个反斜杠指定它——例如, \\ a.
    查准率
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    一个整数值,它指定小数点右侧的数字数。 这也控制舍入操作。
    去掉前导零?
    仅当选中“ 创建范围 描述”、选 择“范围字段” 项并设置了非零精度值时,才 用。
    是否应将“0.50”显示为“.50”?
    去掉尾随零?
    仅当选中“ 创建范围 描述”、选 择“范围字段” 项并设置了非零精度值时,才 用。
    我们应否将“10.00”显示为“10”?
    显示千个分隔符?
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    我们应该把“10000”显示为“10000”吗? 将使用区域设置特定值。
    调整零值?
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    当显示舍入零值时,是否应根据“精度”设置向上或向下 舍入 它们? 即显示“0.01”?
    使用大于进行测试?
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    当每个值与以降序处理 的“ 范围值 ”中的值进行比较时 ,默认情况下会使用“大于”或“相等”(>=)运算符来比较它,一旦此测试成功就停止。 这意味着,对于一组范围值 (如“ 10 20 50 100 1000”),值100将在范围100到1000内,因为100确实>= 100。 如果您希望它介于50到100之间,请选中此选项,这会导致比较使用大于(>)运算符。
    例如,当选中此选项时,对于此字段的每个值:
    • 如果值小于或等于(<=)范围值中的最 小值 ,则 将使用“小于” 格式
    • 如果值大于(>)范围值中 的最大 值,则 将使用“大于” 格式
    • 否则,将在字段值介于两个连续的范围值(大于或等于(>=)较小的值和小于(<)较大的值之间)之 找到一个范围,并使用 中间格
    和,如果未选中,
    • 如果值小于(<)范围值中 的最小值 ,则 将使用“小于” 格式
    • 如果值大于或等于(>=)范围值中 的最大 值,则 将使用“大于” 格式
    • 否则,将在字段值介于两个连续的范围值(大于(>)值和小于或等于(<=)较大值之 间)之间 找到一个范围,并使用 中间格
    测试
    仅当选中“ 创建范围说 明”并选择“范围 字段”项时 才可用。
    提供示例数值,然后按“测 试” 按钮,查看如何创建“范围字段”。 生成的范围说明将显示在窗口中。
  4. 单击 Add .
  5. (可选)如果要预览结果,请重新构建分阶段站点索引。
  6. (可选)在页 Definitions 面上,执行下列任一操作:

编辑预定义或用户定义的元标记字段

您只能编辑预定义meta标记中的某些字段,或编辑用户定义的meta标记中的所有字段。
在客户看到元标记更改的效果之前,必须重新构建站点索引。
编辑预定义或用户定义的元标记字段
  1. 在产品菜单上,单击 Settings > Metadata > Definitions
  2. 在页 Definitions 面上,在表 Actions 的列中,单 Edit 击要更改的meta标记字段名称行。
  3. 在页 Pinned Keyword Results Manager 面的表中,单 Edit 击要更改的关键字行。
  4. 在页 Edit Field 面上,设置所需的选项。
    如果选择更改预定义的元标记字段,请注意并非所有字段都可编辑。
    请参阅添加新元标 签字段下的选项表
  5. 单击 Save Changes .
  6. (可选)如果要预览结果,请重新构建分阶段站点索引。
  7. (可选)在页 Definitions 面上,执行下列任一操作:

删除用户定义的元标记字段

您可以删除您不再需要或使用的用户定义的元标记字段。
无法删除预定义的元标记字段。 但是,您可以编辑某些字段。
在客户看到删除元标记的效果之前,必须重新构建站点索引。
删除用户定义的元标记字段
  1. 在产品菜单上,单击 Settings > Metadata > Definitions
  2. 在页 Definitions 面上,在表 User-defined fields 的一节中,单 Delete 击要删除的meta标记字段名称行。
  3. 在确认对话框中,单击 OK
  4. (可选)如果要预览结果,请重新构建分阶段站点索引。
  5. (可选)在页 Definitions 面上,执行下列任一操作:

关于注射

您可以使用 Injections 将内容插入网页,而无需自行编辑这些页面。
您可以将内容追加到特定索引字段(如“目标”或“正文”),或用新值替换索引内容。 例如,如果您在“目标”元标记字段中插入了新内容,则此信息会被视为硬编码页面内容。 无论网站页面是否具有相应的内容,您都可以编辑任何预定义元标记字段的内容。 例如,您可以编辑以下预定义元标记字段名称的内容:
  • Alt
  • body
  • charset
  • 日期
  • desc
  • 按键
  • language
  • Target
  • title
  • url

现场注射试验

您可以选择 Test 在页面 Staged Injections 上使用。 您输入测试字段名称(例如“标题”或“正文”)、原始字段值(例如“主页”)以及网站中的测试URL。 结果值将显示给您的参考。 测试期间不更改当前值。

使用字段注入定义

注入定义有以下形式:
append|replace field [regexp] URL value

append|replace , field , URL 。 项目 value 是必填项目。 每行输入一个注入定义。 以下示例包含六个不同的注入定义。
replace title  https://www.yoursite.com/company/contactus.html Adobe: Contact Us 
append body https://www.yoursite.com/products/* On Sale Now! 
append target https://www.yoursite.com/news/bob_white/ Regular Weekly Feature 
append target regexp https://www.yoursite.com/travel/mr_travel/.*\column.html$ Regular Weekly Feature 
replace charset https://www.yoursite.com/japanese/intro.txt shift-jis 
replace language https://www.yoursite.com/japanese/intro.txt ja_JP

注入定义
描述
追加/替换
选择“append”以添加注入定义的值(“Adobe:联系我们”或“立即开始销售!” (在上例中)。 选择“替换”以用定义的值覆盖现有字段内容。 如果字段当前没有内容,则会自动添加定义的值,而不管使用哪个选项(追加或替换)。
字段
字段名称为必填字段。 以下是您可以使用的十个预定义字段名称:
  • alt
  • body
  • charset
  • 日期
  • desc
  • 按键
  • language
  • 目标
  • title
  • url
每个字段名称都与站点页面上的元素相对应。 例如,如果指定字段 称desc,则可以向与网站页面上的描述Meta标签对应的字段添加注入定义值。
如果页面上不存在描述Meta标记,则定义的内容会为您创建标记。 desc注入中指 的内容会像硬编码元描述内容一样显示在结果页面上。
您还可以使用相同的字段名称创建多个定义。 例如,假设您注射了以下药物:
replace  title  https://www.mysite.com/ Welcome to My Site
replace  title  https://www.mysite.com/company/*.html My Site: Contact
上例中的所有网站页面都会收到一个插入的标题“欢迎使用我的网站”。 “/公司/”文件夹中的页面会插入一个新标题“我的站点:与我们联系”。
请注意,注射按注入定义文本框中注 入的显 示顺序。 如果同一位置的页面多次定义同一字段(本例中的“标题”),则以后的定义优先。
[regexp] -可选。 如果选择使用 regexp选 项,则定义的URL将被视为常规表达式。
请参阅 常规表达式
在以下定义中:
replace target  regexp&nbsp;^.*/products/.*\.html$  Important information
“重要信息”将注入与常规目标^匹配的所有页面的“表达式” 字段。*/产品/.*\.html$ .
因此,您有以下几点:
https://www.mydomain.com/products/page1.html     (Will receive "target" content)
https://www.mydomain.com/product/oldstuff.html     (Will not receive "target" content)
在以下示例中:
append&nbsp;title&nbsp;regexp&nbsp;^.*\.pdf$&nbsp;Millennium&nbsp;Science
注入将“Millennium Science”追加到所有以“.pdf”文件扩展名结尾的页面的“标题”内容。
URL
需要URL并指定插入哪些文档。
该URL是以下任意一个:
  • 完整路径,如https://www.mydomain.com/products.html中所示
  • 部分路径,如https://www.mydomain.com/products中所示
  • 使用通配符的URL,如https://www.mydomain.com/*.html中所示
URL值中不得包含任何空格字符。 如果使 用regexp 选项,则URL将被视为常规表达式。
value
值是必需的,用于替换现有字段内容或将其添加到现有字段内容。 可以为同一字段名称指定多个值。 例如:
追加 https://www.mysite.com/travel/ summer beach sand
附加 密钥 https://www.mysite.com/travel/fare/*.html 购买廉价票
在上例中,单词“summer, beach, sand”附加到“/travel/”目录中所有页面的“keys”字段。 “/travel/fare/”目录中所有页面的“keys”字段中也会附加“ceap tickets”字样。

添加字段注入定义

您可以使用 Injections 将内容插入网页,而无需自行编辑这些页面。
您可以选择 Test 在页面 Injections 上使用。 您输入测试字段名称(例如“标题”或“正文”)、原始字段值(例如“主页”)以及网站中的测试URL。 结果值将显示给您的参考。 测试期间不更改当前值。
添加字段注入定义
  1. 在产品菜单上,单击 Settings > Metadata > Injections
  2. (可选)在页 Injections 面的区 Test Field Injections 域中,输入测试字段、测试原始值和测试URL,然后单击 Test
  3. 在字段 Field Injection Definitions 中,为每行输入一个注入定义。
  4. 单击 Save Changes .
  5. (可选)执行下列任一操作:

关于属性加载器

使用 Attribute Loader 定义其他输入源来补充从网站爬网的数据。
要使用属性加载器,您可能需要在您的帐户中由Adobe帐户代表或Adobe支持启用它。
您可以使用数据馈送输入源访问以不同于网站上通常发现的表单存储的内容。 使用一种可用的爬网方法执行此操作。 然后,可将来自这些源的数据注入来自已爬网内容的数据。
在向页面添加属性加载器定义 Staged Attribute Loader Definitions 后,您可以更改除名称值和类型值之外的任何配置设置
该页 Attribute Loader 面会向您显示以下信息:
  • 已配置和添加的已定义属性加载器配置的名称。
  • 已添加的每个连接器的以下数据源类型之一:
    • 文本 -简单的“平面”文件、逗号分隔、制表符分隔或其他一致的分隔格式。
    • - XML源。
  • 是否为下一个爬网和索引启用配置。
  • 数据源的地址。

属性注入过程如何用于属性加载器中的文本和源配置

步骤
过程
描述
1
下载数据源。
对于文本和源配置,它只是一个简单的文件下载。
2
将下载的数据源分解为单个伪文档。
对于 本,每行以换行符分隔的文本都对应单个文档,并使用指定的分隔符进行分析,如逗号或制表符。
对于 ,每个文档的数据都使用以下形式的常规表达式模式提取:
<${Itemtag}>(.*?)</${Itemtag}>
在“ 性加载器 添加”页上使用映射, 创建数据的缓存副本,然后为Crawler创建链接列表。 数据存储在本地缓存中,并填充配置的字段。
所解析的数据被写入本地高速缓存。
稍后将读取此缓存,以创建Crawler所需的简单HTML文档。 例如:
<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>
仅当 存在到 “标题”元数据字段的映射时,才会生成<title>元素。 同样,仅 当存在 到“正文”元数据字段的映射时,才会生成<正文>元素。
重要说明 :不支持为预定义的URL meta标签分配值。
对于所有其他映射 ,将为 每个在原始文档中找到数据的字段生成<meta>标签。
每个文档的字段将添加到缓存。 对于写入缓存的每个文档,也会生成一个链接,如以下示例所示:
<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....
配置的映射必须有一个字段标识为主键。 此映射构成从缓存读取数据时使用的键。
Crawler可识别URL 索引: 方案前缀,然后访问本地缓存的数据。
3
爬网缓存的文档集。
引: 链接将添加到Crawler的待处理列表,并以普通爬网序列进行处理。
4
处理每个文档。
每个链接的键值都与缓存中的一个条目相对应,因此搜索每个链接会导致从缓存中获取该文档的数据。 然后,它将“组合”为HTML图像,并进行处理并添加到索引中。

关于配置多属性加载程序

您可以为任何帐户定义多个属性加载器配置。
添加属性加载器时,您可以选择使用该 Setup Maps 功能下载数据源的示例。 检查数据是否适合。
属性加载器类型
描述
文本
通过先试用制表符,然后使用竖条( | ),最后是逗号( , )。 如果您在单击“设置映射”之前已指 定了 分隔符值,则会改用该值。
最适合方案的结果是,在Map字段中填充适当的Tag和Field值的猜测。 此外,显示所分析数据的采样。 如果知道文 件包含标题行, 请务必在第一行中选择标题。 设置函数使用此信息来更好地标识生成的映射条目。
信息源
下载数据源并执行简单的XML分析。
生成的XPath标识符显示在Map表的Tag行中,在Fields中显示类似值。 这些行只标识可用数据,不生成更复杂的XPath定义。 但是,它仍然很有帮助,因为它描述了XML数据并标识了Itemtag。
注意: “设置映射”功能下载整个XML源以执行其分析。 如果文件很大,此操作可能超时。
成功后,此函数将标识所有可能的XPath项,其中许多项不值得使用。 请务必检查生成的映射定义并删除不需要或需要的映射定义。
“设置映射”功能可能不适用于大型XML数据集,因为其文件分析器会尝试将整个文件读入内存。 因此,您可能会遇到内存不足的情况。 但是,当在索引时处理同一文档时,它不会读入内存。 相反,大型文档会“在旅途中”进行处理,而不会完全在内存中先读取。

关于在添加属性加载器时使用预览

属性加载器数据在索引操作之前加载。
在添加属性加载器时,您可以选择使用该功 Preview 能验证数据,就像保存它一样。 它针对配置运行测试,但不将配置保存到帐户。 测试访问配置的数据源。 但是,它将下载缓存写入临时位置;它与索引爬网程序使用的主缓存文件夹不冲突。
预览仅处理由Acct:IndexConnector- -预览-最大文档控制的5个文档的默认值 。 预览的文档以源形式显示,就像它们呈现给索引爬虫一样。 显示屏类似于Web浏览器中的“视图源”功能。 您可以使用标准导航链接导航文档集中的预览。
预览不支持XML配置,因为此类文档会直接处理,而不会下载到缓存中。

添加属性加载器定义

每个属性加载器配置都定义一个数据源和映射,以将为该源定义的数据项与索引中的元数据字段相关联。
要使用属性加载器,您可能需要在您的帐户中由Adobe帐户代表或Adobe支持启用它。
在新定义和已启用定义的效果对客户可见之前,请重新构建站点索引。
添加属性加载器定义
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页面 Stage Attribute Loader Definitions 上,单击 Add New Attribute Loader
  3. 在页 Attribute Loader Add 面上,设置所需的配置选项。 可用的选项取决于您选 Type 择的选项。
    选项
    描述
    名称
    属性加载器配置的唯一名称。 您可以使用字母数字字符。 还允许使用字符“_”和“-”。
    类型
    数据源。 您选择的数据源类型会影响“属性加载器添加”页上可用 的结果 选项。 您可以从以下选项中进行选择:
    • 文本
      简单的平面文本文件、逗号分隔、制表符分隔或其他一致的分隔格式。 每行以换行符分隔的文本对应于单个文档,并使用指定的分隔符进行分析。
      您可以将每个值或列映射到由列号引用的元数据字段,从1(1)开始。
    • 信息源
      下载包含多个“行”信息的主XML文档。
    数据源类型:文本
    启用
    将配置“打开”以供使用。 或者,您可以关闭配置,以防止使用。
    注意 :禁用的属性加载器配置将被忽略。
    主机地址
    指定数据所在的服务器主机的地址。
    如果需要,您可以指定数据源文档的完整URI(统一资源标识符)路径,如以下示例所示:
    https://www.somewhere.com/some_path/some_file.tsv
    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.csv
    URI将划分为主机地址、文件路径、协议以及用户名和密码字段的相应条目(可选)
    文件路径
    指定简单的平面文本文件、逗号分隔、制表符分隔或其他一致的分隔格式文件的路径。
    路径相对于主机地址的根。
    协议
    指定用于访问文件的协议。 您可以从以下选项中进行选择:
    • HTTP
      如有必要,可输入正确的身份验证凭据以访问HTTP服务器。
    • HTTPS
      如有必要,可输入正确的身份验证凭据以访问HTTPS服务器。
    • FTP
      必须输入正确的身份验证凭据才能访问FTP服务器。
    • SFTP
      必须输入正确的身份验证凭据才能访问SFTP服务器。
    • File(文件)
    超时
    指定FTP、SFTP、HTTP或HTTPS连接的超时(以秒为单位)。 此值必须介于30和300之间。
    重试
    指定失败的FTP、SFTP、HTTP或HTTPS连接的最大重试数。 此值必须介于0和10之间。
    值为零(0)将阻止重试尝试。
    编码
    指定在指定的数据源文件中使用的字符编码系统。
    Delimiter(分隔符)
    指定要用于描绘指定数据源文件中每个字段的字符。
    逗号字符( , )是分隔符的示例。 逗号用作字段分隔符,有助于在指定的数据源文件中分隔数据字段。
    选择 选项卡? 使用“水平”选项卡字符作为分隔符。
    第一行中的标题
    指示数据源文件中的第一行仅包含标题信息,而不包含数据。
    过时的日子
    设置属性加载器数据下载之间的最小时间间隔。 忽略在下载刷新频率间隔内发生的索引触发的下载。 如果将此值设置为默认值1,则在24小时内Attribute Loader数据不会多次下载。 在下载刷新频率间隔内发生的所有搜索索引都使用上次下载的数据集。
    地图
    使用列号指定列到元数据的映射。
    • 指定列号,第一列为1(1)。 要为每个列添加新的映射行,请在“操作” 单击 +
      您无需引用数据源中的每列。 相反,您可以选择跳过值。
    • 字段
      定义用于每个生成的<meta>标记的名称属性值。
    • 元数据?
      使字 成为下拉列表列表,您可以从中为当前帐户选择定义的元数据字段。
      如果 要,字段值可以是未定义的元数据字段。 未定义的元数据字段有时对创建筛选脚本使用的内容 很有用
      请参 阅关于筛选 脚本。
    • 主键?
      只有一个字段被标识为主键。 此字段将用作“外键”,以将属性加载器数据与索引中的相应文档匹配。
    • 删除HTML?
      选中此选项后,将删除在此字段数据中找到的任何HTML标记。
    • 操作
      允许您向映射中添加行或从映射中删除行。 行的顺序不重要。
    数据源类型:源
    启用
    将配置“打开”以供使用。 或者,您可以关闭配置,以防止使用。
    注意 :禁用的属性加载器配置将被忽略。
    主机地址
    指定数据所在的服务器主机的地址。
    如果需要,您可以指定数据源文档的完整URI(统一资源标识符)路径,如以下示例所示:
    https://www.somewhere.com/some_path/some_file.tsv
    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.csv
    URI将被细分为“主机地址”、“文件路径”、“协议”以及(可选)“用户名”和“口令”字段的相应条目。
    文件路径
    指定包含多个“行”信息的主XML文档的路径。
    路径相对于主机地址的根。
    协议
    指定用于访问文件的协议。 您可以从以下选项中进行选择:
    • HTTP
      如有必要,可输入正确的身份验证凭据以访问HTTP服务器。
    • HTTPS
      如有必要,可输入正确的身份验证凭据以访问HTTPS服务器。
    • FTP
      必须输入正确的身份验证凭据才能访问FTP服务器。
    • SFTP
      必须输入正确的身份验证凭据才能访问SFTP服务器。
    • File(文件)
    Itemtag
    标识可用于标识您指定的数据源文件中各个XML行的XML元素。
    例如,在AdobeXML文档的以下源片段中,Itemtag值是记 :
    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"> <metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_air.png"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_photoshop.png"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>
    交叉引用字段名称
    指定一个元数据字段,其值将用作属性加载器配置数据中的查找“键”。 如果未选择任何值( -无- ),则此配置的数据不可用于排名计算( 规则 >排 名规则 >编 辑规则)。 当您选择一个值时,此字段的值将用于此配置的数据交叉引用网站搜索/销售文档。
    过时的日子
    设置属性加载器数据下载之间的最小时间间隔。 忽略在下载刷新频率间隔内发生的索引触发的下载。 如果将此值设置为默认值1,则在24小时内Attribute Loader数据不会多次下载。 在下载刷新频率间隔内发生的所有搜索索引都使用上次下载的数据集。
    地图
    允许您使用XPath表达式指定XML元素到元数据的映射。
    • 标记
      指定已解析的XML数据的XPath表示形式。 使用上面的示例AdobeXML文档,在选项Itemtag下,可以使用以下语法映射它:
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      以上语法的转换如下:
      • /record/@displayurl&nbsp;->&nbsp;page-url
        录元素 的displayurl属性 映射 到元数据字段 page-url
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        元数 据元素中包含的任 何元 素的内容,该元素包含记录元 素,该记录元素的名称属性为标题,映射到元数据字段标题 中。
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        元数 据元素中包含的任 何元 素的内容,该元素包含在记 录元素中,其名称属性是描述,映射到元数据字段。
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        元数 据元素中包含的任 何元元 素的内容,该元数据元素包含在 记录元素中,其名称属性为 描述,映射到元数据字段主体。
      XPath是一个相对复杂的表示法。 有关更多信息,请访问以下位置:
    • 字段
      定义用于每个生成的<meta>标记 的名称属 性值。
    • 元数据?
      使字 成为下拉列表列表,您可以从中为当前帐户选择定义的元数据字段。
      如果 要,字段值可以是未定义的元数据字段。 未定义的元数据字段有时对创建筛选脚本使用的 内容很有用
      请参 阅关于筛选 脚本。
      当属性加载器在任何映射字段中处理具有多个点击的XML文档时,这些多个值将连接到结果缓存文档中的单个值。 默认情况下,这些值使用逗号分隔符组合。 但是,假定相应的字段 是定义的元数据字段。 此外,该字段还设置了 允许列表 属性。 在这种情况下,该字段的列表分隔符值(定义的第一个分隔符)将用在级联中。
    • 主键?
      只有一个字段被标识为主键。 此字段将用作“外键”,以将属性加载器数据与索引中的相应文档匹配。
    • 删除HTML?
      选中此选项后,将删除在此字段数据中找到的任何HTML标记。
    • 操作
      允许您向映射中添加行或从映射中删除行。 行的顺序不重要。
  4. (可选)单 Setup Maps 击以下载数据源的示例。 检查数据是否适合。
  5. Add 击以将配置添加到 Attribute Loader Definitions 页面。
  6. 在页面 Attribute Loader Definitions 上,单击 rebuild your staged site index
  7. (可选)在页 Attribute Loader Definitions 面上,执行下列任一操作:

编辑属性加载器定义

您可以编辑已定义的现有属性加载器。
要使用属性加载器,您可能需要在您的帐户中由Adobe帐户代表或Adobe支持启用它。
并非所有属性加载器选项都可供您更改,如下拉列表中的属性加载器名称 Type 或类型。
编辑属性加载器定义
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页 Attribute Loader 面的列标题 Actions 下,单击以查 Edit 找要更改其设置的属性加载器定义名称。
  3. 在页面 Attribute Loader Edit 上,设置所需的选项。
    请参阅添加属性加载 器定义下的选项表
  4. 单击 Save Changes .
  5. (可选)在页 Attribute Loader Definitions 面上,单击 rebuild your staged site index
  6. (可选)在页 Attribute Loader Definitions 面上,执行下列任一操作:

复制属性加载器定义

您可以复制现有的属性加载器定义,以用作要创建的新属性加载器的基础。
要使用属性加载器,您可能需要在您的帐户中由Adobe帐户代表或Adobe支持启用它。
在复制属性加载器定义时,默认情况下会禁用复制的定义。 要启用或“打开”定义,您必须从页面中编辑该定 Attribute Loader Edit 义,然后选择 Enable
复制属性加载器定义
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页 Attribute Loader 面的列标题 Actions 下,单击 Copy 以获取要重复其设置的属性加载器定义名称。
  3. 在页 Attribute Loader Copy 面中,输入定义的新名称。
  4. 单击 Copy .
  5. (可选)在页 Attribute Loader Definitions 面上,执行下列任一操作:

重命名属性加载器定义

您可以更改现有属性加载器定义的名称。
要使用属性加载器,您可能需要在您的帐户中由Adobe帐户代表或Adobe支持启用它。
重命名属性加载器定义
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页 Attribute Loader 面的列标题 Actions 下,单击要更 Rename 改的属性加载器定义名称。
  3. 在页 Attribute Loader Rename 面中,在字段中输入定义的新名 Name 称。
  4. 单击 Rename .
  5. (可选)在页 Attribute Loader Definitions 面上,执行下列任一操作:

加载属性加载器数据

您可以将配置的属性加载器数据下载到站点搜索/销售中。
该页 Data Load 显示有关上次属性加载器数据加载操作状态的以下信息:
状态字段
描述
状态
指示上次数据加载尝试的成功或失败。 或者,它显示已在进行的数据加载操作的状态。
开始时间
显示上次数据加载操作开始的日期和时间。
停止时间
显示上次数据加载操作的完成日期和时间。 或者,它表示当前数据加载操作仍在进行中。
加载属性加载器数据
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页面 Attribute Loader Definitions 上,单击 Load Attribute Loader Data
  3. 在页面 Attribute Loader Data Load 上,执行下列操作之一:
    • 单击 Start Load 以开始加载操作。
      在数据加载操作期​ ,Progress行提供有关其进度的信息。
    • 单击 Stop Load 以停止加载操作。
  4. Close 击以返回页 Attribute Loader Definitions 面。

预览属性加载器数据

您可以使用预览视图最近加载的属性加载器数据。
表中的“行”列显示每行数据的编号,指示加载属性加载器值的原始顺序。
其余列显示与每个条目关联的值。
如果表为空,则表示尚未加载任何属性加载器数据。 您可以关闭页 Attribute Loader Data Preview 面,然后加载属性加载器数据。
预览属性加载器数据
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页 Attribute Loader Definitions 面的列下 Actions ,单击 Preview 要视图其下载数据的配置。
  3. 在页 Attribute Loader Data Preview 面上,使用页面顶部和底部的导航和查看选项来视图数据。
    单击表中的任意列标题,按升序或降序对数据进行排序。
  4. 执行下列任一操作:
    • Download to Desktop 击以下载表并将其另存为。xlt文件。
    • 当您完成预览Attribute Loader数据并返回到之前查看的页面时,关闭该页面。

查看属性加载器定义的设置

您可以查看现有属性加载器定义的配置设置。
在将属性加载器定义添加到页 Attribute Loader Definitions 面后,无法更改其类型设置。 相反,您必须删除定义,然后添加新定义。
要使用属性加载器,您可能需要在您的帐户中由Adobe帐户代表或Adobe支持启用它。
视图属性加载器定义的设置
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页 Attribute Loader 面的列标题 Actions 下,单击以查 Edit 找要查看或编辑其设置的属性加载器定义名称。

从最近的属性加载器数据加载中查看日志

您可以使用 View Log 检查最近下载过程的属性加载器数据日志文件。 您还可以使用日志视图来监视正在运行的下载。
从最近的Attribute Loader视图加载日志
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页面 Attribute Loader Definitions 上,单击 View Log 。 日志页,
  3. 在页 Attribute Loader Data Log 面上,使用页面顶部和底部的导航和查看选项来视图日志信息。
  4. 完成后,关闭页面以返回页 Attribute Loader Definitions 面。

删除属性加载器定义

您可以删除不再需要或使用的现有属性加载器定义。
要使用属性加载器,您可能需要在您的帐户中由Adobe帐户代表或Adobe支持启用它。
删除属性加载器定义
  1. 在产品菜单上,单击 Settings > Metadata > Attribute Loader
  2. 在页 Attribute Loader Definitions 面的列标题 Actions 下,单击 Delete 要删除的属性加载器定义名称。
  3. 在页面 Attribute Loader Delete 上,单击 Delete