Show Menu
主题×

关于脚本索引

使用“脚本索引”,您可以编写、更新和维护增量索引选项,而无需登录。 搜索机器人从服务器上托管的文本文件读取说明。

使用脚本索引

关于配置脚本式增量索引

要使用“脚本索引”,可使用“脚本的增量索引配置”页指定位于服务器上的脚本文件(纯文本文件)的URL。 例如, https://www.mysite.com/indexlist.txt 。在站点发生变化时,您可以手动或自动向文本文件添加命令块(新闻源、股票报价机或其他更改过的文件中的信息到来会触发脚本)。
当脚本的增量索引开始时,搜索机器人读取文本文件并运行在该文件中找到的新命令。 默认情况下,搜索自动机只处理新命令,这些命令由文件日期决定。 除非您在 Clear Date 配置“脚本索引”时检查,否则搜索自动机会“记住”最近处理过的块的日期说明符。

关于脚本文件

您在URL中指定的脚本文件是位于服务器上的纯文本文件。 您可以对行尾序列使用回车符、换行符或两者。 空行包含零个或多个空格字符,后跟行尾序列。 所有命令均不区分大小写。
文本文件由块组织,块描述搜索机器人在执行脚本增量索引时使用的信息。
块按日期排序,最旧的块位于文本文件的顶部,最新的块位于底部。 每个块以单行date-command和date-specifier命令开头,并以空行分隔符结束,如以下块示例所示(中间是几个命令):
使用HTTP 1.1样式时,所有低于10的序数日期都需要前导零。 例如,11月6日是11月6日,而不是11月6日。
Command(命令)
描述
date-command
每个块的第一行以两个日期命令之一开头:
  • date
    使用“日期”命令指示日期说明符将由日期、日期、时间和时区组成。
  • 秒数
    使用 表示日期说明符将包含一个以纪元秒为单位的时间(例如,784111777)。 使用秒 时, 请确保块之间的秒数增加。
date-specifier
日期 说明符命 令通常记录将块信息添加到文件的顺序日期和时间(date命令)或时间秒(秒命令)。 例如:
date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)
使用HTTP 1.1样式时,所有低于10的序数日期都需要前导零。 例如,11月6日是11月6日,而不是11月6日。
搜索机器人“记住”最近处理过的块的日期说明符,并且只对其认为“较新”的信息进行索引。 (实时对搜索机器人并不重要。 相反,与其他先前处理的时间相比,时间才是关键所在。)
例如,在搜索机器人读取日期说明符为晚上10:00的块之后,它不读取记录晚上10:00之前时间的任何块,而不管索引操作何时运行。 在最坏的情况下,您可能会在日期说明符中错误地输入年份“2040”而不是“2004”。 在这种情况下,搜索机器人在下一个索引操作期间对2040块进行索引,然后拒绝读取任何其他信息块(除非有一个后日期2040)。 如果出现这种情况,请从文本文件中删除所有以前处理过的块,单击“清 除日期” ,然后将其实时推送。
评论行
以“#”字符开始注释行。
每个注释行必须是它自己的行;不能键入行尾注释。
评论行不被视为空行。 它还可以显示在块中的任意位置,甚至在日期或秒命令之前,如下例所示:
    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 
动作命令
每个文本块可以包含任意所需数量的操作命令。 以下操作命令选项与标准增量索引的选项相对应:
  • 添加
    与URL一起使用。 搜索自动机仅对自您上次索引操作以来已更改的指定URL建立索引。 此外,搜索机器人会遵循包含在指定文档中的链接,并仅对那些已更改的文档进行索引。
    您可以使用 nofollow noindex 关键字,如下例所示:
    add https://www.mydomain.com/ noindex
  • 更新
    与URL蒙版一起使用。 搜索自动机会查找并更新与指定URL蒙版匹配的所有文档。
    您可以使用 nofollow noindex 关键字,如下例所示:
    update https://www.mydomain.com/products/
  • include 排除
    与URL蒙版一起使用。 搜索自动机根据指定的蒙版类型查找和索引(“include”)文档或忽略(“exclude”)文档。
    例如:
    include https://www.mydomain.com/products/household/lightbulbs*.html
    exclude https://www.mydomain.com/archive/
  • include-date exclude-date
    与URL蒙版一起使用。 搜索自动机根据文档的URL和日期查找和索引(“include”)文档或忽略(“exclude”)文档。 有以下类型的蒙版可用:
    • include-days NNN
      搜索自动机为与指定的URL蒙版匹配且版本为NNN(天数)或更久的所有文档建立索引。
      您可以使用关键字跟随URL掩码 nofollow noindex 、和/或 server-date .
    • include-date YYYY-MM-DD
      搜索机器人为与指定URL蒙版匹配且旧或早于日期YYYY-MM-DD的所有文档编制索引,其中“YYYY”是4位数年,“MM”是1位或2位月(1-12),“DD”是1位或2位日(1-31)。
      您可以使用关键字跟随URL掩码 nofollow noindex 、和/或 server-date .
    • exclude-days NNN
      禁用所有与指定的URL蒙版匹配且版本为NNN(天数)或以上的文档的索引。
      您可以使用关键字跟随URL掩码 server-date .
    • exclude-date YYYY-MM-DD
      禁用所有与指定URL蒙版匹配且旧或旧日期YYYY-MM-DD的文档的索引。
      您可以使用关键字跟随URL掩码 server-date .
  • 删除
    指定URL。 搜索自动机从URL标识的索引中删除文档。
  • deletemask
    搜索自动机从与指定URL蒙版匹配的索引中删除文档。
另请参阅 关于URL蒙版

脚本文件示例

在下面的脚本文件示例中,搜索机器人处理这些块,前提是日期说明符在最近处理的块的日期说明符之后。 如果是这样,则执行以下索引操作:
  • 从索 y2k-problems.html 引中删除。
  • 添加 no-y2k-problems.html 到搜索索引中,并且不会跟随其中任何链接 no-y2k-problems.html
  • 搜索时,从搜索索引中 housewares.htm 排除 lightfixtures.htm 与l匹配的URL。
  • 在下包含所有其他目录和文档 www.mydomain.com
  • 更新和目录中的所 products 有文档 information ,搜索并索引自上次索引操作以来更改的所有子链接。
  • 搜索时,如果URL的日 archive 期在1999年1月1日或之前,则排除网站部分的URL。
  • 从搜索索引中 housewares.html 排除 lightfixtures.html 匹配的URL。
  • 为目录中的文件编 help 制索引,但不要从这些文件中搜索或索引任何链接。
  • 搜索并索引遇到的任何其他文件 www.mydomain.com
# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

配置脚本增量索引

您可以指定已创建的脚本,该脚本可以写入、更新和维护增量索引,而无需登录。 搜索机器人从托管在您服务器上的文本文件中读取指令以执行增量索引。
配置脚本增量索引
  1. 在产品菜单中,单击 Index > Scripted Index > Configuration ​。
  2. 在页 Scripted Incremental Index Configuration 面的中,输 Script File URL ​入位于服务器上的文本文件脚本的URL。
    请参阅 关于脚本索引
  3. (可选)如 Clear Date 果不希望搜索机器人“记住”最近处理过的块的日期说明符,请检查。
    默认情况下,搜索自动机只处理文本文件中找到的新命令块(由文件的日期决定)。 如果不希望使用默认值,请选中 Clear Date ​。
  4. 单击 Save Changes .
  5. (可选)执行下列操作之一:

为实时网站设置脚本式增量索引计划

您可以安排脚本式增量索引,以定期在一天中进行。
您选择的基本时间是根据帐户设置中配置的时区本地的。
Web服务器通常安排在半夜停工进行维护。 如果服务器在计划的索引时间内关闭,则索引构建过程将失败。 请确保选择一天中Web服务器可用的时间。
索引计划仅适用于您的实时索引;无法计划分阶段增量索引。
为实时网站设置脚本式增量索引计划
  1. 在产品菜单中,单击 Index > Scripted Index > Live Schedule ​。
  2. 在页 Scripted Incremental Index Schedule 面的下拉列表 Read the Scripted Incrementally Indexing File 中,选择希望脚本的增量索引文本文件运行的频率(以小时或分钟为单位)。
  3. 在下 Base Time 拉列表中,选择要重新生成新脚本增量索引的开始时间。
  4. 单击 Save Changes .

运行实时或分阶段网站的脚本增量索引

您可以使用脚本增量索引为实时网站或分阶段网站的“片段”(如经常更改的页面的集合)编制索引,所有这些都无需登录。
要使用此功能,请确保已配置脚本的增量索引文本文件。
运行实时网站或分阶段网站的脚本增量索引
  1. 在产品菜单中,执行下列操作之一:
    • 单击 Index > Scripted Index > Live Index .
    • 单击 Index > Scripted Index > Staged Index .
  2. 单击 Scripted Index Now .
  3. (可选)如果出现索引错误,请单 View Errors 击以查看关联的日志。

查看实时网站或分阶段网站的脚本增量索引日志

当实时完整脚本索引或分阶段完整脚本索引完成时,您可以查看其关联的日志以排除发生的任何错误。
您无法导出日志,也无法保存它们。 但是,在出现新索引之前,日志仍可供查看。
查看实时网站或分阶段网站的增量索引日志
  1. 在产品菜单中,执行下列操作之一:
    • 单击 Index > Scripted Index > Live Log .
    • 单击 Index > Scripted Index > Staged Log .
  2. 在日志页面顶部或底部,执行下列任一操作:
    • 使用导航选 First ​项、 Prev ​、 Next ​、 Last ​或 Go to line 在日志中移动。
    • 使用显示选 Errors only ​项 Wrap line ​或 Show 优化您看到的内容。