Show Menu
主题×

关于脚本索引

使用脚本索引,您无需登录即可编写、更新和维护增量索引选项。 搜索自动机从服务器上托管的文本文件读取说明。

使用脚本索引

关于配置脚本增量索引

要使用脚本索引,请使用“脚本的增量索引配置”页指定位于服务器上的脚本文件(纯文本文件)的URL。 例如, https://www.mysite.com/indexlist.txt 。在站点发生变化时,您可以手动或自动向文本文件添加命令块(新闻源、股票报价机或其他更改过的文件中的信息到来会触发脚本)。
当脚本的增量索引开始时,搜索自动机读取文本文件并运行在该文件中找到的新命令。 默认情况下,搜索自动机只处理新命令,这些命令由文件日期决定。 除非您 Clear Date 在配置“脚本索引”时进行检查,否则搜索自动机将“记住”最近处理的块的日期说明符。

关于脚本文件

您在URL中指定的脚本文件是位于您服务器上的纯文本文件。 您可以对行尾序列使用回车和/或行源。 空行包含零个或多个空格字符,后跟行尾序列。 所有命令均不区分大小写。
文本文件以块的形式进行组织,块描述搜索机器人在执行脚本增量索引时使用的信息。
块按日期排序,文本文件顶部有最旧的块,底部有最新的块。 每个块以单行date-command和date-specifier命令开头,并以空行分隔符结尾,如以下块示例所示(中间是几个命令):
使用HTTP 1.1样式时,所有低于10号的序号日期都需要前导零。 例如,11月6日是11月06日,而不是11月6日。
Command(命令)
描述
date-command
每个块的第一行开始有两个日期命令之一:
  • 日期
    使用“日期”命令指示日期说明符将由日、日、时和时区组成。
  • 秒数
    使用 表示日期说明符将包含一个时间(以纪元秒为单位)(例如,784111777)。 使用 时,确保块之间的秒数增加。
date-specifier
期说明符命 令通常记录将块信息添加到文件的顺序日期和时间(date命令)或时间(以纪元秒为单位)。 例如:
date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)
使用HTTP 1.1样式时,所有低于10号的序号日期都需要前导零。 例如,11月6日是11月06日,而不是11月6日。
搜索自动机“记住”最近处理的块的日期说明符,并仅索引其认为“较新”的信息。 (实时对搜索机器人并不重要。 相反,与其他先前处理的时间相比,时间才是重要的。)
例如,搜索机器人在读取日期说明符为晚上10:00的块后,不会读取记录晚上10:00之前时间的任何块,而不管索引操作何时运行。 在最坏的情况下,您可能会错误地在日期说明符中输入年份“2040”而不是“2004”。 在这种情况下,搜索机器人在下一个索引操作期间对2040块进行索引,然后拒绝读取任何其他信息块(除非有一个后日期2040)。 如果出现这种情况,请从文本文件中删除所有以前处理过的块,单 击“清除日 期”,然后将其实时推送。
注释行
以“#”字符开始注释行。
每个注释行必须是它自己的行;不能键入行尾注释。
注释行不被视为空行。 它还可以显示在块中的任意位置,甚至在日期或秒命令之前,如下例所示:
    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 
操作命令
每个文本块可以包含任意所需数量的操作命令。 以下操作命令选项与标准增量索引的选项相对应:
  • add
    与URL配合使用。 搜索自动机仅对自上次索引操作以来已更改的指定URL建立索引。 此外,搜索自动机会遵循包含在指定文档中的链接,并仅对已更改的文档进行索引。
    您可以像以下示例 nofollow noindex 那样将URL与关键字一起使用:
    add https://www.mydomain.com/ noindex
  • update
    与URL掩码一起使用。 搜索自动机会查找并更新与指定URL掩码匹配的所有文档。
    您可以像以下示例 nofollow noindex 那样将URL与关键字一起使用:
    update https://www.mydomain.com/products/
  • include exclude
    与URL掩码一起使用。 搜索自动机根据指定的蒙版类型查找和索引(“include”)或忽略(“exclude”)文档。
    例如:
    include https://www.mydomain.com/products/household/lightbulbs*.html
    exclude https://www.mydomain.com/archive/
  • include-date exclude-date
    与URL掩码一起使用。 搜索自动机根据URL和文档日期查找和索引(“include”)或忽略(“exclude”)文档。 有以下类型的蒙版可用:
    • include-days NNN
      搜索自动机为与指定URL掩码匹配且版本为NNN(天数)或更高的所有文档建立索引。
      您可以使用关键字、和/ nofollow noindex URL掩码 server-date
    • include-date YYYY-MM-DD
      搜索自动机对与指定URL掩码匹配且旧文档或旧日期YYYY-MM-DD的所有进行索引,其中“YYYY”是4位数年份,“MM”是1位或2位月份(1-12),“DD”是1位或2位日期(1-31)。
      您可以使用关键字、和/ nofollow noindex URL掩码 server-date
    • exclude-days NNN
      禁用所有与指定URL掩码匹配且为NN天或更旧文档的索引。
      您可以使用关键字跟随URL掩码 server-date
    • exclude-date YYYY-MM-DD
      禁用所有与指定URL掩码匹配且旧文档或旧日期YYYY-MM-DD数据相同的索引。
      您可以使用关键字跟随URL掩码 server-date
  • delete
    指定URL。 搜索自动机从URL标识的索引中删除文档。
  • deletemask
    搜索自动机从与指定URL掩码匹配的索引中删除文档。
另请参阅 关于URL蒙版

脚本文件示例

在下面的脚本文件示例中,如果日期说明符过后是最近处理的块的日期说明符,则搜索机器人将处理这些块。 如果是这样,则执行以下索引操作:
  • 从索 y2k-problems.html 引中删除。
  • 添加 no-y2k-problems.html 到搜索索引中,并且不关注其中的任何链接 no-y2k-problems.html
  • 搜索时,从搜索索引中 housewares.htm lightfixtures.htm 除与l匹配的URL。
  • 在下包含所有其他目录和文档 www.mydomain.com
  • 更新和目录中的所 products 有文档 information ,搜索和索引自上次索引操作后更改的所有子链接。
  • 搜索时,如果URL的日 archive 期在1999年1月1日或之前,请排除网站部分的URL。
  • 排除与搜索 housewares.html 索引 lightfixtures.html 匹配的URL。
  • 为目录中的文 help 件编制索引,但不从这些文件爬网或索引任何链接。
  • 爬网并索引遇到的任何其他文件 www.mydomain.com
# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

配置脚本增量索引

您可以指定已创建的脚本,该脚本可以写入、更新和维护增量索引,无需登录。 搜索自动机从服务器上托管的文本文件中读取指令以执行增量索引。
配置脚本增量索引
  1. 在产品菜单上,单击 Index > Scripted Index > Configuration
  2. 在页 Scripted Incremental Index Configuration 面的中, Script File URL ​输入位于您服务器上的文本文件脚本的URL。
  3. (可选) Clear Date 检查您是否希望搜索自动机“记住”最近处理的块的日期说明符。
    默认情况下,搜索自动机只处理文本文件中找到的新命令块,这由文件的日期决定。 如果您不希望使用默认值,请选中 Clear Date
  4. 单击 Save Changes .
  5. (可选)执行下列操作之一:

为实时网站设置脚本的增量索引计划

您可以计划脚本式增量索引创建,以在一天中定期进行。
您选择的基本时间根据在“帐户设置”中配置的时区是本地的。
Web服务器通常安排在半夜停机进行维护。 如果服务器在计划的索引时间内关闭,则索引编制过程将失败。 请确保选择一天中有Web服务器可用的时间。
索引计划只适用于您的实时索引;无法计划已暂存的增量索引。
为实时网站设置脚本的增量索引计划
  1. 在产品菜单上,单击 Index > Scripted Index > Live Schedule
  2. 在页 Scripted Incremental Index Schedule 面的下拉列表 Read the Scripted Incrementally Indexing File 中,选择您希望脚本的增量索引文本文件以小时或分钟为单位运行的频率。
  3. 在下 Base Time 拉列表中,选择要重新生成新脚本增量索引的开始时间。
  4. 单击 Save Changes .

运行实时或分阶段网站的脚本增量索引

您可以使用脚本增量索引为实时网站或分阶段网站的“片段”(如频繁更改的页面的集合)编制索引,所有这些都无需登录。
要使用此功能,请确保已配置脚本的增量索引文本文件。
运行实时网站或分阶段网站的脚本增量索引
  1. 在产品菜单中,执行下列操作之一:
    • 单击 Index > Scripted Index > Live Index .
    • 单击 Index > Scripted Index > Staged Index .
  2. 单击 Scripted Index Now .
  3. (可选)如果出现索引错误,请单 View Errors 击以视图关联的日志。

查看实时网站或分阶段网站的脚本增量索引日志

当实时完整脚本索引或分阶段完整脚本索引完成时,您可以视图其关联日志以排除出现的任何错误。
无法导出日志,也无法保存它们。 但是,在出现新索引之前,日志仍可供查看。
视图实时网站或分阶段网站的增量索引日志
  1. 在产品菜单中,执行下列操作之一:
    • 单击 Index > Scripted Index > Live Log .
    • 单击 Index > Scripted Index > Staged Log .
  2. 在日志页面的顶部或底部,执行下列任一操作:
    • 使用导航选 First ​项 Prev Next Last ​或 Go to line 在日志中移动。
    • 使用显示选 Errors only ​项 Wrap line ​或 Show 优化您看到的内容。