Show Menu
主题×

常见问题解答

何时对SWF文件进行爬网和索引?

如果SWF文件包含在HTML页面的embed或object标签中,则会对其进行爬网和索引,如下例所示:
<embed src="Flash-file-URL">  
 
<object>  
<param name=movie value="Flash-file-URL">  
</object> 

如果将文件URL列为入口点,也可以识别SWF文件。

为SWF文件编制索引时,我必须做什么?

要搜索和索引SWF文件,请选择内容类 Adobe Flash Movies 型( Settings > Crawling > Content Types )。
只要Flash文件从HTML文档中的标 <embed>``<object> 签或标签引用,就会索引文本,并爬取文件中列出的所有URL。
如果文件未从标记或标 <embed> 记引用, <object> 则可以将SWF文件列在HTML文档的 <a href=...> 标记中或作为URL入口点。

如何识别SWF文件?

SWF文件由以下MIME类型标识:
application/x-shockwave-flash
SWF文件也可以用“” application/octet-stream text/plain MIME类型进行识别,前提是文件扩展名为。swf。
配置错误的服务器可能对SWF文件使用不同的MIME类型。 如果搜索和索引SWF文件时遇到问题,请务必检查服务器配置。

如何索引SWF文件?

SWF文件中包含的文本会像在封闭的HTML页 <body> 面中的文本一样索引。 如果搜索结果找到嵌入的SWF文件中包含的文本,则结果实际上会链接到包含该HTML页面,而不是SWF文件。 这样,SWF文件就会显示在正确的上下文中。
如果SWF文件包含URL作为“加载影片”动作,则引用的SWF文件中的文本将作为封闭HTML页的一部分进行索引。
如果SWF文件包含URL作为“Get URL”动作,则稍后将对URL进行爬网和索引,就像HTML引用在以后进行爬 <a href=...> 网和索引一样。
如果SWF文件作为URL入口点列出,则SWF文件文本将作为单页索引。 从入口点SWF中查找文本的搜索结果会直接链接到电影,而不是链接到封闭的HTML页。

SWF文件算作页面吗?

否. SWF文件被视为其封闭HTML页面的一部分。 SWF文件中包含的所有“加载电影”URL也被视为封闭的HTML页的一部分。 因此,从HTML页面引用的SWF文件不计为帐户的页面总数的“页面”。
如果SWF文件列为URL入口点,则该SWF文件和该SWF文件中列出的所有“加载电影”URL将计为帐户页面总数的一个“页面”。

如何防止为单个SWF文件编制索引?

要防止对SWF文件进行索引,可以向封闭的HTML文档添加robots meta标签( <meta name="ROBOTS" content="NOINDEX"> ) <noindex> 或标签。 即包含或标签的 <embed> <object> 档。
您还可以使用robotmeta标签( <meta name="ROBOTS" content="NOFOLLOW"> )来防止SWF文件中包含的以下URL。 如果封闭的HTML文档已禁用以下功能,则SWF文件中列为“获取URL”操作的URL将不跟随。

如何防止在我的网站上索引SWF文件?

要禁用SWF索引,请取消选择内 Adobe Flash Movies 容类型( Settings > Crawling > Content Types )。
您还可以选择使用 URL Masks 来禁用SWF文件的索引。
要禁用SWF索引,请输入以下URL蒙版之一:
  • exclude *.swf (如果您不使用正则表达式)
  • exclude regexp ^.*\.swf$ (如果您使用正则表达式)
请参阅 正则表达式

为什么我无法在我的网站上搜索中文、日文或韩文SWF文件?

站点搜索/销售从使用Adobe Flash创建的SWF文件中获取UTF-8。 UTF-8不包含任何语言指示。 如果选择了内容类 Adobe Flash Movies 型( Settings > Content Types >),则必须使用元数据注入指定SWF文件使用的语言。
旧版SWF文件也不指定字符集。 如果选择了SWF内容类 Adobe Flash Movies 型( Settings > Crawling > Content Types ),则必须使用元数据注入来指定在SWF文件中使用的字符集。

常规搜索

一个常见问题解答页面,其中讨论了网站搜索/销售如何帮助访问您网站的客户找到他们正在寻找的内容。
以下是有关常规搜索的常见问题:
以下是与搜索功能有关的常见问题:

我是否必须安装任何软件才能使用站点搜索/销售?

否. 这是网站搜索/销售的主要优势。 该引擎是一个专业应用程序,完全托管并维护在我们的高性能服务器上。 这使软件比其他搜索解决方案更易于使用。 您只需向页面添加少量HTML代码,这样网站的客户就可以输入搜索。 网站搜索/销售将负责其余所有工作。

当我的站点超出页面限制时会发生什么情况?

我们继续为您的搜索提供服务,以便您的访客可以无中断地搜索您的网站。 要查看您的网站是否超出页面限制,请查看“完整索引”状态或“实时日志”。

如何更改发送每周报告的电子邮件地址?

每周报告将发送给每个活动帐户的所有者。 您可以通过单击> My Profile >来更改电子邮件地址 Personal Information ​。 如果您有多个活动的搜索帐户,则所有新闻稿都会发送到新地址。

我的客户信息在网站搜索/销售方面的安全性如何?

网站搜索/销售安全、快速、稳定且易于使用。 您不会被迫使用Cookie(但如果您愿意,您可以)来使用我们的产品,并且敏感信息(如密码)永远不会放在任何URL链接上,以后可以从您的浏览器中检索到这些链接。

我的客户信息的隐私权如何?

Adobe致力于尊重其客户和访客的隐私。 请参阅Adobe隐 私中心

能否在搜索结果页面上显示自己的横幅广告?

是. 您可以控制搜索结果的外观和内容。 在网站的搜索结果模板中,您可以创建指向您自己的横幅交换网络(如LinkExchange或SmartClicks)的链接。 访客点击的所有内容均正确计入您的横幅交换帐户。

我是否可以为我的站点自定义搜索结果?

是. 这是网站搜索/销售的独家功能。 借助我们先进的模板技术和对HTML的一点了解,您可以准确地控制搜索结果的显示方式。
请参阅 搜索模板标记
在您自己的服务器和网站搜索/销售服务器之间的过渡是完全无缝的,客户不可见的。 如果您不知道HTML,或者您没有时间创建自定义模板,您可以从Adobe的内部专业Web开发人员团队创建的各种极具吸引力的、随时可用的模板中进行选择。

能否查看客户在我的网站上搜索哪些内容?

是. 我们会保留过去两个月内访客在您的网站上进行搜索的搜索统计数据。 您可以随时在产品菜单的“报告”下查看这些统计数据。 搜索报告为您提供关于访客在您的网站上寻找哪些内容的重要信息。 您可以使用这些信息来改进设计或调整网站搜索/销售引擎以更好地为访客服务。

如何控制哪些内容类型(PDF、文本、Flash、MP3和Microsoft Office)被索引和搜索?

您可以轻松配置帐户,以启用或禁用在PDF文档、纯文本文档、Flash电影、MP3文件或Microsoft Office文档中找到的文本的索引和搜索功能。
这些设置在页面上受 Staged Content Types 控。

是否支持通过基于ASP、JSP、PHP、CFM或Perl的内容动态生成网页?

对静态或动态生成的HTML网页进行索引,包括从数据库或任何其他后端进程构建的页面。 由于浏览器看到的HTML代码已编制索引,因此只要这些后端架构导致HTML页面,您就可以在网站上使用站点搜索/推销。
搜索自动机从中指定的网站地址的第一页开始,对您的网站进行爬行 Account Settings,并跟踪页面之间的链接。
当搜索自动机对网站的所有页面进行爬行和索引时,您可以使用搜索引擎搜索您的网站。 换句话说,如果动态生成的文档被编入您的网站,并且其中包含来自其他页面的链接,则搜索机器人仍可以爬行并索引动态内容。
在对网站内容进行爬网和索引后,您网站的客户可以在索引内容中搜索信息。

如何使用同义词来改进网站的搜索结果?

当您希望访客查找与其搜索查询相关的页面时,可以使用同义词。
例如,假定您的网站上有一个页面,其中包含要销售的产品的价目表。 但是,在检查网站搜索/销售提供的搜索报告后,您会发现客户在搜索中查找“成本”、“费用”、“费用”或“费用”一词。 这些词不会在搜索结果中显示您的价目表页面。 通过中 Add Synonyms 的功 Dictionaries能,您可以指定这些单词都是同义词,而且客户可以找到价目表,而不管他们使用哪个搜索词。
请参 阅关于字典

我是否可以控制搜索结果的顺序?

是. 使用高级相关性界面,您可以控制为特定搜索查询返回的页面。 如果您希望确保客户在查询特定单词时看到特定页面,则此功能非常有用。

我是否可以更改搜索结果页面的语言?

是. 在允许您构建使用所选语言且与网站外观匹配的结果页面时,站点搜索/销售模板是灵活的。
模板由文本、标准HTML标记和特殊标记组合组成,这些标记定义为显示搜索结果。 当客户执行搜索时,搜索自动机读取模板,使用标准HTML标记输出文本,并基于特殊的模板标记插入结果链接。
请参阅 搜索模板标记
如果要更改结果语言,可编辑模板上显示的英语文本。

我是否可以在Adobe客户登录名中拥有多个站点?

是. 通过单次Adobe客户登录,您可以为许多不同的网站管理不同的搜索引擎。 选择并管理“帐户”下的帐户。

是否可以搜索多个域?

是. 您可以使用配置访问多个域 URL Entrypoints。 为您拥有的其他域提供URL入口点。 请记住,您必须拥有对您不拥有的域进行索引的权限。

我是否可以将我的站点细分为单独的部分,以便客户可以单独或整个站点搜索其中的任何区域?

是. “集合”功能让客户搜索网站的特定区域以快速找到其所寻找的内容。
请参阅 关于集合
例如,客户可以搜索与产品销售信息相关的URL集合或与支持服务相关的URL集合。 您可以设置收藏集,以便您的客户能够看到收藏集的下拉列表或一组复选框。

如何从搜索中排除我网站的某些部分?

是. 指定URL蒙版,以确定要包含或排除在索引中的网站页面。 URL蒙版决定网站页面是否显示在搜索结果中。
请参阅 关于URL蒙版
要防止搜索个别网页的某些部分,可以从索引中排除页面的某些部分。 在文本周围添加 <noindex> 和标 </noindex> 记。 如果要从搜索中排除导航文本,则此方法很有用。

支持哪些字符集?

网页通常使用类似于以下内容的meta标签指定字符集:
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
网站搜索/销售引擎使用目前因特网上使用的所有常用字符集对网页进行正确索引。 某些支持的字符集包括:
阿拉伯语(ISO-8859-6)
繁体中文;Big5)
日语(Shift_JIS)
阿拉伯语(Windows-1256)
繁体中文;EUC-TW)
俄语(KOI8-R)
波罗的语(ISO-8859-4)
西里尔语(ISO-8859-5)
南欧语(ISO-8859-3)
波罗的语(Windows-1257)
西里尔语(Windows-1251)
土耳其语(ISO-8859-9)
中欧语言(ISO-8859-2)
希腊语(ISO-8859-7)
土耳其语(Windows-1254)
中欧语言(Windows-1250)
希腊语(Windows-1253)
Unicode(UTF-8)
中文(ISO-2022-CN)
希伯来语(ISO-8859-8)
US-ASCII(us-ascii)
中文(ISO-2022-CN-EXT)
希伯来语(Windows-1255)
西欧语(ISO-8859-1)
中文(简体;EUC-CN)
日语(EUC-JP)
西欧语(ISO-8859-15)
中文(简体;GB2312)
日语(ISO-2022-JP)
西欧语言(Windows-1252)
中文(简体;GBK)
日语(ISO-2022-JP-1)
西欧语(x-mac-roman)
中文(简体;HZ-GB-2312)
日语(ISO-2022-JP-2)
请联系技术支持以询问有关以上未列出的字符集的信息。

如果我更改或更新我的网站怎么办?

更改网站内容后,可以执行完整索引或增量索引。 网站搜索/销售下载和索引任何更改的网站内容。 索引构建完成后,您的客户可以搜索新内容。 您还可以计划在特定时间和特定日期对站点进行自动索引。

是否可以自动索引我的网站?

是. 您可以每天计划站点的自动索引。
除了每日自动索引外,您还可以选择频繁更改其站点的部分,以增量方式索引。 在计划了自动索引的天数内,您可以控制索引的发生时间。 此外,您始终可以根据需要手动启动站点索引。

我在我的网站上使用密码。 我是否仍可以使用网站搜索/销售?

如果使用HTTP基本身份验证对网站的某些部分进行口令保护,则可指定站点搜索/销售可用于为站点编制索引的领域和口令。

您是否支持搜索和索引https或安全服务器内容?

是. 您可以在安全服务器(https)上搜索内容并为其编制索引。

站点search/merchandising是否遵守我网站上的robots.txt文件?

是. 机器人排除协议符合要求。 搜索自动机检查robots.txt文件(如果它在您的网站上存在)。 如果您的robots.txt文件排除了搜索您的站点的所有机器人,则站点搜索/销售机器人也将被排除。 要仅允许站点搜索/销售自动机爬行您的站点,请将robots.txt文件的内容设置为:
User-agent: Atomz/1.0 
Disallow:

User-agent: * 
Disallow: /

您可以通过以下链接进一步了解Web机器人和机器人排除协议:

我网站的某些部分必须经常更新,以便我的客户获得最准确的搜索结果。 增量索引是否有助于解决此问题?

是. 此方案是为便于网站搜索/销售而构建的增量索引功能。 增量索引的主要好处是它允许公司经常对网站中不断变化的部分进行动态索引。 此类功能可确保您以“最快”的准确度显示搜索结果。

是否支持从后端数据库(如产品目录或库存管理系统)动态生成的网页?

对静态或动态生成的HTML网页(包括从数据库构建的页面或任何其他后端进程)进行索引。 由于浏览器查看的HTML代码已编制索引,因此只要后端数据库信息生成HTML页,您就可以在网站上使用站点搜索/推销。
搜索自动机从中指定的网站地址的第一页开始,对您的网站进行爬行 Account Settings,并跟踪页面之间的链接。
当搜索自动机对网站的所有页面进行爬行和索引时,您可以使用搜索引擎搜索您的网站。 换句话说,如果动态生成的文档被编入您的网站,并且其中包含来自其他页面的链接,则搜索机器人仍可以爬行并索引动态数据库内容。
在对网站内容进行爬网和索引后,您网站的客户可以在索引内容中搜索信息。
您可以轻松地启用完整内容搜索,或者仅限于标题中的信息、元描述、元关键字文档标记或全部三个标记,或者更窄的基于主题的搜索。 使用元数据定义,您还可以在实际搜索结果中创建自定义显示字段,如产品图像。

我是否可以使用脚本或程序来启动站点的增量索引?

是. 您可以使用脚本或程序启动网站的增量索引,以及在内容发生更改或更新时ping服务器以索引站点。
请参阅 关于脚本索引

为什么我的商业规则没有运行?

在显示横幅时配置业务规则,或帮助确定显示的结果和顺序。 您还可以配置facet中项目的位置以及用于给定搜索的模板。 对业务规则重新排序以更改它们在演示文稿模板上运行的顺序。 商业规则按照定义的顺序运行;也就是说,一个规则的订单编号越高,它在该过程中运行得越晚,就超越了之前的规则。 要对规则重新排序,请在“业务规则”页面的表的“顺序”列中输入新编号。

为什么我在计划索引、启动索引时出错以及启动分阶段索引时遇到问题?

生成索引时,无论该索引是完整索引还是增量索引爬行状态信息都会实时显示。 例如,您可以查看开始时间、已用时间以及索引过程中发生的任何错误。 还会显示有关上一个索引状态的信息。 使用此信息可排除您遇到的任何索引编制错误。

我的索引大小限制超出了我允许的范围。 为什么会发生这种情况,我如何解决?

网站可能会不断增长,并且随着时间推移,Search&Promote会“发现”更多已添加的文档和网页。 最终,您的帐户可能会超出索引大小限制。在这种情况下,您可以考虑使用 URL Mask ​。 此功能可从您不希望或不需要索引的索引搜索中隐藏文档和网页,从而缩小索引大小。 另一种选择是与技术支持部门联系,让帐户中的索引大小限制设置得更大。
请参阅 关于URL蒙版
如果不确定要做什么,应与技术支持联系。 可能有许多其他变量影响您的索引大小,如果进行了调整,这些变量也可能影响您帐户的计费。

什么控制搜索查询的字符集编码?

搜索帐户的“Web表单”部分包含用于向网站添加搜索功能的示例搜索表单。 如果查看此搜索表单代码,您可以找到与以下代码类似的行:
<input type=hidden name="sp_f" value="iso-8859-1">
此代码行告诉搜索引擎传入的查询采用iso-8859-1编码,这是西欧语言的常用编码。 您可以通过转到产品菜单并单击 Settings > My Profile >来更改此设 Personal Information ​置。 在页 Personal Information 面的下拉列表 Character Encoding 中,选择新编码。
您还可以通过编辑搜索表单的行来手动更改网 sp_f 页上的编码值。 请记住, sp_f 搜索表单的值必须与显示该表单的页面的字符集编码匹配。

是否只搜索编码与搜索查询的编码匹配的页面?

默认情况下,否。 只要网站页面正确识别其字符集编码,即使页面使用多种编码,搜索查询的编码和页面的编码之间也会进行必要的转换。

搜索结果页面使用什么编码?

帐户的字符集编码决定了结果模板的默认编码。
您可以进一步了解如何在HTML模板中指定字符集。
请参阅 搜索模板标记

我是否可以在Unicode、UTF-8、编码页面上使用站点搜索/销售?

是. 但是,Unicode字符集(如UTF-8)没有提供足够的信息来确定页面所用的语言。 要正确搜索这些页面,必须指定语言。 要确定文档语言,将按以下顺序处理信息:
  • 服务器为文档提供的内容语言HTTP头。
  • META元素(例如, META HTTP-EQUIV="Content-Language" Content="ja_JP" )在文档 <HEAD> 的一节中。
  • 标记的LANG <HTML> 属性(例如 <HTML LANG="ja_JP"> )。
如果您的服务器未配置为传送内容语言HTTP头,且您的文档既不包含语言META元素,也不包含标记的语言属性,则可以使用元数据注入来指定相应的语言。 <HTML>

为什么我无法在我的网站上搜索中文、日文或韩文PDF文件?

站点搜索/销售从Adobe PDF文件获得UTF-8,而不显示任何语言。 如果选择 PDF Documents ( Settings > Crawling > Content Types ),则必须使用元数据注入指定在PDF文件中使用的语言。

为什么我无法在我的网站上搜索中文、日文或韩文SWF文件?

站点搜索/销售从使用Adobe Flash创建的Adobe Flash电影文件中获取UTF-8,而不显示语言。 如果选择了内容类 Adobe Flash Movies 型( Settings > Content Types >),则必须使用元数据注入指定在SWF文件中使用的语言。
对于Flash版本4或更早版本的SWF文件,不指定文件中字符的字符集。 如果选择了内容类 Adobe Flash Movies 型( Settings > Content Types >),则必须使用元数据注入来指定在SWF文件中使用的字符集。

为什么我无法在我的网站上搜索中文、日文或韩文Microsoft Office文件?

站点搜索/销售从Microsoft Office文件(Microsoft Word、Microsoft Excel和Microsoft PowerPoint)中获得UTF-8,而不显示任何语言。 如果选择了内容类 Microsoft Office Files 型( Settings > Crawling > Content Types ),则必须使用元数据注入指定Microsoft Office文件中使用的语言。

为什么我无法在我的网站上搜索中文、日文或韩文MP3文件?

如果选择内容类 Text in MP3 Music Files 型( Settings > Content Types >),则必须使用元数据注入指定用于对MP3文件进行编码的字符集。

我是否需要执行任何特殊操作才能在我的网站上获取正确的索引。txt文件?

如果选择了内容类 Text Documents 型( Settings > Content Types >),则必须使用元数据注入来指定用于编码。txt文件的字符集。

为什么在Netscape 4.7及更早版本下的搜索结果中显示中文、日文或韩文字体?

如果您的帐户使用默认模板、某个现成的模板或基于这些模板中的任何一个的模板,则可能包含将Arial或Helvetica指定为字体的字体标签。 例如, <font face="arial, helvetica" size="+1"> 。当使用Arial或Helvetica字体时,Netscape 4.7及早期版本不显示中文、日文或韩文字符。 删除 face 属性或将字体替换为更适合中文、日文或朝鲜语的字体。

你检查过索引日志了吗?

索引日志包含站点搜索/销售机器人在为您的网站建立索引时收集的详细信息。 日志包含已搜索的链接和遇到的错误的列表。 检查索引日志是确定网站上所有页面未编制索引的最佳起点。

您的URL中是否有键入错误?

在HTML表单中键入长URL时,可能会引入一个或多个排版错误。 请记住,URL不应包含任何空格。 另外,请注意,某些Web服务器会以区分大小写的方式处理URL。
在产品菜单中,单击 Settings > Crawling > URL Entrypoints ​。 在页 Staged URL Entrypoints 面中,验证以下内容:
  • 您的URL中没有任何排版错误。
  • URL中的字符均使用正确的大小写。
  • URL中没有空格字符。
要测试URL入口点,请将URL复制并粘贴到Web浏览器中,以查看您的网站是否出现。 如果未显示,请再次检查以确保您的URL路径中没有出错。

入口点网页是否包含指向您网站上其他页面的链接?

网站搜索/推销机器人像客户一样对网站进行爬行;通过跟踪页面之间的链接。 在搜索自动机能够查找并索引站点上的其他页面之前,入口点网页中必须存在链接。

指向网站上其他页面的链接是否嵌入了JavaScript?

您可以在网站上使用复杂的导航技术,如滚动操作和菜单,它们使用JavaScript链接到其他页面。 但是,站点搜索/销售自动机无法遵循JavaScript中嵌入的链接。
您可以使用的一个解决方案是将指向其他页面的隐藏链接放入包含JavaScript的HTML中。 尽管您网站的客户看不到这些链接,但搜索自动机仍会查找和爬行这些链接。 您可以将隐藏标记放在页面底部的标记前 </body> 面。 它们可能如下所示:
<a href="/mydir/mypag1.html"></a> 
<a href="/mydir/mypag2.html"></a>

另一个解决方案是将网站上其他页面的URL列为要搜索和索引的入口点。 URL的开头 https:// 如下所示:
https://www.mydomain.com/mydir/mypag1.html 
https://www.mydomain.com/mydir/mypag2.html

网页上的HTML标记是否按无效顺序排列?

HTML规范要求HTML文 <html> 档中的 <head> <body> 和标记遵循特定序列。 所有网页中的标记必须具有以下序列:
<html> 
<head> 
...  
<i>head tags go here</i> ... 
</head> 
<body> 
...  
<i>body tags go here</i> ... 
</body> 
</html>

如果HTML标记顺序不正确,则站点搜索/销售自动机无法正确解析和索引网页。 以下是不在正确序列中的标记示例:
<body> 
<head> 
...  
<i>head tags are here</i> ... 
</head> 
...  
<i>body tags are here</i> ... 
</body>

在这种情况下,请将 <html> <head> <body> 标记放入网页的正确序列中。

网页中的HTML注释标签是否格式不正确?

请确保仔细查看并更正网页中的任何无效HTML注释。
HTML规范要求HTML注释以字符开头, <!-- 以字符结尾 --> 。 很容易忽略格式不正确的注释,这些注释会导致网站搜索/销售自动机错误地解析网页上的标记。 格式不正确的注释可能导致站点搜索/销售机器人错过必须解析的其他重要标记。 注意网页中标记之 <body> 前的注释。
以下是格式正确的注释的示例:
<!-- This HTML comment is OK. -->
以下是格式不正确的注释示例:
<!- This HTML comment is improperly formed. -> 
<! This HTML comment is also improperly formed. >

网页是否包含指向其他域上的页面的链接?

通常,网站可以由实际存在于具有不同域地址的Web服务器上的页面组成。 例如,如果您的主网站地址如下:
https://www.mydomain.com/
您的网站可能还在其他域上有页面,如:
https://www.otherdomain.com/
默认情况下,站点搜索/销售机器人不跟踪除主域之外的域上的链接。 但是,通过为搜索帐户设置其他入口点,您可以轻松地为多个域编制索引。
在产品菜单中,单击 Settings > Crawling > URL Entrypoints ​。 添加站点的“主网站入口点”URL。 然后,将其他URL入口点添加到包含站点页面的任何其他域。 例如,您应将主URL入口点设置为:
https://www.mydomain.com/
并添加以下其他站点URL入口点:
https://www.otherdomain.com/

您是否在为URL使用虚拟域服务?

您可能使用虚拟域服务(有时称为“域重定向服务”)为客户提供更好的URL以访问您的网站。 例如,假设您网站的真实地址如下:
https://www.myispdomain.com/~myname/mywebpages/
但是,您使用虚拟域服务,以便客户能够通过以下地址访问您的站点:
https://myname.adomain.com/
https://adomain.com/myname/
默认情况下,站点搜索/销售机器人不跟踪除主域之外的域上的链接。 但是,通过为搜索帐户设置其他入口点,您可以轻松地为多个域编制索引。
在产品菜单中,单击 Settings > Crawling > URL Entrypoints ​。 将“主网站URL入口点”添加到站点的虚拟域名。 然后,将其他入口点添加到网站实际所在的域。
例如,您应将主URL入口点设置为:
https://myname.adomain.com/
并添加以下其他网站URL入口点:
https://www.myispdomain.com/~myname/mywebpages/

网页是否使用meta刷新标记?

许多网站的首页在标记之间包含一个元刷新标 <head>...</head> 记,类似于以下内容:
<meta http-equiv="Refresh" content="0;URL=https://www.adomain.com/apath/afile.html">
在某些情况下,站点搜索/销售自动机无法通过元刷新URL来索引您网站的内容。 通过设置其他入口点,可轻松解决此问题。
在产品菜单中,单击 Settings >搜索> URL Entrypoints ​。 将另一个入口点添加到meta refresh标记的URL。

您的网页是否使用meta robots标签?

有时网页使用元机器人标签来控制定期尝试爬网的网络机器人。 元自动机标记显示在网 <head>...</head> 页的标记之间,其外观与以下标记类似:
<meta name="robots" content="noindex, nofollow">
由于网站搜索/推销机器人本身就是一个Web机器人,它会遵循元机器人标签的方向。 通过以这种方式排除其他机器人,您也排除站点搜索/销售机器人。
您可以通过以下链接进一步了解Web机器人和机器人排除协议:
删除或修改网页上要在网站上编制索引的元机器人标签。

您的网站是否使用机器人排除文件?

有时,网站的页面名为robots.txt,该页面会排除所有或某些机器人进行爬行。 要查看您的网站是否有robots.txt文件,请在顶级域下查找它,如下所示:
https://www.yourdomain.com/robots.txt
robots.txt文件的内容与以下文本类似:
User-agent: * 
Disallow: /

由于站点搜索/推销机器人本身是一个Web机器人,它遵循robots.txt文件中的方向——它不包括站点搜索/推销机器人。 要解决此问题,请编辑robots排除文件(robots.txt),以允许站点搜索/销售自动机按如下方式搜索和索引您的网站:
User-agent: Atomz/1.0 
Disallow: 
 
User-agent: * 
Disallow: /

Microsoft Office

一个常见问题解答页面,讨论对网站上Microsoft® Office文件的索引和搜索的支持。
以下是与Microsoft Office文件有关的常见问题:

Microsoft Office文件中有哪些内容已编制索引?

Microsoft Word文件、Microsoft Excel文件和Microsoft PowerPoint文件的完整内容已编制索引。
Microsoft Word文件的以下部分已编制索引:
  • 标题
  • 关键字
  • 主题(说明)
  • 基于文本的内容
  • 指向其他文档的超链接
Microsoft Excel文件的以下部分已编制索引:
  • 标题
  • 关键字
  • 主题(说明)
  • 单元格中的文本
  • 单元格中数字公式的值
Microsoft PowerPoint文件的以下部分已编制索引:
  • 标题
  • 关键字
  • 主题(说明)
  • 每张幻灯片上的文本

Microsoft Office文件中没有哪些索引?

包含在Microsoft Office文件中的图形或包含的图形中包含的任何文本均不会编制索引。 自定义属性定义不作为元数据编制索引。 特殊字段中的某些文本(如PowerPoint文件中的页眉和页脚)也不会编制索引。

Microsoft Office文件与HTML页面的索引有何不同?

搜索机器人对Microsoft Office文件和HTML文件进行索引的不同之处在于,每个HTML文件都是一个单独的页面,而单个Microsoft Office文件可以代表数百个页面。 因此,在Microsoft Office文件中,每个页面都会作为搜索帐户下的单独页面计数。

如何防止在我的网站上索引Microsoft Office文件?

如果不希望搜索自动机对Microsoft Office文件进行爬行和索引,请取消选择内容类 Microsoft Office Files 型( Settings > Crawling > Content Types )。
您还可以使 URL Masks 用禁用Microsoft Office文件的索引。
输入以下URL蒙版:
如果您不使用正则表达式
  • exclude *.doc
  • exclude *.xls
  • exclude *.ppt
如果您使用正则表达式
  • 排除regexp^。*\.doc$
  • 排除regexp^。*\.xls$
  • 排除regexp^。*\.ppt$
请参阅 正则表达式

何时对MP3文件进行爬网和索引?

MP3文件通过两种方式之一进行爬网和索引。 最常见的方法是从HTML文件中的锚点href标签中:
<a href="MP3-file-URL"></a>
第二种方法是输入MP3文件的URL作为URL入口点。

我需要做什么才能爬动和索引站点上的MP3文件?

要激活帐户的MP3搜索和索引,请在产品菜单上单击 Settings > Crawling > Content Types ​。 在页面 Staged Content Types 上,选择 Text in MP3 Music Files ​。

如何识别MP3文件?

MP3文件的MIME类型是“audio/mpeg”,可以识别该文件。

MP3文件中有哪些索引?

MP3文件可以选择性地存储少量文本信息。 该信息可以包括专辑名称、艺术家姓名、歌名、歌曲流派、发行年份和评论。 此信息存储在文件最末端称为TAG的位置。 包含TAG信息的MP3文件通过以下方式编制索引:
  • 歌曲标题的处理方式与HTML页面的标题相同。
  • 该注释被视为为HTML页面定义的描述。
  • 流派被视为为HTML页面定义的关键字。
  • 艺术家姓名、专辑名称和发布年份被视为HTML文档的正文。

MP3文件是否计为页面?

是的,在您的网站上搜索和索引的每个MP3文件计为一个页面。

如何防止为单个MP3文件编制索引?

在链接到MP3文件的锚点标签周围添加 <nofollow> 和标 </nofollow> 签。 搜索自动机不遵循这些标记之间的链接。
另一种方法是将MP3文件的URL添加为排除蒙版。
请参阅 关于URL蒙版

如何防止对MP3文件进行索引?

控制帐户MP3索引的最简单方法是取消选择页 Text in MP3 Music Files 面上的 Staged Content Types 项。
您还可以使用URL蒙版功能按文件扩展名禁用MP3索引。 为此,请在产品菜单上单击 Settings > Crawling > URL Masks ​。 输入以下蒙版之一:
如果您的帐户……
输入以下URL掩码
不使用正则表达式
exclude *.mp3
使用正则表达式
排除regexp^。*\.mp3$
请参阅 正则表达式

为什么我无法在我的站点上搜索中文、日文或韩文MP3文件?

要搜索中文、日文或韩文MP3文件,请在产品菜单上单击 Settings > Crawling > Content Types > Text in MP3 Music Files ​。 然后,单 Settings 击> Metadata > Injections ​,并指定用于对MP3文件进行编码的字符集。
请参 阅关于注射

在PDF文件中编制哪些内容的索引?

PDF文件的完整内容已编制索引。 PDF文件的以下部分已编制索引:
  • 标题
  • 关键字
  • 主题(说明)
  • 基于文本的内容

哪些内容在PDF文件中未编制索引?

PDF目录、文件中的任何图形或包含的图形中的任何文本均不会编制索引。

索引PDF文件如何计数?

将每个PDF文件(包括包含多个页面的PDF)计为一个文档。

搜索结果是否可显示PDF图标?

是. 使用模 <search-if-link-extension> 板中的标签在搜索结果中包含PDF图标或其他图形或文本:
<search-results> 
  ... 
  <search-if-link-extension value=".pdf"> 
    <img src="/search/i/pdficon.gif"> 
  </search-if-link-extension> 
  ... 
</search-results>

PDF图标可帮助您的客户知道搜索结果链接到可能非常大的PDF文件。 对于通过调制解调器或移动设备访问您网站的客户来说,文件大小可能很重要。

搜索结果是否可以链接到PDF文件中的特定页面?

是. 使用智能链接模板标签( <search-smart-link>...</search-smart-link> ),客户可以单击打开包含搜索结果的第一个PDF页面。
要使用智能链接,请将模 <search-link>...</search-link> 板搜索结果部分中的标记替换为标 <search-smart-link>...</search-smart-link> 记。 当客户单击智能链接标签生成的链接时,他们将转到与其搜索查询相关的第一个PDF页面。
要使用此功能,客户必须使用Adobe Acrobat或Adobe Acrobat Reader的最新版本,其中必须包括高亮显示插件和外部窗口处理程序(EWH)插件。 此外,他们的Web浏览器必须使用Adobe Acrobat插件for Netscape Navigator(您可以使用任何接受此Netscape Navigator插件的浏览器)或Acrobat ActiveX控件for Internet Explorer 4.0及更高版本。
请参阅 搜索模板标记

如何防止在我的网站上对PDF文件进行索引?

如果不希望搜索自动机对PDF文件进行爬行和索引,请取消选择内容类 PDF Documents 型( Settings > Crawling > Content Types )。
您还可以选择使用 URL Masks 来禁用PDF索引。
要禁用PDF索引,请输入以下URL蒙版之一:
  • exclude *.pdf (如果您不使用正则表达式)
  • exclude regexp ^.*\.pdf$ (如果您使用正则表达式)
请参阅 正则表达式

为什么我无法在我的网站上搜索中文、日文或韩文PDF文件?

站点搜索/销售从PDF文件获取UTF-8,而不显示语言。 如果选择了内容类 PDF Documents 型( Settings > Content Types >),则必须使用元数据注入指定在PDF文件中使用的语言。

页面过多

常见问题解答页面,其中解释了索引器计数页面数量多于实际数量的部分原因以及每种情况下的解决方案。
如果您确定网站低于页面限制,但索引者告诉您已达到限制,则应查看这些常见问题和答案以了解可能的解决方案。

您检查过各种索引日志吗?

索引日志包含由站点搜索/销售机器人在为您的网站建立索引时收集的详细信息。 日志包含所有已搜索链接和遇到的错误的列表。 检查索引日志是确定要索引哪些页面时最好开始的位置。

CGI程序是否正在您的网站上编制索引?

CGI程序使用URL参数,这些参数有时会导致索引器抓取多个“假”URL。 如果网站搜索/销售正在读取您的CGI程序,并在其中使用CGI参数的URL后,可能有数倍的页面被搜索和索引,这对您的搜索索引无用。 典型CGI参数显示在带有或 ? 字符的 & URL中。
您可以使用URL掩码功能遮住CGI程序的索引。 您可以遮住URL前缀或使用正则表达式遮住CGI脚本。
请参阅 关于URL蒙版
请参阅 正则表达式

服务器是否启用了目录浏览?

当Web服务器启用了目录浏览且给定目录中没有index.html文件时,访问该目录可显示该目录中的文件列表。 通常,页面顶部有链接,允许您通过单击、 [Name]Size ​、等等按不同方式对列表排序。 通常,这些URL在站点搜索/销售索引日志中显示为URL,其中包含 ?M=A 末尾字符。 站点搜索/销售索引器将这些链接作为链接跟踪,这会导致索引多个“假”URL。
通常,设计良好的网站要么在每个目录中都有索引文件,要么对于那些没有索引文件的目录禁用了目录浏览。 幸运的是,如果您无法更改页面或禁用服务器端的目录列表,有一种简单的方法可以遮住这些“假”URL。
要完成此任务,请单击 Settings > Crawling > URL Masks ​。 添加遮罩以遮住包含该字符的任何URL ? 。 您可以通过输入以下正则表达式掩码来执行此任务:
exclude regexp ^.*\?.*$
创建蒙版后,请确保重新为网站编制索引。

您的网站上是否有论坛或新闻组?

如果论坛或新闻组正在您的网站上进行爬网,则它可能会遵循不同显示选项或排序选项的URL。 此行为意味着同一页面已多次索引。
通常,论坛或新闻组会自带搜索引擎。 在这种情况下,您可以使 URL Masks 用来从网站搜索/销售中遮住论坛。
在产品菜单中,单击 Settings > Crawling > URL Masks ​。 在页面 Staged URL Masks 上,通过将论坛的URL输入为排除URL蒙版来遮住论坛。
创建蒙版后,请务必重新为网站编制索引。

您的网站上是否有PDF或Microsoft Office文件?

如果您的网站上有PDF Microsoft Office 文件或文件,您可能会注意到,只有几个文件的索引大小会计入许多页面。 比文档索引更多页面的原因是,PDF或Microsoft Office文件中的每页被计为单独的页面。
在产品菜单中,单击 Index > Full Index > Live Index ​。 在页面 Full Index 上,选择 Count All Pages ​,然后单击 Full Index Now 以查看总页数。 如果不希望PDF文件或Microsoft Office文件编制索引,可以在 Settings > Crawling >下禁用此内容类型 Content Types ​。

您有多个URL入口点?

站点搜索/销售自动机开始在指定的URL入口点搜索,并跟踪指向该特定域中所有内容的所有找到的链接。 如果您指定了许多URL入口点,可能会搜索大量页面。
在附加域上的入口点文 nofollow 档的标题中使用Robots Exclusion Protocol的标签,如下所示:
<html> 
<head> 
<meta name="robots" content="nofollow"> 
</head>

上面的代码告知站点搜索/销售自动机为页面内容编制索引,但不要跟踪指向其他页面的链接。
您可以通过以下链接进一步了解Web机器人和机器人排除协议:
如果您无权访问其他域上的页面源,则可以删除多个URL入口点。 这样做有助于您仅将索引编制活动限制在您希望客户能够搜索其内容的那些域。

您是否超出了网站搜索/销售的内部字节数或时间限制?

检查帐户在“Full Index Status”屏幕上是否已达到其限制。 如果状态报告您的索引大于允许数量或超出允许数量,则您的网站将不会完全编制索引。 您可以更正此错误,以便获得正确的覆盖范围和网站页面计数。
为保护网站搜索/销售服务器,对字节和时间有内部限制。 只有在爬网文件非常大,或当站点搜索/销售尝试访问的服务器速度较慢时,才会达到这些限制。
如果达到时间限制,请确保您的服务器处于联机状态,并在以后再次尝试索引。 如果达到字节限制,请通过查看索引日志检查已搜索的文件。 它们超大吗? 如果您看到其中任一消息,请与技术支持联系。