Show Menu
主題×

關於編目功能表

使用「編目」功能表設定日期和URL遮色片、密碼、內容類型、連線、表單定義和URL登入點。

關於URL入口點

大部分網站都有一個客戶最初造訪的主要入口點或首頁。 此主要入口點是搜索自動機開始索引搜索的URL地址。 不過,如果您的網站有多個網域或子網域,或者您網站的某些部分未從主要登入點連結,則可使用URL登入點來新增更多登入點。
每個指定URL入口點下方的所有網站頁面都會建立索引。 您可以結合URL入口點和遮色片,以精確控制您要索引的網站部分。 您必須先重建網站索引,客戶才能看到URL登入點設定的效果。
主要入口點通常是您要索引和搜尋之網站的URL。 您可在「帳戶設定」中設定此主要登入點。
指定主要URL入口點後,您可選擇指定您要依順序編目的其他入口點。 通常,您會為未從主要登入點下的頁面連結的網頁指定其他登入點。 如下列範例所示,當您的網站跨越多個網域時,指定其他登入點:
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
您可在下表中,使用下列一或多個空格分隔的關鍵字來限定每個入口點。 這些關鍵字會影響頁面的索引方式。
重要 : 請務必將指定關鍵字與入口點分開,並以空格隔開; 逗號不是有效的分隔符號。
關鍵字
說明
noindex
如果您不想為入口點頁面上的文字建立索引,但是確實想要遵循頁面的連結,請新增 noindex 進入點之後。
將關鍵字與入口點分隔,並加上空格,如下例所示:
https://www.my-additional-domain.com/more_pages/main.html noindex
此關鍵字等同於具有 content="noindex" ),介於 <head> ... </head> 登入點頁面的標籤。
nofollow
如果您想要為入口點頁面中的文字建立索引,但不想遵循頁面的任何連結,請新增 nofollow 進入點之後。
將關鍵字與入口點分隔,並加上空格,如下例所示:
https://www.domain.com/not_linked/directory_listing&nbsp;nofollow
此關鍵字等同於具有 content="nofollow" between the <head> ... </head> 登入點頁面的標籤。
form
當登入點為登入頁面時, form 通常會使用,以便搜尋機器人在編目網站之前提交登入表單並接收適當的Cookie。 使用"form"關鍵字時,入口點頁面不會建立索引,而搜尋自動機不會將入口點頁面標示為已編目。 使用 nofollow 按鈕,將選定控制項在Tab鍵次序中下移一個位置。
另請參閱 關於內容類型
另請參閱 關於索引連接器

新增多個您要建立索引的URL入口點

如果您的網站有多個網域或子網域,而您想要搜尋這些網域,則可使用「URL登入點」新增更多URL。
若要設定網站的主要URL登入點,請使用「帳戶設定」。
要添加多個要編製索引的URL入口點
  1. 在產品功能表上,按一下 Settings > Crawling > URL Entrypoints
  2. 在頁 URL Entrypoints 面的欄位中, Entrypoints 每行輸入一個URL位址。
  3. (可選)在下拉 Add Index Connector Configurations 式清單中,選取要新增為索引入點的索引連接器。
    下拉式清單僅在您先前已新增一個或多個索引連接器定義時可用。
  4. 按一下 Save Changes .
  5. (可選)執行下列任一項作業:

關於URL遮色片

URL遮色片是可決定哪些網站記錄搜尋機器人索引或非索引的模式。
請確定您重建網站索引,以便讓客戶能夠看到URL遮色片的結果。
以下是兩種可使用的URL遮色片:
  • 包含URL遮色片
  • 排除URL遮色片
包含URL遮色片可讓搜尋自動機為任何符合遮色片圖樣的檔案建立索引。
排除URL遮色片會指示搜尋自動機為相符的檔案建立索引。
當搜尋自動機在您的網站上從連結到連結之間移動時,會遇到URL並尋找符合這些URL的遮色片。 第一個符合會決定要將該URL包含或排除在索引中。 如果沒有遮色片與遇到的URL相符,則會從索引中捨棄該URL。
系統會自動產生入口點URL的包含URL遮色片。 此行為可確保您網站上所有遇到的檔案都已建立索引。 此外,它還可方便地移除「離開」您網站的連結。 例如,如果已建立索引的頁面連結至https://www.yahoo.com,搜尋自動機就不會為該URL建立索引,因為它不符合由入口點URL自動產生的包含遮色片。
您指定的每個URL遮色片都必須位於個別的行上。
遮色片可以指定下列任一項:
  • 如中所示的完整路徑 https://www.mydomain.com/products.html
  • 部分路徑,如中 https://www.mydomain.com/products
  • 使用萬用字元的URL,如中 https://www.mydomain.com/*.html
  • 規則運算式(適用於進階使用者)。
    若要將遮色片設為規則運算式,請在遮色片類 regexp 型(或)和URL遮色片 exclude 之間 include 插入關鍵字。
以下是簡單排除URL遮色片範例:
exclude https://www.mydomain.com/photos

由於此示例是排除URL蒙版,因此與模式匹配的任何文檔都不會編製索引。 模式與所遇到的任何項目(包括檔案和資料夾)相符, https://www.mydomain.com/photos.html 因此 https://www.mydomain.com/photos/index.html 不會對與排除URL相符的項目和資料夾建立索引。 若要僅比對資料夾中 /photos/ 的檔案,URL遮色片必須包含尾隨斜線,如下列範例所示:
exclude https://www.mydomain.com/photos/

下列排除遮色片範例使用萬用字元。 它會告訴搜尋機器人忽略副檔名為"。pdf"的檔案。 搜索自動機不會將這些檔案添加到索引中。
exclude *.pdf

簡單的包含URL遮色片如下:
include https://www.mydomain.com/news/

只有透過URL入口點的連結串連的檔案,或本身用作URL入口點的檔案,才會建立索引。 僅將文檔的URL列為包含URL蒙版並不會為未連結的文檔編製索引。 若要將未連結的檔案新增至索引,您可以使用「URL登入點」功能。
包含遮色片和排除遮色片可搭配使用。 您可以建立排除URL遮色片來排除網站的大部分索引,但是仍可包含一或多個具有包含URL遮色片的排除頁面。 例如,假設您的入口點URL如下:
https://www.mydomain.com/photos/

搜索自動機將搜索和索引資料夾下的所 /photos/summer/ 有頁 /photos/spring/``/photos/fall/ (假定從資料夾到每個目錄中至少有一個頁的連結) photos 。 發生此行為是因為連結路徑可讓搜尋自動機在 /summer/ /spring/ /fall/ 、資料夾和資料夾URL中尋找檔案,而資料夾URL與入口點URL自動產生的包含遮色片相符。
您可以選擇排除資料夾中所有含 /fall/ 有排除URL遮色片的頁面,如下列範例所示:
exclude https://www.mydomain.com/photos/fall/

或者,選擇性地只 /photos/fall/redleaves4.html 將下列URL遮色片包含在索引中:
include https://www.mydomain.com/photos/fall/redleaves4.html

為了使上述兩個遮色片範例如預期般運作,會先列出包含遮色片,如下列所示:
include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

由於搜索自動機按照其列出順序遵循方向,因此搜索自動機首先包括 /photos/fall/redleaves4.html ,然後排除資料夾中的其餘文 /fall 件。
如果指示的指定方式與下列相反:
exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

即使 /photos/fall/redleaves4.html 遮色片指定已包含,也不會包含。
首先出現的URL遮色片一律優先於稍後出現在遮色片設定中的URL遮色片。 此外,如果搜尋自動機遇到與包含URL遮色片和排除URL遮色片相符的頁面,則列在第一位的遮色片一律優先。

關於將關鍵字與URL遮色片搭配使用

您可以使用一或多個空格分隔的關鍵字來限定每個包含遮色片,這些關鍵字會影響對匹配頁面的索引方式。
逗號在遮色片和關鍵字之間無效作為分隔符號; 您只能使用空格。
關鍵字
說明
noindex
如果您不想為符合URL遮色片之頁面上的文字建立索引,但想要遵循符合的頁面連結,請新增 noindex 在包含URL遮色片之後。 請務必將關鍵字與遮色片分開,並加上空格,如下列範例所示:
include&nbsp;*.swf&nbsp;noindex
上述範例指定搜尋自動機會跟隨檔案中的所有連結, .swf 擴充功能,但停用這些檔案中所含所有文字的索引功能。
noindex 關鍵字等同於具有 content="noindex" between the <head>...</head> 相符頁面的標籤。
nofollow
如果您想要為符合URL遮色片之頁面上的文字建立索引,但不想追隨相符頁面的連結,請新增 nofollow 在包含URL遮色片之後。 請務必將關鍵字與遮色片分開,並加上空格,如下列範例所示:
include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
nofollow 關鍵字等同於具有 content="nofollow" between the <head>...</head> 相符頁面的標籤。
regexp
同時用於包含和排除遮色片。
任何URL遮色片前面都有 regexp 會視為規則運算式。 如果搜索自動機遇到與排除規則運算式URL掩碼匹配的文檔,則不對這些文檔編製索引。 如果搜索自動機遇到與包含規則運算式URL掩碼匹配的文檔,則對這些文檔編製索引。 例如,假設您有下列URL遮色片:
exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$
搜尋自動機會排除符合的檔案,例如 https://www.mydomain.com/products/page1.html
如果您有下列排除規則運算式URL遮色片:
exclude&nbsp;regexp&nbsp;^.*\?..*$
搜尋自動機不包含任何包含CGI參數(例如 https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2
如果您有下列包含規則運算式URL遮色片:
include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex
搜尋自動機會跟隨副檔名為"。swf"的檔案中的所有連結。 該 noindex 關鍵字還指定匹配檔案的文本不編製索引。
請參閱 規則運算式

新增URL遮色片以索引網站的部分或非索引部分

您可以使 URL Masks 用來定義您要或不要編目和建立索引的網站部分。
使用「測試URL遮色片」欄位,測試在建立索引後是否包含檔案。
請確定您重建網站索引,以便讓客戶能夠看到URL遮色片的結果。
若要新增URL遮色片至網站的索引部分或非索引部分
  1. 在產品功能表上,按一下 Settings > Crawling > URL Masks
  2. (選擇性)在頁 URL Masks 面的欄位中, Test URL Masks 輸入網站的測試URL遮色片,然後按一下 Test
  3. 在欄位 URL Masks 中,輸 include 入(以新增您要編目和建立索引的網站),或輸入 exclude (以阻止網站編目和建立索引),然後是URL遮色片位址。
    每行輸入一個URL遮色片位址。 範例:
    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
    
  4. 按一下 Save Changes .
  5. (可選)執行下列任一項作業:

關於日期遮色片

您可以使用「日期遮色片」,根據檔案的年齡,在搜尋結果中加入或排除檔案。
請確定您重建網站索引,以便讓客戶能夠看到URL遮色片的結果。
以下是兩種日期遮色片,您可使用:
  • 包含日期遮色片(「包含日」和「包含日」)
    包含日期遮色片索引檔案,其日期設定在指定日期或之前。
  • 排除日期遮色片(「exclude-days」和「exclude-date」)
    排除日期遮色片索引檔案,這些檔案的日期設定在指定日期或之前。
依預設,檔案日期是根據中繼標籤資訊來決定。 如果找不到Meta標籤,則根據在搜索自動機下載檔案時從伺服器接收的HTTP標頭確定檔案的日期。
您指定的每個日期遮色片都必須位於單獨的行上。
遮色片可以指定下列任一項:
  • 完整路徑,如 https://www.mydomain.com/products.html
  • 部分路徑,如 https://www.mydomain.com/products
  • 使用萬用字元的URL https://www.mydomain.com/*.html
  • 規則運算式。 若要將遮色片設為規則運算式,請在URL之前 regexp 插入關鍵字。
包含和排除日期遮色片都可以透過下列兩種方式之一指定日期。 只有在指定日期或之前建立相符的檔案時,才會套用遮色片:
  1. 幾天。 例如,假設您的日期遮色片如下:
    exclude-days 30 https://www.mydomain.com/docs/archive/)
    
    
    指定的天數會計回。 如果檔案的日期是日期到達日期之前,則會套用遮色片。
  2. 使用YYYY-MM-DD格式的實際日期。 例如,假設您的日期遮色片如下:
    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    
    
    如果相符的檔案日期在指定日期或之前,則會套用日期遮色片。
以下是簡單的排除日期遮色片範例:
exclude-days 90 https://www.mydomain.com/docs/archive

因為這是排除日期遮色片,所以任何符合模式的檔案都不會建立索引,而且是90天以前的檔案。 排除文檔時,不會對文本建立索引,也不會對該檔案跟隨任何連結。 檔案被有效忽略。 在此範例中,檔案和資料夾都可能符合指定的URL模式。 請注意, https://www.mydomain.com/docs/archive.html 與模 https://www.mydomain.com/docs/archive/index.html 式都匹配,如果模式已過90天或更舊,則不建立索引。 若要僅比對資料夾中 /docs/archive/ 的檔案,日期遮色片必須包含結尾斜線,如下所示:
exclude-days 90 https://www.mydomain.com/docs/archive/

日期遮色片也可搭配萬用字元使用。 下列排除遮色片會告訴搜尋自動機忽略副檔名為"。pdf"的檔案,這些檔案的日期為2011-02-15或之前。 搜索自動機不會將任何匹配的檔案添加到索引中。
exclude-date 2011-02-15 *.pdf

包含日期遮色片看起來類似,只有相符的檔案會新增至索引。 下列包含日期遮色片範例會告訴搜尋機器人,從網站區域中零天或更舊的任何檔案中,為 /docs/archive/manual/ 文字建立索引。
include-days 0 https://www.mydomain.com/docs/archive/manual/

包含遮色片和排除遮色片可搭配使用。 例如,您可以建立排除日期遮色片,排除網站的大部分索引,但仍可包含一或多個包含URL遮色片的排除頁面。 如果您的入口點URL如下:
https://www.mydomain.com/archive/

搜索自動機會爬行和索引位於、 /archive/summer/``/archive/spring/ /archive/fall/ (假定資料夾中每個資料夾中至少有一個頁面的連結)下的所有 archive 頁面。 發生此行為是因為連結路徑可讓搜尋自動機「尋找」資料夾中的檔案 /summer/ /spring/``/fall/ 、檔案夾URL,而資料夾URL會符合由入口點URL自動產生的包含遮色片。
您可以選擇排除資料夾中90天以上的所有頁面,其 /fall/ 中包含排除日期遮色片,如下所示:
exclude-days 90 https://www.mydomain.com/archive/fall/

您只能選擇將 /archive/fall/index.html (不論檔案的舊版為何——任何檔案0天或以上皆符合)加入具有下列日期遮色片的索引中:
include-days 0 https://www.mydomain.com/archive/fall/index.html

為使上述兩個遮色片範例如預期般運作,您必須先將包含遮色片列在下列位置:
include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

由於搜索自動機按照指定的順序遵循方向,因此搜索自動機首先包括 /archive/fall/index.html ,然後排除資料夾中其餘的文 /fall 件。
如果指示的指定方式與下列相反:
exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

/archive/fall/index.html 使遮色片指定應該包含,也不會包含。 首先出現的日期遮色片一律優先於稍後可能出現在遮色片設定中的日期遮色片。 此外,如果搜尋自動機遇到同時符合包含日期遮色片和排除日期遮色片的頁面,則先列出的遮色片一律優先。

關於使用含日期遮色片的關鍵字

您可以使用一或多個空格分隔的關鍵字來限定每個包含遮色片,這些關鍵字會影響對匹配頁面的索引方式。
逗號在遮色片和關鍵字之間無效作為分隔符號; 您只能使用空格。
關鍵字
說明
noindex
如果您不想為日期在包含遮色片指定日期或之前的頁面上的文字建立索引,請新增 noindex 在包含日期遮色片之後,如下所示:
include-days&nbsp;10&nbsp;*.swf&nbsp;noindex
請務必將關鍵字與遮色片分開,並加上空格。
上述範例指定搜尋自動機會跟隨副檔名為"。swf"的檔案中所有10天或更舊的連結。 但是,它會停用這些檔案中所含所有文字的索引功能。
您可能需要確保沒有為舊檔案的文本編製索引,但仍要遵循這些檔案的所有連結。 在這種情況下,請使用包含日期遮色片與「noindex」關鍵字,而非使用排除日期遮色片。
nofollow
如果您想要為日期在包含遮色片所指定日期或之前的頁面上的文字建立索引,但不想追隨相符頁面的連結,請新增 nofollow 在包含日期遮色片之後,如下所示:
include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
請務必將關鍵字與遮色片分開,並加上空格。
nofollow 關鍵字等同於具有 content="nofollow" between the <head>...</head> 相符頁面的標籤。
server-date
同時用於包含和排除遮色片。
搜索自動機通常在檢查日期掩碼之前下載並分析每個檔案。 發生此行為是因為某些檔案類型可以在檔案本身中指定日期。 例如,HTML檔案可包含設定檔案日期的meta標籤。
如果您要根據檔案的日期排除許多檔案,而您不想在伺服器上加上不必要的負載,則可使用 server-date 在日期遮色片中的URL之後。
此關鍵字指示搜索自動機信任伺服器返回的檔案的日期,而不是解析每個檔案。 例如,如果檔案是90天或更舊,則下列排除日期遮色片會忽略符合URL的頁面,這會根據伺服器在HTTP標題中傳回的日期:
exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date
如果伺服器傳回的日期是90天或更久, server-date 指定排除的檔案不會從您的伺服器下載。 這意味著,檔案的索引時間會縮短,而伺服器上的負載也會降低。 如果已定義 server-date 未指定,則搜索自動機會忽略伺服器在HTTP標題中返回的日期。 而是下載並檢查每個檔案,以查看是否指定日期。 如果檔案中未指定日期,則搜索自動機使用伺服器返回的日期。
您不應使用 server-date 如果您的檔案包含覆寫伺服器日期的命令。
regexp
同時用於包含和排除遮色片。
前面的任何日期遮色片 regexp 會視為規則運算式。
如果搜索自動機遇到與排除規則運算式日期掩碼匹配的檔案,則不為這些檔案編製索引。
如果搜索自動機遇到與包含規則運算式日期掩碼匹配的檔案,則搜索自動機會為這些文檔編製索引。
例如,假設您有下列日期遮色片:
exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*
遮色片會告訴搜尋自動機排除180天或更舊的相符檔案。 也就是說,檔案的URL中包含「封存」一詞。
請參閱 規則運算式

新增日期遮色片至網站的索引部分或非索引部分

您可以使用「日期遮色片」,根據檔案的年齡,在客戶搜尋結果中加入或排除檔案。
使用和 Test Date Test URL 段來測試在編製索引後是否包含檔案。
請確定您重建網站索引,以便讓客戶能夠看到URL遮色片的結果。
若要新增日期遮色片至網站的索引部分或非索引部分
  1. 在產品功能表上,按一下 Settings > Crawling > Date Masks
  2. (可選)在頁 Date Masks 面上,在欄 Test Date 位中輸入格式為YYYY-MM-DD的日期(例如 2011-07-25 ); 在欄位 Test URL 中,輸入網站的URL遮色片,然後按一下 Test
  3. 在欄位 Date Masks 中,每行輸入一個日期遮色片位址。
  4. 按一下 Save Changes .
  5. (可選)執行下列任一項作業:

關於密碼

若要存取使用HTTP基本驗證保護的網站部分,您可以新增一或多個密碼。
在「密碼」設定的效果對客戶可見之前,您必須重建網站索引。
在頁面上 Passwords ,您只需在單行上輸入每個密碼。 密碼由URL或領域、用戶名和密碼組成,如下例所示:
https://www.mydomain.com/ myname mypassword

您也可以指定領域,而不是使用URL路徑(如上所述)。
要確定要使用的正確領域,請開啟使用瀏覽器的受密碼保護的網頁,並查看「輸入網路密碼」對話框。
領域名稱(在本例中為「我的網站領域」)。
使用上述領域名稱,您的密碼可能如下所示:
My Site Realm myusername mypassword

如果您的網站有多個領域,您可以在個別行上輸入每個領域的使用者名稱和密碼,以建立多個密碼,如下列範例所示:
Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

您可以混合包含URL或領域的密碼,使您的密碼清單看起來可能如下:
Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

在上述清單中,使用第一個密碼,其中包含符合伺服器驗證要求的領域或URL。 例如,即使位 https://www.mysite.com/path1/path2/index.html 於的檔 Realm3 案在中, name2``password2 也會使用,因為以URL定義的密碼會列在以領域定義的密碼之上。

新增密碼以存取您網站中需要驗證的區域

您可以使用密碼來存取網站的受密碼保護區域,以利編目和建立索引。
在客戶看到密碼增加的效果之前,請務必重建網站索引
若要新增密碼,以存取您網站中需要驗證的區域
  1. 在產品功能表上,按一下 Settings > Crawling > Passwords
  2. 在頁 Passwords 面的欄位中,輸 Passwords 入領域或URL,以及其相關的使用者名稱和密碼,並以空格分隔。
    不同行上的領域密碼和URL密碼示例:
    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    
    
    每行僅添加一個密碼。
  3. 按一下 Save Changes .
  4. (可選)執行下列任一項作業:

關於內容類型

您可以使 Content Types 用來選擇要為此帳戶編目和索引的檔案類型。
您可選擇編目和建立索引的內容類型包括PDF檔案、文字檔案、Adobe Flash影片、Microsoft Office應用程式(例如Word、Excel和Powerpoint)的檔案,以及MP3檔案中的文字。 在選取的內容類型中找到的文字會連同您網站上所有其他文字一起搜尋。
在客戶看到「內容類型」設定的效果之前,您必須重建網站索引。

關於為MP3音樂檔案編製索引

如果您在頁面上選 Text in MP3 Music Files 擇該 Content Types 選項,則會以兩種方式之一編目和建立MP3檔案索引。 The first and most common way is from an anchor href tag in an HTML file as in the following:
<a href="MP3-file-URL"></a>

The second way is to enter the URL of the MP3 file as a URL entrypoint.
An MP3 file is recognized by its MIME type "audio/mpeg".
Be aware that MP3 music file sizes can be quite large, even though they usually contain only a small amount of text. For example, MP3 files can optionally store such things as the album name, artist name, song title, song genre, year of release, and a comment. 這些資訊會儲存在檔案的最後端,稱為TAG。 MP3 files containing TAG information are indexed in the following way:
  • The song title is treated like the title of an HTML page.
  • The comment is treated like a description that is defined for an HTML page.
  • The genre is treated like a keyword that is defined for an HTML page.
  • The artist name, album name, and year of release are treated like the body of an HTML page.
Note that each MP3 file that is crawled and indexed on your website counts as one page.
If your website contains many large MP3 files, you may exceed the indexing byte limit for your account. If this happens, you can deselect Text in MP3 Music Files on the Content Types page to prevent the indexing of all MP3 files on your website.
If you only want to prevent the indexing of certain MP3 files on your website, you can do one of the following:
  • Surround the anchor tags that link to the MP3 files with <nofollow> and </nofollow> tags. The search robot does not follow links between those tags.
  • Add the URLs of the MP3 files as exclude masks.

Selecting content types to crawl and index

您可以使 Content Types 用來選擇要為此帳戶編目和索引的檔案類型。
您可選擇編目和建立索引的內容類型包括PDF檔案、文字檔案、Adobe Flash影片、Microsoft Office應用程式(例如Word、Excel和Powerpoint)的檔案,以及MP3檔案中的文字。 The text that is found within the selected content types is searched along with all of the other text on your website.
Before the effects of the Content Types settings is visible to customers, you must rebuild your site index.
若要編目和索引中文、日文或韓文MP3檔案,請完成下列步驟。 Then, in Settings > Metadata > Injections , specify the character set that is used to encode the MP3 files.
To select content types to crawl and index
  1. 在產品功能表上,按一下 Settings > Crawling > Content Types
  2. On the Content Types page, check the file types that you want to crawl and index on your website.
  3. 按一下 Save Changes .
  4. (可選)執行下列任一項作業:

關於連接

您可以使用「連線」來新增最多十個HTTP連線,搜尋機器人會使用這些連線來為您的網站建立索引。
增加連接數可以顯著減少完成編目和索引所需的時間。 但是,請注意,每增加一個連接都會增加伺服器上的負載。

添加連接以提高索引速度

您可以使用「連線」來增加Crawler使用的同時HTTP連線數,以減少為網站建立索引所需的時間。 最多可以增加10個連接。
請注意,每次額外連線都會增加您伺服器上的負載。
要添加連接以提高索引速度
  1. 在產品功能表上,按一下 Settings > Crawling > Connections
  2. 在頁 Parallel Indexing Connections 面的欄位 Number of Connections 中,輸入您要新增的連線數(1-10)。
  3. 按一下 Save Changes .
  4. (可選)執行下列任一項作業:

關於表單提交

您可以使用「表單提交」來協助您識別和處理網站上的表單。
在您網站的編目和索引期間,會將每個遇到的表格與您新增的表格定義進行比較。 如果表單符合表單定義,則會提交表單以建立索引。 如果表單符合多個定義,則會針對每個符合的定義提交表單一次。

在網站上新增表格定義以建立表格索引

您可以使用 Form Submission 來協助處理網站上可識別的表單,以利建立索引。
請確定您重建網站索引,以便客戶能夠看到您所做的變更結果。
在網站上新增表格定義以建立表格索引
  1. 在產品功能表上,按一下 Settings > Crawling > Form Submission
  2. 在頁面上 Form Submission ,按一下 Add New Form
  3. 在頁面 Add Form Definition 上,設定和 Form Recognition 選 Form Submission 項。
    頁面上區段中 Form Recognition 的五個選 Form Definition 項可用來識別網頁中可處理的表單。
    The three options in the Form Submission section are used to specify the parameters and values that are submitted with a form to your web server.
    Enter one recognition or submission parameter per line. Each parameter must include a name and a value.
    選項
    說明
    Form Recognition
    Page URL Mask
    Identify the web page or pages that contain the form. To identify a form that appears on a single page, enter the URL for that page as in the following example:
    https://www.mydomain.com/login.html
    To identify forms that appear on multiple pages, specify a URL mask that uses wildcards to describe the pages. To identify forms encountered on any ASP page under https://www.mydomain.com/register/ , for example, you would specify the following:
    https://www.mydomain.com/register/*.asp&nbsp;
    You can also use a regular expression to identify multiple pages. Just specify the regexp keyword before the URL mask as in the following example:
    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$
    Action URL Mask
    識別 <form> 標記之前是否有宣告。
    如同頁面URL遮色片,動作URL遮色片可以採用單一URL、含萬用字元的URL或規則運算式的形式。
    URL遮色片可以是下列任一項:
    • 完整路徑,如下所示: https://www.mydomain.com/products.html
    • A partial path as in the following: https://www.mydomain.com/products
    • A URL that uses wild cards as in the following: https://www.mydomain.com/*.html
    • A regular expression as in the following: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$
    如果您不想為以URL遮色片或動作URL遮色片識別的頁面上的文字建立索引,或如果您不想在這些頁面後面加上連結,則可使用 noindex nofollow 關鍵字. You can add these keywords to your masks using URL masks or entrypoints.
    Form Name Mask
    Identifies forms if the <form> tags in your web pages contain a name attribute.
    You can use a simple name ( login_form ),此名稱包含通配符( 表單* ), or a regular expression ( regexp ^.*授權。*$ )。
    You can usually leave this field empty because forms typically do not have a name attribute.
    Form ID Mask
    Identifies forms if the <form> tags in your web pages contain an id attribute.
    You can use a simple name ( login_form ),此名稱包含通配符( 表單* ), or a regular expression ( regexp ^.*授權。*$ )。
    You can usually leave this field empty because forms typically do not have a name attribute.
    參數
    識別包含或不包含具有特定值的已命名參數或已命名參數的表單。
    例如,要標識包含預設為rick_brough@mydomain.com的電子郵件參數(密碼參數,但不是名字參數)的表單,您應指定以下參數設定,每行一個:
    email=rick_brough@mydomain.com password not first-name
    表單提交
    Override Action URL
    指定表單提交的目標與表單動作屬性中指定的目標不同。
    For example, you might use this option when the form is submitted by way of a JavaScript function that constructs a URL value that is different from what is found in the form.
    覆寫方法
    Specify when the target of the form submission is different from what is used in the form's action attribute and when the submitting JavaScript has changed the method.
    The default values for all form parameters ( <input> tags, including hidden fields), the default <option> from a <選擇> tag, and the default text between <textarea>...</textarea> tags) are read from the web page. However, any parameter that is listed in the Form Submission section, in the Parameters field, is replaced with the form defaults.
    參數
    You can prefix form submission parameters with the 無法 關鍵字.
    When you prefix a parameter with 無法 , it is not submitted as part of the form submission. This behavior is useful for check boxes that should be submitted deselected.
    For example, suppose you want to submit the following parameters:
    • The e-mail parameter with the value nobody@mydomain.com
    • The password parameter with the value tryme
    • The mycheckbox parameter as deselected.
    • 所有其他 <form> 參數作為預設值
    您的表單提交參數如下所示:
    email=nobody@mydomain.com password=tryme not mycheckbox
    方法屬性 <form> 網頁上的標籤會用來判斷資料是使用GET方法還是POST方法傳送至您的伺服器。
    <form> 標籤不包含方法屬性,則使用GET方法提交表單。
  4. 按一下 Add .
  5. (可選)執行下列任一項作業:

Editing a form definition

You can edit an existing form definition if a form on your website has changed or if you just need to change the definition.
Be aware that there is no History feature on the Form Submission page to revert any changes that you make to a form definition.
Be sure that you rebuild your site index so that the results of your changes are visible to your customers.
To edit a form definition
  1. 在產品功能表上,按一下 Settings > Crawling > Form Submission
  2. 在頁面 Form Submission 上,按一 Edit 下您要更新之表單定義右側的。
  3. 在頁面 Edit Form Definition 上,設定和 Form Recognition 選 Form Submission 項。
    請參閱「新增表格定義以索 引您網站上的表格」下的選項表
  4. 按一下 Save Changes .
  5. (可選)執行下列任一項作業:

刪除表單定義

You can delete an existing form definition if the form no longer exists on your website, or if you no longer want to process and index a particular form.
Be aware that there is no History feature on the Form Submission page to revert any changes that you make to a form definition.
請確定您重建網站索引,以便客戶能夠看到您所做的變更結果。
To delete a form definition
  1. 在產品功能表上,按一下 Settings > Crawling > Form Submission
  2. On the Form Submission page, click Delete to the right of a form definition that you want to remove.
    Make sure you choose the right form definition to delete. There is no delete confirmation dialog box when you click Delete in the next step.
  3. 在頁面上 Delete Form Definition ,按一下 Delete
  4. (可選)執行下列任一項作業:

About Index Connector

Use Index Connector to define additional input sources for indexing XML pages or any kind of feed.
You can use a data feed input source to access content that is stored in a form that is different from what is typically discovered on a website using one of the available crawl methods. Each document that is crawled and indexed directly corresponds to a content page on your website. However, a data feed either comes from an XML document or from a comma- or tab-delimited text file, and contains the content information to index.
An XML data source consists of XML stanzas, or records, that contain information that corresponds to individual documents. These individual documents are added to the index. A text data feed contains individual new-line-delimited records that correspond to individual documents. These individual documents are also added to the index. In either case, an index connector configuration describes how to interpret the feed. 每種配置都說明檔案所在位置以及伺服器訪問檔案的方式。 The configuration also describes "mapping" information. 也就是說,每個記錄項目用來在產生的索引中填入中繼資料欄位的方式。
After you add an Index Connector definition to the Staged Index Connector Definitions page, you can change any configuration setting, except for the Name or Type values.
該頁 Index Connector 面顯示以下資訊:
  • 已配置和添加的已定義索引連接器的名稱。
  • 已添加的每個連接器的以下資料源類型之一:
    • 文字 -簡單的「平面」檔案、逗號分隔、定位點分隔或其他一致分隔格式。
    • Feed - XML feeds.
    • XML - Collections of XML documents.
  • Whether the connector is enabled or not for the next crawl and indexing done.
  • 資料源的地址。

How the indexing process works for Text and Feed configurations in Index Connector

步驟
程序
說明
1
Download the data source.
For Text and Feed configurations, it is a simple file download.
2
Break down the downloaded data source into individual pseudo-documents.
For Text , each newline-delimited line of text corresponds to an individual document, and is parsed using the specified delimiter, such as a comma or tab.
For Feed , each document's data is extracted using a regular expression pattern in the following form:
<${Itemtag}>(.*?)</${Itemtag}>
Using Map on the Index Connector Add page, create a cached copy of the data and then create a list of links for the crawler. 該資料儲存在本地快取中,並填入配置的欄位。
The parsed data is written to the local cache.
This cache is read later to create the simple HTML documents that the crawler needs. 例如,
<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>
<title> 元素 僅在映射存在於「標題」中繼資料欄位時產生。 同樣地, <body>元 素只會在映射存在於「Body」中繼資料欄位時產生。
重要 : 不支援將值指派給預先定義的URL meta標籤。
For all other mappings, <meta> tags are generated for each field that has data found in the original document.
每個文檔的欄位將添加到快取中。 對於寫入到快取的每個文檔,也會生成連結,如以下示例所示:
<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....
The configuration's mapping must have one field identified as the Primary Key. This mapping forms the key that is used when data is fetched from the cache.
The crawler recognizes the URL index: scheme prefix, which can then access the locally cached data.
3
Crawl the cached document set.
指數: 連結將添加到Crawler的待處理清單中,並以正常的編目序列進行處理。
4
Process each document.
Each link’s key value corresponds to an entry in the cache, so crawling each link results in that document’s data being fetched from the cache. 然後,它會「組合」到HTML影像中,並加以處理並新增至索引。

索引程式如何在索引連接器中處理XML配置

XML設定的索引程式與「文字」和「動態消息」設定的程式類似,但有下列小幅變更和例外。
由於XML爬蟲檔案已分隔為個別檔案,因此上述表格中的步驟1和2不會直接套用。 如果您在頁面的和欄 Host Address 位中指 File Path 定URL,則 Index Connector Add 會將其下載並處理為一般HTML檔案。 預期下載檔案會包含一組連結,每 <a href="{url}"... 個連結都指向已處理的XML檔案。 這些連結會轉換為下列格式:
<a href="index:<ic_config_name>?url="{url}">

例如,如果Adobe設定傳回下列連結:
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

在上表中,步驟3不適用,步驟4在編目和建立索引時完成。
或者,您也可以將XML檔案與其他透過編目程式自然發現的檔案混合使用。 在這種情況下,您可以使用重寫規則( Settings > Rewrite Rules > Crawl List Retrieve URL Rules )來變更XML檔案的URL,將它們導向「索引連接器」。
例如,假設您有下列重寫規則:
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

此規則會將任何以「索引連接器」 .xml 結尾的URL轉譯為「索引連接器」連結。 Crawler會識別並重寫 index: URL配置。 下載過程通過主伺服器上的Index Connector Apache伺服器重定向。 每個下載的檔案都會使用與動態消息使用的相同規則運算式模式來檢查。 但是,在這種情況下,製造的HTML文檔不會保存在快取中。 而是直接交給爬蟲進行索引處理。

如何配置多個索引連接器

您可以為任何帳戶定義多個索引連接器配置。 這些設定會自動新增至「 > >」( Settings > Crawl > URL Entrypoints )的下拉式清單中,如下圖所示:
從下拉式清單中選取組態,會將值新增至URL登入點清單的尾端。
禁用的「索引連接器」配置將添加到下拉清單中,但您不能選擇它們。 如果您再次選擇同一個「索引連接器」配置,則該配置將添加到清單的末尾,並刪除上一個實例。
要為增量編目指定「索引連接器」(Index Connector)入口點,可使用下列格式添加條目:
index:<indexconnector_configuration_name>

The crawler processes each added entry if it is found on the Index Connectors page and is enabled.
注意: 由於每個文檔的URL都是使用「索引連接器」配置名稱和文檔的主鍵構建的,因此在執行增量更新時,請確保使用相同的「索引連接器」配置名稱! Doing so permits Adobe Search&Promote to correctly update previously indexed documents.
在添加索引連接器時使用設定映射
新增「索引連接器」時,您可選擇使用 Setup Maps 該功能下載資料來源的範例。 系統會檢查資料是否適合建立索引。
如果選擇「索引連接器」類型……
「設定映射」功能……
文字
先試用標籤,再使用垂直條( | ),最後加上逗號( )。 如果您在按一下「設定對應」之前已指 定分隔 字元值,則會改用該值。
最佳配合方案會在Map欄位中填入適當的Tag和Field值的猜測。 另外,顯示所解析資料的採樣。 如果您知道檔 案包含頁首行, 請務必在第一行中選取頁首。 設定函式使用此資訊更好地標識生成的映射條目。
資訊源
下載資料來源並執行簡單的XML剖析。
產生的XPath識別碼會顯示在Map表格的Tag列中,而欄位中也會顯示類似的值。 這些行僅標識可用資料,不生成更複雜的XPath定義。 但是,它仍然很有用,因為它描述XML資料並識別Itemtag值。
注意: 「設定對應」功能會下載整個XML來源以執行其分析。 如果檔案很大,此操作可能超時。
成功後,此函式將標識所有可能的XPath項,其中許多項不適合使用。 請務必檢查產生的地圖定義,並移除您不需要或想要的地圖定義。
XML
下載代表性個別檔案的URL,而非主要連結清單。 此單一檔案會使用與動態消息使用的相同機制進行剖析,並顯示結果。
按一下「 新增 」以儲存設定前,請確定您將URL變更回主要連結清單檔案。
重要 : 「設定映射」功能可能無法用於大型XML資料集,因為其檔案解析器嘗試將整個檔案讀入記憶體。 因此,您可能會遇到記憶體不足的狀況。 但是,當在編製索引時處理同一文檔時,它不會讀入記憶體。 相反,大型檔案會「在外出時」進行處理,不會先完全讀入記憶體。
在添加索引連接器時使用預覽
新增「索引連接器」時,您可選擇使用該功 Preview 能來驗證資料,就像儲存資料一樣。 它會針對設定執行測試,但不會將設定儲存至帳戶。 測試訪問已配置的資料源。 但是,它將下載快取寫入臨時位置; 它與索引爬蟲所使用的主快取資料夾不衝突。
預覽僅處理由Acct:IndexConnector-Preview-Max-Documents控制的5個文檔的預設處理。 預覽的文檔以源格式顯示,如同向索引爬蟲顯示。 顯示畫麵類似網頁瀏覽器中的「檢視來源」功能。 您可以使用標準導覽連結,在預覽集中導覽檔案。
預覽不支援XML設定,因為此類檔案會直接處理,而不會下載至快取。

添加索引連接器定義

每個「索引連接器」配置都定義一個資料源和映射,以將為該源定義的資料項與索引中的元資料欄位相關聯。
在新定義和啟用定義的效果對客戶可見之前,請重建您的網站索引。
添加索引連接器定義
  1. 在產品功能表上,按一下 Settings > Crawling > Index Connector
  2. 在頁面上 Stage Index Connector Definitions ,按一下 Add New Index Connector
  3. 在頁 Index Connector Add 面上,設定所需的連接器選項。 可用的選項取決於您選 Type 擇的選項。
    選項
    說明
    名稱
    索引連接器配置的唯一名稱。 您可以使用英數字元。 也允許使用字元"_"和"-"。
    類型
    資料來源。 您選擇的資料源類型會影響「索引連接器添加」頁上可用的 結果選 項。 您可以從下列選項中選擇:
    • 文字
      簡單的平面文字檔案、逗號分隔、定位點分隔或其他一致分隔格式。 每行以新行分隔的文本都對應於單個文檔,並使用指定的分隔符進行解析。
      您可以將每個值或欄對應至由欄號引用的中繼資料欄位,從1(1)開始。
    • 資訊源
      下載包含多列資訊的主要XML檔案。
    • XML
      下載包含連結的主要XML檔案( <a> )到個別XML檔案。
    資料來源類型: 文字
    已啟用
    將配置「開啟」為編目和索引。 或者,您可以關閉配置,以防止編目和建立索引。
    注意 : 如果在入口點清單中找到禁用的「索引連接器」配置,則會忽略這些配置。
    主機地址
    指定資料所在的伺服器主機的地址。
    如果需要,可以指定資料源文檔的完整URI(統一資源標識符)路徑,如以下示例所示:
    https://www.somewhere.com/some_path/some_file.xml
    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml
    URI被劃分為「主機地址」、「檔案路徑」、「協定」和(可選)「用戶名」和「密碼」欄位的相應條目。
    指定找到資料源檔案的主機系統的IP地址或URL地址。
    檔案路徑
    指定簡單平面文本檔案、逗號分隔、制表符分隔或其他一致分隔格式檔案的路徑。
    路徑相對於主機地址的根目錄。
    增量檔案路徑
    指定簡單平面文本檔案、逗號分隔、制表符分隔或其他一致分隔格式檔案的路徑。
    路徑相對於主機地址的根目錄。
    如果指定,則會在增量索引操作期間下載並處理此檔案。 如果未指定檔案,則改用「檔案路徑」(File Path)下列出的檔案。
    垂直檔案路徑
    指定在「垂直更新」期間使用的簡單平面文字檔案、逗號分隔、定位點分隔或其他一致分隔格式檔案的路徑。
    路徑相對於主機地址的根目錄。
    如果指定,則會在「垂直更新」操作期間下載並處理此檔案。
    注意 : 此功能預設未啟用。 請聯絡技術支援以啟用您使用的功能。
    刪除檔案路徑
    指定簡單平面文本檔案的路徑,每行包含單一文檔標識符值。
    路徑相對於主機地址的根目錄。
    如果指定,則會在增量索引操作期間下載並處理此檔案。 在此檔案中找到的值用於構造「刪除」請求以刪除先前已編製索引的文檔。 此檔案中的值必須與「完整」或「增量檔案路徑」檔案中的值相對應,該檔案位於被標識為「主鍵」的 列中
    注意 : 此功能預設未啟用。 請聯絡技術支援以啟用您使用的功能。
    通訊協定
    指定用於訪問檔案的協定。 您可以從下列選項中選擇:
    • HTTP
      如有必要,您可以輸入適當的驗證憑證來存取HTTP伺服器。
    • HTTPS
      如有必要,您可以輸入適當的驗證憑證以存取HTTPS伺服器。
    • FTP
      您必須輸入正確的驗證憑證才能存取FTP伺服器。
    • SFTP
      您必須輸入正確的驗證憑證才能存取SFTP伺服器。
    • 檔案
    逾時
    指定FTP、SFTP、HTTP或HTTPS連線的逾時(秒)。 此值必須介於30和300之間。
    重試次數
    指定失敗的FTP、SFTP、HTTP或HTTPS連線的重試次數上限。 此值必須介於0和10之間。
    值為零(0)將阻止重試嘗試。
    編碼
    指定在指定的資料源檔案中使用的字元編碼系統。
    分隔字元
    指定要用來描述指定資料源檔案中每個欄位的字元。
    逗號字元( , )是分隔字元的範例。 逗號用作欄位分隔字元,可協助您在指定的資料來源檔案中分隔資料欄位。
    選擇 標籤? 以使用水準標籤字元作為分隔字元。
    第一列的標題
    指出資料來源檔案中的第一列僅包含標題資訊,而非資料。
    建立索引的檔案最少數量
    如果設為正值,則指定下載檔案中所需記錄的最小數目。 如果收到的記錄較少,則會中止索引操作。
    注意 : 此功能預設未啟用。 請聯絡技術支援以啟用您使用的功能。
    注意 : 此功能僅用於完整索引操作。
    地圖
    使用列號指定列到元資料映射。
    • 指定列號,第一列為1(1)。 要為每個列添加新的映射行,請在「操作」( Action )下單 擊+
      您不需要參考資料來源中的每一欄。 您可以選擇跳過值。
    • 欄位
      定義用於每個生成的<meta>標籤的名稱屬性值。
    • 中繼資料?
      使「 欄位 」成為下拉式清單,您可從中選取目前帳戶的已定義中繼資料欄位。
      視需 ,欄位值可以是未定義的中繼資料欄位。 未定義的中繼資料欄位有時對建立篩選指令檔所使用的 內容很有用
      請參閱 關於篩選指令 碼。
      當「索引連接器」在任何地圖欄位上處理具有多次點擊的XML檔案時,會將多個值串連在產生的快取檔案中的單一值中。 依預設,這些值會使用逗號分隔字元來組合。 不過,假設對應的欄位 是已定義的中繼資料欄位。 此外,該欄位還設定了「允 許清單」 屬性。 在這種情況下,欄位的「清單分隔符」值(定義的第一個分隔符)將用於級聯。
    • 主鍵?
      只有一個映射定義被標識為主鍵。 此欄位將成為將此文檔添加到索引時顯示的唯一引用。 此值會用於「索引」中檔案的URL中。
      「索 引連接 器」配置表示的所有文檔中的「主鍵」值都必須是唯一的——所有遇到的重複項都將被忽略。 如果源文檔中不包含用作主鍵的單個唯一值,但兩個或多個欄位合起來可以形成唯一標識符 ,則可以通過將多個 Column Value與分隔值的垂直條("|")組合來定義主鍵。
    • 刪除HTML?
      勾選此選項時,會移除在此欄位資料中找到的任何HTML標籤。
    • 動作
      可讓您新增列至地圖或從地圖移除列。 列的順序不重要。
    資料來源類型: 動態消息
    已啟用
    將配置「開啟」為編目和索引。 或者,您可以關閉配置,以防止編目和建立索引。
    注意 : 如果在入口點清單中找到禁用的「索引連接器」配置,則會忽略這些配置。
    主機地址
    指定找到資料源檔案的主機系統的IP地址或URL地址。
    檔案路徑
    指定包含多個「行」資訊的主XML文檔的路徑。
    路徑相對於主機地址的根目錄。
    增量檔案路徑
    指定包含多個「行」資訊的增量XML文檔的路徑。
    路徑相對於主機地址的根目錄。
    如果指定,則會在增量索引操作期間下載並處理此檔案。 如果未指定檔案,則改用「檔案路徑」(File Path)下列出的檔案。
    垂直檔案路徑
    指定XML文檔的路徑,該文檔包含多個稀疏的「行」資訊,以便在「垂直更新」期間使用。
    路徑相對於主機地址的根目錄。
    如果指定,則會在「垂直更新」操作期間下載並處理此檔案。
    注意 : 此功能預設未啟用。 請聯絡技術支援以啟用您使用的功能。
    刪除檔案路徑
    指定簡單平面文本檔案的路徑,每行包含單一文檔標識符值。
    路徑相對於主機地址的根目錄。
    如果指定,則會在增量索引操作期間下載並處理此檔案。 在此檔案中找到的值用於構造「刪除」請求以刪除先前已編製索引的文檔。 此檔案中的值必須與「完整」或「增量檔案路徑」檔案中的值相對應,該檔案位於被標識為「主鍵」的 列中
    注意 : 此功能預設未啟用。 請聯絡技術支援以啟用您使用的功能。
    通訊協定
    指定用於訪問檔案的協定。 您可以從下列選項中選擇:
    • HTTP
      如有必要,您可以輸入適當的驗證憑證來存取HTTP伺服器。
    • HTTPS
      如有必要,您可以輸入適當的驗證憑證以存取HTTPS伺服器。
    • FTP
      您必須輸入正確的驗證憑證才能存取FTP伺服器。
    • SFTP
      您必須輸入正確的驗證憑證才能存取SFTP伺服器。
    • 檔案
    Itemtag
    標識可用於標識指定資料源檔案中各個XML行的XML元素。
    例如,在Adobe XML檔案的下列動態消息片段中,Itemtag值是記 :
    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_air.png"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_photoshop.png"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>
    建立索引的檔案最少數量
    如果設為正值,則指定下載檔案中所需記錄的最小數目。 如果收到的記錄較少,則會中止索引操作。
    注意 : 此功能預設未啟用。 請聯絡技術支援以啟用您使用的功能。
    注意 : 此功能僅用於完整索引操作。
    地圖
    可讓您使用XPath運算式指定XML元素對中繼資料的映射。
    • 標記
      指定解析的XML資料的XPath表示法。 使用上述Adobe XML檔案範例,在選項Itemtag下,可使用下列語法來對應它:
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      上述語法的轉譯如下:
      • /record/@displayurl&nbsp;->&nbsp;page-url
        記錄 元素 的顯示url屬性 會映射 至中繼資料欄位 page-url
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        該內 容包含在元資料元 素內的任何元元素的內容屬性,包含 記錄元素,其名稱為元資料欄位標題的 ,其中記錄元素的名稱為元資料欄位標題的映射。
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        該內 容包含在元資料元 素內的任何元元素的內容,該元資料元素中包含 記錄元素,其名稱屬性是描述元資料域的,其映射是描述元資料域的元資料元素的。
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        述內容屬性包含在元資料元 素中的任何元元素的內容,所述元資料元素的名稱包含在 記錄元素中,所述記錄元素的名稱是所述元資料域主體的映射的映射。
      XPath是一個相對複雜的符號。 如需詳細資訊,請造訪下列位置:
    • 欄位
      定義用於每個生成的<meta>標籤的 名稱屬 性值。
    • 中繼資料?
      使「 欄位 」成為下拉式清單,您可從中選取目前帳戶的已定義中繼資料欄位。
      視需 ,欄位值可以是未定義的中繼資料欄位。 未定義的中繼資料欄位有時對建立篩選指令檔所使用的 內容很有用
      請參閱 關於篩選指令 碼。
      當「索引連接器」在任何地圖欄位上處理具有多次點擊的XML檔案時,會將多個值串連在產生的快取檔案中的單一值中。 依預設,這些值會使用逗號分隔字元來組合。 不過,假設對應的欄位 是已定義的中繼資料欄位。 此外,該欄位還設定了「允 許清單」 屬性。 在這種情況下,欄位的「清單分隔符」值(定義的第一個分隔符)將用於級聯。
    • 主鍵?
      只有一個映射定義被標識為主鍵。 此欄位將成為將此文檔添加到索引時顯示的唯一引用。 此值會用於「索引」中檔案的URL中。
      「索 引連接 器」配置表示的所有文檔中的「主鍵」值都必須是唯一的——所有遇到的重複項都將被忽略。 如果源文檔中不包含用作主鍵的單個唯一值,但兩個或多個欄位合起來可形成唯一標識符 ,則可以通過將多個標籤定義與垂直條 (「|」)組合來定義主鍵。
    • 刪除HTML?
      勾選此選項時,會移除在此欄位資料中找到的任何HTML標籤。
    • 用於刪除?
      僅在增量索引操作期間使用。 符合此XPath模式的記錄會識別要刪除的項目。 每個 記錄 的主鍵值用於構造「刪除」請求,如刪除檔案路徑。
      注意 : 此功能預設未啟用。 請聯絡技術支援以啟用您使用的功能。
    • 動作
      可讓您新增列至地圖或從地圖移除列。 列的順序不重要。
    資料來源類型: XML
    已啟用
    將配置「開啟」為編目和索引。 或者,您可以關閉配置,以防止編目和建立索引。
    注意 : 如果在入口點清單中找到禁用的「索引連接器」配置,則會忽略這些配置。
    主機地址
    指定找到資料源檔案的主機系統的URL地址。
    檔案路徑
    指定包含連結的主XML文檔的路徑( <a> )到個別XML檔案。
    路徑相對於主機地址的根目錄。
    通訊協定
    指定用於訪問檔案的協定。 您可以從下列選項中選擇:
    • HTTP
      如有必要,您可以輸入適當的驗證憑證來存取HTTP伺服器。
    • HTTPS
      如有必要,您可以輸入適當的驗證憑證以存取HTTPS伺服器。
    • FTP
      您必須輸入正確的驗證憑證才能存取FTP伺服器。
    • SFTP
      您必須輸入正確的驗證憑證才能存取SFTP伺服器。
    • 檔案
    注意 : 只有在「主機地址」和/或「檔案路徑」欄位中指定了資訊時,才使用「協定」設定。 個別XML檔案會根據其URL規格,使用HTTP或HTTPS來下載。
    Itemtag
    識別在您指定的資料來源檔案中定義「列」的XML元素。
    地圖
    可讓您使用欄數指定欄對中繼資料的對應。
    • 標記
      指定解析的XML資料的XPath表示法。 使用上述Adobe XML檔案範例,在「項目標籤」選項下,您可使用下列語法來對應它:
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      上述語法的轉譯如下:
      • /record/@displayurl&nbsp;->&nbsp;page-url
        記錄 元素 的顯示url屬性 會映射 至中繼資料欄位 page-url
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        該內 容包含在元資料元 素內的任何元元素的內容屬性,包含 記錄元素,其名稱為元資料欄位標題的 ,其中記錄元素的名稱為元資料欄位標題的映射。
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        該內 容包含在元資料元 素內的任何元元素的內容,該元資料元素中包含 記錄元素,其名稱屬性是描述元資料域的,其映射是描述元資料域的元資料元素的。
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        述內容屬性包含在元資料元 素中的任何元元素的內容,所述元資料元素的名稱包含在 記錄元素中,所述記錄元素的名稱是所述元資料域主體的映射的映射。
      XPath是一個相對複雜的符號。 如需詳細資訊,請造訪下列位置:
    • 欄位
      定義用於每個生成的<meta>標籤的名稱屬性值。
    • 中繼資料?
      使「 欄位 」成為下拉式清單,您可從中選取目前帳戶的已定義中繼資料欄位。
      視需 ,欄位值可以是未定義的中繼資料欄位。 未定義的中繼資料欄位有時對建立篩選指令檔所使用的 內容很有用
      請參閱 關於篩選指令 碼。
      當「索引連接器」在任何地圖欄位上處理具有多次點擊的XML檔案時,會將多個值串連在產生的快取檔案中的單一值中。 依預設,這些值會使用逗號分隔字元來組合。 不過,假設對應的欄位 是已定義的中繼資料欄位。 此外,該欄位還設定了「允 許清單」 屬性。 在這種情況下,欄位的「清單分隔符」值(定義的第一個分隔符)將用於級聯。
    • 主鍵?
      只有一個映射定義被標識為主鍵。 此欄位將成為將此文檔添加到索引時顯示的唯一引用。 此值會用於「索引」中檔案的URL中。
      「索 引連接 器」配置表示的所有文檔中的「主鍵」值都必須是唯一的——所有遇到的重複項都將被忽略。 如果源文檔中不包含用作主鍵的單個唯一值,但兩個或多個欄位合起來可形成唯一標識符 ,則可以通過將多個標籤定義與垂直條 (「|」)組合來定義主鍵。
    • 刪除HTML?
      勾選此選項時,會移除在此欄位資料中找到的任何HTML標籤。
    • 動作
      可讓您新增列至地圖或從地圖移除列。 列的順序不重要。
  4. (可選)按一 Setup Maps 下以下載資料來源的範例。 系統會檢查資料是否適合建立索引。 此功能僅適用於文字和動態消息類型。
  5. (可選)按一 Preview 下以測試組態的實際運作。 此功能僅適用於文字和動態消息類型。
  6. Add 擊將配置添加到頁 Index Connector Definitions 面和頁面 Index Connector Configurations 上的下拉清單 URL Entrypoints 中。
  7. 在頁面上 Index Connector Definitions ,按一下 rebuild your staged site index
  8. (可選)在頁 Index Connector Definitions 面上,執行下列任一項作業:

編輯索引連接器定義

可以編輯已定義的現有「索引連接器」。
並非所有選項都可供您變更,例如下拉式清單中的「索引連接器名稱」 Type 或「類型」。
要編輯索引連接器定義
  1. 在產品功能表上,按一下 Settings > Crawling > Index Connector
  2. 在頁面 Index Connector 的列標題下,單 Actions 擊「索引連接器 Edit 定義」名稱,該名稱的設定要更改。
  3. 在頁面上 Index Connector Edit ,設定您想要的選項。
    請參閱「添加索引連接器 定義」下的選項表
  4. 按一下 Save Changes .
  5. (選用)在頁 Index Connector Definitions 面上按一下 rebuild your staged site index
  6. (可選)在頁 Index Connector Definitions 面上,執行下列任一項作業:

查看索引連接器定義的設定

您可以查看現有索引連接器定義的配置設定。
將「索引連接器」定義添加到頁面後, Index Connector Definitions 便不能更改其「類型」設定。 您必須先刪除定義,然後新增定義。
查看「索引連接器」定義的設定
  1. 在產品功能表上,按一下 Settings > Crawling > Index Connector
  2. 在頁面 Index Connector 的列標題下,單 Actions 擊「索引連接器」 Edit 定義名稱(要查看或編輯其設定)。

複製索引連接器定義

可以複製現有的「索引連接器」定義,以用作要建立的新「索引連接器」的基礎。
複製「索引連接器」定義時,預設情況下會禁用複製的定義。 若要啟用或「開啟」定義,您必須從頁面中編輯定義, Index Connector Edit 然後選取 Enable
複製索引連接器定義
  1. 在產品功能表上,按一下 Settings > Crawling > Index Connector
  2. 在頁面 Index Connector 的列標題下,單 Actions 擊「索引連接器 Copy 定義」名稱,該名稱的設定要複製。
  3. 在頁面 Index Connector Copy 上,輸入定義的新名稱。
  4. 按一下 Copy .
  5. (可選)在頁 Index Connector Definitions 面上,執行下列任一項作業:

更名索引連接器定義

可以更改現有「索引連接器」定義的名稱。
重新命名定義後,請勾選 Settings > Crawling > URL Entrypoints 。 您要確定新定義名稱會反映在頁面的下拉式清單 URL Entrypoints 中。
更名索引連接器定義
  1. 在產品功能表上,按一下 Settings > Crawling > Index Connector
  2. 在頁 Index Connector 面上,在列標題 Actions 下,按一下要更 Rename 改的「索引連接器」定義名稱。
  3. 在頁 Index Connector Rename 面上,在欄位中輸入定義的新名 Name 稱。
  4. 按一下 Rename .
  5. Click Settings > Crawling > URL Entrypoints . 如果清單中存在以前的「索引連接器」名稱,請將其刪除,然後添加新更名的條目。
    請參 閱添加要編製索引的多個URL入口點 。 1.(可選)在頁 Index Connector Definitions 面上,執行下列任一項作業:

刪除索引連接器定義

您可以刪除不再需要或使用的現有「索引連接器」定義。
刪除索引連接器定義
  1. 在產品功能表上,按一下 Settings > Crawling > Index Connector
  2. 在頁 Index Connector Definitions 面上,在列標 Actions 題下,按一下要 Delete 刪除的「索引連接器」定義名稱。
  3. 在頁面上 Index Connector Delete ,按一下 Delete