Show Menu
トピック×

スクリプトインデックスについて

スクリプトインデックスを使用すると、ログインしなくても、インクリメンタルインデックスの作成、更新、維持を行うことができます。 検索ロボットは、サーバー上でホストされているテキストファイルから指示を読み取ります。

スクリプトインデックスの使用

スクリプトの増分インデックスの設定について

スクリプト化インデックスを使用するには、スクリプト化インデックスの設定ページを使用して、サーバー上にあるスクリプトファイル(プレーンテキストファイル)のURLを指定します。 例: https://www.mysite.com/indexlist.txt サイトが変更されると、手動または自動(ニュースフィード、株価、その他の変更されたファイルからの情報の受信によってトリガーされるスクリプトを使用)でテキストファイルにコマンドブロックを追加できます。
スクリプトの増分インデックスが開始されると、検索ロボットはテキストファイルを読み取り、そのファイル内の新しいコマンドを実行します。 デフォルトでは、検索ロボットは新しいコマンドのみを処理し、ファイルの日付によって決まります。 スクリプト化インデックス Clear Date を設定する際にチェックを行わない限り、検索ロボットは最も最近処理されたブロックの日付指定子を「記憶」します。

スクリプトファイルについて

URLで指定するスクリプトファイルは、サーバー上のプレーンテキストファイルです。 行末シーケンスには、キャリッジリターン、ラインフィードまたはその両方を使用できます。 空白行には、0個以上の空白文字の後に行末シーケンスが続きます。 すべてのコマンドでは、大文字と小文字が区別されません。
テキストファイルは、スクリプト化された増分インデックスを実行する際に検索ロボットが使用する情報を記述したブロックで構成されます。
ブロックは日付順に並べられ、最も古いブロックがテキストファイルの先頭に、最も新しいブロックが下に表示されます。 各ブロックは、1行のdate-commandとdate-specifierコマンドで始まり、次のブロック例のように空白行区切り文字で終わります(間には複数のコマンドがあります)。
HTTP 1.1スタイルを使用する場合、10番目より前の序数の日付はすべて、先頭に0が必要です。 例えば、11月6日は11月6日ではなく、11月6日です。
コマンド
説明
date-command
各ブロックの最初の行は、次の2つの日付コマンドのいずれかで始まります。
  • date
    「date」コマンドを使用して、日付指定子が日、日、時刻、およびタイムゾーンで構成されることを示します。
  • 日付指 定子 がエポック秒の時間で構成されることを示すには、秒を使用します(例:78411777)。 秒を使用す る場合 は、ブロック間の秒数が増加することを確認します。
date-specifier
通常、 date-specifier コマンドは、ブロック情報がファイルに追加された元の日時(dateコマンド)またはエポック秒(secondsコマンド)の時間を記録します。 次に例を示します。
date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)
HTTP 1.1スタイルを使用する場合、10番目より前の序数の日付はすべて、先頭に0が必要です。 例えば、11月6日は11月6日ではなく、11月6日です。
検索ロボットは、最も最近処理されたブロックの日付指定子を「記憶」し、「新しい」と見なされる情報のみをインデックス化します。 (リアルタイムは検索ロボットには関係ありません。 その代わりに、前に処理された他の時間との関係が重要です。)
例えば、検索ロボットは、日付指定子が10:00 p.mのブロックを読み取った後、インデックス操作の実行時間にかかわらず、10:00 p.m.より前の時刻を記録するブロックを読み取りません。 最悪の場合は、日付指定子に誤って「2004」ではなく「2040」という年を入力する可能性があります。 この場合、検索ロボットは次のインデックス作成操作中に2040ブロックのインデックスを作成し、その後(2040年以降の1つを除く)他の情報ブロックの読み取りを拒否します。 この問題が発生した場合は、以前に処理されたすべてのブロックをテキストファイルから削除し、「日付をク リア」をク リックして、アクティブにします。
コメント行
コメント行の先頭は「#」文字にします。
各コメント行は、それぞれ独自の行である必要があります。行末のコメントを入力することはできません。
コメント行は空白行と見なされません。 また、次の例のように、dateまたはsecondsコマンドの前でも、ブロック内の任意の場所に表示できます。
    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 
action-command
各テキストブロックには、必要な数のアクションコマンドを含めることができます。 次のアクションコマンドオプションは、標準の増分インデックス作成のオプションに対応しています。
  • 追加
    URLと共に使用します。 検索ロボットは、前回のインデックス作成操作以降に変更された、指定したURLのみインデックスを作成します。 また、検索ロボットは、指定したドキュメント内のリンクに従い、変更されたドキュメントのみをインデックス付けします。
    URLは、 nofollow または noindex キーワードを次の例のように指定します。
    add https://www.mydomain.com/ noindex
  • 更新
    URLマスクと共に使用します。 検索ロボットは、指定したURLマスクに一致するすべてのドキュメントを検索し、更新します。
    URLは、 nofollow または noindex キーワードを次の例のように指定します。
    update https://www.mydomain.com/products/
  • include または exclude
    URLマスクと共に使用します。 検索ロボットは、指定されたマスクの種類に基づいて、ドキュメントのインデックス(「include」)を検索するか、ドキュメントを無視します(「exclude」)。
    例:
    include https://www.mydomain.com/products/household/lightbulbs*.html
    または
    exclude https://www.mydomain.com/archive/
  • include-date または exclude-date
    URLマスクと共に使用します。 検索ロボットは、URLとドキュメントの日付の両方に基づいて、ドキュメントの検索とインデックス付け(「include」)または無視(「exclude」)を行います。 次の種類のマスクを使用できます。
    • include-days NNN
      検索ロボットは、指定したURLマスクに一致し、NNN日以上前のすべてのドキュメントのインデックスを作成します。
      URLマスクの後にキーワードを付けることができます nofollow noindex ,および/または server-date
    • include-date YYYY-MM-DD
      検索ロボットは、指定したURLマスクに一致し、YYYY-MM-DDより古い、または古いすべてのドキュメントのインデックスを作成します。「YYYY」は4桁の年、「MM」は1桁または2桁の月(1 ~ 12)、「DD」は1桁または2桁の日(1 ~ 31)です。
      URLマスクの後にキーワードを付けることができます nofollow noindex ,および/または server-date
    • exclude-days NNN
      指定したURLマスクに一致し、NNN日以上前のすべてのドキュメントのインデックス作成を無効にします。
      URLマスクの後にキーワードを付けることができます server-date
    • exclude-date YYYY-MM-DD
      指定したURLマスクに一致し、YYYY-MM-DDより古い、または古いすべてのドキュメントのインデックス作成を無効にします。
      URLマスクの後にキーワードを付けることができます server-date
  • delete
    URLを指定します。 検索ロボットは、URLで識別されるインデックスからドキュメントを削除します。
  • deletemask
    検索ロボットは、指定したURLマスクに一致するインデックスからドキュメントを削除します。
URLマスクにつ いても参照してください

スクリプトファイルの例

次のスクリプトファイルの例では、検索ロボットは、日付指定子がpost-dateに指定した日付のブロックを、最も最近処理されたブロックの日付指定子で処理します。 その場合、次のインデックス作成操作が実行されます。
  • インデックス y2k-problems.html から削除します。
  • 検索イ no-y2k-problems.html ンデックスに追加し、のリンクのどれにも従いませ no-y2k-problems.html ん。
  • クロール中に、検索インデックスに一致す housewares.htm るURLと lightfixtures.htm lに一致するURLを除外します。
  • その他のすべてのディレクトリとドキュメントをに含めま www.mydomain.com す。
  • およびディレクトリ内のすべてのドキュメ products ントを更新し、 information 前回のインデックス作成操作以降に変更されたすべての子リンクをクロールしてインデックスを作成します。
  • クロール中に、1999年1月1日以 archive 前の日付のURLをWebサイトのセクションから除外します。
  • 検索インデックスに一致す housewares.html るURLと lightfixtures.html 一致するURLを除外します。
  • ディレクトリ内のインデックスフ help ァイルですが、これらのファイルからのリンクをクロールまたはインデックス付けしないでください。
  • に対して検出された他のファイルをクロールし、インデックスを作成しま www.mydomain.com す。
# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

スクリプト化された増分インデックスの設定

作成したスクリプトを指定して、インクリメンタルインデックスの書き込み、更新、維持を行うことができます。ログインする必要はありません。 検索ロボットは、増分インデックスを実行するために、サーバー上でホストされているテキストファイルから指示を読み取ります。
スクリプト化された増分インデックスを設定するには
  1. 製品メニューで//をクリ Index ックし Scripted Index ます Configuration ​。
  2. ページ Scripted Incremental Index Configuration ので、サーバ Script File URL ​ー上にあるテキストファイルスクリプトのURLを入力します。
  3. (オプション)検 Clear Date 索ロボットに、最も最近処理されたブロックの日付指定子を「記憶」させないかどうかを確認します。
    デフォルトでは、検索ロボットはテキストファイル内の新しいコマンドブロック(ファイルの日付によって決まる)のみを処理します。 デフォルトを使用しない場合は、をオンにしま Clear Date ​す。
  4. クリック Save Changes .
  5. (オプション)次のいずれかの操作を行います。

ライブWebサイト用のスクリプト化された増分インデックススケジュールの設定

1日を通じて、定期的にスクリプト化された増分インデックスを作成するようにスケジュールできます。
選択する基本時刻は、 #で設定したタイムゾーンに従ってローカルになります。
多くの場合、深夜には、メンテナンスのためにウェブサーバがダウンする予定です。 スケジュールされたインデックス時間中にサーバーがダウンした場合、インデックス作成処理は失敗します。 Webサーバーが利用可能な時間帯を選択していることを確認してください。
インデックススケジュールは、ライブインデックスにのみ適用されます。ステージングされた増分インデックスはスケジュールできません。
ライブWebサイトのスクリプト化された増分インデックススケジュールを設定するには
  1. 製品メニューで//をクリ Index ックし Scripted Index ます Live Schedule ​。
  2. ページ Scripted Incremental Index Schedule のドロップダ Read the Scripted Incrementally Indexing File ウンリストで、スクリプトの増分インデックステキストファイルを実行する頻度を、時間単位または分単位で選択します。
  3. ドロップダ Base Time ウンリストで、新しいスクリプト化された増分インデックスを再生成する開始時刻を選択します。
  4. クリック Save Changes .

ライブWebサイトまたはステージWebサイトのスクリプト化された増分インデックスの実行

スクリプト化された増分インデックスを使用すると、頻繁に変更されるページのコレクションなど、ライブまたはステージングされたWebサイトの「断片」のインデックスを作成でき、ログインする必要はありません。
この機能を使用するには、スクリプト化された増分インデックステキストファイルを設定済みであることを確認してください。
ライブWebサイトまたはステージWebサイトのスクリプト化された増分インデックスを実行するには
  1. 製品メニューで、次のいずれかの操作を行います。
    • Click Index > Scripted Index > Live Index .
    • Click Index > Scripted Index > Staged Index .
  2. クリック Scripted Index Now .
  3. (オプション)インデックスエラーが発生した場合は、をクリックし View Errors て関連付けられたログを表示します。

ライブWebサイトまたはステージングされたWebサイトのスクリプト化された増分インデックスログの表示

ライブのフルスクリプトインデックスまたはステージングされたフルスクリプトインデックスが完了すると、関連するログを表示して、発生したエラーのトラブルシューティングを行うことができます。
ログをエクスポートしたり、保存したりすることはできません。 ただし、新しいインデックスが発生するまで、ログは引き続き表示できます。
ライブWebサイトまたはステージWebサイトの増分インデックスログを表示するには
  1. 製品メニューで、次のいずれかの操作を行います。
    • Click Index > Scripted Index > Live Log .
    • Click Index > Scripted Index > Staged Log .
  2. ログページの上部または下部で、次のいずれかの操作を行います。
    • ナビゲーションオプシ First ​ョン、、、、 Prev ​また Next ​はを使 Last ​用して Go to line ログ内を移動します。
    • 表示オプション、または Errors only ​を使用 Wrap line ​して、 Show 表示内容を調整します。