Show Menu
THEMEN×

Über skriptgesteuerten Index

Mit einem skriptgesteuerten Index können Sie inkrementelle Indexierungsoptionen erstellen, aktualisieren und verwalten, ohne sich anmelden zu müssen. Der Suchroboter liest Anweisungen aus einer Textdatei, die auf Ihrem Server gehostet wird.

Skriptbasierter Index

Grundlagen zum Konfigurieren der inkrementellen Skripterstellung

Um skriptgesteuerten Index zu verwenden, geben Sie auf der Seite "Konfiguration des inkrementellen Index"die URL zu einer Skriptdatei (einer Textdatei) an, die sich auf Ihrem Server befindet. Zum Beispiel https://www.mysite.com/indexlist.txt . Wenn sich Ihre Site ändert, können Sie der Textdatei entweder manuell oder automatisch Befehlsblöcke hinzufügen (mit einem Skript, das durch die Eingabe von Informationen aus einem News-Feed, einem Stock-Ticker oder einer anderen geänderten Datei ausgelöst wird).
Wenn der skriptgesteuerte inkrementelle Index beginnt, liest der Suchroboter die Textdatei und führt die neuen Befehle aus, die in dieser Datei gefunden werden. Standardmäßig verarbeitet der Suchroboter nur die neuen Befehle, die vom Dateidatum bestimmt werden. Sofern Sie Clear Date zum Zeitpunkt der Konfiguration des skriptgesteuerten Indexes keine Prüfung vornehmen, "speichert"der Suchroboter den Datumsbezeichner des zuletzt verarbeiteten Blocks.

Grundlagen zur Skriptdatei

Die Skriptdatei, die Sie in der URL angeben, ist eine Textdatei, die sich auf Ihrem Server befindet. Sie können Wagenrückgaben, Zeilenvorschub oder beides für die Endsequenz verwenden. Eine leere Zeile enthält null oder mehr Leerzeichen, gefolgt von einer Zeilenende-Sequenz. Bei allen Befehlen wird nicht zwischen Groß- und Kleinschreibung unterschieden.
Die Textdatei ist in Blöcken angeordnet, die die Informationen beschreiben, die der Suchroboter bei der Durchführung eines skriptgesteuerten Inkrementalindex verwendet.
Blöcke werden nach Datum sortiert, wobei die ältesten Blöcke am Anfang der Textdatei und die letzten Blöcke am Ende angeordnet sind. Jeder Block beginnt mit einem einzeiligen Datums- und einem Datums-/Spezifizierer-Befehl und endet mit einem Leerzeilenzeichen, wie im folgenden Blockbeispiel dargestellt (dazwischen gibt es mehrere Befehle):
Bei Verwendung des HTTP 1.1-Stils ist für alle Datumsangaben mit einer Länge unter dem 10. eine vorangestellte Null erforderlich. Der 6. November ist beispielsweise 06. November, nicht der 6. November.
Befehl
Beschreibung
date-command
Die erste Zeile jedes Blocks beginnt mit einem von zwei Datumsbefehlen:
  • date
    Verwenden Sie den Befehl "Datum", um anzugeben, dass die Datums-/Zeitangabe aus einem Tag, einem Datum, einer Uhrzeit und einer Zeitzone besteht.
  • Sekunden
    Verwenden Sie Sekunden, um anzugeben, dass der Datumsbezeichner aus einer Zeit in Sekunden besteht (z. B. 784111777). Stellen Sie bei Verwendung von Sekunden sicher, dass die Anzahl der Sekunden zwischen den Blöcken zunimmt.
date-specifier
Der Befehl "Date-Specifier" zeichnet in der Regel entweder das normale Datum und die Uhrzeit (Befehl "Datum") oder die Zeit in Sekunden (Befehl "Sekunden") auf, zu der die Blockinformationen der Datei hinzugefügt wurden. Beispiel:
date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)
Bei Verwendung des HTTP 1.1-Stils ist für alle Datumsangaben mit einer Länge unter dem 10. eine vorangestellte Null erforderlich. Der 6. November ist beispielsweise 06. November, nicht der 6. November.
Der Suchroboter "erinnert"sich an den Datumsbezeichner des zuletzt verarbeiteten Blocks und indiziert nur Informationen, die er als "neuer"ansieht. (Echtzeit spielt für den Suchroboter keine Rolle. Stattdessen kommt es auf die Zeit im Verhältnis zu anderen zuvor verarbeiteten Zeiten an.)
Nachdem der Suchroboter beispielsweise einen Block mit einer Datumsangabe von 22.00 Uhr gelesen hat, werden keine Blöcke gelesen, die vor 22.00 Uhr aufgezeichnet wurden, unabhängig davon, wann der Indexvorgang ausgeführt wird. Im schlimmsten Fall können Sie versehentlich das Jahr "2040"anstelle von "2004"in Ihrer Datumsangabe eingeben. In einem solchen Fall indiziert der Suchroboter den 2040-Block während des nächsten Indizierungsvorgangs und weigert sich dann, alle anderen Informationsblöcke zu lesen (es sei denn, dass ein solcher Zeitraum 2040 ist). Wenn dies der Fall sein sollte, entfernen Sie alle zuvor verarbeiteten Blöcke aus der Textdatei, klicken Sie auf "Datum löschen" , und veröffentlichen Sie es dann live.
Kommentarzeile
Beginnen Sie mit Kommentarzeilen mit dem Zeichen "#".
Jede Kommentarzeile muss eine eigene Zeile sein. Sie können keine Kommentare zum Ende der Zeile eingeben.
Eine Kommentarzeile wird nicht als Leerzeile betrachtet. Er kann auch an einer beliebigen Stelle in einem Block erscheinen, selbst vor einem Datums- oder Sekundenbefehl, wie im folgenden Beispiel:
    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 
action-command
Jeder Textblock kann beliebig viele Aktionsbefehle enthalten. Die folgenden Optionen für Aktionsbefehle entsprechen denen für die standardmäßige inkrementelle Indexierung:
  • hinzufügen
    Mit URL verwenden. Der Suchroboter indiziert nur die angegebenen URLs, die sich seit der letzten Indexierung geändert haben. Darüber hinaus folgt der Suchroboter Links, die in bestimmten Dokumenten und Indizes enthalten sind, nur den Dokumenten, die geändert wurden.
    Sie können der URL mit nofollow oder noindex Schlüsselwörter wie im folgenden Beispiel:
    add https://www.mydomain.com/ noindex
  • update
    Mit URL-Maske verwenden. Der Suchroboter findet und aktualisiert alle Dokumente, die der angegebenen URL-Maske entsprechen.
    Sie können der URL mit nofollow oder noindex Schlüsselwörter wie im folgenden Beispiel:
    update https://www.mydomain.com/products/
  • zählen oder exclude
    Mit URL-Maske verwenden. Der Suchroboter findet und indiziert Dokumente ("einschließen") oder ignoriert ("ausschließen") je nach Art der angegebenen Maske.
    Beispiel:
    include https://www.mydomain.com/products/household/lightbulbs*.html
    oder
    exclude https://www.mydomain.com/archive/
  • include-date oder exclude-date
    Mit URL-Maske verwenden. Der Suchroboter findet und indiziert ("einschließen") oder ignoriert ("ausschließen") Dokumente, die auf der URL und dem Datum der Dokumente basieren. Die folgenden Masken stehen zur Verfügung:
    • include-days NNN
      Der Suchroboter indiziert alle Dokumente, die mit der angegebenen URL-Maske übereinstimmen und mindestens NNN Tage alt sind.
      Sie können der URL-Maske mit den Suchbegriffen folgen nofollow , noindex und/oder server-date .
    • include-date YYYY-MM-DD
      Der Suchroboter indiziert alle Dokumente, die mit der angegebenen URL-Maske übereinstimmen und älter sind als das Datum JJJJ-MM-TT, wobei "JJJ"das vierstellige Jahr, "MM"der ein- oder zweistellige Monat (1-12) und "TT"der ein- oder zweistellige Tag (1-31) ist.
      Sie können der URL-Maske mit den Suchbegriffen folgen nofollow , noindex und/oder server-date .
    • exclude-days NNN
      Deaktiviert die Indexierung aller Dokumente, die mit der angegebenen URL-Maske übereinstimmen und NN-Tage oder älter sind.
      Sie können der URL-Maske mit dem Suchbegriff folgen server-date .
    • exclude-date YYYY-MM-DD
      Deaktiviert die Indexierung aller Dokumente, die der angegebenen URL-Maske entsprechen und älter als das Datum JJJ-MM-TT sind.
      Sie können der URL-Maske mit dem Suchbegriff folgen server-date .
  • delete
    Geben Sie URLs an. Der Suchroboter entfernt Dokumente aus dem Index, die durch die URL identifiziert werden.
  • deletemask
    Der Suchroboter entfernt Dokumente aus dem Index, die der angegebenen URL-Maske entsprechen.
Siehe auch URL-Masken .

Beispieldatei

Im folgenden Beispielskript-Dateibeispiel verarbeitet der Suchroboter die Blöcke, sofern die Datumsangabe nach dem Datum der Datumsangabe des zuletzt verarbeiteten Blocks erfolgt. Ist dies der Fall, werden die folgenden Indexierungsvorgänge ausgeführt:
  • Löscht y2k-problems.html aus dem Index.
  • Fügt no-y2k-problems.html zum Suchindex hinzu und folgt keinem der Links für no-y2k-problems.html .
  • Schließen Sie beim Crawling URLs, die mit housewares.htm und lightfixtures.htm l übereinstimmen, aus dem Suchindex aus.
  • Schließen Sie alle anderen Ordner und Dokumente unter ein www.mydomain.com .
  • Aktualisieren Sie alle Dokumente innerhalb der Ordner products und information Ordner, indem Sie alle Links, die sich seit der letzten Indexierung geändert haben, durchsuchen und indizieren.
  • Schließen Sie beim Crawling URLs im archive Abschnitt der Website aus, wenn sie am oder vor dem 1. Januar 1999 datiert sind.
  • Schließen Sie URLs aus, die mit dem Suchindex übereinstimmen housewares.html und lightfixtures.html diese enthalten.
  • Indexdateien im help Verzeichnis, jedoch keine Links aus diesen Dateien durchsuchen oder indizieren.
  • Suchen und indizieren Sie alle anderen Dateien, die für www.mydomain.com gefunden wurden.
# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

Konfigurieren eines skriptgesteuerten inkrementellen Indexes

Sie können ein von Ihnen erstelltes Skript angeben, das einen inkrementellen Index schreibt, aktualisiert und verwaltet, ohne sich anmelden zu müssen. Der Suchroboter liest Anweisungen aus der Textdatei, die auf Ihrem Server gehostet wird, um den inkrementellen Index auszuführen.
So konfigurieren Sie einen skriptbasierten inkrementellen Index
  1. Klicken Sie im Produktmenü auf Index > Scripted Index > Configuration .
  2. Geben Sie auf der Scripted Incremental Index Configuration Seite im Feld Script File URL die URL zum Skript für die Textdatei ein, das sich auf Ihrem Server befindet.
  3. (Optional) Überprüfen Sie, Clear Date ob der Suchroboter nicht die Datumsangabe des zuletzt verarbeiteten Blocks "merken"soll.
    Standardmäßig verarbeitet der Suchroboter nur neue Befehlsblöcke, die in der Textdatei enthalten sind, die vom Datum der Datei bestimmt wird. Wenn Sie die Standardeinstellung nicht wünschen, aktivieren Sie Clear Date .
  4. Klicken Save Changes .
  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Einstellen des inkrementellen Index-Zeitplans für eine Live-Website

Sie können die skriptgesteuerte inkrementelle Indexierung planen, die in regelmäßigen Abständen am Tag erfolgt.
Die gewählte Basiszeit ist lokal gemäß der Zeitzone, die in den Kontoeinstellungen konfiguriert ist.
Webserver sollen oft mitten in der Nacht zur Wartung aussteigen. Wenn Ihr Server während einer geplanten Indexzeit ausfällt, schlägt der Indexierungsvorgang fehl. Stellen Sie sicher, dass Sie eine Tageszeit auswählen, zu der der Webserver verfügbar ist.
Der Index-Plan gilt nur für Ihren Live-Index. Sie können keine gestaffelten inkrementellen Indizes planen.
So legen Sie den Zeitplan für den inkrementellen Index für eine Live-Website fest
  1. Klicken Sie im Produktmenü auf Index > Scripted Index > Live Schedule .
  2. Wählen Sie auf der Scripted Incremental Index Schedule Seite in der Read the Scripted Incrementally Indexing File Dropdownliste die Häufigkeit, mit der die skriptbasierte inkrementelle Textdatei in Stunden oder Minuten ausgeführt werden soll.
  3. Wählen Sie in der Base Time Dropdownliste die Startzeit aus, zu der Sie einen neuen skriptgesteuerten Inkrementalindex neu generieren möchten.
  4. Klicken Save Changes .

Ausführen eines skriptbasierten inkrementellen Indexes einer Live- oder Staged-Website

Sie können Scripted Incremental Index verwenden, um "Teile"Ihrer Live- oder Stage-Website zu indizieren, z. B. eine Sammlung häufig geänderter Seiten, ohne sich anmelden zu müssen.
Um diese Funktion zu verwenden, müssen Sie eine skriptgesteuerte inkrementelle Indextextdatei konfigurieren.
So führen Sie einen skriptgesteuerten inkrementellen Index einer Live- oder Staged-Website aus
  1. Führen Sie im Produktmenü einen der folgenden Schritte aus:
    • Klicken Sie auf Index > Scripted Index > Live Index .
    • Klicken Sie auf Index > Scripted Index > Staged Index .
  2. Klicken Scripted Index Now .
  3. (Optional) Wenn Indexierungsfehler aufgetreten sind, klicken Sie auf View Errors , um das zugehörige Protokoll anzuzeigen.

Ansicht des skriptgesteuerten inkrementellen Indexprotokolls einer Live- oder Staged-Website

Wenn ein vollständiger, skriptfähiger Index oder ein gestaffelter vollständiger, skriptgebundener Index abgeschlossen ist, können Sie das zugehörige Protokoll anzeigen, um Fehler zu beheben, die aufgetreten sind.
Protokolle können weder exportiert noch gespeichert werden. Das Protokoll bleibt jedoch bis zum Auftreten des neuen Indexes zur Ansicht verfügbar.
So zeigen Sie das inkrementelle Indexprotokoll einer Live- oder Stage-Website an
  1. Führen Sie im Produktmenü einen der folgenden Schritte aus:
    • Klicken Sie auf Index > Scripted Index > Live Log .
    • Klicken Sie auf Index > Scripted Index > Staged Log .
  2. Führen Sie auf der Protokollseite oben oder unten einen der folgenden Schritte aus:
    • Verwenden Sie die Navigationsoptionen First , Prev , Next , Last oder Go to line , um durch das Protokoll zu navigieren.
    • Verwenden Sie die Anzeigeoptionen Errors only , Wrap line oder Show , um Ihre Anzeige zu verfeinern.