Show Menu
SUJETS×

A propos de l’index par script

Avec l’index par script, vous pouvez écrire, mettre à jour et gérer des options d’indexation incrémentielle sans avoir à vous connecter. Le robot de recherche lit les instructions à partir d’un fichier texte hébergé sur votre serveur.

Utilisation de l’index par script

A propos de la configuration de l’indexation incrémentielle par script

Pour utiliser l’index par script, vous utilisez la page Configuration de l’index incrémentiel par script pour spécifier l’URL d’un fichier de script (fichier texte brut) situé sur votre serveur. Par exemple, https://www.mysite.com/indexlist.txt . Lorsque votre site change, vous pouvez ajouter des blocs de commande au fichier texte manuellement ou automatiquement (avec un script déclenché par l’arrivée d’informations à partir d’un flux d’actualités, d’un télex boursier ou d’un autre fichier modifié).
Lorsque l’index incrémentiel par script commence, le robot de recherche lit le fichier texte et exécute les nouvelles commandes qui se trouvent dans ce fichier. Par défaut, le robot de recherche ne traite que les nouvelles commandes, qui sont déterminées par la date du fichier. A moins de vérifier Clear Date au moment de la configuration de l’index par script, le robot de recherche "mémorise" le spécificateur de date du dernier bloc traité.

A propos du fichier de script

Le fichier de script que vous spécifiez dans l’URL est un fichier texte brut situé sur votre serveur. Vous pouvez utiliser des retours chariot, des flux de ligne ou les deux pour la séquence de fin de ligne. Une ligne vide contient zéro ou plusieurs caractères d’espace blanc suivis d’une séquence de fin de ligne. Toutes les commandes ne sont pas sensibles à la casse.
Le fichier texte est organisé en blocs qui décrivent les informations utilisées par le robot de recherche lorsqu’il effectue un index incrémentiel par script.
Les blocs sont classés par date, avec les blocs les plus anciens en haut du fichier texte et les blocs les plus récents en bas. Chaque bloc commence par une commande-date sur une seule ligne et une commande de spécificateur de date, et se termine par un séparateur de ligne vide, comme dans l'exemple de bloc suivant (entre plusieurs commandes) :
Un zéro de début est requis pour toutes les dates ordinales inférieures au 10e lors de l’utilisation du style HTTP 1.1. Par exemple, le 6 novembre est le 6 novembre, pas le 6 novembre.
Commande
Description
date-command
La première ligne de chaque bloc commence par l’une des deux commandes de date :
  • date
    Utilisez la commande "date" pour indiquer que le spécificateur de date se composera d’un jour, d’une date, d’une heure et d’un fuseau horaire.
  • secondes
    Utilisez les secondes pour indiquer que le spécificateur de date se composera d’une heure en quelques secondes (par exemple, 784111777). Lorsque vous utilisez des secondes , assurez-vous que le nombre de secondes augmente entre les blocs.
date-specifier
La commande de spécificateur de date enregistre généralement soit la date et l’heure ordinales (commande de date), soit l’heure en secondes (commande de secondes) que les informations de bloc ont été ajoutées au fichier. Par exemple :
date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)
Un zéro de début est requis pour toutes les dates ordinales inférieures au 10e lors de l’utilisation du style HTTP 1.1. Par exemple, le 6 novembre est le 6 novembre, pas le 6 novembre.
Le robot de recherche "mémorise" le spécificateur de date du dernier bloc traité et indexe uniquement les informations qu'il considère comme "plus récentes". (Le temps réel n'a pas d'importance pour le robot de recherche. Le temps par rapport aux autres temps précédemment traités est ce qui compte.)
Une fois que le robot de recherche lit un bloc avec un spécificateur de date de 22h00, par exemple, il ne lit pas les blocs qui enregistrent des heures avant 22h00, indépendamment du moment où l'opération d'indexation s'exécute. Dans le pire des cas, vous pouvez entrer par erreur l’année "2040" au lieu de "2004" dans votre spécificateur de date. Dans un tel cas, le robot de recherche indexe le bloc 2040 lors de la prochaine opération d'indexation et refuse ensuite de lire tout autre bloc d'informations (sauf si un post-date 2040). Si cela se produit, supprimez tous les blocs précédemment traités du fichier texte, cliquez sur Effacer la date , puis poussez-le en direct.
ligne de commentaire
Commencez les lignes de commentaire par le caractère "#".
Chaque ligne de commentaire doit être une ligne qui lui est propre; vous ne pouvez pas saisir de commentaires de fin de ligne.
Une ligne de commentaire n’est pas considérée comme une ligne vide. Il peut également apparaître n’importe où dans un bloc, même avant une commande de date ou de secondes, comme dans l’exemple suivant :
    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 
action-commande
Chaque bloc de texte peut contenir autant de commandes d’action que vous le souhaitez. Les options de commande-action suivantes correspondent à celles de l’indexation incrémentielle standard :
  • ajouter
    Utilisation avec l’URL. Le robot de recherche indexe uniquement les URL spécifiées qui ont changé depuis votre dernière opération d’indexation. De plus, le robot de recherche suit les liens contenus dans des documents spécifiés et indexe uniquement les documents qui ont changé.
    Vous pouvez suivre l’URL avec nofollow ou noindex mots-clés comme dans l’exemple suivant :
    add https://www.mydomain.com/ noindex
  • mettre à jour
    Utilisation avec masque d’URL. Le robot de recherche trouve et met à jour tous les documents qui correspondent au masque d’URL spécifié.
    Vous pouvez suivre l’URL avec nofollow ou noindex mots-clés comme dans l’exemple suivant :
    update https://www.mydomain.com/products/
  • include ou exclure
    Utilisation avec masque d’URL. Le robot de recherche trouve et indexe ("include") ou ignore les documents ("exclude") en fonction du type de masque spécifié.
    Par exemple :
    include https://www.mydomain.com/products/household/lightbulbs*.html
    ou
    exclude https://www.mydomain.com/archive/
  • include-date ou exclude-date
    Utilisation avec masque d’URL. Le robot de recherche trouve et indexe ("inclure") ou ignore les documents ("exclure") en fonction de l’URL et de la date des documents. Les types de masques suivants sont disponibles :
    • include-days NNN
      Le robot de recherche indexe tous les documents qui correspondent au masque d’URL spécifié et qui datent au moins de plusieurs jours NNN.
      Vous pouvez suivre le masque d’URL avec les mots-clés nofollow , noindex , et/ou server-date .
    • include-date AAAA-MM-JJ
      Le robot de recherche indexe tous les documents qui correspondent au masque d’URL spécifié et qui sont plus anciens ou plus anciens que la date AAAA-MM-JJ, où "AAAA" correspond à l’année à 4 chiffres, "MM" à un ou deux chiffres (1-12) et "JJ" à un ou deux chiffres (1-31).
      Vous pouvez suivre le masque d’URL avec les mots-clés nofollow , noindex , et/ou server-date .
    • exclude-days NNN
      Désactive l’indexation de tous les documents qui correspondent au masque d’URL spécifié et qui datent de NNN jours ou plus.
      Vous pouvez suivre le masque d’URL avec le mot-clé server-date .
    • exclude-date AAAA-MM-JJ
      Désactive l’indexation de tous les documents qui correspondent au masque d’URL spécifié et qui sont antérieurs ou antérieurs à la date AAAA-MM-JJ.
      Vous pouvez suivre le masque d’URL avec le mot-clé server-date .
  • supprimer
    Spécifiez des URL. Le robot de recherche supprime de l’index les documents identifiés par l’URL.
  • deletemask
    Le robot de recherche supprime de l’index les documents qui correspondent au masque d’URL spécifié.
Voir aussi A propos des masques URL.

Exemple de fichier de script

Dans l’exemple de fichier de script suivant, le robot de recherche traite les blocs à condition que les spécialistes de date postulent le spécificateur de date du dernier bloc traité. Si tel est le cas, les opérations d’indexation suivantes se produisent :
  • Supprime y2k-problems.html de l’index.
  • Ajoute no-y2k-problems.html à l’index de recherche et ne suit aucun lien pour no-y2k-problems.html .
  • Lors de l’analyse, excluez les URL qui correspondent housewares.htm et lightfixtures.htm l de l’index de recherche.
  • Incluez tous les autres répertoires et documents sous www.mydomain.com .
  • Mettez à jour tous les documents des répertoires products et information , en analysant et en indexant tous les liens secondaires qui ont changé depuis la dernière opération d’indexation.
  • Lors de l’analyse, excluez les URL de la archive section du site Web si elles sont datées au plus tard le 1er janvier 1999.
  • Exclure les URL qui correspondent housewares.html et lightfixtures.html de l’index de recherche.
  • Index des fichiers dans le help répertoire, mais n’analysez ni n’indexez aucun lien à partir de ces fichiers.
  • Analyser et indexer tous les autres fichiers rencontrés pour www.mydomain.com .
# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

Configuration d’un index incrémentiel par script

Vous pouvez spécifier un script que vous avez créé qui écrit, met à jour et conserve un index incrémentiel, sans avoir à vous connecter. Le robot de recherche lit les instructions du fichier texte hébergé sur votre serveur pour exécuter l’index incrémentiel.
Pour configurer un index incrémentiel par script
  1. Dans le menu du produit, cliquez sur Index > Scripted Index > Configuration .
  2. Sur la Scripted Incremental Index Configuration page, Script File URL saisissez l’URL du script de fichier texte situé sur votre serveur.
    Voir A propos de l’index par script.
  3. (Facultatif) Vérifiez Clear Date si vous ne souhaitez pas que le robot de recherche "mémorise" le spécificateur de date du dernier bloc traité.
    Par défaut, le robot de recherche ne traite que les nouveaux blocs de commandes trouvés dans le fichier texte, qui est déterminé par la date du fichier. Si vous ne souhaitez pas que la valeur par défaut soit définie, vérifiez Clear Date .
  4. Cliquez sur Save Changes .
  5. (Facultatif) Effectuez l’une des opérations suivantes :

Définition du calendrier d’index incrémentiel par script pour un site Web en direct

Vous pouvez programmer l’indexation incrémentielle par script à intervalles réguliers tout au long de la journée.
L’heure de base que vous sélectionnez est locale en fonction du fuseau horaire configuré dans Paramètres du compte.
Voir Configuration des paramètres de votre compte.
Les serveurs Web sont souvent programmés pour une maintenance en pleine nuit. Si votre serveur est en panne pendant une heure d’index planifiée, le processus d’indexation échoue. Veillez à sélectionner l’heure de la journée à laquelle votre serveur Web est disponible.
Le calendrier de l'index ne s'applique qu'à votre index en direct ; vous ne pouvez pas planifier des index incrémentiels par étapes.
Pour définir la planification de l’index incrémentiel par script pour un site Web en direct
  1. Dans le menu du produit, cliquez sur Index > Scripted Index > Live Schedule .
  2. Sur la Scripted Incremental Index Schedule page, dans la liste Read the Scripted Incrementally Indexing File déroulante, sélectionnez la fréquence d’exécution du fichier texte d’index incrémentiel par script, en heures ou en minutes.
  3. Dans la liste Base Time déroulante, sélectionnez l’heure de début de la régénération d’un nouvel index incrémentiel par script.
  4. Cliquez sur Save Changes .

Exécution d’un index incrémentiel par script d’un site Web en direct ou d’un site Web intermédiaire

Vous pouvez utiliser l’index incrémentiel par script pour indexer les "morceaux" de votre site Web en direct ou d’évaluation, tels qu’une collection de pages fréquemment modifiées, sans avoir à vous connecter.
Pour utiliser cette fonctionnalité, veillez à configurer un fichier texte d’index incrémentiel par script.
Voir Configuration d’un index incrémentiel par script.
Pour exécuter un index incrémentiel par script d’un site Web en direct ou d’un site Web intermédiaire
  1. Dans le menu du produit, effectuez l’une des opérations suivantes :
    • Cliquez sur Index > Scripted Index > Live Index .
    • Cliquez sur Index > Scripted Index > Staged Index .
  2. Cliquez sur Scripted Index Now .
  3. (Facultatif) Si des erreurs d’indexation se sont produites, cliquez sur View Errors pour afficher le journal associé.

Affichage du journal d’index incrémentiel par script d’un site Web en direct ou d’un site Web intermédiaire

Lorsqu’un index par script complet en direct ou un index par script complet par étape est terminé, vous pouvez afficher le journal associé afin de résoudre les erreurs qui se sont produites.
Vous ne pouvez pas exporter de journaux ni les enregistrer. Toutefois, le journal reste disponible pour affichage jusqu’à ce que le nouvel index se produise.
Pour afficher le journal d’index incrémentiel d’un site Web en direct ou d’évaluation
  1. Dans le menu du produit, effectuez l’une des opérations suivantes :
    • Cliquez sur Index > Scripted Index > Live Log .
    • Cliquez sur Index > Scripted Index > Staged Log .
  2. Dans la page du journal, en haut ou en bas, effectuez l’une des opérations suivantes :
    • Utilisez les options de navigation First , Prev , Next , Last ou Go to line pour parcourir le journal.
    • Utilisez les options d’affichage Errors only , Wrap line ou Show pour affiner ce que vous voyez.