Show Menu
SUJETS×

A propos du menu Flux

Utilisez le menu déroulant pour définir des masques de date et d’URL, des mots de passe, des types de contenu, des connexions, des définitions de formulaire et des points d’entrée d’URL.

A propos des points de fin d’URL

La plupart des sites Web comportent un point d’entrée principal ou une page d’accueil qu’un client consulte initialement. Ce point d'entrée principal est l'adresse URL à partir de laquelle le robot de recherche commence l'analyse de l'index. Toutefois, si votre site Web comporte plusieurs domaines ou sous-domaines ou si des parties de votre site ne sont pas liées à partir du point d’entrée principal, vous pouvez utiliser des points de entrées d’URL pour ajouter d’autres points d’entrée.
Toutes les pages du site Web situées en dessous de chaque point d’entrée d’URL spécifié sont indexées. Vous pouvez combiner des points d’entrée d’URL et des masques pour contrôler exactement les parties d’un site Web que vous souhaitez indexer. Vous devez recréer l’index de votre site Web avant que les effets des paramètres de points de fin d’URL ne soient visibles par les clients.
Le point d’entrée principal est généralement l’URL du site Web que vous souhaitez indexer et rechercher. Vous configurez ce point d’entrée principal dans Paramètres du compte.
Voir Configuration des paramètres de votre compte.
Après avoir spécifié le point d’entrée de l’URL principale, vous pouvez éventuellement spécifier d’autres points d’entrée que vous souhaitez analyser dans l’ordre. La plupart du temps, vous spécifiez des points d’entrée supplémentaires pour les pages Web qui ne sont pas liées à partir des pages situées sous le point d’entrée principal. Spécifiez des points d’entrée supplémentaires lorsque votre site Web s’étend sur plusieurs domaines, comme dans l’exemple suivant :
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
Vous pouvez qualifier chaque point d’entrée avec un ou plusieurs des mots-clés séparés par des espaces dans le tableau ci-dessous. Ces mots-clés affectent la manière dont la page est indexée.
Important : Veillez à séparer un mot-clé donné du point d'entrée et de l'autre par un espace ; une virgule n’est pas un séparateur valide.
Mot-clé
Description
noindex
Si vous ne souhaitez pas indexer le texte sur la page du point d’entrée, mais que vous souhaitez suivre les liens de la page, ajoutez noindex après le point d’entrée.
Séparez le mot-clé du point d’entrée par un espace, comme dans l’exemple suivant :
https://www.my-additional-domain.com/more_pages/main.html noindex
Ce mot-clé est équivalent à une balise meta robots avec content="noindex" ) entre les <head> ... </head> balises de la page du point d’entrée.
nofollow
Si vous souhaitez indexer le texte dans la page du point d’entrée mais que vous ne souhaitez pas suivre les liens de la page, ajoutez nofollow après le point d’entrée.
Séparez le mot-clé du point d’entrée par un espace, comme dans l’exemple suivant :
https://www.domain.com/not_linked/directory_listing&nbsp;nofollow
Ce mot-clé est équivalent à une balise meta robots avec content="nofollow" entre les <head> ... </head> d’une page de point d’entrée.
formulaire
Lorsque le point d’entrée est une page de connexion, formulaire est généralement utilisée de sorte que le robot de recherche puisse envoyer le formulaire de connexion et recevoir les cookies appropriés avant d’analyser le site Web. Lorsque le mot-clé "formulaire" est utilisé, la page du point d’entrée n’est pas indexée et le robot de recherche ne marque pas la page du point d’entrée comme étant analysée. Utilisez les nofollow si vous ne souhaitez pas que le robot de recherche suive les liens de la page.
Voir aussi A propos des types de contenu.
Voir aussi A propos du connecteur d’index.

Ajout de plusieurs points d’entrée d’URL à indexer

Si votre site Web comporte plusieurs domaines ou sous-domaines et que vous souhaitez qu’ils soient analysés, vous pouvez utiliser des points de saisie d’URL pour ajouter d’autres URL.
Pour définir le point d’entrée de l’URL principale de votre site Web, utilisez Paramètres du compte.
Voir Configuration des paramètres de votre compte.
Pour ajouter plusieurs points d’entrée d’URL à indexer
  1. Dans le menu du produit, cliquez sur Settings > Crawling > URL Entrypoints .
  2. Sur la URL Entrypoints page, dans le Entrypoints champ, saisissez une adresse URL par ligne.
  3. (Facultatif) Dans la liste Add Index Connector Configurations déroulante, sélectionnez un connecteur d’index à ajouter comme point d’entrée pour l’indexation.
    La liste déroulante n’est disponible que si vous avez déjà ajouté une ou plusieurs définitions de connecteur d’index.
    Voir Ajout d’une définition de connecteur d’index.
  4. Cliquez sur Save Changes .
  5. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des masques d’URL

Les masques URL sont des modèles qui déterminent quels documents de votre site Web les robots de recherche indexes ou non.
Veillez à recréer l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.
Vous pouvez utiliser les deux types de masques d’URL suivants :
  • Inclure les masques d’URL
  • Exclure les masques d’URL
Insérez des masques d’URL pour indiquer au robot de recherche d’indexer tous les documents qui correspondent au modèle du masque.
Exclure les masques d’URL pour indiquer au robot de recherche d’indexer les documents correspondants.
Lorsque le robot de recherche voyage d’un lien à un autre à travers votre site Web, il rencontre des URL et recherche des masques qui correspondent à ces URL. La première correspondance détermine s’il faut inclure ou exclure cette URL de l’index. Si aucun masque ne correspond à une URL rencontrée, cette URL est ignorée de l’index.
Les masques d’URL inclus pour vos URL de point d’entrée sont générés automatiquement. Ce comportement garantit que tous les documents rencontrés sur votre site Web sont indexés. Il supprime aussi commodément les liens qui "quittent" votre site Web. Par exemple, si une page indexée renvoie à https://www.yahoo.com, le robot de recherche n’indexe pas cette URL, car elle ne correspond pas au masque d’inclusion généré automatiquement par l’URL du point d’entrée.
Chaque masque d’URL que vous spécifiez doit se trouver sur une ligne distincte.
Le masque peut spécifier l’une des valeurs suivantes :
  • Un chemin complet comme dans https://www.mydomain.com/products.html .
  • Chemin partiel comme dans https://www.mydomain.com/products .
  • URL qui utilise des caractères génériques comme dans https://www.mydomain.com/*.html .
  • Expression régulière (pour les utilisateurs avancés).
    Pour transformer un masque en expression régulière, insérez le mot-clé regexp entre le type de masque ( exclude ou include ) et le masque d’URL.
Voici un exemple simple de masque d’URL d’exclusion :
exclude https://www.mydomain.com/photos

Comme il s’agit d’un masque d’URL d’exclusion, aucun document correspondant au modèle n’est indexé. Le modèle correspond à tout élément rencontré, à la fois aux fichiers et aux dossiers, de sorte que https://www.mydomain.com/photos.html et https://www.mydomain.com/photos/index.html , qui correspondent tous deux à l’URL d’exclusion, ne sont pas indexés. Pour ne correspondre qu’aux fichiers du /photos/ dossier, le masque d’URL doit contenir une barre oblique comme dans l’exemple suivant :
exclude https://www.mydomain.com/photos/

L’exemple de masque d’exclusion suivant utilise un caractère générique. Il indique au robot de recherche de ne pas regarder les fichiers avec l'extension ".pdf". Le robot de recherche n’ajoute pas ces fichiers à votre index.
exclude *.pdf

Un simple masque d’URL d’inclusion est le suivant :
include https://www.mydomain.com/news/

Seuls les documents liés au moyen d’une série de liens à partir d’un point d’entrée d’URL ou utilisés comme point d’entrée d’URL sont indexés. La seule inscription de l’URL d’un document en tant que masque d’URL d’inclusion n’indexe pas un document non lié. Pour ajouter des documents non liés à votre index, vous pouvez utiliser la fonction Points de saisie d’URL.
Voir A propos des points d’entrée d’URL.
Les masques d’inclusion et d’exclusion peuvent fonctionner ensemble. Vous pouvez exclure une grande partie de votre site Web de l’indexation en créant un masque d’URL d’exclusion tout en incluant une ou plusieurs de ces pages exclues avec un masque d’URL d’inclusion. Supposons, par exemple, que votre URL de point d’entrée soit la suivante :
https://www.mydomain.com/photos/

Le robot de recherche analyse et indexe toutes les pages sous /photos/summer/ , /photos/spring/ et /photos/fall/ (en supposant qu’il existe des liens vers au moins une page dans chaque répertoire à partir du photos dossier). Ce comportement se produit car les chemins d’accès aux liens permettent au robot de recherche de trouver les documents dans les dossiers /summer/ , /spring/ et /fall/ , et les URL des dossiers correspondent au masque d’inclusion généré automatiquement par l’URL du point d’entrée.
Vous pouvez choisir d’exclure toutes les pages du /fall/ dossier avec un masque d’URL d’exclusion, comme dans l’exemple suivant :
exclude https://www.mydomain.com/photos/fall/

Vous pouvez également inclure uniquement /photos/fall/redleaves4.html dans l’index avec le masque d’URL suivant :
include https://www.mydomain.com/photos/fall/redleaves4.html

Pour que les deux exemples de masque ci-dessus fonctionnent comme prévu, le masque d’inclusion est répertorié en premier, comme dans l’exemple suivant :
include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Comme le robot de recherche suit les instructions dans l’ordre dans lequel elles sont répertoriées, il inclut d’abord /photos/fall/redleaves4.html , puis exclut le reste des fichiers du /fall dossier.
Si les instructions sont spécifiées de la manière opposée, comme dans l’exemple suivant :
exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

N’ /photos/fall/redleaves4.html est alors pas inclus, même si le masque indique qu’il est inclus.
Un masque d’URL qui s’affiche en premier prévaut toujours sur un masque d’URL qui s’affiche ultérieurement dans les paramètres du masque. De plus, si le robot de recherche rencontre une page qui correspond à un masque d’URL d’inclusion et un masque d’URL d’exclusion, le masque répertorié en premier est toujours prioritaire.

A propos de l'utilisation de mots-clés avec des masques d'URL

Vous pouvez qualifier chaque masque d’inclusion avec un ou plusieurs mots-clés séparés par des espaces, ce qui affecte la manière dont les pages mises en correspondance sont indexées.
Une virgule n'est pas valide comme séparateur entre le masque et le mot-clé ; vous ne pouvez utiliser que des espaces.
Mot-clé
Description
noindex
Si vous ne souhaitez pas indexer le texte sur les pages qui correspondent au masque d’URL, mais que vous souhaitez suivre les liens de pages correspondants, ajoutez noindex après le masque d’URL d’inclusion. Veillez à séparer le mot-clé du masque avec un espace, comme dans l’exemple suivant :
include&nbsp;*.swf&nbsp;noindex
L’exemple ci-dessus indique que le robot de recherche suit tous les liens des fichiers avec la variable .swf , mais désactive l’indexation de tout le texte contenu dans ces fichiers.
L’ noindex est l’équivalent d’une balise meta de robot avec content="noindex" entre les <head>...</head> balises des pages correspondantes.
nofollow
Si vous souhaitez indexer le texte sur les pages qui correspondent au masque d’URL, mais que vous ne souhaitez pas suivre les liens de la page correspondante, ajoutez nofollow après le masque d’URL d’inclusion. Veillez à séparer le mot-clé du masque avec un espace, comme dans l’exemple suivant :
include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
L’ nofollow est l’équivalent d’une balise meta de robot avec content="nofollow" entre les <head>...</head> balises des pages correspondantes.
regexp
Utilisé pour inclure et exclure des masques.
Tout masque d’URL précédé de regexp est traitée comme une expression régulière. Si le robot de recherche rencontre des documents qui correspondent à un masque d’URL d’expression régulière exclus, ces documents ne sont pas indexés. Si le robot de recherche rencontre des documents qui correspondent à un masque d’URL d’expression régulière inclus, ces documents sont indexés. Supposons, par exemple, que vous ayez le masque d’URL suivant :
exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$
Le robot de recherche exclut les fichiers correspondants, tels que https://www.mydomain.com/products/page1.html
Si vous aviez le masque d’URL d’expression régulière d’exclusion suivant :
exclude&nbsp;regexp&nbsp;^.*\?..*$
Le robot de recherche ne doit pas inclure d’URL contenant un paramètre CGI tel que https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .
Si vous aviez les éléments suivants, incluez le masque d’URL d’expression régulière :
include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex
Le robot de recherche suit tous les liens des fichiers avec l'extension ".swf". L’ noindex keyword indique également que le texte des fichiers correspondants n’est pas indexé.

Ajout de masques d’URL à l’index ou non des parties de votre site Web

Vous pouvez utiliser URL Masks pour définir les parties de votre site Web que vous souhaitez ou ne souhaitez pas analyser et indexer.
Utilisez le champ Tester les masques d’URL pour vérifier si un document est inclus ou non après l’indexation.
Veillez à recréer l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.
Pour ajouter des masques d’URL à l’index ou non des parties de votre site Web
  1. Dans le menu du produit, cliquez sur Settings > Crawling > URL Masks .
  2. (Facultatif) Sur la URL Masks page, dans le Test URL Masks champ, saisissez un masque d’URL de test sur votre site Web, puis cliquez sur Test .
  3. Dans le URL Masks champ, saisissez include (pour ajouter un site Web à analyser et à indexer) ou exclude (pour empêcher l’analyse et l’indexation d’un site Web), puis saisissez l’adresse du masque d’URL.
    Entrez une adresse de masque d’URL par ligne. Exemple :
    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
    
  4. Cliquez sur Save Changes .
  5. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des masques de date

Vous pouvez utiliser des masques de date pour inclure ou exclure des fichiers des résultats de recherche en fonction de l’âge du fichier.
Veillez à recréer l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.
Vous pouvez utiliser les deux types de masques de date suivants :
  • Inclure les masques de date ("inclure-jours" et "inclure-date")
    Inclure les fichiers d’index des masques de date datant du ou avant la date spécifiée.
  • Exclure les masques de date ("jours exclus" et "date exclus")
    Exclure les fichiers d’index des masques de date datant du ou avant la date spécifiée.
Par défaut, la date du fichier est déterminée à partir des informations de balise meta. Si aucune balise Meta n’est trouvée, la date d’un fichier est déterminée à partir de l’en-tête HTTP reçu du serveur lorsque le robot de recherche télécharge un fichier.
Chaque masque de date que vous spécifiez doit se trouver sur une ligne distincte.
Le masque peut spécifier l’une des valeurs suivantes :
  • Un chemin complet comme dans https://www.mydomain.com/products.html
  • Un chemin partiel comme dans https://www.mydomain.com/products
  • URL utilisant des caractères génériques https://www.mydomain.com/*.html
  • Expression régulière. Pour transformer un masque en expression régulière, insérez le mot-clé regexp avant l’URL.
Les masques de date incluent et excluent tous les deux la date de l’une des deux manières suivantes. Les masques ne sont appliqués que si les fichiers correspondants ont été créés au plus tard à la date spécifiée :
  1. Un certain nombre de jours. Supposons, par exemple, que votre masque de date soit le suivant :
    exclude-days 30 https://www.mydomain.com/docs/archive/)
    
    
    Le nombre de jours spécifié est comptabilisé en retour. Si le fichier est daté le ou avant la date d’arrivée, le masque est appliqué.
  2. Date réelle au format AAAA-MM-JJ. Supposons, par exemple, que votre masque de date soit le suivant :
    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    
    
    Si le document mis en correspondance est daté le ou avant la date spécifiée, le masque de date est appliqué.
Voici un exemple simple de masque de date d’exclusion :
exclude-days 90 https://www.mydomain.com/docs/archive

Puisqu’il s’agit d’un masque de date d’exclusion, tout fichier qui correspond au modèle n’est pas indexé et a au moins 90 jours d’existence. Lorsque vous excluez un document, aucun texte n’est indexé et aucun lien n’est suivi à partir de ce fichier. Le fichier est en fait ignoré. Dans cet exemple, les fichiers et les dossiers peuvent correspondre au modèle d’URL spécifié. Notez que les deux https://www.mydomain.com/docs/archive.html et https://www.mydomain.com/docs/archive/index.html correspondent au modèle et ne sont pas indexés s’ils ont 90 jours ou plus. Pour faire correspondre uniquement les fichiers du /docs/archive/ dossier, le masque de date doit contenir une barre oblique de fin, comme dans l’exemple suivant :
exclude-days 90 https://www.mydomain.com/docs/archive/

Les masques de date peuvent également être utilisés avec des caractères génériques. Le masque d’exclusion suivant indique au robot de recherche d’ignorer les fichiers avec l’extension ".pdf" qui sont datés le ou avant 2011-02-15. Le robot de recherche n’ajoute aucun fichier correspondant à votre index.
exclude-date 2011-02-15 *.pdf

L’option Inclure le masque de date est similaire, seuls les fichiers correspondants sont ajoutés à l’index. L’exemple de masque de date suivant indique au robot de recherche d’indexer le texte à partir de fichiers de date antérieure ou égale à zéro jour dans la /docs/archive/manual/ zone du site Web.
include-days 0 https://www.mydomain.com/docs/archive/manual/

Les masques d’inclusion et d’exclusion peuvent fonctionner ensemble. Par exemple, vous pouvez exclure une grande partie de votre site Web de l’indexation en créant un masque de date d’exclusion tout en incluant une ou plusieurs des pages exclues avec un masque d’URL d’inclusion. Si l’URL de votre point d’entrée est la suivante :
https://www.mydomain.com/archive/

Le robot de recherche analyse et indexe toutes les pages sous /archive/summer/ , /archive/spring/ et /archive/fall/ (en supposant qu’il existe des liens vers au moins une page dans chaque dossier à partir du archive dossier). Ce comportement se produit car les chemins d’accès aux liens permettent au robot de recherche de "trouver" les fichiers dans les /summer/ , /spring/ et /fall/ dossiers et les URL des dossiers correspondent au masque d’inclusion généré automatiquement par l’URL du point d’entrée.
Voir A propos des points d’entrée d’URL.
Voir Configuration des paramètres de votre compte.
Vous pouvez choisir d’exclure toutes les pages de plus de 90 jours dans le /fall/ dossier avec un masque de date d’exclusion, comme dans l’exemple suivant :
exclude-days 90 https://www.mydomain.com/archive/fall/

Vous pouvez inclure uniquement /archive/fall/index.html (quel que soit l’âge de la correspondance (tout fichier de 0 jour ou plus correspond) dans l’index avec le masque de date suivant :
include-days 0 https://www.mydomain.com/archive/fall/index.html

Pour que les deux exemples de masque ci-dessus fonctionnent comme prévu, vous devez d’abord répertorier le masque d’inclusion comme dans l’exemple suivant :
include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Comme le robot de recherche suit les instructions dans l’ordre spécifié, il inclut d’abord /archive/fall/index.html , puis exclut le reste des fichiers du /fall dossier.
Si les instructions sont spécifiées de la manière opposée, comme dans l’exemple suivant :
exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

N’ /archive/fall/index.html est alors pas inclus, même si le masque indique qu’il doit l’être. Un masque de date qui s’affiche en premier est toujours prioritaire sur un masque de date qui peut apparaître ultérieurement dans les paramètres du masque. De plus, si le robot de recherche rencontre une page qui correspond à la fois à un masque de date d’inclusion et à un masque de date d’exclusion, le masque répertorié en premier est toujours prioritaire.

A propos de l'utilisation de mots-clés avec des masques de date

Vous pouvez qualifier chaque masque d’inclusion avec un ou plusieurs mots-clés séparés par des espaces, ce qui affecte la manière dont les pages mises en correspondance sont indexées.
Une virgule n'est pas valide comme séparateur entre le masque et le mot-clé ; vous ne pouvez utiliser que des espaces.
Mot-clé
Description
noindex
Si vous ne souhaitez pas indexer le texte sur les pages qui sont datées au plus tard à la date spécifiée par le masque d’inclusion, ajoutez noindex après le masque de date d’inclusion, comme dans l’exemple suivant :
include-days&nbsp;10&nbsp;*.swf&nbsp;noindex
Veillez à séparer le mot-clé du masque par un espace.
L’exemple ci-dessus indique que le robot de recherche suit tous les liens des fichiers avec l’extension ".swf" qui ont 10 jours ou plus. Toutefois, il désactive l’indexation de tout le texte contenu dans ces fichiers.
Assurez-vous que le texte des fichiers plus anciens n’est pas indexé, mais suivez tous les liens de ces fichiers. Dans ce cas, utilisez un masque de date d’inclusion avec le mot-clé "noindex" au lieu d’utiliser un masque de date d’exclusion.
nofollow
Si vous souhaitez indexer le texte sur les pages qui sont datées le ou avant la date spécifiée par le masque d’inclusion, mais que vous ne souhaitez pas suivre les liens de la page correspondante, ajoutez nofollow après le masque de date d’inclusion, comme dans l’exemple suivant :
include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
Veillez à séparer le mot-clé du masque par un espace.
L’ nofollow est l’équivalent d’une balise meta de robot avec content="nofollow" entre les <head>...</head> balise des pages correspondantes.
server-date
Utilisé pour inclure et exclure des masques.
Le robot de recherche télécharge et analyse généralement chaque fichier avant de vérifier les masques de date. Ce comportement se produit car certains types de fichiers peuvent spécifier une date dans le fichier lui-même. Par exemple, un document HTML peut inclure des balises meta définissant la date du fichier.
Si vous souhaitez exclure de nombreux fichiers en fonction de leur date et que vous ne souhaitez pas placer une charge inutile sur vos serveurs, vous pouvez utiliser server-date après l’URL dans le masque de date.
Ce mot-clé indique au robot de recherche de faire confiance à la date du fichier renvoyé par votre serveur au lieu d'analyser chaque fichier. Par exemple, le masque de date d’exclusion suivant ignore les pages qui correspondent à l’URL si les documents ont 90 jours ou plus, selon la date renvoyée par le serveur dans les en-têtes HTTP :
exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date
Si la date renvoyée par le serveur est antérieure à 90 jours ou plus, server-date indique que les documents exclus ne doivent pas être téléchargés depuis votre serveur. Cela signifie une indexation plus rapide de vos documents et une charge réduite sur vos serveurs. Si server-date n’est pas spécifiée, le robot de recherche ignore la date renvoyée par le serveur dans les en-têtes HTTP. En revanche, chaque fichier est téléchargé et vérifié pour voir si la date est spécifiée. Si aucune date n’est spécifiée dans le fichier, le robot de recherche utilise la date renvoyée par le serveur.
Vous ne devez pas utiliser server-date si vos fichiers contiennent des commandes qui remplacent la date du serveur.
regexp
À utiliser pour inclure et exclure des masques.
Tout masque de date précédé de regexp est traitée comme une expression régulière.
Si le robot de recherche rencontre des fichiers qui correspondent à un masque de date d’expression régulière exclu, il n’indexe pas ces fichiers.
Si le robot de recherche rencontre des fichiers qui correspondent à un masque de date d’expression régulière inclus, il indexe ces documents.
Supposons, par exemple, que vous ayez le masque de date suivant :
exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*
Le masque indique au robot de recherche d’exclure les fichiers correspondants de 180 jours ou plus. Autrement dit, les fichiers qui contiennent le mot "archive" dans leur URL.

Ajout de masques de date à l’index ou non des parties de votre site Web

Vous pouvez utiliser des masques de date pour inclure ou exclure des fichiers des résultats de recherche des clients en fonction de l’âge des fichiers.
Utilisez les champs Test Date et Test URL pour vérifier si un fichier est ou n’est pas inclus après l’indexation.
Veillez à recréer l’index de votre site afin que les résultats de vos masques d’URL soient visibles par vos clients.
Pour ajouter des masques de date à l’index ou non des parties de votre site Web
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Date Masks .
  2. (Facultatif) Sur la Date Masks page, dans le Test Date champ, saisissez une date au format AAAA-MM-JJ (par exemple 2011-07-25 ) ; dans le Test URL champ, saisissez un masque d’URL à partir de votre site Web, puis cliquez sur Test .
  3. Dans le Date Masks champ, saisissez une adresse de masque de date par ligne.
  4. Cliquez sur Save Changes .
  5. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des mots de passe

Pour accéder à des parties de votre site Web protégées par l’authentification de base HTTP, vous pouvez ajouter un ou plusieurs mots de passe.
Avant que les effets des paramètres Mot de passe ne soient visibles par les clients, vous devez recréer l’index de votre site.
Sur la Passwords page, vous saisissez chaque mot de passe sur une seule ligne. Le mot de passe se compose d’une URL ou d’un domaine, d’un nom d’utilisateur et d’un mot de passe, comme dans l’exemple suivant :
https://www.mydomain.com/ myname mypassword

Au lieu d’utiliser un chemin d’URL, comme ci-dessus, vous pouvez également spécifier un domaine.
Pour déterminer le domaine à utiliser, ouvrez une page Web protégée par mot de passe avec un navigateur et ouvrez la boîte de dialogue "Entrez le mot de passe réseau".
Dans ce cas, le nom du domaine est "Mon domaine du site".
En utilisant le nom de domaine ci-dessus, votre mot de passe peut se présenter comme suit :
My Site Realm myusername mypassword

Si votre site Web comporte plusieurs domaines, vous pouvez créer plusieurs mots de passe en saisissant un nom d’utilisateur et un mot de passe pour chaque domaine sur une ligne distincte, comme dans l’exemple suivant :
Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

Vous pouvez mélanger des mots de passe qui contiennent des URL ou des domaines afin que votre liste de mots de passe ressemble à ce qui suit :
Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

Dans la liste ci-dessus, le premier mot de passe utilisé contient un domaine ou une URL qui correspond à la demande d’authentification du serveur. Même si le fichier https://www.mysite.com/path1/path2/index.html se trouve dans Realm3 , par exemple name2 et password2 sont utilisés car le mot de passe défini avec l'URL est répertorié au-dessus de celui défini avec le domaine.

Ajout de mots de passe pour accéder aux zones de votre site Web qui nécessitent une authentification

Vous pouvez utiliser Mots de passe pour accéder aux zones protégées par mot de passe de votre site Web à des fins d’analyse et d’indexation.
Avant que les effets de votre mot de passe ne soient visibles par les clients, veillez à recréer l’index de votre site.
Pour ajouter des mots de passe pour accéder à des zones de votre site Web qui nécessitent une authentification
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Passwords .
  2. Sur la Passwords page, dans le Passwords champ, saisissez un domaine ou une URL, son nom d’utilisateur et son mot de passe associés, séparés par un espace.
    Exemple de mot de passe de domaine et d’URL sur des lignes distinctes :
    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    
    
    Ajoutez uniquement un mot de passe par ligne.
  3. Cliquez sur Save Changes .
  4. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des types de contenu

Vous pouvez utiliser Content Types pour sélectionner les types de fichiers à analyser et à indexer pour ce compte.
Les types de contenu que vous pouvez analyser et indexer incluent des documents PDF, des documents texte, des films Adobe Flash, des fichiers provenant d’applications Microsoft Office telles que Word, Excel et Powerpoint, ainsi que du texte dans des fichiers MP3. Le texte qui se trouve dans les types de contenu sélectionnés est recherché avec tout le reste du texte de votre site Web.
Avant que les effets des paramètres Types de contenu ne soient visibles par les clients, vous devez recréer l’index de votre site.

A propos de l’indexation des fichiers de musique MP3

Si vous sélectionnez l’option Text in MP3 Music Files sur la Content Types page, un fichier MP3 est analysé et indexé de deux manières. La première méthode la plus courante consiste à utiliser une balise href d’ancrage dans un fichier HTML, comme dans l’exemple suivant :
<a href="MP3-file-URL"></a>

La deuxième méthode consiste à entrer l’URL du fichier MP3 en tant que point d’entrée d’URL.
Voir A propos des points d’entrée d’URL.
Un fichier MP3 est reconnu par son type MIME "audio/mpeg".
Sachez que les fichiers de musique MP3 peuvent être très volumineux, même s’ils ne contiennent généralement qu’une petite quantité de texte. Par exemple, les fichiers MP3 peuvent stocker des éléments tels que le nom de l’album, le nom de l’artiste, le titre de la chanson, le genre de chanson, l’année de publication et un commentaire. Ces informations sont stockées à la toute fin du fichier dans ce qu’on appelle la BALISE. Les fichiers MP3 contenant des informations TAG sont indexés de la manière suivante :
  • Le titre de la chanson est traité comme le titre d’une page HTML.
  • Le commentaire est traité comme une description définie pour une page HTML.
  • Le genre est traité comme un mot-clé défini pour une page HTML.
  • Le nom de l’artiste, le nom de l’album et l’année de publication sont traités comme le corps d’une page HTML.
Notez que chaque fichier MP3 analysé et indexé sur votre site Web compte comme une page.
Si votre site Web contient de nombreux fichiers MP3 volumineux, vous pouvez dépasser la limite d’octets d’indexation de votre compte. Si cela se produit, vous pouvez désélectionner Text in MP3 Music Files sur la Content Types page pour empêcher l’indexation de tous les fichiers MP3 de votre site Web.
Si vous souhaitez uniquement empêcher l’indexation de certains fichiers MP3 sur votre site Web, vous pouvez effectuer l’une des opérations suivantes :
  • Entourez les balises d’ancrage qui pointent vers les fichiers MP3 avec <nofollow> et </nofollow> des balises. Le robot de recherche ne suit pas les liens entre ces balises.
  • Ajoutez les URL des fichiers MP3 en tant que masques d’exclusion.

Sélection des types de contenu à analyser et à indexer

Vous pouvez utiliser Content Types pour sélectionner les types de fichiers à analyser et à indexer pour ce compte.
Les types de contenu que vous pouvez analyser et indexer incluent des documents PDF, des documents texte, des films Adobe Flash, des fichiers provenant d’applications Microsoft Office telles que Word, Excel et Powerpoint, ainsi que du texte dans des fichiers MP3. Le texte qui se trouve dans les types de contenu sélectionnés est recherché avec tout le reste du texte de votre site Web.
Avant que les effets des paramètres Types de contenu ne soient visibles par les clients, vous devez recréer l’index de votre site.
Pour analyser et indexer des fichiers MP3 chinois, japonais ou coréens, procédez comme suit. Ensuite, dans Settings > Metadata > Injections , spécifiez le jeu de caractères utilisé pour coder les fichiers MP3.
Pour sélectionner des types de contenu à analyser et à indexer
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Content Types .
  2. Sur la Content Types page, vérifiez les types de fichiers que vous souhaitez analyser et indexer sur votre site Web.
  3. Cliquez sur Save Changes .
  4. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos des connexions

Vous pouvez utiliser Connexions pour ajouter jusqu’à dix connexions HTTP que le robot de recherche utilise pour indexer votre site Web.
L’augmentation du nombre de connexions peut réduire de manière significative le temps nécessaire à l’exécution d’une analyse et d’un index. Sachez toutefois que chaque connexion supplémentaire augmente la charge sur votre serveur.

Ajout de connexions pour augmenter la vitesse d’indexation

Vous pouvez réduire le temps nécessaire pour indexer votre site Web en utilisant Connexions pour augmenter le nombre de connexions HTTP simultanées utilisées par le moteur de recherche. Vous pouvez ajouter jusqu'à dix connexions.
Gardez à l’esprit que chaque connexion supplémentaire augmente la charge placée sur votre serveur.
Pour ajouter des connexions afin d’augmenter la vitesse d’indexation
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Connections .
  2. Sur la Parallel Indexing Connections page, dans le Number of Connections champ, entrez le nombre de connexions (1-10) que vous souhaitez ajouter.
  3. Cliquez sur Save Changes .
  4. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos de l’envoi de formulaire

Vous pouvez utiliser l’envoi de formulaires pour vous aider à reconnaître et à traiter les formulaires de votre site Web.
Lors de l’analyse et de l’indexation de votre site Web, chaque formulaire rencontré est comparé aux définitions de formulaire que vous avez ajoutées. Si un formulaire correspond à une définition de formulaire, le formulaire est envoyé pour indexation. Si un formulaire correspond à plusieurs définitions, le formulaire est envoyé une fois pour chaque définition correspondante.

Ajout de définitions de formulaire pour l’indexation de formulaires sur votre site Web

Vous pouvez vous servir Form Submission pour traiter les formulaires reconnus sur votre site Web à des fins d’indexation.
Veillez à recréer l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.
Pour ajouter des définitions de formulaire pour l’indexation de formulaires sur votre site Web
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Form Submission .
  2. Sur la Form Submission page, cliquez sur Add New Form .
  3. Sur la Add Form Definition page, définissez les options Form Recognition et Form Submission .
    Les cinq options de la Form Recognition section de la Form Definition page permettent d’identifier les formulaires pouvant être traités dans vos pages Web.
    Les trois options de la Form Submission section permettent de spécifier les paramètres et les valeurs qui sont envoyés avec un formulaire à votre serveur Web.
    Entrez un paramètre de reconnaissance ou d’envoi par ligne. Chaque paramètre doit inclure un nom et une valeur.
    Option
    Description
    Reconnaissance de formulaire
    Masque d’URL de page
    Identifiez la ou les pages Web qui contiennent le formulaire. Pour identifier un formulaire qui s’affiche sur une seule page, entrez l’URL de cette page, comme dans l’exemple suivant :
    https://www.mydomain.com/login.html
    Pour identifier les formulaires qui apparaissent sur plusieurs pages, spécifiez un masque d’URL qui utilise des caractères génériques pour décrire les pages. Pour identifier les formulaires rencontrés sur une page ASP sous https://www.mydomain.com/register/ , par exemple, vous devez spécifier les éléments suivants :
    https://www.mydomain.com/register/*.asp&nbsp;
    Vous pouvez également utiliser une expression régulière pour identifier plusieurs pages. Indiquez simplement la variable regexp avant le masque d’URL, comme dans l’exemple suivant :
    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$
    Masque d’URL d’action
    Identifie l’attribut d’action de la variable <formulaire> Balise.
    Tout comme le masque d’URL de page, le masque d’URL d’action peut prendre la forme d’une URL unique, d’une URL avec des caractères génériques ou d’une expression régulière.
    Le masque d’URL peut être l’un des suivants :
    • Chemin complet, comme dans l’exemple suivant : https://www.mydomain.com/products.html
    • Chemin partiel comme dans l’exemple suivant : https://www.mydomain.com/products
    • URL qui utilise des caractères génériques comme dans l’exemple suivant : https://www.mydomain.com/*.html
    • Expression régulière comme dans l’exemple suivant : regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$
    Si vous ne souhaitez pas indexer le texte sur les pages identifiées par un masque d’URL ou par un masque d’URL d’action, ou si vous ne souhaitez pas que les liens soient suivis sur ces pages, vous pouvez utiliser la variable noindex et nofollow mots-clés. Vous pouvez ajouter ces mots-clés à vos masques à l’aide de masques d’URL ou de points d’entrée.
    Masque de nom de formulaire
    Identifie les formulaires si la variable <formulaire> les balises de vos pages Web contiennent un attribut name.
    Vous pouvez utiliser un nom simple ( login_form ), un nom avec un caractère générique ( formulaire* ) ou une expression régulière ( regexp ^.*autoriser.*$ ).
    Vous pouvez généralement laisser ce champ vide, car les formulaires n’ont généralement pas d’attribut name.
    Masque d’ID de formulaire
    Identifie les formulaires si la variable <formulaire> les balises de vos pages Web contiennent un attribut id.
    Vous pouvez utiliser un nom simple ( login_form ), un nom avec un caractère générique ( formulaire* ) ou une expression régulière ( regexp ^.*autoriser.*$ ).
    Vous pouvez généralement laisser ce champ vide, car les formulaires n’ont généralement pas d’attribut name.
    Paramètres
    Identifiez les formulaires qui contiennent ou ne contiennent pas un paramètre nommé ou un paramètre nommé avec une valeur spécifique.
    Par exemple, pour identifier un formulaire qui contient un paramètre de courrier électronique prédéfini sur rick_brough@mydomain.com, un paramètre de mot de passe, mais pas un paramètre de prénom, vous devez spécifier les paramètres suivants, une par ligne :
    email=rick_brough@mydomain.com password not first-name
    Envoi de formulaire
    Remplacer l’URL d’action
    Indiquez quand la cible de l’envoi du formulaire est différente de ce qui est spécifié dans l’attribut d’action du formulaire.
    Par exemple, vous pouvez utiliser cette option lorsque le formulaire est envoyé par le biais d’une fonction JavaScript qui construit une valeur d’URL différente de celle du formulaire.
    Méthode Override
    Indiquez quand la cible de l’envoi du formulaire est différente de ce qui est utilisé dans l’attribut d’action du formulaire et quand le code JavaScript d’envoi a modifié la méthode.
    Valeurs par défaut de tous les paramètres de formulaire ( <input> balises, y compris les champs masqués), la valeur par défaut <option> de a <sélectionner> et le texte par défaut entre <textarea>...</textarea> ) sont lues à partir de la page Web. Toutefois, tout paramètre répertorié dans la section Envoi de formulaire , dans le champ Paramètres , est remplacé par les valeurs par défaut du formulaire.
    Paramètres
    Vous pouvez prédéfinir les paramètres d’envoi du formulaire à l’aide de la variable ne sont pas mot-clé.
    Lorsque vous ajoutez un préfixe à un paramètre ne sont pas , elle n’est pas envoyée dans le cadre de l’envoi du formulaire. Ce comportement s’avère utile pour les cases à cocher qui doivent être envoyées et non sélectionnées.
    Supposons, par exemple, que vous souhaitiez envoyer les paramètres suivants :
    • Le paramètre de courrier électronique avec la valeur nobody@mydomain.com
    • Le paramètre password avec la valeur tryme
    • Le paramètre mycheckbox est désélectionné.
    • Tous les autres <formulaire> paramètres comme valeurs par défaut
    Le paramètre d’envoi du formulaire se présente comme suit :
    email=nobody@mydomain.com password=tryme not mycheckbox
    L’attribut de méthode de la variable <formulaire> sur la page Web est utilisée pour déterminer si les données sont envoyées à votre serveur à l’aide de la méthode GET ou POST.
    Si nous avons généré <formulaire> ne contient pas d’attribut de méthode, le formulaire est envoyé à l’aide de la méthode GET.
  4. Cliquez sur Add .
  5. (Facultatif) Utilisez l’une des méthodes suivantes :

Modification d’une définition de formulaire

Vous pouvez modifier une définition de formulaire existante si un formulaire de votre site Web a été modifié ou si vous devez simplement modifier la définition.
Gardez à l’esprit qu’il n’existe aucune History fonction sur la Form Submission page permettant de rétablir les modifications apportées à une définition de formulaire.
Veillez à recréer l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.
Pour modifier une définition de formulaire
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Form Submission .
  2. Sur la Form Submission page, cliquez Edit à droite d’une définition de formulaire à mettre à jour.
  3. Sur la Edit Form Definition page, définissez les options Form Recognition et Form Submission .
  4. Cliquez sur Save Changes .
  5. (Facultatif) Utilisez l’une des méthodes suivantes :

Suppression d’une définition de formulaire

Vous pouvez supprimer une définition de formulaire existante si le formulaire n’existe plus sur votre site Web ou si vous ne souhaitez plus traiter et indexer un formulaire particulier.
Gardez à l’esprit qu’il n’existe aucune History fonction sur la Form Submission page permettant de rétablir les modifications apportées à une définition de formulaire.
Veillez à recréer l’index de votre site afin que les résultats de vos modifications soient visibles par vos clients.
Pour supprimer une définition de formulaire
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Form Submission .
  2. Sur la Form Submission page, cliquez Delete à droite d’une définition de formulaire à supprimer.
    Veillez à choisir la définition de formulaire appropriée à supprimer. Il n’existe pas de boîte de dialogue de confirmation de suppression lorsque vous cliquez Delete dans l’étape suivante.
  3. Sur la Delete Form Definition page, cliquez sur Delete .
  4. (Facultatif) Utilisez l’une des méthodes suivantes :

A propos du connecteur d’index

Utilisez Index Connector pour définir des sources d’entrée supplémentaires pour indexer des pages XML ou tout type de flux.
Vous pouvez utiliser une source d’entrée de flux de données pour accéder au contenu stocké dans un formulaire différent de ce qui est généralement découvert sur un site Web à l’aide de l’une des méthodes d’analyse disponibles. Chaque document analysé et indexé correspond directement à une page de contenu de votre site Web. Cependant, un flux de données provient d’un document XML ou d’un fichier texte délimité par des virgules ou des tabulations et contient les informations de contenu à indexer.
Une source de données XML se compose de normes XML, ou enregistrements, qui contiennent des informations qui correspondent à des documents individuels. Ces documents individuels sont ajoutés à l’index. Un flux de données textuelles contient des enregistrements séparés par une nouvelle ligne qui correspondent à des documents individuels. Ces documents individuels sont également ajoutés à l’index. Dans les deux cas, une configuration de connecteur d’index décrit l’interprétation du flux. Chaque configuration décrit l’emplacement du fichier et la manière dont les serveurs y accèdent. La configuration décrit également les informations de "mappage". C’est-à-dire comment les éléments de chaque enregistrement sont utilisés pour remplir les champs de métadonnées dans l’index résultant.
Après avoir ajouté une définition de Connecteur d’index à la Staged Index Connector Definitions page, vous pouvez modifier n’importe quel paramètre de configuration, à l’exception des valeurs Nom ou Type.
La Index Connector page affiche les informations suivantes :
  • Nom des connecteurs d’index définis que vous avez configurés et ajoutés.
  • L’un des types de source de données suivants pour chaque connecteur que vous avez ajouté :
    • Texte - Fichiers simples "plats", délimités par des virgules, délimités par des tabulations ou autres formats délimités de manière cohérente.
    • Flux - Flux XML.
    • XML - Collections de documents XML.
  • Indique si le connecteur est activé ou non pour l’analyse et l’indexation suivantes effectuées.
  • Adresse de la source de données.

Fonctionnement du processus d’indexation pour les configurations de texte et de flux dans Index Connector

Étape
Processus
Description
1
Téléchargez la source de données.
Pour les configurations de texte et de flux, il s’agit d’un téléchargement de fichier simple.
2
Ventilez la source de données téléchargée en pseudo-documents individuels.
Pour Texte , chaque nouvelle ligne de texte délimité par une ligne correspond à un document individuel et est analysée à l’aide du délimiteur spécifié, tel qu’une virgule ou un tabulation.
Pour le flux , les données de chaque document sont extraites à l’aide d’un modèle d’expression régulière sous la forme suivante :
<${Itemtag}>(.*?)</${Itemtag}>
A l’aide de Map sur la page Index Connector Add , créez une copie mise en cache des données, puis créez une liste de liens pour le moteur de recherche. Les données sont stockées dans un cache local et renseignées avec les champs configurés.
Les données analysées sont écrites dans le cache local.
Ce cache est lu ultérieurement pour créer les documents HTML simples dont le moteur de recherche a besoin. Par exemple :
<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>
L’élément <title> n’est généré que lorsqu’il existe un mappage au champ de métadonnées Titre. De même, l’élément <body> n’est généré que lorsqu’il existe un mappage au champ de métadonnées Body.
Important : Il n’existe aucune prise en charge pour l’affectation de valeurs à la balise meta d’URL prédéfinie.
Pour tous les autres mappages, <meta> balises sont générées pour chaque champ contenant des données dans le document d’origine.
Les champs de chaque document sont ajoutés au cache. Pour chaque document écrit dans le cache, un lien est également généré, comme dans les exemples suivants :
<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....
Le mappage de la configuration doit comporter un champ identifié comme clé principale. Ce mappage forme la clé utilisée lorsque les données sont extraites du cache.
L’analyseur reconnaît l’index d’URL : préfixe de schéma, qui peut ensuite accéder aux données mises en cache localement.
3
Analyse du jeu de documents mis en cache.
Index : les liens sont ajoutés à la liste des liens en attente de l’analyseur et sont traités dans la séquence d’analyse normale.
4
Traitez chaque document.
La valeur de clé de chaque lien correspond à une entrée dans le cache. L’analyse de chaque lien entraîne la récupération des données de ce document à partir du cache. Il est ensuite "assemblé" dans une image HTML qui est traitée et ajoutée à l’index.

Fonctionnement du processus d’indexation pour les configurations XML dans Index Connector

Le processus d’indexation pour la configuration XML est similaire au processus pour les configurations Texte et Flux avec les modifications et exceptions mineures suivantes.
Les documents des analyses XML étant déjà séparés en fichiers individuels, les étapes 1 et 2 du tableau ci-dessus ne s’appliquent pas directement. Si vous spécifiez une URL dans les champs Host Address et File Path de la Index Connector Add page, elle est téléchargée et traitée en tant que document HTML normal. Le document de téléchargement devrait contenir un ensemble de <a href="{url}"... liens, chacun pointant vers un document XML qui est traité. Ces liens sont convertis au format suivant :
<a href="index:<ic_config_name>?url="{url}">

Par exemple, si la configuration d’Adobe renvoyait les liens suivants :
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

Dans le tableau ci-dessus, l’étape 3 ne s’applique pas et l’étape 4 est terminée au moment de l’analyse et de l’indexation.
Vous pouvez également mélanger vos documents XML avec d’autres documents qui ont été découverts naturellement lors du processus d’analyse. Dans ce cas, vous pouvez utiliser des règles de réécriture ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules ) pour modifier les URL des documents XML afin de les diriger vers Index Connector.
Par exemple, supposons que vous ayez la règle de réécriture suivante :
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Cette règle traduit toute URL se terminant par .xml un lien Connecteur d’index. L’analyseur reconnaît et réécrit le schéma index: d’URL. Le processus de téléchargement est redirigé vers le serveur Apache Index Connector sur le serveur maître. Chaque document téléchargé est examiné à l’aide du même modèle d’expression régulière que celui utilisé avec les flux. Dans ce cas, toutefois, le document HTML fabriqué n’est pas enregistré dans le cache. Au lieu de cela, il est transmis directement au moteur de recherche pour le traitement de l’index.

Configuration de plusieurs connecteurs d’index

Vous pouvez définir plusieurs configurations Index Connector pour n’importe quel compte. Les configurations sont automatiquement ajoutées à la liste déroulante dans Settings > Crawl > URL Entrypoints , comme illustré ci-dessous :
La sélection d’une configuration dans la liste déroulante ajoute la valeur à la fin de la liste des points d’entrée d’URL.
Bien que les configurations du connecteur d’index désactivées soient ajoutées à la liste déroulante, vous ne pouvez pas les sélectionner. Si vous sélectionnez la même configuration Index Connector une seconde fois, elle est ajoutée à la fin de la liste et l’instance précédente est supprimée.
Pour spécifier un point d’entrée Connector d’index pour une analyse incrémentielle, vous pouvez ajouter des entrées au format suivant :
index:<indexconnector_configuration_name>

L’analyseur traite chaque entrée ajoutée si elle se trouve sur la page Connecteurs d’index et si elle est activée.
Remarque : L’URL de chaque document étant construite à l’aide du nom de configuration du connecteur d’index et de la clé principale du document, veillez à utiliser le même nom de configuration du connecteur d’index lors des mises à jour incrémentielles ! Cela permet Adobe Search&Promote de mettre correctement à jour les documents indexés précédemment.
Voir aussi A propos des points d’entrée d’URL.
Utilisation des zones de configuration lorsque vous ajoutez un connecteur d’index
Lorsque vous ajoutez un connecteur d’index, vous pouvez éventuellement utiliser cette fonctionnalité Setup Maps pour télécharger un exemple de source de données. Les données sont examinées pour déterminer si l’indexation est appropriée.
Si vous avez choisi le type Connector...
La fonction de configuration des zones...
Texte
Détermine la valeur du délimiteur en essayant d’abord d’utiliser des tabulations, puis des barres verticales ( | ) et enfin des virgules ( , ). Si vous avez déjà spécifié une valeur de délimiteur avant de cliquer sur Configurer les zones , cette valeur est utilisée à la place.
Le modèle adapté permet de remplir les champs de zone cliquable avec des estimations aux valeurs de balise et de champ appropriées. En outre, un échantillon des données analysées s’affiche. Veillez à sélectionner En-têtes dans la première rangée si vous savez que le fichier contient une rangée d’en-tête. La fonction de configuration utilise ces informations pour mieux identifier les entrées de mappage résultantes.
Flux
Télécharge la source de données et effectue une analyse XML simple.
Les identifiants XPath résultants s’affichent dans les lignes Balise du tableau de mappage, et des valeurs similaires dans les champs. Ces lignes identifient uniquement les données disponibles et ne génèrent pas les définitions XPath les plus complexes. Cependant, il est toujours utile, car il décrit les données XML et identifie les valeurs d’Itemtag.
Remarque : La fonction Setup Maps télécharge la source XML entière pour effectuer son analyse. Si le fichier est volumineux, cette opération peut expirer.
En cas de succès, cette fonction identifie tous les éléments XPath possibles, dont beaucoup ne sont pas souhaitables. Vérifiez que vous examinez les définitions de zone cliquable résultantes et supprimez celles dont vous n’avez pas besoin ou que vous ne souhaitez pas.
XML
Télécharge l’URL d’un document individuel représentatif, et non la liste des liens principaux. Ce document unique est analysé à l’aide du même mécanisme que celui utilisé avec les flux et les résultats sont affichés.
Avant de cliquer sur Ajouter pour enregistrer la configuration, veillez à rétablir l’URL dans le document de la liste des liens maître.
Important : La fonction Setup Maps (Mappages de configuration) peut ne pas fonctionner pour les jeux de données XML volumineux, car l’analyseur de fichiers tente de lire l’intégralité du fichier en mémoire. Par conséquent, vous pourriez rencontrer une situation de mémoire insuffisante. Cependant, lorsque le même document est traité au moment de l’indexation, il n’est pas lu en mémoire. Au lieu de cela, les documents volumineux sont traités "en déplacement" et ne sont pas lus entièrement en mémoire.
Utilisation de l’aperçu lorsque vous ajoutez un connecteur d’index
Lorsque vous ajoutez un connecteur d’index, vous pouvez éventuellement utiliser la fonctionnalité Preview pour valider les données, comme si vous les aviez enregistrées. Il exécute un test par rapport à la configuration, mais sans enregistrer la configuration dans le compte. Le test accède à la source de données configurée. Toutefois, il écrit le cache de téléchargement à un emplacement temporaire ; il n’est pas en conflit avec le dossier cache principal utilisé par l’analyseur d’indexation.
L’option Aperçu traite uniquement un document par défaut de cinq, tel que contrôlé par Access:IndexConnector-Preview-Max-Documents. Les documents prévisualisés s’affichent sous forme source, dans la mesure où ils sont présentés au moteur d’indexation. L'affichage est similaire à une fonction "Afficher la source" dans un navigateur Web. Vous pouvez parcourir les documents du jeu d’aperçu à l’aide de liens de navigation standard.
L’aperçu ne prend pas en charge les configurations XML, car ces documents sont traités directement et ne sont pas téléchargés dans le cache.

Ajout d’une définition de connecteur d’index

Chaque configuration du connecteur d’index définit une source de données et des mappages pour relier les éléments de données définis pour cette source aux champs de métadonnées de l’index.
Avant que les effets de la nouvelle définition activée ne soient visibles par les clients, recréez l’index de votre site.
Pour ajouter une définition de connecteur d’index
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector .
  2. Sur la Stage Index Connector Definitions page, cliquez sur Add New Index Connector .
  3. Sur la Index Connector Add page, définissez les options de connecteur de votre choix. Les options disponibles dépendent de l’option Type sélectionnée.
    Option
    Description
    Nom
    Nom unique de la configuration du connecteur d’index. Vous pouvez utiliser des caractères alphanumériques. Les caractères "_" et "-" sont également autorisés.
    Type
    Source de vos données. Le type de source de données que vous sélectionnez affecte les options disponibles sur la page d’ajout du connecteur d’index . Vous pouvez choisir parmi les options suivantes :
    • Texte
      Fichiers de texte aplati simples, formats délimités par des virgules, tabulés ou autres formats délimités de manière cohérente. Chaque ligne de texte délimité par une nouvelle ligne correspond à un document individuel et est analysée à l’aide du délimiteur spécifié.
      Vous pouvez mapper chaque valeur, ou colonne, à un champ de métadonnées, référencé par le numéro de colonne, en commençant par 1 (un).
    • Flux
      Télécharge un document XML maître contenant plusieurs "lignes" d’informations.
    • XML
      Télécharge un document XML original contenant des liens ( <a> ) à des documents XML individuels.
    Type de source de données : Texte
    Activé
    Active l’analyse et l’index de la configuration. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.
    Remarque : Les configurations du connecteur d’index désactivées sont ignorées si elles figurent dans une liste de points d’entrée.
    Adresse de l’hôte
    Indique l’adresse de l’hôte du serveur où se trouvent vos données.
    Si vous le souhaitez, vous pouvez spécifier un chemin d’accès URI complet (Uniform Resource Identifier) au document de source de données, comme dans les exemples suivants :
    https://www.somewhere.com/some_path/some_file.xml
    ou
    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml
    L’URI est ventilé selon les entrées appropriées pour les champs Adresse hôte, Chemin du fichier, Protocole et, éventuellement, Nom d’utilisateur et Mot de passe.
    Indique l’adresse IP ou l’adresse URL du système hôte sur lequel le fichier de source de données est trouvé.
    Chemin du fichier
    Indique le chemin d’accès au fichier de texte plat simple, délimité par des virgules, délimité par des tabulations ou à un autre fichier de format délimité de manière cohérente.
    Le chemin est relatif à la racine de l’adresse hôte.
    Chemin de fichier incrémentiel
    Indique le chemin d’accès au fichier de texte plat simple, délimité par des virgules, délimité par des tabulations ou à un autre fichier de format délimité de manière cohérente.
    Le chemin est relatif à la racine de l’adresse hôte.
    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations d’index incrémentiel. Si aucun fichier n’est spécifié, le fichier répertorié sous Chemin du fichier est utilisé à la place.
    Chemin d’accès vertical au fichier
    Spécifie le chemin d’accès au fichier de texte plat simple, délimité par des virgules, délimité par des tabulations ou à un autre fichier de format délimité de manière cohérente à utiliser lors d’une mise à jour verticale.
    Le chemin est relatif à la racine de l’adresse hôte.
    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations de mise à jour verticale.
    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.
    Supprime le chemin du fichier
    Indique le chemin d’accès au fichier de texte aplati simple, contenant une seule valeur d’identificateur de document par ligne.
    Le chemin est relatif à la racine de l’adresse hôte.
    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations d’index incrémentiel. Les valeurs trouvées dans ce fichier sont utilisées pour créer des requêtes "delete" afin de supprimer des documents indexés précédemment. Les valeurs de ce fichier doivent correspondre aux valeurs trouvées dans les fichiers Chemin d’accès au fichier complet ou incrémentiel, dans la colonne identifiée comme clé principale .
    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.
    Protocole
    Spécifie le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :
    • HTTP
      Si nécessaire, vous pouvez saisir les informations d’identification d’authentification appropriées pour accéder au serveur HTTP.
    • HTTPS
      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.
    • FTP
      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur FTP.
    • SFTP
      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.
    • Fichier
    Expiration
    Spécifie le délai d’expiration, en secondes, pour les connexions FTP, SFTP, HTTP ou HTTPS. Cette valeur doit être comprise entre 30 et 300.
    Reprises
    Indique le nombre maximal de tentatives pour les connexions FTP, SFTP, HTTP ou HTTPS ayant échoué. Cette valeur doit être comprise entre 0 et 10.
    Une valeur nulle (0) empêche les tentatives de nouvelle tentative.
    Encodage
    Spécifie le système de codage de caractères utilisé dans le fichier de source de données spécifié.
    Délimiteur
    Indique le caractère à utiliser pour délimiter chaque champ du fichier de source de données spécifié.
    La virgule ( , ) est un exemple de délimiteur. La virgule agit comme un délimiteur de champ qui permet de séparer les champs de données dans le fichier de source de données spécifié.
    Sélectionner un onglet ? pour utiliser le caractère de tabulation horizontale comme délimiteur.
    En-têtes de première ligne
    Indique que la première ligne du fichier de source de données contient uniquement des informations d’en-tête et non des données.
    Nombre minimum de documents pour l’indexation
    S’il est défini sur une valeur positive, il indique le nombre minimum d’enregistrements attendus dans le fichier téléchargé. Si moins d’enregistrements sont reçus, l’opération d’index est abandonnée.
    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.
    Remarque : Cette fonction est uniquement utilisée lors des opérations d’index complètes.
    Carte
    Indique les mappages colonne/métadonnées, à l’aide des numéros de colonne.
    • Colonne
      Spécifie un numéro de colonne, la première colonne étant 1 (un). Pour ajouter de nouvelles lignes de mappage pour chaque colonne, sous Action , cliquez sur + .
      Il n’est pas nécessaire de référencer chaque colonne de la source de données. Vous pouvez plutôt choisir d’ignorer les valeurs.
    • Champ
      Définit la valeur d’attribut name utilisée pour chaque balise <meta> générée.
    • Métadonnées?
      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actuel.
      La valeur de champ peut être un champ de métadonnées non défini, le cas échéant. Un champ de métadonnées non défini est parfois utile pour créer le contenu utilisé par le script de filtrage .
      Lorsque Index Connector traite des documents XML avec plusieurs accès sur un champ de mappage, les valeurs multiples sont concaténées dans une seule valeur dans le document mis en cache résultant. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur de virgule. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, ce champ a l’ attribut Listes autorisées . Dans ce cas, la valeur Délimiteurs de liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.
    • Clé primaire?
      Une seule définition de mappage est identifiée comme clé principale. Ce champ devient la référence unique présentée lorsque ce document est ajouté à l’index. Cette valeur est utilisée dans l’URL du document dans l’index.
      Les valeurs de clé principale doivent être uniques dans tous les documents représentés par la configuration du connecteur d’index. Les doublons rencontrés seront ignorés. Si vos documents source ne contiennent pas une seule valeur unique à utiliser comme clé principale , mais que deux ou plusieurs champs pris ensemble peuvent former un identifiant unique, vous pouvez définir la clé principale en combinant plusieurs valeurs de de colonnes avec une barre verticale ("|") délimitant les valeurs.
    • Bande du code HTML ?
      Lorsque cette option est cochée, toutes les balises HTML trouvées dans les données de ce champ sont supprimées.
    • Action
      Permet d’ajouter des lignes au mappage ou de supprimer des lignes du mappage. L’ordre des rangées n’est pas important.
    Type de source de données : Flux
    Activé
    Active l’analyse et l’index de la configuration. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.
    Remarque : Les configurations du connecteur d’index désactivées sont ignorées si elles figurent dans une liste de points d’entrée.
    Adresse de l’hôte
    Indique l’adresse IP ou l’adresse URL du système hôte sur lequel le fichier de source de données est trouvé.
    Chemin du fichier
    Spécifie le chemin d’accès au document XML maître qui contient plusieurs "lignes" d’informations.
    Le chemin est relatif à la racine de l’adresse hôte.
    Chemin de fichier incrémentiel
    Spécifie le chemin d’accès au document XML incrémentiel qui contient plusieurs "lignes" d’informations.
    Le chemin est relatif à la racine de l’adresse hôte.
    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations d’index incrémentiel. Si aucun fichier n’est spécifié, le fichier répertorié sous Chemin du fichier est utilisé à la place.
    Chemin d’accès vertical au fichier
    Spécifie le chemin d’accès au document XML qui contient plusieurs "lignes" d’informations éparses à utiliser lors d’une mise à jour verticale.
    Le chemin est relatif à la racine de l’adresse hôte.
    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations de mise à jour verticale.
    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.
    Supprime le chemin du fichier
    Indique le chemin d’accès au fichier de texte aplati simple, contenant une seule valeur d’identificateur de document par ligne.
    Le chemin est relatif à la racine de l’adresse hôte.
    Ce fichier, s’il est spécifié, est téléchargé et traité lors des opérations d’index incrémentiel. Les valeurs trouvées dans ce fichier sont utilisées pour créer des requêtes "delete" afin de supprimer des documents indexés précédemment. Les valeurs de ce fichier doivent correspondre aux valeurs trouvées dans les fichiers Chemin d’accès au fichier complet ou incrémentiel, dans la colonne identifiée comme clé principale .
    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.
    Protocole
    Spécifie le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :
    • HTTP
      Si nécessaire, vous pouvez saisir les informations d’identification d’authentification appropriées pour accéder au serveur HTTP.
    • HTTPS
      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.
    • FTP
      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur FTP.
    • SFTP
      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.
    • Fichier
    Itemtag
    Identifie l’élément XML que vous pouvez utiliser pour identifier des lignes XML individuelles dans le fichier de source de données que vous avez spécifié.
    Par exemple, dans le fragment Flux suivant d’un document Adobe XML, la valeur Itemtag est record :
    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_air.png"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_photoshop.png"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>
    Nombre minimum de documents pour l’indexation
    S’il est défini sur une valeur positive, il indique le nombre minimum d’enregistrements attendus dans le fichier téléchargé. Si moins d’enregistrements sont reçus, l’opération d’index est abandonnée.
    Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.
    Remarque : Cette fonction est uniquement utilisée lors des opérations d’index complètes.
    Carte
    Permet de spécifier des mappages élément-élément-XML/métadonnées à l’aide d’expressions XPath.
    • Baliser
      Spécifie une représentation XPath des données XML analysées. A l’aide de l’exemple de document XML Adobe ci-dessus, sous l’option Itemtag, il peut être mappé à l’aide de la syntaxe suivante :
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      La syntaxe ci-dessus se traduit comme suit :
      • /record/@displayurl&nbsp;->&nbsp;page-url
        L’attribut displayurl de l’ élément d’enregistrement est mappé au champ de métadonnées page-url .
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        L’ attribut de contenu de tout élément de métadonnées contenu contenu dans un élément de métadonnées, contenu dans un élément de d’enregistrement, dont l’attribut de nom est titre , est associé au de titre du champ de métadonnées.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        L’ attribut de contenu de tout élément de métadonnées contenu contenu dans un élément de métadonnées, contenu dans l’élément de d’enregistrement, dont l’attribut de nom est description , correspond au desc du champ de métadonnées.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        L’ attribut de contenu de tout élément de métadonnées contenu contenu dans un élément de métadonnées, contenu dans l’élément de d’enregistrement, dont l’attribut de nom est description , correspond au de corps du champ de métadonnées.
      XPath est une notation relativement compliquée. Pour plus d’informations, consultez l’emplacement suivant :
    • Champ
      Définit la valeur d’attribut name utilisée pour chaque balise générée <meta> .
    • Métadonnées?
      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actuel.
      La valeur de champ peut être un champ de métadonnées non défini, le cas échéant. Un champ de métadonnées non défini est parfois utile pour créer le contenu utilisé par le script de filtrage .
      Lorsque Index Connector traite des documents XML avec plusieurs accès sur un champ de mappage, les valeurs multiples sont concaténées dans une seule valeur dans le document mis en cache résultant. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur de virgule. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, ce champ a l’ attribut Listes autorisées . Dans ce cas, la valeur Délimiteurs de liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.
    • Clé primaire?
      Une seule définition de mappage est identifiée comme clé principale. Ce champ devient la référence unique présentée lorsque ce document est ajouté à l’index. Cette valeur est utilisée dans l’URL du document dans l’index.
      Les valeurs de clé principale doivent être uniques dans tous les documents représentés par la configuration du connecteur d’index. Les doublons rencontrés seront ignorés. Si vos documents source ne contiennent pas une seule valeur unique à utiliser comme clé principale , mais que deux ou plusieurs champs pris ensemble peuvent former un identifiant unique, vous pouvez définir la clé principale en combinant plusieurs définitions de de balises avec une barre verticale ("|") délimitant les valeurs.
    • Bande du code HTML ?
      Lorsque cette option est cochée, toutes les balises HTML trouvées dans les données de ce champ sont supprimées.
    • Utiliser pour la suppression ?
      Utilisé uniquement pendant les opérations d’index incrémentiel. Les enregistrements correspondant à ce modèle XPath identifient les éléments à supprimer. La valeur de clé principale de chaque enregistrement de ce type est utilisée pour créer des requêtes de suppression, comme dans le cas de la suppression du chemin d’accès au fichier.
      Remarque : Cette fonction n’est pas activée par défaut. Contactez le support technique pour activer la fonction à utiliser.
    • Action
      Permet d’ajouter des lignes au mappage ou de supprimer des lignes du mappage. L’ordre des rangées n’est pas important.
    Type de source de données : XML
    Activé
    Active l’analyse et l’index de la configuration. Vous pouvez également désactiver la configuration pour empêcher l’analyse et l’indexation.
    Remarque : Les configurations du connecteur d’index désactivées sont ignorées si elles figurent dans une liste de points d’entrée.
    Adresse de l’hôte
    Indique l’adresse URL du système hôte sur lequel le fichier de source de données est trouvé.
    Chemin du fichier
    Spécifie le chemin d’accès au document XML maître contenant des liens ( <a> ) à des documents XML individuels.
    Le chemin est relatif à la racine de l’adresse hôte.
    Protocole
    Spécifie le protocole utilisé pour accéder au fichier. Vous pouvez choisir parmi les options suivantes :
    • HTTP
      Si nécessaire, vous pouvez saisir les informations d’identification d’authentification appropriées pour accéder au serveur HTTP.
    • HTTPS
      Si nécessaire, vous pouvez entrer les informations d’identification d’authentification appropriées pour accéder au serveur HTTPS.
    • FTP
      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur FTP.
    • SFTP
      Vous devez entrer les informations d’identification d’authentification appropriées pour accéder au serveur SFTP.
    • Fichier
    Remarque : Le paramètre Protocole n’est utilisé que lorsque des informations sont spécifiées dans les champs Adresse hôte et/ou Chemin d’accès au fichier. Les documents XML individuels sont téléchargés à l’aide de HTTP ou HTTPS, conformément à leurs spécifications d’URL.
    Itemtag
    Identifie l’élément XML qui définit une "ligne" dans le fichier de source de données que vous avez spécifié.
    Carte
    Permet de spécifier des mappages colonne/métadonnées à l’aide des numéros de colonne.
    • Baliser
      Spécifie une représentation XPath des données XML analysées. A l’aide de l’exemple de document XML Adobe ci-dessus, sous l’option Itemtag, vous pouvez le mapper à l’aide de la syntaxe suivante :
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      La syntaxe ci-dessus se traduit comme suit :
      • /record/@displayurl&nbsp;->&nbsp;page-url
        L’attribut displayurl de l’ élément d’enregistrement est mappé au champ de métadonnées page-url .
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        L’ attribut de contenu de tout élément de métadonnées contenu contenu dans un élément de métadonnées, contenu dans un élément de d’enregistrement, dont l’attribut de nom est titre , est associé au de titre du champ de métadonnées.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        L’ attribut de contenu de tout élément de métadonnées contenu contenu dans un élément de métadonnées, contenu dans l’élément de d’enregistrement, dont l’attribut de nom est description , correspond au desc du champ de métadonnées.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        L’ attribut de contenu de tout élément de métadonnées contenu contenu dans un élément de métadonnées, contenu dans l’élément de d’enregistrement, dont l’attribut de nom est description , correspond au de corps du champ de métadonnées.
      XPath est une notation relativement compliquée. Pour plus d’informations, consultez l’emplacement suivant :
    • Champ
      Définit la valeur d’attribut name utilisée pour chaque balise <meta> générée.
    • Métadonnées?
      Le champ devient une liste déroulante à partir de laquelle vous pouvez sélectionner des champs de métadonnées définis pour le compte actuel.
      La valeur de champ peut être un champ de métadonnées non défini, le cas échéant. Un champ de métadonnées non défini est parfois utile pour créer le contenu utilisé par le script de filtrage .
      Lorsque Index Connector traite des documents XML avec plusieurs accès sur un champ de mappage, les valeurs multiples sont concaténées dans une seule valeur dans le document mis en cache résultant. Par défaut, ces valeurs sont combinées à l’aide d’un délimiteur de virgule. Cependant, supposons que la valeur de champ correspondante soit un champ de métadonnées défini. En outre, ce champ a l’ attribut Listes autorisées . Dans ce cas, la valeur Délimiteurs de liste du champ, qui est le premier délimiteur défini, est utilisée dans la concaténation.
    • Clé primaire?
      Une seule définition de mappage est identifiée comme clé principale. Ce champ devient la référence unique présentée lorsque ce document est ajouté à l’index. Cette valeur est utilisée dans l’URL du document dans l’index.
      Les valeurs de clé principale doivent être uniques dans tous les documents représentés par la configuration du connecteur d’index. Les doublons rencontrés seront ignorés. Si vos documents source ne contiennent pas une seule valeur unique à utiliser comme clé principale , mais que deux ou plusieurs champs pris ensemble peuvent former un identifiant unique, vous pouvez définir la clé principale en combinant plusieurs définitions de de balises avec une barre verticale ("|") délimitant les valeurs.
    • Bande du code HTML ?
      Lorsque cette option est cochée, toutes les balises HTML trouvées dans les données de ce champ sont supprimées.
    • Action
      Permet d’ajouter des lignes au mappage ou de supprimer des lignes du mappage. L’ordre des rangées n’est pas important.
  4. (Facultatif) Cliquez sur Setup Maps pour télécharger un exemple de source de données. Les données sont examinées pour déterminer si l’indexation est appropriée. Cette fonctionnalité est disponible uniquement pour le texte et les types de flux.
  5. (Facultatif) Cliquez sur Preview pour tester le fonctionnement réel de la configuration. Cette fonctionnalité est disponible uniquement pour le texte et les types de flux.
  6. Cliquez sur Add pour ajouter la configuration à la Index Connector Definitions page et à la liste Index Connector Configurations déroulante de la URL Entrypoints page.
    Voir A propos des points d’entrée d’URL.
  7. Sur la Index Connector Definitions page, cliquez sur rebuild your staged site index .
  8. (Facultatif) Sur la Index Connector Definitions page, effectuez l’une des opérations suivantes :

Modification d’une définition de connecteur d’index

Vous pouvez modifier un connecteur d’index existant que vous avez défini.
Vous ne pouvez pas modifier toutes les options, telles que Nom du connecteur d’index ou Type dans la liste Type déroulante.
Pour modifier une définition du connecteur d’index
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector .
  2. Dans la Index Connector page, sous l’en-tête de Actions colonne, cliquez Edit sur le nom de définition d’un connecteur d’index dont vous souhaitez modifier les paramètres.
  3. Sur la Index Connector Edit page, définissez les options de votre choix.
    Voir le tableau des options sous Ajout d’une définition de connecteur d’index.
  4. Cliquez sur Save Changes .
  5. (Facultatif) Sur la Index Connector Definitions page, cliquez sur rebuild your staged site index .
  6. (Facultatif) Sur la Index Connector Definitions page, effectuez l’une des opérations suivantes :

Affichage des paramètres d’une définition de connecteur d’index

Vous pouvez consulter les paramètres de configuration d’une définition de connecteur d’index existante.
Une fois la définition du connecteur d’index ajoutée à la Index Connector Definitions page, vous ne pouvez plus modifier son paramètre Type. Vous devez supprimer la définition, puis en ajouter une nouvelle.
Pour afficher les paramètres d’une définition d’Index Connector
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector .
  2. Sur la Index Connector page, sous l’en-tête de Actions colonne, cliquez Edit sur le nom de définition d’un connecteur d’index dont vous souhaitez vérifier ou modifier les paramètres.

Copie d’une définition de connecteur d’index

Vous pouvez copier une définition de Connecteur d’index existante pour l’utiliser comme base d’un nouveau Connecteur d’index que vous souhaitez créer.
Lors de la copie d’une définition du connecteur d’index, la définition copiée est désactivée par défaut. Pour activer ou "activer" la définition, vous devez la modifier à partir de la Index Connector Edit page, puis sélectionner Enable .
Voir Modification d’une définition du connecteur d’index.
Pour copier une définition de Connecteur d’index
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector .
  2. Dans la Index Connector page, sous l’en-tête de Actions colonne, cliquez Copy sur le nom de définition d’un connecteur d’index dont vous souhaitez dupliquer les paramètres.
  3. Sur la Index Connector Copy page, saisissez le nouveau nom de la définition.
  4. Cliquez sur Copy .
  5. (Facultatif) Sur la Index Connector Definitions page, effectuez l’une des opérations suivantes :

Changement du nom d’une définition de connecteur d’index

Vous pouvez modifier le nom d’une définition de Connecteur d’index existante.
Après avoir renommé la définition, sélectionnez Settings > Crawling > URL Entrypoints . Vous souhaitez vous assurer que le nouveau nom de définition est reflété dans la liste déroulante de la URL Entrypoints page.
Pour renommer une définition de Connecteur d’index
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector .
  2. Sur la Index Connector page, sous l’en-tête de Actions colonne, cliquez Rename pour le nom de définition du connecteur d’index que vous souhaitez modifier.
  3. Sur la Index Connector Rename page, saisissez le nouveau nom de la définition dans le Name champ.
  4. Cliquez sur Rename .
  5. Cliquez sur Settings > Crawling > URL Entrypoints . Si le nom du connecteur d’index précédent figure dans la liste, supprimez-le et ajoutez l’entrée nouvellement renommée.
    Voir Ajout de plusieurs points d’entrée d’URL à indexer . 1. (Facultatif) Sur la Index Connector Definitions page, effectuez l’une des opérations suivantes :

Suppression d’une définition de connecteur d’index

Vous pouvez supprimer une définition de Connecteur d’index existante dont vous n’avez plus besoin ni utilisée.
Pour supprimer une définition de Connecteur d’index
  1. Dans le menu du produit, cliquez sur Settings > Crawling > Index Connector .
  2. Sur la Index Connector Definitions page, sous l’en-tête de Actions colonne, cliquez Delete pour le nom de définition du connecteur d’index à supprimer.
  3. Sur la Index Connector Delete page, cliquez sur Delete .