Show Menu
ARGOMENTI×

Informazioni sul menu di ricerca per indicizzazione

Utilizzare la data e le maschere URL del set di menu di ricerca per indicizzazione, le password, i tipi di contenuto, le connessioni, le definizioni dei moduli e i punti di ingresso URL.

Informazioni sui punti di ingresso URL

La maggior parte dei siti Web ha un punto di ingresso principale o una home page che il cliente visita inizialmente. Questo punto di ingresso principale è l'indirizzo URL dal quale il robot di ricerca inizia la ricerca per indicizzazione. Tuttavia, se il sito Web contiene più domini o sottodomini oppure se parti del sito non sono collegate dal punto di ingresso principale, potete utilizzare i punti di ingresso URL per aggiungere altri punti di ingresso.
Vengono indicizzate tutte le pagine del sito Web al di sotto di ciascun punto di ingresso URL specificato. Potete combinare punti di immissione URL con maschere per controllare esattamente quali porzioni di un sito Web volete indicizzare. È necessario rigenerare l’indice del sito Web prima che gli effetti delle impostazioni dei punti di accesso URL siano visibili ai clienti.
Il punto di ingresso principale è in genere l’URL del sito Web che si desidera indicizzare e cercare. Questo punto di ingresso principale viene configurato in Impostazioni account.
Consultate Configurazione delle impostazioni dell’account.
Dopo aver specificato il punto di ingresso dell’URL principale, potete specificare facoltativamente altri punti di ingresso che desiderate spostare per indicizzazione in ordine. Nella maggior parte dei casi si specificano punti di ingresso aggiuntivi per le pagine Web che non sono collegate da pagine sotto il punto di ingresso principale. Specificate punti di ingresso aggiuntivi quando il sito Web si estende su più domini, come nell’esempio seguente:
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
È possibile assegnare a ciascun punto di ingresso una o più delle seguenti parole chiave separate da spazi nella tabella seguente. Queste parole chiave influiscono sulla modalità di indicizzazione della pagina.
Importante : Assicurarsi di separare una determinata parola chiave dal punto di ingresso e l'una dall'altra tramite uno spazio; una virgola non è un separatore valido.
Parola chiave
Descrizione
noindex
Se non si desidera indicizzare il testo nella pagina del punto di ingresso, ma si desidera seguire i collegamenti della pagina, aggiungere noindex dopo il punto di ingresso.
Separate la parola chiave dal punto di ingresso con uno spazio come nell'esempio seguente:
https://www.my-additional-domain.com/more_pages/main.html noindex
Questa parola chiave equivale a un tag meta robot con content="noindex" ) tra i <head> ... </head> tag della pagina del punto di ingresso.
nofollow
Se si desidera indicizzare il testo nella pagina del punto di ingresso ma non si desidera seguire i collegamenti della pagina, aggiungere nofollow dopo il punto di ingresso.
Separate la parola chiave dal punto di ingresso con uno spazio come nell'esempio seguente:
https://www.domain.com/not_linked/directory_listing&nbsp;nofollow
Questa parola chiave equivale a un tag meta robot con content="nofollow" un elemento tra <head> ... </head> tag di una pagina punto di ingresso.
form
Quando il punto di ingresso è una pagina di login, form viene in genere utilizzato in modo che il robot di ricerca possa inviare il modulo di login e ricevere i cookie appropriati prima di eseguire la ricerca per indicizzazione del sito Web. Quando si utilizza la parola chiave "form", la pagina del punto di ingresso non viene indicizzata e il robot di ricerca non contrassegna la pagina del punto di ingresso come sottoposta a ricerca per indicizzazione. Utilizzate nofollow se non desiderate che il robot di ricerca segua i collegamenti della pagina.
Consultate anche I tipi di contenuto.
Vedere anche Informazioni sul connettore indice.

Aggiunta di più punti di ingresso URL da indicizzare

Se il sito Web contiene più domini o sottodomini e desiderate che vengano sottoposti a ricerca per indicizzazione, potete utilizzare i punti di ingresso URL per aggiungere altri URL.
Per impostare il punto di accesso dell'URL principale del sito Web, utilizzate le Impostazioni account.
Consultate Configurazione delle impostazioni dell’account.
Per aggiungere più punti di ingresso URL da indicizzare
  1. Nel menu del prodotto, fate clic su Settings > Crawling > URL Entrypoints .
  2. Nella URL Entrypoints pagina, nel Entrypoints campo, immettete un indirizzo URL per riga.
  3. (Facoltativo) Nell'elenco a Add Index Connector Configurations discesa, selezionare un connettore indice da aggiungere come punto di ingresso per l'indicizzazione.
    L'elenco a discesa è disponibile solo se in precedenza sono state aggiunte una o più definizioni di connettore indice.
    Vedere Aggiunta di una definizione del connettore indice.
  4. Clic Save Changes .
  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Le maschere URL

Le maschere URL sono modelli che determinano quale dei vostri siti Web documenta gli indici dei robot di ricerca o meno.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.
Di seguito sono riportati due tipi di maschere URL utilizzabili:
  • Includi maschere URL
  • Escludere le maschere URL
L'inclusione di maschere URL indica al robot di ricerca di indicizzare qualsiasi documento che corrisponda al pattern della maschera.
Le maschere URL di esclusione indicano al robot di ricerca di indicizzare i documenti corrispondenti.
Mentre il robot di ricerca viaggia da un collegamento a un collegamento attraverso il sito Web, incontra gli URL e cerca le maschere che corrispondono a tali URL. La prima corrispondenza determina se includere o escludere tale URL dall’indice. Se nessuna maschera corrisponde a un URL rilevato, tale URL viene eliminato dall'indice.
Includi maschere URL per gli URL del punto di ingresso vengono generati automaticamente. In questo modo tutti i documenti presenti sul sito Web verranno indicizzati. Comodamente si elimina anche con i link che "lasciano" il tuo sito web. Ad esempio, se una pagina indicizzata si collega a https://www.yahoo.com, il robot di ricerca non indicizza tale URL perché non corrisponde alla maschera di inclusione generata automaticamente dall’URL del punto di ingresso.
Ogni maschera URL specificata deve trovarsi su una riga separata.
La maschera può specificare una delle seguenti opzioni:
  • Un percorso completo come in https://www.mydomain.com/products.html .
  • Un percorso parziale come in https://www.mydomain.com/products .
  • URL che utilizza caratteri jolly come in https://www.mydomain.com/*.html .
  • Un'espressione regolare (per utenti avanzati).
    Per rendere una maschera un'espressione regolare, inserite la parola chiave regexp tra il tipo di maschera ( exclude o include ) e la maschera URL.
Di seguito è riportato un semplice esempio di maschera di esclusione URL:
exclude https://www.mydomain.com/photos

Poiché questo esempio è una maschera URL di esclusione, qualsiasi documento che corrisponda al pattern non viene indicizzato. Il pattern corrisponde a qualsiasi elemento rilevato, sia file che cartelle, in modo che https://www.mydomain.com/photos.html e https://www.mydomain.com/photos/index.html , entrambi corrispondenti all'URL di esclusione, non siano indicizzati. Per far corrispondere solo i file nella /photos/ cartella, la maschera URL deve contenere una barra finale, come nell’esempio seguente:
exclude https://www.mydomain.com/photos/

L'esempio di maschera di esclusione seguente utilizza una carattere jolly. Indica al robot di ricerca di ignorare i file con l'estensione ".pdf". Il robot di ricerca non aggiunge questi file all'indice.
exclude *.pdf

Una semplice maschera URL include è la seguente:
include https://www.mydomain.com/news/

Vengono indicizzati solo i documenti collegati tramite una serie di collegamenti da un punto di ingresso dell’URL o utilizzati come punto di ingresso dell’URL. L'elenco esclusivo dell'URL di un documento come maschera URL inclusa non indicizza alcun documento non collegato. Per aggiungere documenti non collegati all’indice, potete usare la funzione Punti di ingresso URL.
Consultate I punti di ingresso URL.
L’inclusione di maschere e l’esclusione di maschere possono funzionare insieme. Potete escludere un’ampia parte del sito Web dall’indicizzazione creando una maschera URL esclusa e tuttavia includendo una o più delle pagine escluse con una maschera URL inclusa. Ad esempio, supponete che l’URL del punto di ingresso sia il seguente:
https://www.mydomain.com/photos/

Il robot di ricerca si sposta per indicizzazione e indicizza tutte le pagine sotto /photos/summer/ , /photos/spring/ e /photos/fall/ (supponendo che ci siano collegamenti ad almeno una pagina in ogni directory dalla photos cartella). Questo comportamento si verifica perché i percorsi di collegamento consentono al robot di ricerca di trovare i documenti nelle cartelle /summer/ , /spring/ , /fall/ e gli URL delle cartelle e corrispondono alla maschera di inclusione generata automaticamente dall’URL del punto di ingresso.
Potete scegliere di escludere tutte le pagine della /fall/ cartella con una maschera URL di esclusione, come nell’esempio di seguito:
exclude https://www.mydomain.com/photos/fall/

Oppure, includete solo /photos/fall/redleaves4.html come parte dell’indice con la seguente maschera URL:
include https://www.mydomain.com/photos/fall/redleaves4.html

Affinché i due esempi di maschera di cui sopra funzionino come previsto, la maschera di inclusione è elencata per prima, come illustrato di seguito:
include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Poiché il robot di ricerca segue le indicazioni nell'ordine in cui sono elencate, il robot di ricerca prima include /photos/fall/redleaves4.html , e poi esclude il resto dei file nella /fall cartella.
Se le istruzioni sono specificate nel modo opposto come indicato di seguito:
exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

Non /photos/fall/redleaves4.html è incluso, anche se la maschera specifica che è incluso.
Una maschera URL che viene visualizzata per prima ha sempre la precedenza su una maschera URL che viene visualizzata successivamente nelle impostazioni della maschera. Inoltre, se il robot di ricerca rileva una pagina che corrisponde a una maschera URL di inclusione e a una maschera URL di esclusione, la maschera elencata per prima ha sempre la precedenza.

Utilizzo delle parole chiave con le maschere URL

È possibile qualificare ciascuna maschera con una o più parole chiave separate da spazi, che influiscono sulla modalità di indicizzazione delle pagine corrispondenti.
Una virgola non è valida come separatore tra la maschera e la parola chiave; potete usare solo degli spazi.
Parola chiave
Descrizione
noindex
Se non si desidera indicizzare il testo sulle pagine che corrispondono alla maschera URL, ma si desidera seguire i collegamenti delle pagine corrispondenti, aggiungere noindex dopo la maschera URL include. Separate la parola chiave dalla maschera con uno spazio, come nell’esempio di seguito:
include&nbsp;*.swf&nbsp;noindex
L'esempio precedente specifica che il robot di ricerca segue tutti i collegamenti da file con .swf estensione, ma disabilita l'indicizzazione di tutto il testo contenuto in tali file.
La noindex parola chiave è equivalente a un tag meta robot con content="noindex" tra i <head>...</head> tag delle pagine corrispondenti.
nofollow
Se desiderate indicizzare il testo sulle pagine che corrispondono alla maschera URL, ma non volete seguire i collegamenti della pagina corrispondente, aggiungete nofollow dopo la maschera URL di inclusione. Separate la parola chiave dalla maschera con uno spazio, come nell’esempio di seguito:
include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
La nofollow parola chiave è equivalente a un tag meta robot con content="nofollow" tra i <head>...</head> tag delle pagine corrispondenti.
regexp
Utilizzata sia per includere che per escludere le maschere.
Qualsiasi maschera URL preceduta da regexp viene trattata come espressione regolare. Se il robot di ricerca rileva documenti che corrispondono a una maschera URL con espressione regolare esclusa, tali documenti non vengono indicizzati. Se il robot di ricerca rileva documenti che corrispondono a una maschera URL con espressione regolare, tali documenti vengono indicizzati. Ad esempio, supponete di disporre della seguente maschera URL:
exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$
Il robot di ricerca esclude i file corrispondenti, come https://www.mydomain.com/products/page1.html
Se avevi la seguente maschera URL con espressione regolare esclusa:
exclude&nbsp;regexp&nbsp;^.*\?..*$
Il robot di ricerca non deve includere alcun URL contenente un parametro CGI come https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .
Se avete avuto i seguenti elementi includere una maschera URL con espressione regolare:
include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex
Il robot di ricerca segue tutti i collegamenti da file con l'estensione ".swf". La noindex parola chiave specifica inoltre che il testo dei file corrispondenti non è indicizzato.

Aggiunta di maschere URL per indicizzare o non indicizzare parti del sito Web

Potete definire URL Masks le parti del sito Web che desiderate o che non desiderate includere nella ricerca per indicizzazione.
Utilizzate il campo Test URL Mask (Prova maschere URL) per verificare se un documento è incluso o meno dopo l'indicizzazione.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.
Per aggiungere maschere URL per indicizzare o non indicizzare parti del sito Web
  1. Nel menu del prodotto, fate clic su Settings > Crawling > URL Masks .
  2. (Facoltativo) Nella URL Masks pagina, nel Test URL Masks campo, immettete una maschera URL di prova dal sito Web, quindi fate clic su Test .
  3. Nel URL Masks campo, digitate include (per aggiungere un sito Web che si desidera inserire per indicizzazione e ricerca per indicizzazione) oppure digitate exclude (per impedire che un sito Web venga sottoposto a ricerca per indicizzazione e indicizzazione), seguito dall’indirizzo della maschera URL.
    Immettete un indirizzo maschera URL per riga. Esempio:
    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
    
  4. Clic Save Changes .
  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sulle maschere data

Potete utilizzare le maschere data per includere o escludere i file dai risultati di ricerca in base alla pagina del file.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.
Di seguito sono riportati due tipi di maschere data utilizzabili:
  • Includi maschere data ("includi giorni" e "includi data")
    Includi file di indice delle maschere di data con data corrispondente o precedente alla data specificata.
  • Escludere le maschere di data ("giorni di esclusione" e "data di esclusione")
    Escludere i file di indice delle maschere di data con data precedente o alla data specificata.
Per impostazione predefinita, la data del file è determinata dalle informazioni del tag meta. Se non viene trovato alcun tag Meta, la data di un file viene determinata dall’intestazione HTTP ricevuta dal server quando il robot di ricerca scarica un file.
Ogni maschera data specificata deve trovarsi su una riga separata.
La maschera può specificare una delle seguenti opzioni:
  • Un percorso completo come https://www.mydomain.com/products.html
  • Un percorso parziale come https://www.mydomain.com/products
  • Un URL che utilizza caratteri jolly https://www.mydomain.com/*.html
  • Un'espressione regolare. Per rendere una maschera un'espressione regolare, inserite la parola chiave regexp prima dell'URL.
Entrambe le maschere di data includono ed escludono può specificare una data in uno dei due modi seguenti. Le maschere vengono applicate solo se i file corrispondenti sono stati creati alla data specificata o prima di essa:
  1. Numero di giorni. Ad esempio, supponiamo che la maschera data sia la seguente:
    exclude-days 30 https://www.mydomain.com/docs/archive/)
    
    
    Il numero di giorni specificati viene conteggiato di nuovo. Se il file è datato in data o prima della data di arrivo, la maschera viene applicata.
  2. Una data effettiva che utilizza il formato AAAA-MM-GG. Ad esempio, supponiamo che la maschera data sia la seguente:
    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    
    
    Se il documento corrispondente è datato alla data specificata o prima di essa, viene applicata la maschera data.
Di seguito è riportato un semplice esempio di maschera per date di esclusione:
exclude-days 90 https://www.mydomain.com/docs/archive

Poiché si tratta di una maschera data di esclusione, qualsiasi file che corrisponda al pattern non viene indicizzato ed ha 90 giorni o meno. Quando si esclude un documento, il testo non viene indicizzato e non vengono seguiti collegamenti da tale file. Il file viene effettivamente ignorato. In questo esempio, sia i file che le cartelle potrebbero corrispondere al pattern URL specificato. Tenere presente che https://www.mydomain.com/docs/archive.html e che https://www.mydomain.com/docs/archive/index.html corrispondono al pattern e non sono indicizzati se hanno 90 giorni di età o meno. Per far corrispondere solo i file presenti nella /docs/archive/ cartella, la maschera data deve contenere una barra finale, come illustrato di seguito:
exclude-days 90 https://www.mydomain.com/docs/archive/

Le maschere data possono essere utilizzate anche con caratteri jolly. La seguente maschera di esclusione indica al robot di ricerca di ignorare i file con estensione ".pdf" che sono datati il o prima del 2011-02-15. Il robot di ricerca non aggiunge nessun file corrispondente all'indice.
exclude-date 2011-02-15 *.pdf

Includi maschera data ha un aspetto simile, all'indice vengono aggiunti solo i file corrispondenti. L'esempio seguente include maschera data indica al robot di ricerca di indicizzare il testo da qualsiasi file che abbiano zero giorni di età o meno nell' /docs/archive/manual/ 'area del sito Web.
include-days 0 https://www.mydomain.com/docs/archive/manual/

L’inclusione di maschere e l’esclusione di maschere possono funzionare insieme. Ad esempio, potete escludere un’ampia porzione del sito Web dall’indicizzazione creando una maschera per date di esclusione, ma includendo una o più di quelle pagine escluse con una maschera URL di inclusione. Se l’URL di ingresso è il seguente:
https://www.mydomain.com/archive/

Il robot di ricerca ricerca si sposta per indicizzazione e indicizza tutte le pagine sotto /archive/summer/ , /archive/spring/ , e /archive/fall/ (supponendo che ci siano collegamenti ad almeno una pagina in ciascuna cartella dalla archive cartella). Questo comportamento si verifica perché i percorsi di collegamento consentono al robot di ricerca di "trovare" i file nelle /summer/ , /spring/ e /fall/ nelle cartelle e gli URL delle cartelle corrispondono alla maschera di inclusione generata automaticamente dall’URL del punto di ingresso.
Consultate I punti di ingresso URL.
Consultate Configurazione delle impostazioni dell’account.
Potete scegliere di escludere tutte le pagine con più di 90 giorni di età nella /fall/ cartella con una maschera data di esclusione come illustrato di seguito:
exclude-days 90 https://www.mydomain.com/archive/fall/

Potete includere solo in modo selettivo /archive/fall/index.html (indipendentemente dalla data di scadenza, ovvero dalla corrispondenza tra file di 0 giorni o più) come parte dell’indice con la seguente maschera data:
include-days 0 https://www.mydomain.com/archive/fall/index.html

Affinché i due esempi di maschera di cui sopra funzionino come previsto, è necessario elencare prima la maschera di inclusione, come illustrato di seguito:
include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Poiché il robot di ricerca segue le indicazioni nell'ordine in cui sono specificate, il robot di ricerca prima include /archive/fall/index.html , e poi esclude il resto dei file nella /fall cartella.
Se le istruzioni sono specificate nel modo opposto come indicato di seguito:
exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

Non /archive/fall/index.html è incluso, anche se la maschera specifica che dovrebbe essere. Una maschera data che compare per prima ha sempre la precedenza su una maschera data che potrebbe essere visualizzata successivamente nelle impostazioni della maschera. Inoltre, se il robot di ricerca rileva una pagina che corrisponde sia a una maschera data di inclusione che a una maschera data di esclusione, la maschera elencata per prima ha sempre la precedenza.

Utilizzo delle parole chiave con le maschere data

È possibile qualificare ciascuna maschera con una o più parole chiave separate da spazi, che influiscono sulla modalità di indicizzazione delle pagine corrispondenti.
Una virgola non è valida come separatore tra la maschera e la parola chiave; potete usare solo degli spazi.
Parola chiave
Descrizione
noindex
Se non si desidera indicizzare il testo nelle pagine con data corrispondente o precedente alla data specificata dalla maschera di inclusione, aggiungere noindex dopo la maschera di data di inclusione come illustrato di seguito:
include-days&nbsp;10&nbsp;*.swf&nbsp;noindex
Separate la parola chiave dalla maschera con uno spazio.
L'esempio precedente specifica che il robot di ricerca segue tutti i collegamenti da file con estensione ".swf" che hanno un'età di 10 giorni o più. Tuttavia, disabilita l'indicizzazione di tutto il testo contenuto in tali file.
Potete verificare che il testo per i file meno recenti non sia indicizzato ma segua comunque tutti i collegamenti da tali file. In questi casi, utilizzate una maschera data di inclusione con la parola chiave "noindex" invece di usare una maschera data di esclusione.
nofollow
Se desiderate indicizzare il testo sulle pagine con data corrispondente o precedente alla data specificata dalla maschera di inclusione, ma non desiderate seguire i collegamenti della pagina corrispondente, aggiungete nofollow dopo la maschera data di inclusione come segue:
include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
Separate la parola chiave dalla maschera con uno spazio.
La nofollow parola chiave equivale a un tag meta robot con content="nofollow" un tag tra i <head>...</head> tag delle pagine corrispondenti.
data server
Utilizzata sia per includere che per escludere le maschere.
Il robot di ricerca in genere scarica e analizza ogni file prima di controllare le maschere data. Questo comportamento si verifica perché alcuni tipi di file possono specificare una data all'interno del file stesso. Ad esempio, un documento HTML può includere tag meta che impostano la data del file.
Se si desidera escludere molti file in base alla data e non si desidera caricare un carico inutile sui server, è possibile utilizzare server-date dopo l'URL nella maschera data.
Questa parola chiave indica al robot di ricerca di considerare attendibile la data del file restituito dal server invece di analizzare ciascun file. Ad esempio, la maschera data di esclusione seguente ignora le pagine che corrispondono all’URL se i documenti sono di 90 giorni o più, in base alla data restituita dal server nelle intestazioni HTTP:
exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date
Se la data restituita dal server supera i 90 giorni, server-date specifica che i documenti esclusi non possono essere scaricati dal server. Ciò comporta tempi di indicizzazione più rapidi per i documenti e un carico ridotto sui server. Se non server-date viene specificato, il robot di ricerca ignora la data restituita dal server nelle intestazioni HTTP. Al contrario, ogni file viene scaricato e controllato per verificare se la data è specificata. Se nel file non è specificata alcuna data, il robot di ricerca utilizza la data restituita dal server.
Non utilizzare server-date se i file contengono comandi che ignorano la data del server.
regexp
Utilizzate sia per includere che escludere le maschere.
Qualsiasi maschera data preceduta da regexp viene trattata come espressione regolare.
Se il robot di ricerca rileva file che corrispondono a una maschera data con espressione regolare esclusa, non indicizza tali file.
Se il robot di ricerca rileva file che corrispondono a una maschera data con espressione regolare, indicizza tali documenti.
Ad esempio, si supponga di disporre della maschera data seguente:
exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*
La maschera indica al robot di ricerca di escludere i file corrispondenti di almeno 180 giorni. ovvero file che contengono la parola "archivio" nell’URL.

Aggiunta di maschere data per indicizzare o non indicizzare parti del sito Web

Potete utilizzare le maschere data per includere o escludere i file dai risultati della ricerca dei clienti in base all’età dei file.
Utilizzare i campi Test Date e Test URL per verificare se un file è incluso o meno dopo l'indicizzazione.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle maschere URL siano visibili ai clienti.
Per aggiungere maschere di data per indicizzare o non indicizzare parti del sito Web
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Date Masks .
  2. (Facoltativo) Sulla Date Masks pagina, nel Test Date campo, immettere una data formattata come AAAA-MM-GG (ad esempio, 2011-07-25 ); nel Test URL campo, inserite una maschera URL dal sito Web e fate clic su Test .
  3. Nel Date Masks campo, immettere un indirizzo maschera data per riga.
  4. Clic Save Changes .
  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sulle password

Per accedere a porzioni del sito Web protette dall'autenticazione di base HTTP, potete aggiungere una o più password.
Prima che gli effetti delle impostazioni Password siano visibili ai clienti, dovete ricreare l'indice del sito.
Sulla Passwords pagina, digitate ogni password su una sola riga. La password è composta da un URL o un realm, un nome utente e una password, come nell'esempio seguente:
https://www.mydomain.com/ myname mypassword

Invece di usare un percorso URL, come sopra, potete anche specificare un realm.
Per determinare l'area di autenticazione corretta da utilizzare, aprire una pagina Web protetta da password con un browser e consultare la finestra di dialogo "Immettere la password di rete".
Il nome dell'area di autenticazione, in questo caso, è "Area del sito personale".
Utilizzando il nome dell'area di autenticazione riportato sopra, la password potrebbe essere simile a quella riportata di seguito:
My Site Realm myusername mypassword

Se il sito Web ha più aree di autenticazione, è possibile creare più password immettendo un nome utente e una password per ogni area di autenticazione su una riga separata, come nell'esempio seguente:
Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

È possibile utilizzare password che contengono URL o aree di autenticazione diverse, in modo che l'elenco delle password abbia l'aspetto seguente:
Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

Nell'elenco di cui sopra, viene utilizzata la prima password che contiene un realm o un URL corrispondente alla richiesta di autenticazione del server. Anche se il file in https://www.mysite.com/path1/path2/index.html è in Realm3 , ad esempio, name2 e password2 viene utilizzato perché la password definita con l'URL è elencata sopra quella definita con l'area di autenticazione.

Aggiunta di password per accedere alle aree del sito Web che richiedono l’autenticazione

Potete utilizzare Password per accedere alle aree protette da password del sito Web a scopo di ricerca per indicizzazione e indicizzazione.
Prima che gli effetti della password siano visibili ai clienti, accertatevi di ricreare l'indice del sito
Aggiunta di password per l'accesso alle aree del sito Web che richiedono l'autenticazione
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Passwords .
  2. Nella Passwords pagina, nel Passwords campo, immettete un realm o un URL e il nome utente e la password associati, separati da uno spazio.
    Esempio di password di un realm e di una password URL su righe separate:
    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    
    
    Aggiungete una sola password per riga.
  3. Clic Save Changes .
  4. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sui tipi di contenuto

È possibile utilizzare Content Types per selezionare i tipi di file da cercare per indicizzazione e indicizzazione per l'account.
I tipi di contenuto che è possibile scegliere per la ricerca per indicizzazione e per indicizzazione includono documenti PDF, documenti di testo, filmati Flash di Adobe, file da applicazioni Microsoft Office come Word, Excel e Powerpoint e testo in file MP3. Il testo che si trova all’interno dei tipi di contenuto selezionati viene cercato insieme a tutto il testo presente nel sito Web.
Prima che gli effetti delle impostazioni Tipi di contenuto siano visibili ai clienti, dovete ricreare l'indice del sito.

Informazioni sull'indicizzazione di file musicali MP3

Se selezionate l'opzione Text in MP3 Music Files sulla Content Types pagina, un file MP3 viene sottoposto a ricerca per indicizzazione in uno dei due modi disponibili. Il primo e più comune metodo è rappresentato da un tag href di ancoraggio in un file HTML come illustrato di seguito:
<a href="MP3-file-URL"></a>

Il secondo modo consiste nell’inserire l’URL del file MP3 come punto di ingresso dell’URL.
Consultate I punti di ingresso URL.
Un file MP3 viene riconosciuto dal tipo MIME "audio/mpeg".
Tenete presente che le dimensioni dei file musicali MP3 possono essere piuttosto grandi, anche se in genere contengono solo una piccola quantità di testo. Ad esempio, i file MP3 possono memorizzare facoltativamente elementi quali il nome dell'album, il nome dell'artista, il titolo della canzone, il genere della canzone, l'anno di rilascio e un commento. Queste informazioni vengono memorizzate alla fine del file in quello che viene chiamato TAG. I file MP3 contenenti informazioni TAG sono indicizzati nel modo seguente:
  • Il titolo del brano viene trattato come il titolo di una pagina HTML.
  • Il commento viene trattato come una descrizione definita per una pagina HTML.
  • Il genere viene trattato come una parola chiave definita per una pagina HTML.
  • Il nome dell'artista, il nome dell'album e l'anno di rilascio vengono trattati come il corpo di una pagina HTML.
Ogni file MP3 che viene sottoposto a ricerca per indicizzazione e con scorrimento nel sito Web viene contato come una pagina.
Se il sito Web contiene molti file MP3 di grandi dimensioni, potete superare il limite di byte di indicizzazione per il vostro account. In questo caso, potete deselezionare Text in MP3 Music Files sulla Content Types pagina per impedire l’indicizzazione di tutti i file MP3 sul sito Web.
Se desiderate solo impedire l’indicizzazione di alcuni file MP3 sul vostro sito Web, potete effettuare una delle seguenti operazioni:
  • Circondare i tag di ancoraggio che collegano ai file MP3 con <nofollow> tag e </nofollow> tag. Il robot di ricerca non segue i collegamenti tra tali tag.
  • Aggiungete gli URL dei file MP3 come maschere di esclusione.
    Consultate Le maschere URL.

Selezione dei tipi di contenuto per la ricerca per indicizzazione e l'indicizzazione

È possibile utilizzare Content Types per selezionare i tipi di file da cercare per indicizzazione e indicizzazione per l'account.
I tipi di contenuto che è possibile scegliere per la ricerca per indicizzazione e per indicizzazione includono documenti PDF, documenti di testo, filmati Flash di Adobe, file da applicazioni Microsoft Office come Word, Excel e Powerpoint e testo in file MP3. Il testo che si trova all’interno dei tipi di contenuto selezionati viene cercato insieme a tutto il testo presente nel sito Web.
Prima che gli effetti delle impostazioni Tipi di contenuto siano visibili ai clienti, dovete ricreare l'indice del sito.
Per eseguire ricerche per indicizzazione e indicizzazione di file MP3 cinesi, giapponesi o coreani, completare i passaggi descritti di seguito. Quindi, in Settings > Metadata > Injections , specificate il set di caratteri utilizzato per codificare i file MP3.
Per selezionare i tipi di contenuto da sottoporre a ricerca per indicizzazione e
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Content Types .
  2. Nella Content Types pagina, controlla i tipi di file che desideri cercare per indicizzazione e indicizzare sul tuo sito Web.
  3. Clic Save Changes .
  4. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sulle connessioni

È possibile utilizzare Connessioni per aggiungere fino a dieci connessioni HTTP utilizzate dal robot di ricerca per indicizzare il sito Web.
Aumentare il numero di connessioni può ridurre notevolmente il tempo necessario per completare una ricerca per indicizzazione e un indice. Tuttavia, tenete presente che ogni connessione aggiuntiva aumenta il carico sul server.

Aggiunta di connessioni per aumentare la velocità di indicizzazione

È possibile ridurre il tempo necessario per indicizzare il sito Web utilizzando Connessioni per aumentare il numero di connessioni HTTP simultanee utilizzate dal crawler. È possibile aggiungere fino a dieci connessioni.
Tenete presente che ogni connessione aggiuntiva aumenta il carico inserito sul server.
Per aggiungere connessioni per aumentare la velocità di indicizzazione
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Connections .
  2. Nella Parallel Indexing Connections pagina, nel Number of Connections campo, immettere il numero di connessioni (1-10) che si desidera aggiungere.
  3. Clic Save Changes .
  4. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sull'invio del modulo

È possibile utilizzare l'opzione Invia modulo per riconoscere ed elaborare i moduli sul sito Web.
Durante la ricerca per indicizzazione e l'indicizzazione del sito Web, ogni modulo rilevato viene confrontato con le definizioni del modulo aggiunte. Se un modulo corrisponde alla definizione di un modulo, il modulo viene inviato per l'indicizzazione. Se un modulo corrisponde a più definizioni, viene inviato una volta per ciascuna definizione corrispondente.

Aggiunta di definizioni di moduli per l'indicizzazione di moduli nel sito Web

È possibile utilizzare Form Submission per elaborare moduli riconosciuti sul sito Web a scopo di indicizzazione.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.
Aggiunta di definizioni di moduli per l'indicizzazione dei moduli nel sito Web
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Form Submission .
  2. Sulla Form Submission pagina, fate clic su Add New Form .
  3. Nella Add Form Definition pagina, impostate le Form Recognition opzioni e Form Submission .
    Le cinque opzioni della Form Recognition sezione della Form Definition pagina consentono di identificare i moduli nelle pagine Web che possono essere elaborati.
    Le tre opzioni della Form Submission sezione vengono utilizzate per specificare i parametri e i valori inviati con un modulo al server Web.
    Immettere un parametro di riconoscimento o di invio per riga. Ogni parametro deve includere un nome e un valore.
    Opzione
    Descrizione
    Riconoscimento dei moduli
    Maschera URL pagina
    Identificare la pagina Web o le pagine che contengono il modulo. Per identificare un modulo che viene visualizzato su una singola pagina, immettete l’URL della pagina come nell’esempio seguente:
    https://www.mydomain.com/login.html
    Per identificare i moduli che vengono visualizzati su più pagine, specificare una maschera URL che utilizza i caratteri jolly per descrivere le pagine. Per identificare i moduli rilevati in qualsiasi pagina ASP, https://www.mydomain.com/register/ ad esempio, è necessario specificare quanto segue:
    https://www.mydomain.com/register/*.asp&nbsp;
    È inoltre possibile utilizzare un'espressione regolare per identificare più pagine. È sufficiente specificare la regexp parola chiave prima della maschera URL come nell'esempio seguente:
    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$
    URL azione
    Identifica l’attributo action del <form> tag.
    Come la maschera URL pagina, la maschera URL azione può assumere la forma di un singolo URL, un URL con caratteri jolly o un'espressione regolare.
    La maschera URL può essere una delle seguenti:
    • Un percorso completo come nel seguente: https://www.mydomain.com/products.html
    • Un percorso parziale come nel seguente: https://www.mydomain.com/products
    • Un URL che utilizza caratteri jolly come illustrato di seguito: https://www.mydomain.com/*.html
    • Un'espressione regolare come nell'esempio seguente: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$
    Se non si desidera indicizzare il testo su pagine identificate da una maschera URL o da una maschera URL azione, oppure se non si desidera che i collegamenti siano seguiti su tali pagine, è possibile utilizzare le noindex e nofollow le parole chiave. Potete aggiungere queste parole chiave alle maschere utilizzando maschere URL o punti di ingresso.
    Consultate Le Maschere URL .
    Maschera nome modulo
    Identifica i moduli se i <form> tag presenti nelle pagine Web contengono un attributo nome.
    Potete utilizzare un nome semplice ( login_form ), un nome con un carattere jolly ( form* ) o un'espressione regolare ( regexp ^.*authorize.*$ ).
    In genere è possibile lasciare vuoto questo campo perché i moduli in genere non hanno un attributo nome.
    Maschera ID modulo
    Identifica i moduli se i <form> tag presenti nelle pagine Web contengono un attributo id.
    Potete utilizzare un nome semplice ( login_form ), un nome con un carattere jolly ( form* ) o un'espressione regolare ( regexp ^.*authorize.*$ ).
    In genere è possibile lasciare vuoto questo campo perché i moduli in genere non hanno un attributo nome.
    Parametri
    Identificare i moduli che contengono o non contengono parametri denominati con un valore specifico.
    Ad esempio, per identificare un modulo che contiene un parametro e-mail preimpostato su rick_brough@mydomain.com, un parametro password, ma non un parametro first-name, è necessario specificare le seguenti impostazioni di parametro, una per riga:
    email=rick_brough@mydomain.com password not first-name
    Invio modulo
    URL azione di esclusione
    Specificare se la destinazione dell'invio del modulo è diversa da quella specificata nell'attributo action del modulo.
    Ad esempio, è possibile utilizzare questa opzione quando il modulo viene inviato tramite una funzione JavaScript che crea un valore URL diverso da quello trovato nel modulo.
    Metodo Override
    Specificare quando la destinazione dell'invio del modulo è diversa da quella utilizzata nell'attributo action del modulo e quando il codice JavaScript di invio ha modificato il metodo.
    I valori predefiniti per tutti i parametri del modulo ( <input> tag, inclusi campi nascosti), per quelli predefiniti <option> di un <select> tag e per il testo predefinito tra <textarea>...</textarea> i tag) vengono letti dalla pagina Web. Tuttavia, qualsiasi parametro elencato nella sezione Invio modulo , nel campo Parametri, viene sostituito con le impostazioni predefinite del modulo.
    Parametri
    È possibile assegnare un prefisso ai parametri di invio del modulo con la not parola chiave.
    Quando si crea un prefisso per un parametro con not , questo non viene inviato come parte dell'invio del modulo. Questo comportamento è utile per le caselle di controllo che devono essere inviate deselezionate.
    Ad esempio, si supponga di voler inviare i seguenti parametri:
    • Il parametro e-mail con il valore nobody@mydomain.com
    • Il parametro password con il valore tryme
    • Il parametro myCasella di controllo è deselezionato.
    • Tutti gli altri <form> parametri come valori predefiniti
    Il parametro di invio del modulo sarà simile al seguente:
    email=nobody@mydomain.com password=tryme not mycheckbox
    L'attributo metodo del <form> tag sulla pagina Web viene utilizzato per stabilire se i dati vengono inviati al server utilizzando il metodo GET o il metodo POST.
    Se il <form> tag non contiene un attributo del metodo, il modulo viene inviato utilizzando il metodo GET.
  4. Clic Add .
  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Modifica di una definizione di modulo

È possibile modificare una definizione di modulo esistente se un modulo sul sito Web è stato modificato o se è necessario modificarla.
Tenere presente che non esiste History una funzione sulla Form Submission pagina per ripristinare le modifiche apportate a una definizione del modulo.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.
Per modificare una definizione di modulo
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Form Submission .
  2. Sulla Form Submission pagina fare clic Edit a destra della definizione di un modulo da aggiornare.
  3. Nella Edit Form Definition pagina, impostate le Form Recognition opzioni e Form Submission .
  4. Clic Save Changes .
  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Eliminazione di una definizione di modulo

È possibile eliminare una definizione di modulo esistente se il modulo non esiste più sul sito Web o se non si desidera più elaborare e indicizzare un modulo specifico.
Tenere presente che non esiste History una funzione sulla Form Submission pagina per ripristinare le modifiche apportate a una definizione del modulo.
Assicuratevi di rigenerare l’indice del sito in modo che i risultati delle modifiche siano visibili ai clienti.
Per eliminare una definizione di modulo
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Form Submission .
  2. Sulla Form Submission pagina fare clic Delete a destra della definizione di un modulo da rimuovere.
    Assicurarsi di scegliere la definizione corretta del modulo da eliminare. Quando si fa clic Delete nel passaggio successivo non viene visualizzata alcuna finestra di dialogo di conferma.
  3. Sulla Delete Form Definition pagina, fate clic su Delete .
  4. (Facoltativo) Effettuate una delle seguenti operazioni:

Informazioni sul connettore indice

Utilizzare Index Connector per definire origini di input aggiuntive per l'indicizzazione di pagine XML o qualsiasi tipo di feed.
È possibile utilizzare un'origine di input di feed di dati per accedere al contenuto memorizzato in un modulo diverso da quello di solito scoperto in un sito Web utilizzando uno dei metodi disponibili per la ricerca per indicizzazione. Ogni documento sottoposto a ricerca per indicizzazione e indicizzato corrisponde direttamente a una pagina di contenuto del sito Web. Tuttavia, un feed di dati proviene da un documento XML o da un file di testo delimitato da virgole o da tabulazioni e contiene le informazioni sul contenuto da indicizzare.
Un'origine dati XML è costituita da stanzas XML, o record, che contengono informazioni corrispondenti a singoli documenti. Questi singoli documenti vengono aggiunti all’indice. Un feed di dati di testo contiene singoli record delimitati da nuove righe che corrispondono a singoli documenti. All’indice vengono aggiunti anche questi singoli documenti. In entrambi i casi, una configurazione di connettore indice descrive come interpretare il feed. Ogni configurazione descrive la posizione del file e la modalità di accesso dei server. La configurazione descrive anche le informazioni sulla mappatura. In altre parole, in che modo gli elementi di ciascun record vengono utilizzati per compilare i campi di metadati nell'indice risultante.
Dopo aver aggiunto una definizione del connettore indice alla Staged Index Connector Definitions pagina, è possibile modificare qualsiasi impostazione di configurazione, ad eccezione dei valori Nome o Tipo.
La Index Connector pagina mostra le informazioni seguenti:
  • Nome dei connettori di indice definiti configurati e aggiunti dall'utente.
  • Uno dei seguenti tipi di origini dati per ciascun connettore aggiunto:
    • Testo - File semplici, delimitati da virgole, delimitati da tabulazioni o altri formati delimitati in modo coerente.
    • Feed - Feed XML.
    • XML - Raccolte di documenti XML.
  • Indica se il connettore è abilitato o meno per la ricerca per indicizzazione successiva e se l'indicizzazione è stata completata.
  • Indirizzo dell'origine dati.

Funzionamento del processo di indicizzazione per le configurazioni di testo e feed nel connettore indice

Passaggio
Processo
Descrizione
1
Scarica l'origine dati.
Per le configurazioni di testo e feed, si tratta di un semplice download di file.
2
Suddivide l'origine dati scaricata in singoli pseudo-documenti.
Per Testo , ogni riga di testo delimitata da una nuova riga corrisponde a un singolo documento e viene analizzata utilizzando il delimitatore specificato, ad esempio una virgola o una tabulazione.
Per Feed , i dati di ciascun documento vengono estratti utilizzando un pattern di espressione regolare nel seguente modulo:
<${Itemtag}>(.*?)</${Itemtag}>
Utilizzando Mappa nella pagina Aggiungi connettore indice, create una copia memorizzata nella cache dei dati, quindi create un elenco di collegamenti per il crawler. I dati vengono memorizzati in una cache locale e compilati con i campi configurati.
I dati analizzati vengono scritti nella cache locale.
Questa cache viene letta in seguito per creare i documenti HTML semplici necessari al crawler. Ad esempio,
<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>
L'elemento <title> viene generato solo quando esiste una mappatura nel campo di metadati Titolo. Analogamente, l'elemento <body> viene generato solo quando esiste una mappatura nel campo di metadati Body.
Importante : Non è supportato l'assegnazione di valori al tag meta dell'URL predefinito.
Per tutte le altre mappature, vengono generati <meta> tag per ogni campo con dati trovati nel documento originale.
I campi per ciascun documento vengono aggiunti alla cache. Per ogni documento scritto nella cache, viene generato anche un collegamento come negli esempi seguenti:
<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....
La mappatura della configurazione deve avere un campo identificato come Chiave primaria. Questa mappatura costituisce la chiave utilizzata quando i dati vengono estratti dalla cache.
Il crawler riconosce l’ indice URL: il prefisso dello schema, che può quindi accedere ai dati memorizzati nella cache locale.
3
Eseguire la ricerca per indicizzazione del set di documenti memorizzato nella cache.
L' indice: i collegamenti vengono aggiunti all’elenco in sospeso del crawler e vengono elaborati nella normale sequenza di ricerca per indicizzazione.
4
Elabora ogni documento.
Il valore chiave di ciascun collegamento corrisponde a una voce nella cache, pertanto la ricerca per indicizzazione di ciascun collegamento determina il recupero dei dati del documento dalla cache. Viene quindi "assemblato" in un’immagine HTML elaborata e aggiunta all’indice.

Funzionamento del processo di indicizzazione per le configurazioni XML nel connettore indice

Il processo di indicizzazione per la configurazione XML è simile al processo per le configurazioni di testo e feed con le seguenti modifiche ed eccezioni minori.
Poiché i documenti per le ricerche per indicizzazione XML sono già separati in singoli file, i passaggi 1 e 2 della tabella precedente non si applicano direttamente. Se specificate un URL nei campi Host Address e File Path della Index Connector Add pagina, questo viene scaricato ed elaborato come normale documento HTML. Ci si aspetta che il documento di download contenga una raccolta di <a href="{url}"... collegamenti, ciascuno dei quali fa riferimento a un documento XML elaborato. Tali collegamenti sono convertiti nel seguente modulo:
<a href="index:<ic_config_name>?url="{url}">

Ad esempio, se l'impostazione del Adobe restituiva i seguenti collegamenti:
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

Nella tabella precedente, il punto 3 non si applica e il punto 4 è completato al momento della ricerca per indicizzazione e dell'indicizzazione.
In alternativa, è possibile combinare i documenti XML con altri documenti scoperti naturalmente attraverso il processo di ricerca per indicizzazione. In tali casi, è possibile utilizzare le regole di riscrittura ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules ) per modificare gli URL dei documenti XML e indirizzarli a Index Connector.
Consultate Informazioni Sulle Regole Per Il Recupero Degli URL Per L’Elenco Di Ricerca Per indicizzazione.
Ad esempio, supponiamo che si disponga della seguente regola di riscrittura:
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Questa regola converte qualsiasi URL che termina con .xml un collegamento del connettore indice. Il crawler riconosce e riscrive lo schema index: URL. Il processo di download viene reindirizzato attraverso il server Apache del connettore indice sul server principale. Ogni documento scaricato viene esaminato utilizzando lo stesso pattern di espressione regolare utilizzato con Feeds. In questo caso, tuttavia, il documento HTML prodotto non viene salvato nella cache. Viene invece consegnato direttamente al crawler per l’elaborazione dell’indice.

Come configurare più connettori indice

È possibile definire più configurazioni del connettore indice per qualsiasi account. Le configurazioni vengono aggiunte automaticamente all'elenco a discesa in Settings > Crawl > URL Entrypoints , come illustrato nella figura seguente:
Selezionando una configurazione dall’elenco a discesa, il valore viene aggiunto alla fine dell’elenco dei punti di ingresso dell’URL.
Le configurazioni del connettore indice disattivate vengono aggiunte all'elenco a discesa, ma non è possibile selezionarle. Se si seleziona una seconda volta la stessa configurazione del connettore indice, questa viene aggiunta alla fine dell'elenco e l'istanza precedente viene eliminata.
Per specificare un punto di ingresso del connettore indice per una ricerca per indicizzazione incrementale, è possibile aggiungere voci utilizzando il formato seguente:
index:<indexconnector_configuration_name>

Il crawler elabora ogni voce aggiunta se questa si trova nella pagina Connettori indice ed è abilitata.
Nota: Poiché l'URL di ciascun documento è costruito utilizzando il nome di configurazione del connettore indice e la chiave primaria del documento, accertatevi di utilizzare lo stesso nome di configurazione del connettore indice durante l'esecuzione degli aggiornamenti incrementali! In questo modo è possibile Adobe Search&Promote aggiornare correttamente i documenti indicizzati in precedenza.
Consultate anche I punti di ingresso URL.
Utilizzo delle mappe di impostazione quando si aggiunge un connettore indice
Quando si aggiunge un connettore indice, è possibile utilizzare la funzione Setup Maps per scaricare un esempio dell'origine dati. I dati vengono esaminati per verificare l'idoneità all'indicizzazione.
Se si sceglie il tipo di connettore indice...
La funzione Mappe di configurazione...
Testo
Determina il valore del delimitatore provando prima le tabulazioni, poi le barre verticali ( | ) e infine virgole ( , ). Se avete già specificato un valore di delimitazione prima di aver fatto clic su Mappe di installazione , tale valore viene utilizzato.
Lo schema di adattamento ottimale si traduce nella compilazione dei campi Mappa con gli specchietti ai valori appropriati di Tag e Campo. Inoltre, viene visualizzato un esempio dei dati analizzati. Accertatevi di selezionare Intestazioni nella prima riga se si è certi che il file include una riga di intestazione. La funzione di configurazione utilizza queste informazioni per identificare meglio le voci di mappa risultanti.
Feed
Scarica l'origine dati ed esegue un'analisi XML semplice.
Gli identificatori XPath risultanti vengono visualizzati nelle righe Tag della tabella Mappa e valori simili nei campi. Queste righe identificano solo i dati disponibili e non generano le definizioni XPath più complesse. Tuttavia, è ancora utile perché descrive i dati XML e identifica i valori degli elementi tag.
Nota: La funzione Setup Maps scarica l’intera origine XML per eseguire l’analisi. Se il file è di grandi dimensioni, l'operazione potrebbe non riuscire.
In caso di esito positivo, questa funzione identifica tutti gli elementi XPath possibili, molti dei quali non sono desiderabili da utilizzare. Accertatevi di esaminare le definizioni di mappa risultanti e rimuovere quelle non necessarie o desiderate.
XML
Scarica l’URL di un singolo documento rappresentativo, non l’elenco di collegamenti principale. Questo singolo documento viene analizzato utilizzando lo stesso meccanismo utilizzato con i feed, e i risultati vengono visualizzati.
Prima di fare clic su Aggiungi per salvare la configurazione, accertati di ripristinare l’URL nel documento dell’elenco di collegamenti principale.
Importante : La funzione Mappe di installazione potrebbe non funzionare per set di dati XML di grandi dimensioni perché il parser di file tenta di leggere l’intero file in memoria. Di conseguenza, potrebbe verificarsi una condizione di memoria insufficiente. Tuttavia, quando lo stesso documento viene elaborato al momento dell'indicizzazione, non viene letto in memoria. Al contrario, i documenti di grandi dimensioni vengono elaborati "in movimento" e non vengono prima letti completamente nella memoria.
Utilizzo dell'anteprima quando si aggiunge un connettore indice
Quando si aggiunge un connettore indice, è possibile utilizzare la funzione Preview per convalidare i dati, come se li si stesse salvando. Esegue un test rispetto alla configurazione, ma senza salvare la configurazione nell'account. Il test accede all'origine dati configurata. Tuttavia, scrive la cache di download in un percorso temporaneo; non entra in conflitto con la cartella cache principale utilizzata dal crawler di indicizzazione.
Preview elabora solo un predefinito di cinque documenti, come controllato da Acct:IndexConnector-Preview-Max-Documents. I documenti visualizzati in anteprima vengono visualizzati nel modulo di origine, man mano che vengono presentati al crawler di indicizzazione. La visualizzazione è simile alla funzione "Visualizza origine" di un browser Web. Potete spostarvi tra i documenti del set di anteprima utilizzando i collegamenti di navigazione standard.
L'anteprima non supporta le configurazioni XML perché tali documenti vengono elaborati direttamente e non scaricati nella cache.

Aggiunta di una definizione del connettore indice

Ogni configurazione del connettore indice definisce un'origine dati e le mappature per collegare gli elementi dati definiti per tale origine ai campi di metadati nell'indice.
Prima che gli effetti della definizione nuova e abilitata siano visibili ai clienti, ricreate l’indice del sito.
Per aggiungere una definizione del connettore indice
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Index Connector .
  2. Sulla Stage Index Connector Definitions pagina, fate clic su Add New Index Connector .
  3. Nella Index Connector Add pagina, impostare le opzioni di connettore desiderate. Le opzioni disponibili dipendono dalla selezione Type effettuata.
    Opzione
    Descrizione
    Nome
    Nome univoco della configurazione del connettore indice. È possibile utilizzare caratteri alfanumerici. Sono consentiti anche i caratteri "_" e "-".
    Tipo
    Origine dei dati. Il tipo di origine dati selezionato influisce sulle opzioni risultanti disponibili nella pagina Index Connector Add . Potete scegliere tra le seguenti opzioni:
    • Testo
      File di testo semplici, delimitati da virgole, delimitati da tabulazioni o altri formati delimitati in modo coerente. Ogni riga di testo delimitata da una nuova riga corrisponde a un singolo documento e viene analizzata utilizzando il delimitatore specificato.
      Potete mappare ciascun valore, o colonna, su un campo di metadati, a cui fa riferimento il numero di colonna, a partire da 1 (uno).
    • Feed
      Scarica un documento XML principale che contiene più "righe" di informazioni.
    • XML
      Consente di scaricare un documento XML principale contenente collegamenti ( <a> ) a singoli documenti XML.
    Tipo origine dati: Testo
    Abilitato
    Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione.
    Nota : Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint.
    Indirizzo host
    Specifica l'indirizzo dell'host del server in cui si trovano i dati.
    Se necessario, è possibile specificare un percorso URI completo (Uniform Resource Identifier) per il documento di origine dati, come negli esempi seguenti:
    https://www.somewhere.com/some_path/some_file.xml
     oppure 
    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml
    L'URI è suddiviso nelle voci appropriate per i campi Indirizzo host, Percorso file, Protocollo e, facoltativamente, Nome utente e Password.
    Specifica l'indirizzo IP o l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.
    Percorso file
    Specifica il percorso del semplice file di testo semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente.
    Il percorso è relativo alla radice dell'indirizzo host.
    Percorso file incrementale
    Specifica il percorso del semplice file di testo semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente.
    Il percorso è relativo alla radice dell'indirizzo host.
    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. Se non viene specificato alcun file, viene utilizzato il file elencato in Percorso file.
    Percorso file verticale
    Specifica il percorso del semplice file di testo semplice semplice, delimitato da virgole, delimitato da tabulazioni o di altro formato delimitato in modo coerente da utilizzare durante un aggiornamento verticale.
    Il percorso è relativo alla radice dell'indirizzo host.
    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni di aggiornamento verticale.
    Nota : Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.
    Elimina percorso file
    Specifica il percorso del file di testo semplice semplice semplice e semplice, contenente un singolo valore di identificatore del documento per riga.
    Il percorso è relativo alla radice dell'indirizzo host.
    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. I valori trovati in questo file vengono utilizzati per creare richieste di eliminazione per rimuovere documenti indicizzati in precedenza. I valori in questo file devono corrispondere ai valori trovati nei file Percorso file completo o Incrementale, nella colonna identificata come Chiave primaria .
    Nota : Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.
    Protocollo
    Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:
    • HTTP
      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTP.
    • HTTPS
      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTPS.
    • FTP
      Per accedere al server FTP è necessario immettere le credenziali di autenticazione corrette.
    • SFTP
      Per accedere al server SFTP è necessario immettere le credenziali di autenticazione corrette.
    • File
    Timeout
    Specifica il timeout, in secondi, per le connessioni FTP, SFTP, HTTP o HTTPS. Il valore deve essere compreso tra 30 e 300.
    Tentativi
    Specifica il numero massimo di tentativi per connessioni FTP, SFTP, HTTP o HTTPS non riuscite. Il valore deve essere compreso tra 0 e 10.
    Un valore pari a zero (0) impedisce i tentativi.
    Codifica
    Specifica il sistema di codifica dei caratteri utilizzato nel file di origine dati specificato.
    Delimitatore
    Specifica il carattere da utilizzare per delineare ogni campo nel file di origine dati specificato.
    Il carattere virgola ( , ) è un esempio di carattere di delimitazione. La virgola funge da delimitatore di campo per separare i campi dati nel file di origine dati specificato.
    Selezionare Tab? per utilizzare il carattere di delimitazione della tabulazione orizzontale.
    Intestazioni nella prima riga
    Indica che la prima riga del file di origine dati contiene solo informazioni di intestazione, non dati.
    Numero minimo di documenti da indicizzare
    Se è impostato su un valore positivo, questo specifica il numero minimo di record previsti nel file scaricato. Se vengono ricevuti meno record, l'operazione di indice viene interrotta.
    Nota : Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.
    Nota : Questa funzione è utilizzata solo durante le operazioni con l'indice completo.
    Mappa
    Specifica le mappature tra colonne e metadati utilizzando i numeri di colonna.
    • Colonna
      Specifica un numero di colonna, con la prima colonna pari a 1 (una). Per aggiungere nuove righe di mappa per ciascuna colonna, in Azione fare clic su + .
      Non è necessario fare riferimento a ogni colonna nell'origine dati. È invece possibile scegliere di saltare i valori.
    • Campo
      Definisce il valore dell'attributo name utilizzato per ciascun tag <meta> generato.
    • Metadati?
      Fa sì che Field diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l'account corrente.
      Se necessario, il valore Campo può essere un campo di metadati non definito. Talvolta, un campo di metadati non definito è utile per creare contenuto utilizzato da Filtraggio script .
      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati mediante un delimitatore di virgola. Tuttavia, supponiamo che il valore Campo corrispondente sia un campo di metadati definito. Inoltre, tale campo ha l'attributo Elenchi consentiti impostato. In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.
    • Chiave primaria?
      Una sola definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell'URL del documento nell'indice.
      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da utilizzare come Chiave primaria , ma due o più campi considerati insieme possono formare un identificatore univoco, è possibile definire la Chiave primaria combinando più valori Colonna con una barra verticale ("|") che delimita i valori.
    • Rimuovere il codice HTML?
      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.
    • Azione
      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.
    Tipo origine dati: Feed
    Abilitato
    Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione.
    Nota : Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint.
    Indirizzo host
    Specifica l'indirizzo IP o l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.
    Percorso file
    Specifica il percorso del documento XML principale che contiene più "righe" di informazioni.
    Il percorso è relativo alla radice dell'indirizzo host.
    Percorso file incrementale
    Specifica il percorso del documento XML incrementale che contiene più "righe" di informazioni.
    Il percorso è relativo alla radice dell'indirizzo host.
    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. Se non viene specificato alcun file, viene utilizzato il file elencato in Percorso file.
    Percorso file verticale
    Specifica il percorso del documento XML che contiene più "righe" di informazioni sparse da utilizzare durante un aggiornamento verticale.
    Il percorso è relativo alla radice dell'indirizzo host.
    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni di aggiornamento verticale.
    Nota : Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.
    Elimina percorso file
    Specifica il percorso del file di testo semplice semplice semplice e semplice, contenente un singolo valore di identificatore del documento per riga.
    Il percorso è relativo alla radice dell'indirizzo host.
    Questo file, se specificato, viene scaricato ed elaborato durante le operazioni Incremental Index. I valori trovati in questo file vengono utilizzati per creare richieste di eliminazione per rimuovere documenti indicizzati in precedenza. I valori in questo file devono corrispondere ai valori trovati nei file Percorso file completo o Incrementale, nella colonna identificata come Chiave primaria .
    Nota : Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.
    Protocollo
    Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:
    • HTTP
      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTP.
    • HTTPS
      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTPS.
    • FTP
      Per accedere al server FTP è necessario immettere le credenziali di autenticazione corrette.
    • SFTP
      Per accedere al server SFTP è necessario immettere le credenziali di autenticazione corrette.
    • File
    Nome
    Identifica l'elemento XML che è possibile utilizzare per identificare singole righe XML nel file di origine dati specificato.
    Ad esempio, nel seguente frammento Feed di un documento XML di un Adobe , il valore del tag elemento è record :
    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_air.png"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_photoshop.png"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>
    Numero minimo di documenti da indicizzare
    Se è impostato su un valore positivo, questo specifica il numero minimo di record previsti nel file scaricato. Se vengono ricevuti meno record, l'operazione di indice viene interrotta.
    Nota : Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.
    Nota : Questa funzione è utilizzata solo durante le operazioni con l'indice completo.
    Mappa
    Consente di specificare le mappature XML da elemento a metadati utilizzando le espressioni XPath.
    • Tag
      Specifica una rappresentazione XPath dei dati XML analizzati. Utilizzando l'esempio documento XML dell'Adobe precedente, sotto l'opzione Tag elemento, è possibile mappare il file utilizzando la seguente sintassi:
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      La sintassi di cui sopra è la seguente:
      • /record/@displayurl&nbsp;->&nbsp;page-url
        L' attributo displayurl dell'elemento del record viene mappato sul campo di metadati page-url .
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento metadati, contenuto all'interno di un elemento record, il cui attributo name è title , viene mappato sul titolo del campo di metadati, in modo da poter essere mappato sull'attributo del campo di metadati .
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        L'attributo di contenuto di qualsiasi elemento meta contenuto all'interno di un elemento metadati, contenuto all'interno dell'elemento record, il cui attributo nome è descrizione , viene mappato sul campo di metadati .
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento di metadati, contenuto all'interno dell' elemento del record, il cui attributo name è description , viene mappato sul corpo del campo di metadati .
      XPath è una notazione relativamente complicata. Ulteriori informazioni sono disponibili nel seguente percorso:
    • Campo
      Definisce il valore dell'attributo name utilizzato per ciascun tag <meta> generato.
    • Metadati?
      Fa sì che Field diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l'account corrente.
      Se necessario, il valore Campo può essere un campo di metadati non definito. Talvolta, un campo di metadati non definito è utile per creare contenuto utilizzato da Filtraggio script .
      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati mediante un delimitatore di virgola. Tuttavia, supponiamo che il valore Campo corrispondente sia un campo di metadati definito. Inoltre, tale campo ha l'attributo Elenchi consentiti impostato. In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.
    • Chiave primaria?
      Una sola definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell'URL del documento nell'indice.
      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da usare come Chiave principale , ma due o più campi considerati insieme possono formare un unico identificatore, potete definire la Chiave primaria combinando più definizioni di Tag con una barra verticale ("|") che delimita i valori.
    • Rimuovere il codice HTML?
      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.
    • Utilizzate Elimina?
      Utilizzato solo durante le operazioni dell'indice incrementale. I record corrispondenti a questo pattern XPath identificano gli elementi da eliminare. Il valore Chiave primaria per ciascun record viene utilizzato per creare richieste di eliminazione, come con Elimina percorso file.
      Nota : Questa funzione non è abilitata per impostazione predefinita. Contattate il supporto tecnico per attivare la funzione per l’utilizzo.
    • Azione
      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.
    Tipo origine dati: XML
    Abilitato
    Attiva la configurazione per la ricerca per indicizzazione e l’indicizzazione. In alternativa, è possibile disattivare la configurazione per impedire la ricerca per indicizzazione e l'indicizzazione.
    Nota : Le configurazioni del connettore indice disattivate vengono ignorate se sono presenti in un elenco entrypoint.
    Indirizzo host
    Specifica l'indirizzo URL del sistema host in cui viene trovato il file di origine dati.
    Percorso file
    Specifica il percorso del documento XML principale che contiene i collegamenti ( <a> ) a singoli documenti XML.
    Il percorso è relativo alla radice dell'indirizzo host.
    Protocollo
    Specifica il protocollo utilizzato per accedere al file. Potete scegliere tra le seguenti opzioni:
    • HTTP
      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTP.
    • HTTPS
      Se necessario, potete immettere le credenziali di autenticazione corrette per accedere al server HTTPS.
    • FTP
      Per accedere al server FTP è necessario immettere le credenziali di autenticazione corrette.
    • SFTP
      Per accedere al server SFTP è necessario immettere le credenziali di autenticazione corrette.
    • File
    Nota : L'impostazione Protocollo viene utilizzata solo se sono specificate informazioni nei campi Indirizzo host e/o Percorso file. I singoli documenti XML vengono scaricati mediante HTTP o HTTPS, in base alle specifiche URL.
    Nome
    Identifica l'elemento XML che definisce una "riga" nel file di origine dati specificato.
    Mappa
    Consente di specificare le mappature tra colonne e metadati utilizzando i numeri di colonna.
    • Tag
      Specifica una rappresentazione XPath dei dati XML analizzati. Utilizzando l'esempio documento XML di Adobe sopra, sotto l'opzione Tag elemento, è possibile eseguire la mappatura utilizzando la sintassi seguente:
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      La sintassi di cui sopra è la seguente:
      • /record/@displayurl&nbsp;->&nbsp;page-url
        L' attributo displayurl dell'elemento del record viene mappato sul campo di metadati page-url .
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento metadati, contenuto all'interno di un elemento record, il cui attributo name è title , viene mappato sul titolo del campo di metadati, in modo da poter essere mappato sull'attributo del campo di metadati .
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        L'attributo di contenuto di qualsiasi elemento meta contenuto all'interno di un elemento metadati, contenuto all'interno dell'elemento record, il cui attributo nome è descrizione , viene mappato sul campo di metadati .
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        L'attributo content di qualsiasi elemento meta contenuto all'interno di un elemento di metadati, contenuto all'interno dell' elemento del record, il cui attributo name è description , viene mappato sul corpo del campo di metadati .
      XPath è una notazione relativamente complicata. Ulteriori informazioni sono disponibili nel seguente percorso:
    • Campo
      Definisce il valore dell'attributo name utilizzato per ciascun tag <meta> generato.
    • Metadati?
      Fa sì che Field diventi un elenco a discesa dal quale è possibile selezionare campi di metadati definiti per l'account corrente.
      Se necessario, il valore Campo può essere un campo di metadati non definito. Talvolta, un campo di metadati non definito è utile per creare contenuto utilizzato da Filtraggio script .
      Quando il connettore indice elabora documenti XML con più hit su qualsiasi campo mappa, i più valori vengono concatenati in un singolo valore nel documento memorizzato nella cache risultante. Per impostazione predefinita, questi valori vengono combinati mediante un delimitatore di virgola. Tuttavia, supponiamo che il valore Campo corrispondente sia un campo di metadati definito. Inoltre, tale campo ha l'attributo Elenchi consentiti impostato. In questo caso, il valore Delimitatori elenco del campo, che è il primo delimitatore definito, viene utilizzato nella concatenazione.
    • Chiave primaria?
      Una sola definizione di mappa è identificata come chiave primaria. Questo campo diventa il riferimento univoco presentato quando il documento viene aggiunto all'indice. Questo valore viene utilizzato nell'URL del documento nell'indice.
      I valori Chiave primaria devono essere univoci in tutti i documenti rappresentati dalla configurazione del connettore indice. Eventuali duplicati rilevati verranno ignorati. Se i documenti di origine non contengono un singolo valore univoco da usare come Chiave principale , ma due o più campi considerati insieme possono formare un unico identificatore, potete definire la Chiave primaria combinando più definizioni di Tag con una barra verticale ("|") che delimita i valori.
    • Rimuovere il codice HTML?
      Quando questa opzione è selezionata, tutti i tag HTML trovati nei dati di questo campo vengono rimossi.
    • Azione
      Consente di aggiungere righe alla mappa o rimuovere righe dalla mappa. L'ordine delle righe non è importante.
  4. (Facoltativo) Fai clic Setup Maps per scaricare un esempio dell’origine dati. I dati vengono esaminati per verificare l'idoneità all'indicizzazione. Questa funzione è disponibile solo per i tipi di testo e feed.
  5. (Facoltativo) Fate clic Preview per verificare il funzionamento effettivo della configurazione. Questa funzione è disponibile solo per i tipi di testo e feed.
  6. Fate clic Add per aggiungere la configurazione alla Index Connector Definitions pagina e all’elenco a Index Connector Configurations discesa sulla URL Entrypoints pagina.
    Consultate I punti di ingresso URL.
  7. Sulla Index Connector Definitions pagina, fate clic su rebuild your staged site index .
  8. (Facoltativo) Nella Index Connector Definitions pagina, effettuate una delle seguenti operazioni:

Modifica della definizione del connettore indice

È possibile modificare un connettore indice esistente definito.
Non tutte le opzioni possono essere modificate, ad esempio Nome connettore indice o Tipo, dall'elenco a Type discesa.
Per modificare una definizione del connettore indice
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Index Connector .
  2. Nella Index Connector pagina, sotto l'intestazione della Actions colonna, fare clic Edit per specificare il nome di definizione del connettore indice di cui si desidera modificare le impostazioni.
  3. Nella Index Connector Edit pagina, impostate le opzioni desiderate.
    Vedere la tabella delle opzioni in Aggiunta di una definizione del connettore indice.
  4. Clic Save Changes .
  5. (Facoltativo) Nella Index Connector Definitions pagina, fare clic su rebuild your staged site index .
  6. (Facoltativo) Nella Index Connector Definitions pagina, effettuate una delle seguenti operazioni:

Visualizzazione delle impostazioni di una definizione del connettore indice

È possibile esaminare le impostazioni di configurazione di una definizione di connettore indice esistente.
Dopo che alla Index Connector Definitions pagina è stata aggiunta la definizione del connettore indice, non è possibile modificarne l'impostazione Tipo. Al contrario, è necessario eliminare la definizione e aggiungerne una nuova.
Per visualizzare le impostazioni di una definizione del connettore indice
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Index Connector .
  2. Nella Index Connector pagina, sotto l'intestazione della Actions colonna, fare clic Edit per specificare il nome di definizione del connettore indice di cui si desidera esaminare o modificare le impostazioni.

Copia della definizione di un connettore indice

È possibile copiare una definizione del connettore indice esistente da usare come base per la creazione di un nuovo connettore indice.
Quando si copia una definizione del connettore indice, per impostazione predefinita la definizione copiata viene disabilitata. Per abilitare o "attivare" la definizione, è necessario modificarla dalla Index Connector Edit pagina e selezionare Enable .
Vedere Modifica della definizione di un connettore indice.
Per copiare una definizione del connettore indice
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Index Connector .
  2. Nella Index Connector pagina, sotto l'intestazione della Actions colonna, fare clic Copy per specificare il nome di definizione del connettore indice di cui si desidera duplicare le impostazioni.
  3. Nella Index Connector Copy pagina, immettete il nuovo nome della definizione.
  4. Clic Copy .
  5. (Facoltativo) Nella Index Connector Definitions pagina, effettuate una delle seguenti operazioni:

Ridenominazione della definizione del connettore indice

È possibile modificare il nome di una definizione del connettore indice esistente.
Dopo aver rinominato la definizione, selezionare Settings > Crawling > URL Entrypoints . Accertarsi che il nuovo nome della definizione sia riportato nell’elenco a discesa della URL Entrypoints pagina.
Per rinominare una definizione del connettore indice
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Index Connector .
  2. Nella Index Connector pagina, sotto l’intestazione della Actions colonna, fare clic Rename per il nome della definizione del connettore indice che si desidera modificare.
  3. Nella Index Connector Rename pagina, immettere il nuovo nome della definizione nel Name campo.
  4. Clic Rename .
  5. Fai clic su Settings > Crawling > URL Entrypoints . Se nell'elenco è presente il nome del connettore indice precedente, rimuoverlo e aggiungere la voce rinominata di recente.
    Consultate Aggiunta di più punti di ingresso URL da indicizzare . 1. (Facoltativo) Nella Index Connector Definitions pagina, effettuate una delle seguenti operazioni:

Eliminazione di una definizione del connettore indice

È possibile eliminare una definizione del connettore indice esistente non più necessaria o utilizzata.
Per eliminare una definizione del connettore indice
  1. Nel menu del prodotto, fate clic su Settings > Crawling > Index Connector .
  2. Nella Index Connector Definitions pagina, sotto l’intestazione della Actions colonna, fare clic Delete sul nome della definizione del connettore indice da rimuovere.
  3. Sulla Index Connector Delete pagina, fate clic su Delete .