Show Menu
ARGOMENTI×

Indice con script

Con l'indice con script è possibile scrivere, aggiornare e mantenere opzioni di indicizzazione incrementale senza dover effettuare l'accesso. Il robot di ricerca legge le istruzioni da un file di testo ospitato sul server.

Utilizzo dell'indice con script

Informazioni sulla configurazione dell'indicizzazione incrementale con script

Per utilizzare l'indice con script, è possibile utilizzare la pagina Configurazione indice incrementale con script per specificare l'URL di un file di script (un file di testo normale) che si trova sul server. Ad esempio, https://www.mysite.com/indexlist.txt . Quando il sito cambia, potete aggiungere blocchi di comando al file di testo manualmente o automaticamente (con uno script avviato dall'arrivo di informazioni da un feed di notizie, un ticker di azioni o altri file alterati).
Quando inizia l'indice incrementale con script, il robot di ricerca legge il file di testo ed esegue i nuovi comandi che si trovano in quel file. Per impostazione predefinita, il robot di ricerca elabora solo i nuovi comandi, determinati dalla data del file. A meno che non si verifichi Clear Date al momento della configurazione dell'indice con script, il robot di ricerca "ricorda" l'identificatore data del blocco elaborato più di recente.

Informazioni sul file di script

Il file di script specificato nell'URL è un file di testo normale che si trova sul server. È possibile utilizzare ritorni a capo, feed di linea o entrambi per la sequenza di fine riga. Una riga vuota contiene zero o più caratteri di spazio vuoto seguiti da una sequenza di fine riga. Tutti i comandi non fanno distinzione tra maiuscole e minuscole.
Il file di testo è organizzato in blocchi che descrivono le informazioni utilizzate dal robot di ricerca quando esegue un indice incrementale con script.
I blocchi sono ordinati per data, con i blocchi più vecchi nella parte superiore del file di testo e i blocchi più recenti nella parte inferiore. Ogni blocco inizia con un comando data-riga singola e un comando data-identificatore, e termina con un separatore di riga vuota come nell'esempio di blocco seguente (tra i quali sono diversi comandi):
Per tutte le date ordinali inferiori al 10, è richiesto uno zero iniziale quando si utilizza lo stile HTTP 1.1. Ad esempio, il 6 novembre è 06 nov, non 6 nov.
Comando
Descrizione
date-command
La prima riga di ciascun blocco inizia con uno dei due comandi data:
  • date
    Utilizzate il comando "date" per indicare che l'identificatore data sarà composto da un giorno, una data, un'ora e un fuso orario.
  • secondi
    Utilizzate secondi per indicare che lo specificatore data sarà costituito da un tempo espresso in secondi epoch (ad esempio, 784111777). Quando si utilizzano i secondi , assicurarsi che il numero di secondi aumenti tra i blocchi.
data-identificatore
Il comando data-identificatore registra in genere la data e l'ora ordinali (comando data) o l'ora in secondi epoch (comando secondi) in cui le informazioni del blocco sono state aggiunte al file. Ad esempio:
date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)
Per tutte le date ordinali inferiori al 10, è richiesto uno zero iniziale quando si utilizza lo stile HTTP 1.1. Ad esempio, il 6 novembre è 06 nov, non 6 nov.
Il robot di ricerca "ricorda" l'identificatore della data del blocco elaborato più di recente e indicizza solo le informazioni che considera "più recenti". (Il tempo reale non ha importanza per il robot di ricerca. Invece, il tempo in relazione ad altri tempi precedentemente elaborati è ciò che conta.)
Dopo che il robot di ricerca legge un blocco con un identificatore data di 10:00 p.m., ad esempio, non legge blocchi che registrano i tempi prima delle 10:00 p.m., indipendentemente da quando l'operazione indice è in esecuzione. In uno scenario peggiore, potete immettere erroneamente l'anno "2040" invece di "2004" nel vostro identificatore data. In questo caso, il robot di ricerca indicizza il blocco 2040 durante l'operazione di indicizzazione successiva e rifiuta di leggere qualsiasi altro blocco di informazioni (a meno che un post-date 2040). In questo caso, rimuovere tutti i blocchi precedentemente elaborati dal file di testo, fare clic su Cancella data , quindi inviarli live.
commento, riga
Iniziare le righe dei commenti con il carattere "#".
Ogni riga di commento deve essere una riga propria; non è possibile digitare commenti di fine riga.
Una riga di commento non è considerata una riga vuota. Può essere visualizzato anche in qualsiasi punto di un blocco, anche prima di un comando data o secondi, come nell'esempio seguente:
    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 
action-command
Ogni blocco di testo può contenere tutti i comandi di azione desiderati. Le seguenti opzioni di comando azione corrispondono a quelle per l'indicizzazione incrementale standard:
  • add
    Utilizzate con URL. Il robot di ricerca indicizza solo gli URL specificati che sono stati modificati dall’ultima operazione di indicizzazione. Inoltre, il robot di ricerca segue i collegamenti contenuti in documenti specifici e indicizza solo i documenti che sono stati modificati.
    Potete seguire l’URL con nofollow  oppure  noindex parole chiave come nell’esempio seguente:
    add https://www.mydomain.com/ noindex
  • update
    Utilizzate con la maschera URL. Il robot di ricerca trova e aggiorna tutti i documenti che corrispondono alla maschera URL specificata.
    Potete seguire l’URL con nofollow  oppure  noindex parole chiave come nell’esempio seguente:
    update https://www.mydomain.com/products/
  • include  oppure  exclude
    Utilizzate con la maschera URL. Il robot di ricerca trova e indicizza ("include") o ignora i documenti ("exclude") in base al tipo di maschera specificata.
    Ad esempio,
    include https://www.mydomain.com/products/household/lightbulbs*.html
     oppure 
    exclude https://www.mydomain.com/archive/
  • include-date  oppure  exclude-date
    Utilizzate con la maschera URL. Il robot di ricerca trova e indicizza ("include") o ignora i documenti ("exclude") in base sia all'URL che alla data dei documenti. Sono disponibili i seguenti tipi di maschere:
    • includi giorni NNN
      Il robot di ricerca indicizza tutti i documenti che corrispondono alla maschera URL specificata e che sono giorni NNN o più vecchi.
      Potete seguire la maschera URL con le parole chiave nofollow , noindex e/o data server .
    • include data AAAA-MM-GG
      Il robot di ricerca indicizza tutti i documenti che corrispondono alla maschera URL specificata e che hanno la stessa data di AAAA-MM-GG, dove "AAAA" è l'anno di 4 cifre, "MM" è il mese di una o due cifre (1-12), e "GG" è il giorno di una o due cifre (1-31).
      Potete seguire la maschera URL con le parole chiave nofollow , noindex e/o data server .
    • exclude-Days NNN
      Disattiva l’indicizzazione di tutti i documenti che corrispondono alla maschera URL specificata e che sono giorni NNN o più vecchi.
      Potete seguire la maschera URL con la parola chiave data server .
    • exclude-date YYYY-MM-DD
      Disattiva l’indicizzazione di tutti i documenti che corrispondono alla maschera URL specificata e che hanno la stessa data o meno della data AAAA-MM-GG.
      Potete seguire la maschera URL con la parola chiave data server .
  • delete
    Specificate gli URL. Il robot di ricerca rimuove dall’indice i documenti identificati dall’URL.
  • deletemask
    Il robot di ricerca rimuove dall’indice i documenti che corrispondono alla maschera URL specificata.
Consultate anche Le maschere URL.

Esempio di file di script

Nell'esempio di file di script riportato di seguito, il robot di ricerca elabora i blocchi a condizione che gli identificatori data postino l'identificatore data dell'ultimo blocco elaborato. In tal caso, si verificano le seguenti operazioni di indicizzazione:
  • Elimina y2k-problems.html dall'indice.
  • Aggiunge no-y2k-problems.html all'indice di ricerca e non segue nessuno dei collegamenti per no-y2k-problems.html .
  • Durante la ricerca per indicizzazione, escludete dall’indice di ricerca gli URL che corrispondono housewares.htm e lightfixtures.htm l.
  • Include tutte le altre directory e documenti in www.mydomain.com .
  • Aggiorna tutti i documenti all'interno delle products directory e information delle directory, eseguendo la ricerca per indicizzazione e indicizzando tutti i collegamenti secondari modificati dall'ultima operazione di indicizzazione.
  • Durante la ricerca per indicizzazione, escludete gli URL nella archive sezione del sito Web, se datati il 1 gennaio 1999 o prima di tale data.
  • Escludete gli URL che corrispondono housewares.html e lightfixtures.html dall’indice di ricerca.
  • Indicizzare i file nella help directory, ma non eseguire ricerche per indicizzazione o indicizzare alcun collegamento da tali file.
  • Eseguire la ricerca per indicizzazione e indicizzare qualsiasi altro file rilevato per www.mydomain.com .
# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

Configurazione di un indice incrementale con script

È possibile specificare uno script creato che scrive, aggiorna e mantiene un indice incrementale, senza la necessità di effettuare l'accesso. Il robot di ricerca legge le istruzioni dal file di testo ospitato sul server per eseguire l'indice incrementale.
Per configurare un indice incrementale con script
  1. Nel menu del prodotto, fate clic su Index > Scripted Index > Configuration .
  2. Nella Scripted Incremental Index Configuration pagina, nella Script File URL , immettete l’URL dello script del file di testo che si trova sul server.
    Vedere Informazioni sull'indice con script.
  3. (Facoltativo) Controllare Clear Date se non si desidera che il robot di ricerca "ricordi" l’identificatore data del blocco elaborato più di recente.
    Per impostazione predefinita, il robot di ricerca elabora solo nuovi blocchi di comandi che si trovano nel file di testo, che è determinato dalla data del file. Se non si desidera impostare il valore predefinito, selezionare Clear Date .
  4. Clic Save Changes .
  5. (Facoltativo) Effettuate una delle seguenti operazioni:

Impostazione della pianificazione dell'indice incrementale con script per un sito Web live

È possibile pianificare l'indicizzazione incrementale con script in modo che venga eseguita a intervalli regolari durante l'intera giornata.
L'ora di base selezionata è locale in base al fuso orario configurato in Impostazioni account.
Consultate Configurazione delle impostazioni dell’account.
I server Web sono spesso programmati per la manutenzione nel bel mezzo della notte. Se il server è inattivo durante un periodo di tempo di indicizzazione pianificato, il processo di indicizzazione non riuscirà. Accertatevi di selezionare un'ora del giorno in cui il server Web sarà disponibile.
La pianificazione dell'indice si applica solo all'indice live; non è possibile pianificare indici incrementali in fase.
Impostazione della pianificazione dell'indice incrementale con script per un sito Web attivo
  1. Nel menu del prodotto, fate clic su Index > Scripted Index > Live Schedule .
  2. Nella Scripted Incremental Index Schedule pagina, nell'elenco a Read the Scripted Incrementally Indexing File discesa, selezionare la frequenza con cui si desidera che venga eseguito il file di testo dell'indice incrementale con script, in ore o minuti.
  3. Nell'elenco a Base Time discesa, selezionare l'ora di inizio per la rigenerazione di un nuovo indice incrementale con script.
  4. Clic Save Changes .

Esecuzione di un indice incrementale con script di un sito Web live o in uno stage

È possibile utilizzare l'indice incrementale con script per indicizzare "parti" del sito Web live o in uno stage, ad esempio una raccolta di pagine modificate di frequente, il tutto senza dover effettuare l'accesso.
Per utilizzare questa funzione, accertatevi di aver configurato un file di testo indice incrementale con script.
Consultate Configurazione di un indice incrementale con script.
Per eseguire un indice incrementale con script di un sito Web attivo o in fase di esecuzione
  1. Nel menu del prodotto, effettuate una delle seguenti operazioni:
    • Fai clic su Index > Scripted Index > Live Index .
    • Fai clic su Index > Scripted Index > Staged Index .
  2. Clic Scripted Index Now .
  3. (Facoltativo) In caso di errori di indicizzazione, fare clic View Errors per visualizzare il registro associato.

Visualizzazione del registro di indice incrementale con script di un sito Web live o in uno stage

Quando un indice con script completo attivo o un indice con script completo in fase è completo, è possibile visualizzare il registro associato per risolvere eventuali errori che si sono verificati.
Non è possibile esportare i file di registro né salvarli. Tuttavia, il registro rimane disponibile per la visualizzazione fino a quando non si verifica il nuovo indice.
Per visualizzare il registro dell'indice incrementale di un sito Web attivo o in fase di esecuzione
  1. Nel menu del prodotto, effettuate una delle seguenti operazioni:
    • Fai clic su Index > Scripted Index > Live Log .
    • Fai clic su Index > Scripted Index > Staged Log .
  2. Nella pagina di registro, in alto o in basso, effettuate una delle seguenti operazioni:
    • Utilizzate le opzioni di navigazione First , Prev , Next , Last o Go to line per spostarsi nel registro.
    • Utilizzate le opzioni di visualizzazione Errors only , Wrap line o Show per perfezionare il contenuto visualizzato.