Show Menu
ARGOMENTI×

Informazioni sul menu Filtro

Il menu Filtro consente di utilizzare gli script che modificano il contenuto di un documento Web prima dell'indicizzazione.

Informazioni sul filtro degli script

È possibile utilizzare Filtering Script per modificare il contenuto di un documento Web prima che venga indicizzato.
Potete inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML basati sull'URL di un documento, sul tipo MIME e sul contenuto esistente. Lo script di filtraggio è uno script Perl, che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Lo script di filtraggio viene utilizzato con uno script di inizializzazione, uno script di terminazione, uno script di maschere URL e l'URL di prova.
Lo script di filtraggio viene eseguito ogni volta che un documento viene letto dal sito Web. Lo script viene eseguito come filtro standard. In altre parole, legge i dati da STDIN, trasforma i dati in qualche modo, e scrive i risultati in STDOUT. È possibile utilizzare lo script di filtraggio per stampare i messaggi di stato dallo script di filtraggio al registro di indice. È possibile stampare i messaggi su STDERR oppure tramite la _search_debug_log() subroutine.
Alcune opzioni diff GNU che è possibile utilizzare in modalità Expert (diff) nella pagina Script di filtraggio in fase includono:
Differf GNU, opzione
Descrizione
-b
Ignora le modifiche nella quantità di spazio vuoto.
-B
Ignora le modifiche che consentono di inserire o eliminare righe vuote.
-c
Utilizza il formato di output del contesto, che mostra tre righe di contesto.
-C linee
Utilizza il formato di output contestuale, che mostra le righe (un numero intero) di righe di contesto, o tre se non sono date righe.
-i
Ignora le modifiche nel caso; considera equivalenti lettere maiuscole e minuscole.
-f
Esegue un output simile a uno script ed con modifiche nell'ordine in cui appaiono nel file.
-n
Trasmette diffusori in formato RCS; come -f , con la differenza che ogni comando specifica il numero di righe interessate.
-u
Utilizza il formato di output unificato, che mostra tre righe di contesto.
-U linee
Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.
In questi script è possibile utilizzare variabili locali, variabili globali o entrambe. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". All'avvio dello script di filtraggio, il relativo ambiente contiene le seguenti handle di file standard:
  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - HTML di sostituzione (se i dati vengono stampati su STDOUT, vengono utilizzati al posto del documento originale)
  • STDERR - i dati stampati su STDERR vengono stampati nel registro indice come un errore
Inoltre, è possibile scrivere messaggi personalizzati nel registro indice utilizzando la _search_debug_log() subroutine, come nell'esempio seguente:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.
Di seguito è riportato un esempio di filtraggio. I <title> campi delle pagine Web spesso iniziano con il nome della società. Anche se queste informazioni sono utili per la navigazione nel sito, non sono rilevanti per la ricerca. Se i titoli di tutte le pagine Web MegaCorp iniziano con una stringa comune, ad esempio:
<title>MegaCorp -- meaningful title 
here</title>

È necessario rimuovere " MegaCorp -- " dall'inizio di ciascun titolo del documento e contare ogni documento elaborato con lo script di filtro. A tal fine, è possibile utilizzare il seguente script:
# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variabili globali

In qualsiasi script di filtro è possibile utilizzare le seguenti variabili:
Variabile
Descrizione
$main::search_crawl_type
Il valore di $main::search_crawl_type indica il tipo di operazione di indice in corso. Modulo obsoleto: $main::ws_crawl_type Le operazioni di indice e i valori associati includono quanto segue:
  • Indice completo: Manuale manual
  • Indice completo: Pianificato - auto
  • Indice completo: Controllo remoto - CGI
  • Indice incrementale: Manuale manual-incremental
  • Indice incrementale: Pianificato - auto-incremental
  • Indice incrementale: Controllo remoto - CGI-incremental
  • Indice con script: Manuale manual-indexlist.txt
  • Indice con script: Pianificato - auto-indexlist.txt
  • Indice con script: Controllo remoto - CGI-indexlist.txt
  • Rigenera - manual-upgrade
$main::search_clear_cache
Il valore indica se l'opzione di indicizzazione "Cancella cache indice" è stata richiesta per l'operazione di indice corrente. Se è stato richiesto "Cancella cache indice", il valore di $main::search_clear_cache è " 1 ". Forma obsoleta: $main::ws_clear_cache
$main::search_fields
Il valore contiene un elenco separato da tabulazioni dei campi di metadati definiti nell’account. Per impostazione predefinita, il valore è: Modulo url title desc keys target body alt date charset language obsoleto: $main::ws_fields
$main::search_collections
Il valore contiene un elenco separato da tabulazioni delle raccolte definite nell'account. Forma obsoleta: $main::ws_collections
$main::search_url
Il valore è l’URL completo del documento. Forma obsoleta: $main::ws_url
$main::search_content_type
Il valore è il tipo di contenuto del documento ottenuto dal tag meta http-equiv. Un valore tipico è "text/html; charset=iso-8859-1". Forma obsoleta: $main::ws_content_type
$main::search_content_class
Il valore è la classe di contenuto del documento, come derivato dal campo del tipo di contenuto. Forma obsoleta: $main::ws_content_class
$main::search_syntax_check
Il valore riflette l'utilizzo del pulsante "Controlla sintassi". Se l'utente fa clic su di esso, il valore è 1 (uno); in caso contrario, il valore è 0 (zero). Forma obsoleta: $main::ws_syntax_check
$main::search_last_mod_date
Se fornito dal server Web, questo valore contiene la rappresentazione dell'epoch (secondi dal 1 gennaio 1970) della data dell'ultima modifica del documento. Potete formattare questo valore utilizzando la chiamata della libreria Perl localtime().

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio nomi "main::": $main::doc_count = 0;
  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;
  • Le sottoscrizioni sono definite nello script di inizializzazione. Non necessitano di uno spazio nomi "main:" esplicito: sub my_sub { ...
    }
  • Eseguire il test $main::search_content_type prima di apportare modifiche a un file. La verifica può essere utile per evitare di apportare modifiche indesiderate ai file binari, come i file SWF o i file PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • L'intestazione $main::search_content_type è l'intero tipo di contenuto fornito dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".
  • Per ciascun tipo di documento non HTML, $main::search_content_type possono essere utilizzati vari valori. La verifica di ciascun valore nello script diventa difficoltosa. Ad esempio, alcuni documenti di Word presentano i valori del tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In tali casi, $main::search_content_class possono assumere i seguenti valori:
    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • Nell'esempio, il test $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori del tipo di contenuto.
  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come era stato scaricato. Se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.
  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, effettuate le seguenti operazioni: print "<html></html>";

Aggiunta di uno script di filtro

Lo script di filtraggio è uno script Perl che viene eseguito per ogni documento scaricato dal sito Web.
Lo script di filtraggio viene utilizzato insieme a uno script di inizializzazione, a uno script di terminazione e a uno script di maschere URL.
Assicuratevi di rigenerare l'indice del sito in modo che i risultati dello script di filtraggio siano visibili ai clienti.
Per aggiungere uno script di filtro
  1. Nel menu del prodotto, fate clic su Settings > Filtering > Filtering Script .
  2. (Facoltativo) Nella Filtering Script pagina, nel Test URL campo, immettete l’URL di un documento sul sito Web.
    Fate clic su un'opzione di test per visualizzare le modifiche apportate al testo HTML non elaborato.
    Opzione
    Descrizione
    Campo URL test
    Consente di inserire l’URL di un documento nel sito Web.
    Test
    Verifica l’URL rispetto agli script di filtraggio e alle maschere URL.
    Il documento dell'URL di prova viene scaricato, che viene quindi utilizzato come input STDIN per lo script di filtraggio. Gli script di inizializzazione, filtro e terminazione vengono quindi eseguiti. Se esiste un output STDOUT dello script di filtraggio, tale output viene visualizzato in una nuova finestra del browser.
    Solo test
    Verifica solo l'operazione dello script.
    Anteprima
    Consente di visualizzare la pagina.
    Visuale completa
    Genera una visualizzazione completa dei documenti prima e dopo la tabella.
    Breve visualizzazione
    Mostra solo le differenze tra le viste prima e dopo.
    Esperti (diff)
    Visualizza l'output non elaborato del comando GNU diff utilizzato per confrontare i file, utilizzando le opzioni della riga di comando fornite.
    Filtrare lo script
    Consente di incollare lo script di filtro nel campo fornito.
    Salva le modifiche
    Salva lo script di filtraggio.
    Controlla sintassi
    Consente di verificare rapidamente la sintassi dello script eseguendo gli script di inizializzazione, filtraggio e terminazione. Non aggiorna e salva lo script.
    Vengono stampati tutti gli errori e gli avvisi del compilatore Perl e tutti gli output STDERR.
    Prima che gli effetti dello script siano visibili ai clienti, è necessario rigenerare l'indice del sito.
    Opzioni della riga di comando GNU diff
    Alcune opzioni diff GNU che è possibile utilizzare in modalità Expert (diff) nella pagina Script di filtraggio in fase includono:
    GNU diff, opzione della riga di comando
    Descrizione
    -b
    Ignora le modifiche nella quantità di spazio vuoto.
    -B
    Ignora le modifiche che consentono di inserire o eliminare righe vuote.
    -c
    Utilizza il formato di output del contesto, che mostra tre righe di contesto.
    -C linee
    Utilizza il formato di output contestuale, che mostra le righe (un numero intero) di righe di contesto, o tre se non sono date righe.
    -i
    Ignora le modifiche nel caso; considera equivalenti lettere maiuscole e minuscole.
    -f
    Esegue un output simile a uno script ed con modifiche nell'ordine in cui appaiono nel file.
    -n
    Trasmette diffusori in formato RCS; come -f , con la differenza che ogni comando specifica il numero di righe interessate.
    -u
    Utilizza il formato di output unificato, che mostra tre righe di contesto.
    -U linee
    Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.
  3. Fate clic Test per eseguire il test rispetto agli script di filtraggio e alle maschere URL.
    Facendo clic Test non si aggiorna e si salva lo script di filtro.
  4. Nel Filtering Script campo, incollare lo script.
  5. (Facoltativo) Fare clic Check Syntax per eseguire una verifica rapida della sintassi dello script eseguendo gli script di filtraggio, inizializzazione e terminazione.
    Check Syntax non aggiorna e salva lo script.
  6. Clic Save Changes .
  7. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.
  8. (Facoltativo) Nella Filtering Script pagina, effettuate una delle seguenti operazioni:

Informazioni sullo script di inizializzazione

È possibile utilizzare Initialization Script per modificare il contenuto di un documento Web prima che venga indicizzato.
Potete inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML basati sull'URL di un documento, sul tipo MIME e sul contenuto esistente. Lo script di inizializzazione è uno script Perl, che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Lo script di inizializzazione può essere utilizzato con uno script di filtraggio, uno script di terminazione, uno script di maschere URL e un URL di prova.
Lo script di inizializzazione viene eseguito una volta prima dell'inizio dell'indicizzazione. Utilizzare questo script per inizializzare le variabili globali e le sottoroutine utilizzate dallo script di filtraggio. È possibile utilizzare lo script di inizializzazione per stampare i messaggi di stato dallo script di filtraggio al registro di indice. È possibile stampare i messaggi su STDERR oppure tramite la _search_debug_log() subroutine.
Alcune opzioni diff GNU che è possibile utilizzare in modalità Expert (diff) nella pagina Script di inizializzazione temporanea includono quanto segue:
Differf GNU, opzione
Descrizione
-b
Ignora le modifiche nella quantità di spazio vuoto.
-B
Ignora le modifiche che consentono di inserire o eliminare righe vuote.
-c
Utilizza il formato di output del contesto, che mostra tre righe di contesto.
-C linee
Utilizza il formato di output contestuale, che mostra le righe (un numero intero) di righe di contesto, o tre se non sono date righe.
-i
Ignora le modifiche nel caso; considera equivalenti lettere maiuscole e minuscole.
-f
Esegue un output simile a uno script ed con modifiche nell'ordine in cui appaiono nel file.
-n
Trasmette diffusori in formato RCS; come -f , con la differenza che ogni comando specifica il numero di righe interessate.
-u
Utilizza il formato di output unificato, che mostra tre righe di contesto.
-U linee
Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.
In questi script è possibile utilizzare variabili locali, variabili globali o entrambe. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". All'avvio dello script di inizializzazione, il relativo ambiente contiene le seguenti handle di file standard:
  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - niente (se i dati vengono stampati su STDOUT, vengono scartati)
  • STDERR - i dati stampati su STDERR vengono stampati nel registro indice come un errore
Inoltre, è possibile scrivere messaggi personalizzati nel registro indice utilizzando la _search_debug_log() subroutine, come nell'esempio seguente:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.
Un esempio di script di inizializzazione è il seguente:
# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Consulta Variabili globali

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio nomi "main::": $main::doc_count = 0;
  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;
  • Le sottoscrizioni sono definite nello script di inizializzazione. Non necessitano di uno spazio nomi "main:" esplicito: sub my_sub { ...
    }
  • Eseguire il test $main::search_content_type prima di apportare modifiche a un file. La verifica può essere utile per evitare di apportare modifiche indesiderate ai file binari, come i file SWF o i file PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • L'intestazione $main::search_content_type è l'intero tipo di contenuto fornito dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".
  • Per ciascun tipo di documento non HTML, $main::search_content_type possono essere utilizzati vari valori. La verifica di ciascun valore nello script diventa difficoltosa. Ad esempio, alcuni documenti di Word presentano i valori del tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In tali casi, $main::search_content_class possono assumere i seguenti valori:
    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • Nell'esempio, il test $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori del tipo di contenuto.
  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come era stato scaricato. Se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.
  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, effettuate le seguenti operazioni: print "<html></html>";

Aggiunta di uno script di inizializzazione

Lo script di inizializzazione è uno script Perl che viene eseguito una volta prima dell'indicizzazione di qualsiasi documento.
Lo script di inizializzazione viene utilizzato insieme a uno script di filtro, script di terminazione e script di maschere URL.
Assicuratevi di rigenerare l'indice del sito in modo che i risultati dello script di inizializzazione siano visibili ai clienti.
Per aggiungere uno script di inizializzazione
  1. Nel menu del prodotto, fate clic su Settings > Filtering > Initialization Script .
  2. (Facoltativo) Nella Initialization Script pagina, nel Test URL campo, immettete l’URL di un documento sul sito Web.
    Fate clic su un'opzione di test per visualizzare le modifiche apportate al testo HTML non elaborato.
    Vedere la tabella delle opzioni di filtro in Aggiunta di uno script di filtro.
    Fate clic Test per eseguire il test rispetto agli script di filtraggio e alle maschere URL.
    Se si fa clic Test non si aggiorna e si salva lo script di inizializzazione.
  3. Nel Initialization Script campo, incollare lo script.
  4. (Facoltativo) Fare clic Check Syntax per eseguire una verifica rapida della sintassi dello script eseguendo gli script di filtraggio, inizializzazione e terminazione.
    Check Syntax non aggiorna e salva lo script.
  5. Clic Save Changes .
  6. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.
  7. (Facoltativo) Nella Initialization Script pagina, effettuate una delle seguenti operazioni:

Informazioni sullo script di terminazione

È possibile utilizzare Termination Script per modificare il contenuto di un documento Web prima che venga indicizzato.
Potete inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML basati sull'URL di un documento, sul tipo MIME e sul contenuto esistente. Lo script di inizializzazione è uno script Perl, che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Lo script di terminazione viene utilizzato con uno script di inizializzazione, uno script di filtraggio, uno script di terminazione, uno script di maschere URL e un URL di prova.
Lo script di terminazione viene eseguito una volta che tutti i documenti sono indicizzati. È possibile utilizzare lo script di terminazione per stampare i messaggi di stato dallo script di filtraggio al registro di indice. È possibile stampare i messaggi su STDERR oppure tramite la _search_debug_log() subroutine.
Alcune opzioni della riga di comando GNU diff che è possibile utilizzare in Expert (diff) modalità nella pagina Script di terminazione in fase, includono quanto segue:
GNU diff, opzione della riga di comando
Descrizione
-b
Ignora le modifiche nella quantità di spazio vuoto.
-B
Ignora le modifiche che consentono di inserire o eliminare righe vuote.
-c
Utilizza il formato di output del contesto, che mostra tre righe di contesto.
-C linee
Utilizza il formato di output contestuale, che mostra le righe (un numero intero) di righe di contesto, o tre se non sono date righe.
-i
Ignora le modifiche nel caso; considera equivalenti lettere maiuscole e minuscole.
-f
Esegue un output simile a uno script ed con modifiche nell'ordine in cui appaiono nel file.
-n
Trasmette diffusori in formato RCS; come -f , con la differenza che ogni comando specifica il numero di righe interessate.
-u
Utilizza il formato di output unificato, che mostra tre righe di contesto.
-U linee
Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.
In questi script è possibile utilizzare variabili locali, variabili globali o entrambe. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". All'avvio dello script di terminazione, l'ambiente in cui si trova contiene le seguenti handle di file standard:
  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - niente (se i dati vengono stampati su STDOUT, vengono scartati)
  • STDERR - i dati stampati su STDERR vengono stampati nel registro indice come un errore
Inoltre, è possibile scrivere messaggi personalizzati nel registro indice utilizzando la _search_debug_log() subroutine, come nell'esempio seguente:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.
Per visualizzare il numero di documenti elaborati dallo script di filtraggio come riga di errore nel registro indice, è possibile utilizzare il seguente script di terminazione:
# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Consulta Variabili globali

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio nomi "main::": $main::doc_count = 0;
  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;
  • Le sottoscrizioni sono definite nello script di inizializzazione. Non necessitano di uno spazio nomi "main:" esplicito: sub my_sub { ...
    }
  • Eseguire il test $main::search_content_type prima di apportare modifiche a un file. La verifica può essere utile per evitare di apportare modifiche indesiderate ai file binari, come i file SWF o i file PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • L'intestazione $main::search_content_type è l'intero tipo di contenuto fornito dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".
  • Per ciascun tipo di documento non HTML, $main::search_content_type possono essere utilizzati vari valori. La verifica di ciascun valore nello script diventa difficoltosa. Ad esempio, alcuni documenti di Word presentano i valori del tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In tali casi, $main::search_content_class possono assumere i seguenti valori:
    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • Nell'esempio, il test $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori del tipo di contenuto.
  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come era stato scaricato. Se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.
  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, effettuate le seguenti operazioni: print "<html></html>";

Aggiunta di uno script di terminazione

Lo script di terminazione è uno script Perl che viene eseguito una volta che tutti i documenti sono indicizzati.
Lo script di terminazione viene utilizzato insieme a uno script di filtraggio, uno script di terminazione e uno script di maschere URL.
Assicuratevi di rigenerare l'indice del sito in modo che i risultati dello script di inizializzazione siano visibili ai clienti.
Per aggiungere uno script di terminazione
  1. Nel menu del prodotto, fate clic su Settings > Filtering > Termination Script .
  2. (Facoltativo) Nella Termination Script pagina, nel Test URL campo, immettete l’URL di un documento sul sito Web.
    Fate clic su un'opzione di test per visualizzare le modifiche apportate al testo HTML non elaborato.
    Vedere la tabella delle opzioni di filtro in Aggiunta di uno script di filtro.
    Fate clic Test per eseguire il test rispetto agli script di filtraggio e alle maschere URL.
    Facendo clic su Test non si aggiorna e si salva lo script di terminazione.
  3. Nel Termination Script campo, incollare lo script.
  4. (Facoltativo) Fare clic Check Syntax per eseguire una verifica rapida della sintassi dello script eseguendo gli script di inizializzazione, filtro e terminazione.
    Check Syntax non aggiorna e salva lo script.
  5. Clic Save Changes .
  6. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.
  7. (Facoltativo) Nella Termination Script pagina, effettuate una delle seguenti operazioni:

Lo script delle maschere URL

Il filtro consente di modificare il contenuto di un documento Web prima che venga indicizzato. Potete inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML basati sull'URL di un documento, sul tipo MIME e sul contenuto esistente. Lo script delle maschere URL è uno script Perl che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari.
Per modificare il contenuto dei documenti che esistono solo in una parte specifica del sito Web, potete specificare maschere URL, escludere maschere URL o entrambe per definire le pagine appropriate.
Se si desidera modificare solo i documenti sottostanti, "https://www.mysite.com/faqs/" è possibile utilizzare il seguente set di maschere:
include https://www.mysite.com/faqs/ 
exclude *

Potete anche utilizzare l'espressione regolare in uno script di maschera URL come nell'esempio seguente:
include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Le maschere URL con script vengono considerate nell'ordine in cui sono state immesse nel URL Masks campo. Quando un URL del documento corrisponde a una maschera, il documento viene incluso o escluso in base al tipo di maschera. Se l'URL di un documento non corrisponde ad alcuna maschera URL, il documento viene incluso solo se il relativo tipo MIME è "text/html". Sono esclusi tutti gli altri tipi MIME.

Aggiunta di uno script di maschera URL

Specificate l’URL per includere maschere ed escludere maschere per modificare il contenuto dei documenti che esistono solo in una parte specifica del sito Web.
Prima che gli effetti delle impostazioni delle maschere URL siano visibili ai visitatori, ricreate l’indice del sito.
Per aggiungere uno script di maschera URL
  1. Nel menu del prodotto, fate clic su Settings > Filtering > URL Masks .
  2. (Facoltativo) Nella URL Masks pagina, nel Test URL campo, immettete l’URL di un documento sul sito Web, quindi fate clic Test per verificare l’URL rispetto agli script e alle maschere di filtro.
    Viene scaricato il documento dell'URL di prova, che viene utilizzato come input STDIN per lo script di filtraggio. Vengono quindi eseguiti gli script di filtraggio, inizializzazione e terminazione. Se esiste un output STDOUT dello script di filtraggio che consente di visualizzare l'output in una nuova finestra del browser.
    Facendo clic Test non si aggiorna e si salva lo script.
  3. Nel URL Masks campo, immettete una maschera URL per riga.
  4. (Facoltativo) Fate clic Check Syntax per eseguire una verifica rapida della sintassi delle maschere URL eseguendo gli script di filtro, inizializzazione e terminazione.
    Check Syntax non aggiorna e salva lo script.
  5. Clic Save Changes .
  6. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.
  7. (Facoltativo) Nella URL Masks pagina, effettuate una delle seguenti operazioni:

Informazioni sui tipi di contenuto nel filtro

Consente di selezionare i tipi di contenuto da filtrare per l'account.
Il testo trovato all'interno dei tipi di contenuto selezionati viene convertito in HTML e quindi elaborato utilizzando lo script specificato in Script di filtraggio.
I tipi di contenuto tra cui è possibile selezionare comprendono:
  • Documenti PDF
  • Documenti di testo
  • Filmati Adobe Flash
  • File di Microsoft Word
  • File di Microsoft Office (OpenXML)
  • File di Microsoft Excel
  • File Microsoft PowerPoint
  • Testo in file musicali MP3
Prima che gli effetti delle impostazioni dei tipi di contenuto o le modifiche alle impostazioni siano visibili ai clienti, dovete ricreare l'indice del sito.

Selezione dei tipi di contenuto filtrati

Selezionare i tipi di contenuto che si desidera trasmettere allo script specificato in Script di filtraggio.
Selezione dei tipi di contenuto filtrati
  1. Nel menu del prodotto, fate clic su Settings > Filtering > Content Types .
  2. Nella Content Types pagina, verificare i tipi di contenuto che si desidera trasmettere allo script del filtro.
  3. Clic Save Changes .
  4. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.
  5. (Facoltativo) Nella Content Types pagina, effettuate una delle seguenti operazioni: