Show Menu
TEMAS×

Acerca del menú Filtro

Utilice el menú Filtrado para utilizar secuencias de comandos que cambien el contenido de un documento web antes de indexarlo.

Acerca del filtrado de secuencias de comandos

Puede utilizar Filtering Script para cambiar el contenido de un documento Web antes de indizarlo.
Puede insertar etiquetas HTML, eliminar contenido irrelevante e incluso crear nuevos metadatos HTML basados en la URL, el tipo MIME y el contenido existente de un documento. La secuencia de comandos de filtrado es una secuencia de comandos Perl, que proporciona una potente gestión de cadenas y la flexibilidad de la coincidencia de expresiones regulares. La secuencia de comandos de filtrado se utiliza con una secuencia de comandos de inicialización, una secuencia de comandos de finalización, una secuencia de comandos de máscaras URL y una URL de prueba.
La secuencia de comandos de filtrado se ejecuta cada vez que se lee un documento del sitio web. La secuencia de comandos se ejecuta como un filtro estándar. En otras palabras, lee datos de STDIN, los transforma de alguna manera y escribe los resultados en STDOUT. Puede utilizar la secuencia de comandos de filtrado para imprimir mensajes de estado desde la secuencia de comandos de filtrado al registro de índice. Puede imprimir los mensajes en STDERR o a través de la _search_debug_log() subrutina.
Algunas opciones de diferencias GNU que puede usar mientras está en Expert (diff) modo en la página Secuencia de comandos de filtrado por etapas son las siguientes:
Opción diff GNU
Descripción
-b
Omite los cambios en la cantidad de espacio en blanco.
-B
Omite los cambios que insertan o eliminan líneas en blanco.
-c
Utiliza el formato de salida de contexto, que muestra tres líneas de contexto.
Líneas C
Utiliza el formato de salida de contexto, mostrando líneas (un entero) de contexto o tres si no se dan líneas.
-i
Omite los cambios en el caso; considere equivalentes las letras mayúsculas y minúsculas.
-f
Convierte los resultados en una salida similar a una secuencia de comandos de final, pero con cambios en el orden en que aparecen en el archivo.
-n
Produce diferencias en formato RCS; como -f excepto que cada comando especifica el número de líneas afectadas.
-u
Utiliza el formato de salida unificado, que muestra tres líneas de contexto.
-Líneas U
Utiliza el formato de salida unificado, mostrando líneas (un entero) de contexto o tres si no se dan líneas.
Puede utilizar variables locales, variables globales o ambas en estas secuencias de comandos. Todas las variables globales llevan el prefijo "main::". Cuando se inicia la secuencia de comandos de filtrado, su entorno contiene los siguientes identificadores de archivo estándar:
  • STDIN: nada (devuelve EOF inmediatamente cuando se lee)
  • STDOUT - reemplazo de HTML (si los datos se imprimen en STDOUT, se utiliza en lugar del documento original)
  • STDERR: los datos impresos en STDERR se imprimen en el Registro de índice como un error
Además, puede escribir mensajes personalizados en el registro de índice mediante la _search_debug_log() subrutina, como en el ejemplo siguiente:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Estos mensajes aparecen con la palabra DEBUG como un prefijo y no se registran como errores.
El siguiente es un ejemplo de filtrado. Los campos de página <title> Web suelen comenzar por el nombre de la empresa. Aunque esta información es útil para la navegación del sitio, no es relevante para la búsqueda. Si los títulos de todas las páginas web de MegaCorp comienzan con una cadena común, como por ejemplo:
<title>MegaCorp -- meaningful title 
here</title>

Debe eliminar " MegaCorp -- " desde el principio de cada título de documento y contar cada documento procesado con la secuencia de comandos de filtrado. Para ello, puede utilizar la siguiente secuencia de comandos:
# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variables globales

Puede utilizar las siguientes variables en cualquier secuencia de comandos de filtrado:
Variable
Descripción
$main::search_crawl_type
El valor de $main::search_crawl_type indica el tipo de operación de índice en curso. Formulario desaprobado: $main::ws_crawl_type Las operaciones de índice y los valores asociados incluyen lo siguiente:
  • Índice completo: Manual - manual
  • Índice completo: Programado - auto
  • Índice completo: Control remoto - CGI
  • Índice incremental: Manual - manual-incremental
  • Índice incremental: Programado - auto-incremental
  • Índice incremental: Control remoto - CGI-incremental
  • Índice con secuencias de comandos: Manual - manual-indexlist.txt
  • Índice con secuencias de comandos: Programado - auto-indexlist.txt
  • Índice con secuencias de comandos: Control remoto - CGI-indexlist.txt
  • Regenerar - manual-upgrade
$main::search_clear_cache
El valor indica si se solicitó la opción de indexación "Borrar caché de índice" para la operación de índice actual. Si se solicitó "Borrar caché de índice", el valor de $main::search_clear_cache es " 1 ". Forma obsoleta: $main::ws_clear_cache
$main::search_fields
El valor contiene una lista separada por tabuladores de los campos de metadatos definidos en la cuenta. De forma predeterminada, el valor es: url title desc keys target body alt date charset language Formulario desaprobado: $main::ws_fields
$main::search_collections
El valor contiene una lista separada por tabuladores de las colecciones que se definen en la cuenta. Forma obsoleta: $main::ws_collections
$main::search_url
El valor es la dirección URL completa del documento. Forma obsoleta: $main::ws_url
$main::search_content_type
El valor es el tipo de contenido del documento tal como se obtiene de la etiqueta meta http-equiv. Un valor típico es "text/html; charset=iso-8859-1". Forma obsoleta: $main::ws_content_type
$main::search_content_class
El valor es la clase de contenido del documento, tal como se deriva del campo de tipo de contenido. Forma obsoleta: $main::ws_content_class
$main::search_syntax_check
El valor refleja el uso del botón "Comprobar sintaxis". Si se hace clic, el valor es 1 (uno); de lo contrario, su valor es 0 (cero). Forma obsoleta: $main::ws_syntax_check
$main::search_last_mod_date
Si lo proporciona el servidor web, este valor contiene la representación Epoch (segundos transcurridos desde el 1 de enero de 1970) de la fecha de la última modificación del documento. Puede dar formato a este valor mediante la llamada de biblioteca Perl localtime().

Sugerencias rápidas

  • Todas las variables globales llevan el prefijo "main:": $main::doc_count = 0;
  • Todas las variables locales se declaran con "my": my $i = 0;
  • Las subrutinas se definen en la secuencia de comandos de inicialización. No necesitan un espacio de nombres explícito "main::": sub my_sub { ...
    }
  • Pruebe el $main::search_content_type antes de realizar cambios en un archivo. La prueba puede ayudarle a evitar realizar cambios irresponsables en archivos binarios, como archivos SWF o archivos PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • El $main::search_content_type es el encabezado Content-Type completo que su servidor entrega. A veces puede contener un tipo MIME simple, como "text/html". O bien, puede contener un tipo MIME seguido de otra información, como la codificación del conjunto de caracteres del documento, como "text/html; charset=iso-8859-1".
  • Para cada tipo de documento que no sea HTML, $main::search_content_type puede tomar varios valores. La prueba de cada valor de la secuencia de comandos resulta engorrosa. Por ejemplo, algunos documentos de Word tienen valores de tipo de contenido de "application/msword", "application/vnd.ms-word" o "application/x-msword". En estos casos, $main::search_content_class puede tomar los siguientes valores:
    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • En el ejemplo, la prueba $main::search_content_class de "palabra" coincidiría con cualquiera de los tres valores posibles de tipo de contenido.
  • Si no se imprime nada en STDOUT desde la secuencia de comandos de filtrado, el documento se utiliza exactamente como se descargó. Es decir, si no necesita cambiar nada en un documento, no necesita copiar STDIN en STDOUT para ese documento.
  • Si desea eliminar todo el texto de un documento, imprima un archivo STDOUT válido. Por ejemplo, para eliminar por completo todo el texto de un documento HTML, haga lo siguiente: print "<html></html>";

Adición de un script de filtrado

La secuencia de comandos de filtrado es una secuencia de comandos Perl que se ejecuta para cada documento descargado del sitio web.
La secuencia de comandos de filtrado se utiliza junto con una secuencia de comandos de inicialización, una secuencia de comandos de finalización y una secuencia de comandos de máscaras URL.
Asegúrese de volver a generar el índice del sitio para que los resultados de la secuencia de comandos de filtrado sean visibles para los clientes.
Adición de una secuencia de comandos de filtrado
  1. En el menú de producto, haga clic en Settings > Filtering > Filtering Script .
  2. (Opcional) En la Filtering Script página, en el Test URL campo, introduzca la dirección URL de un documento en el sitio web.
    Haga clic en una opción de prueba para ver los cambios en el texto HTML sin procesar.
    Opción
    Descripción
    Campo de la dirección URL de prueba
    Permite introducir la dirección URL de un documento en el sitio web.
    Prueba
    Prueba la dirección URL con las secuencias de comandos de filtrado y las máscaras URL.
    Se descarga el documento de la URL de prueba, que luego se utiliza como entrada STDIN en el script de filtrado. A continuación, se ejecutan las secuencias de comandos de inicialización, filtrado y finalización. Si hay algún resultado STDOUT del script de filtrado, ese resultado se muestra en una nueva ventana del explorador.
    Sólo prueba
    Prueba únicamente la operación de la secuencia de comandos.
    Vista previa
    Permite ver la página.
    Completo visual
    Genera una vista de tabla completa antes y después de los documentos.
    Vídeo breve
    Muestra únicamente las diferencias entre las vistas antes y después.
    Experto (diff)
    Muestra el resultado sin procesar del comando diff GNU que se utiliza para comparar los archivos, usando las opciones de línea de comandos suministradas.
    Filtrado de secuencias de comandos
    Permite pegar la secuencia de comandos de filtrado en el campo proporcionado.
    Guardar cambios
    Guarda el script de filtrado.
    Comprobar sintaxis
    Permite realizar una comprobación rápida de la sintaxis de la secuencia de comandos mediante la ejecución de las secuencias de comandos de inicialización, filtrado y finalización. No actualiza ni guarda la secuencia de comandos.
    Se imprimen todos los errores y advertencias del compilador de Perl y todos los resultados de STDERR.
    Antes de que los clientes vean los efectos de la secuencia de comandos, debe volver a generar el índice del sitio.
    Opciones de la línea de comandos GNU diff
    Algunas opciones de diferencias GNU que puede usar mientras está en Expert (diff) modo en la página Secuencia de comandos de filtrado por etapas son las siguientes:
    Opción de línea de comandos GNU diff
    Descripción
    -b
    Omite los cambios en la cantidad de espacio en blanco.
    -B
    Omite los cambios que insertan o eliminan líneas en blanco.
    -c
    Utiliza el formato de salida de contexto, que muestra tres líneas de contexto.
    Líneas C
    Utiliza el formato de salida de contexto, mostrando líneas (un entero) de contexto o tres si no se dan líneas.
    -i
    Omite los cambios en el caso; considere equivalentes las letras mayúsculas y minúsculas.
    -f
    Convierte los resultados en una salida similar a una secuencia de comandos de final, pero con cambios en el orden en que aparecen en el archivo.
    -n
    Produce diferencias en formato RCS; como -f excepto que cada comando especifica el número de líneas afectadas.
    -u
    Utiliza el formato de salida unificado, que muestra tres líneas de contexto.
    -Líneas U
    Utiliza el formato de salida unificado, mostrando líneas (un entero) de contexto o tres si no se dan líneas.
  3. Haga clic en Test para realizar pruebas con las secuencias de comandos de filtrado y las máscaras URL.
    Al hacer clic Test no se actualiza ni se guarda la secuencia de comandos de filtrado.
  4. En el Filtering Script campo, pegue la secuencia de comandos.
  5. (Opcional) Haga clic en Check Syntax para realizar una comprobación rápida de la sintaxis de la secuencia de comandos mediante la ejecución de las secuencias de comandos de filtrado, inicialización y finalización.
    Check Syntax no actualiza ni guarda la secuencia de comandos.
  6. Haga clic Save Changes .
  7. (Opcional) Si desea obtener una vista previa de los resultados, vuelva a generar el índice del sitio escalonado.
  8. (Opcional) En la Filtering Script página, realice una de las siguientes acciones:

Acerca del script de inicialización

Puede utilizar Initialization Script para cambiar el contenido de un documento Web antes de indizarlo.
Puede insertar etiquetas HTML, eliminar contenido irrelevante e incluso crear nuevos metadatos HTML basados en la URL, el tipo MIME y el contenido existente de un documento. La secuencia de comandos de inicialización es una secuencia de comandos Perl, que proporciona una potente gestión de cadenas y la flexibilidad de la coincidencia de expresiones regulares. La secuencia de comandos de inicialización se utiliza con una secuencia de comandos de filtrado, una secuencia de comandos de finalización, una secuencia de comandos de máscaras URL y una URL de prueba.
La secuencia de comandos de inicialización se ejecuta una vez antes de que comience la indexación. Utilice esta secuencia de comandos para inicializar las variables y subrutinas globales que utilice el script de filtrado. Puede utilizar la secuencia de comandos de inicialización para imprimir mensajes de estado desde la secuencia de comandos de filtrado al registro de índice. Puede imprimir los mensajes en STDERR o a través de la _search_debug_log() subrutina.
Algunas opciones de diferencias GNU que puede usar mientras está en Expert (diff) modo en la página Secuencia de comandos de inicialización escalonada incluyen lo siguiente:
Opción diff GNU
Descripción
-b
Omite los cambios en la cantidad de espacio en blanco.
-B
Omite los cambios que insertan o eliminan líneas en blanco.
-c
Utiliza el formato de salida de contexto, que muestra tres líneas de contexto.
Líneas C
Utiliza el formato de salida de contexto, mostrando líneas (un entero) de contexto o tres si no se dan líneas.
-i
Omite los cambios en el caso; considere equivalentes las letras mayúsculas y minúsculas.
-f
Convierte los resultados en una salida similar a una secuencia de comandos de final, pero con cambios en el orden en que aparecen en el archivo.
-n
Produce diferencias en formato RCS; como -f excepto que cada comando especifica el número de líneas afectadas.
-u
Utiliza el formato de salida unificado, que muestra tres líneas de contexto.
-Líneas U
Utiliza el formato de salida unificado, mostrando líneas (un entero) de contexto o tres si no se dan líneas.
Puede utilizar variables locales, variables globales o ambas en estas secuencias de comandos. Todas las variables globales llevan el prefijo "main::". Cuando se inicia la secuencia de comandos de inicialización, su entorno contiene los siguientes identificadores de archivo estándar:
  • STDIN: nada (devuelve EOF inmediatamente cuando se lee)
  • STDOUT - nada (si los datos se imprimen en STDOUT, se descartan)
  • STDERR: los datos impresos en STDERR se imprimen en el Registro de índice como un error
Además, puede escribir mensajes personalizados en el registro de índice mediante la _search_debug_log() subrutina, como en el ejemplo siguiente:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Estos mensajes aparecen con la palabra DEBUG como un prefijo y no se registran como errores.
A continuación se muestra un ejemplo de secuencia de comandos de inicialización:
# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Consulte Variables globales

Sugerencias rápidas

  • Todas las variables globales llevan el prefijo "main:": $main::doc_count = 0;
  • Todas las variables locales se declaran con "my": my $i = 0;
  • Las subrutinas se definen en la secuencia de comandos de inicialización. No necesitan un espacio de nombres explícito "main::": sub my_sub { ...
    }
  • Pruebe el $main::search_content_type antes de realizar cambios en un archivo. La prueba puede ayudarle a evitar realizar cambios irresponsables en archivos binarios, como archivos SWF o archivos PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • El $main::search_content_type es el encabezado Content-Type completo que su servidor entrega. A veces puede contener un tipo MIME simple, como "text/html". O bien, puede contener un tipo MIME seguido de otra información, como la codificación del conjunto de caracteres del documento, como "text/html; charset=iso-8859-1".
  • Para cada tipo de documento que no sea HTML, $main::search_content_type puede tomar varios valores. La prueba de cada valor de la secuencia de comandos resulta engorrosa. Por ejemplo, algunos documentos de Word tienen valores de tipo de contenido de "application/msword", "application/vnd.ms-word" o "application/x-msword". En estos casos, $main::search_content_class puede tomar los siguientes valores:
    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • En el ejemplo, la prueba $main::search_content_class de "palabra" coincidiría con cualquiera de los tres valores posibles de tipo de contenido.
  • Si no se imprime nada en STDOUT desde la secuencia de comandos de filtrado, el documento se utiliza exactamente como se descargó. Es decir, si no necesita cambiar nada en un documento, no necesita copiar STDIN en STDOUT para ese documento.
  • Si desea eliminar todo el texto de un documento, imprima un archivo STDOUT válido. Por ejemplo, para eliminar por completo todo el texto de un documento HTML, haga lo siguiente: print "<html></html>";

Adición de una secuencia de comandos de inicialización

La secuencia de comandos de inicialización es una secuencia de comandos Perl que se ejecuta una vez antes de indizar cualquier documento.
La secuencia de comandos de inicialización se utiliza junto con una secuencia de comandos de filtrado, una secuencia de comandos de finalización y una secuencia de comandos de máscaras URL.
Asegúrese de volver a generar el índice del sitio para que los clientes puedan ver los resultados de la secuencia de comandos de inicialización.
Adición de una secuencia de comandos de inicialización
  1. En el menú de producto, haga clic en Settings > Filtering > Initialization Script .
  2. (Opcional) En la Initialization Script página, en el Test URL campo, introduzca la dirección URL de un documento en el sitio web.
    Haga clic en una opción de prueba para ver los cambios en el texto HTML sin procesar.
    Consulte la tabla de opciones de filtrado en Adición de un script de filtrado.
    Haga clic en Test para realizar pruebas con las secuencias de comandos de filtrado y las máscaras URL.
    Al hacer clic Test no se actualiza ni se guarda la secuencia de comandos de inicialización.
  3. En el Initialization Script campo, pegue la secuencia de comandos.
  4. (Opcional) Haga clic en Check Syntax para realizar una comprobación rápida de la sintaxis de la secuencia de comandos mediante la ejecución de las secuencias de comandos de filtrado, inicialización y finalización.
    Check Syntax no actualiza ni guarda la secuencia de comandos.
  5. Haga clic Save Changes .
  6. (Opcional) Si desea obtener una vista previa de los resultados, vuelva a generar el índice del sitio escalonado.
  7. (Opcional) En la Initialization Script página, realice una de las siguientes acciones:

Acerca de la secuencia de comandos de finalización

Puede utilizar Termination Script para cambiar el contenido de un documento Web antes de indizarlo.
Puede insertar etiquetas HTML, eliminar contenido irrelevante e incluso crear nuevos metadatos HTML basados en la URL, el tipo MIME y el contenido existente de un documento. La secuencia de comandos de inicialización es una secuencia de comandos Perl, que proporciona una potente gestión de cadenas y la flexibilidad de la coincidencia de expresiones regulares. La secuencia de comandos de finalización se utiliza con una secuencia de comandos de inicialización, una secuencia de comandos de filtrado, una secuencia de comandos de finalización, una secuencia de comandos de máscaras URL y una URL de prueba.
La secuencia de comandos de finalización se ejecuta una vez que se indizan todos los documentos. Puede utilizar la secuencia de comandos de finalización para imprimir mensajes de estado desde la secuencia de comandos de filtrado al registro de índice. Puede imprimir los mensajes en STDERR o a través de la _search_debug_log() subrutina.
Algunas opciones de línea de comandos GNU diff que puede utilizar mientras está en Expert (diff) modo en la página Secuencia de comandos de terminación en etapas son las siguientes:
Opción de línea de comandos GNU diff
Descripción
-b
Omite los cambios en la cantidad de espacio en blanco.
-B
Omite los cambios que insertan o eliminan líneas en blanco.
-c
Utiliza el formato de salida de contexto, que muestra tres líneas de contexto.
Líneas C
Utiliza el formato de salida de contexto, mostrando líneas (un entero) de contexto o tres si no se dan líneas.
-i
Omite los cambios en el caso; considere equivalentes las letras mayúsculas y minúsculas.
-f
Convierte los resultados en una salida similar a una secuencia de comandos de final, pero con cambios en el orden en que aparecen en el archivo.
-n
Produce diferencias en formato RCS; como -f excepto que cada comando especifica el número de líneas afectadas.
-u
Utiliza el formato de salida unificado, que muestra tres líneas de contexto.
-Líneas U
Utiliza el formato de salida unificado, mostrando líneas (un entero) de contexto o tres si no se dan líneas.
Puede utilizar variables locales, variables globales o ambas en estas secuencias de comandos. Todas las variables globales llevan el prefijo "main::". Cuando se inicia la secuencia de comandos de finalización, su entorno contiene los siguientes identificadores de archivo estándar:
  • STDIN: nada (devuelve EOF inmediatamente cuando se lee)
  • STDOUT - nada (si los datos se imprimen en STDOUT, se descartan)
  • STDERR: los datos impresos en STDERR se imprimen en el registro de índice como error
Además, puede escribir mensajes personalizados en el registro de índice mediante la _search_debug_log() subrutina, como en el ejemplo siguiente:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Estos mensajes aparecen con la palabra DEBUG como un prefijo y no se registran como errores.
Para mostrar el número de documentos procesados por la secuencia de comandos de filtrado como una línea de error en el registro de índice, puede utilizar la siguiente secuencia de comandos de finalización:
# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Consulte Variables globales

Sugerencias rápidas

  • Todas las variables globales llevan el prefijo "main:": $main::doc_count = 0;
  • Todas las variables locales se declaran con "my": my $i = 0;
  • Las subrutinas se definen en la secuencia de comandos de inicialización. No necesitan un espacio de nombres explícito "main::": sub my_sub { ...
    }
  • Pruebe el $main::search_content_type antes de realizar cambios en un archivo. La prueba puede ayudarle a evitar realizar cambios irresponsables en archivos binarios, como archivos SWF o archivos PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • El $main::search_content_type es el encabezado Content-Type completo que su servidor entrega. A veces puede contener un tipo MIME simple, como "text/html". O bien, puede contener un tipo MIME seguido de otra información, como la codificación del conjunto de caracteres del documento, como "text/html; charset=iso-8859-1".
  • Para cada tipo de documento que no sea HTML, $main::search_content_type puede tomar varios valores. La prueba de cada valor de la secuencia de comandos resulta engorrosa. Por ejemplo, algunos documentos de Word tienen valores de tipo de contenido de "application/msword", "application/vnd.ms-word" o "application/x-msword". En estos casos, $main::search_content_class puede tomar los siguientes valores:
    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • En el ejemplo, la prueba $main::search_content_class de "palabra" coincidiría con cualquiera de los tres valores posibles de tipo de contenido.
  • Si no se imprime nada en STDOUT desde la secuencia de comandos de filtrado, el documento se utiliza exactamente como se descargó. Es decir, si no necesita cambiar nada en un documento, no necesita copiar STDIN en STDOUT para ese documento.
  • Si desea eliminar todo el texto de un documento, imprima un archivo STDOUT válido. Por ejemplo, para eliminar por completo todo el texto de un documento HTML, haga lo siguiente: print "<html></html>";

Adición de una secuencia de comandos de finalización

La secuencia de comandos de finalización es una secuencia de comandos Perl que se ejecuta una vez que se indizan todos los documentos.
La secuencia de comandos de finalización se utiliza junto con una secuencia de comandos de filtrado, una secuencia de comandos de finalización y una secuencia de comandos de máscaras URL.
Asegúrese de volver a generar el índice del sitio para que los clientes puedan ver los resultados de la secuencia de comandos de inicialización.
Para agregar una secuencia de comandos de finalización
  1. En el menú de producto, haga clic en Settings > Filtering > Termination Script .
  2. (Opcional) En la Termination Script página, en el Test URL campo, introduzca la dirección URL de un documento en el sitio web.
    Haga clic en una opción de prueba para ver los cambios en el texto HTML sin procesar.
    Consulte la tabla de opciones de filtrado en Adición de un script de filtrado.
    Haga clic en Test para realizar pruebas con las secuencias de comandos de filtrado y las máscaras URL.
    Al hacer clic Test no se actualiza ni se guarda la secuencia de comandos de finalización.
  3. En el Termination Script campo, pegue la secuencia de comandos.
  4. (Opcional) Haga clic en Check Syntax para realizar una comprobación rápida de la sintaxis de la secuencia de comandos mediante la ejecución de las secuencias de comandos de inicialización, filtrado y finalización.
    Check Syntax no actualiza ni guarda la secuencia de comandos.
  5. Haga clic Save Changes .
  6. (Opcional) Si desea obtener una vista previa de los resultados, vuelva a generar el índice del sitio escalonado.
  7. (Opcional) En la Termination Script página, realice una de las siguientes acciones:

Acerca del script de máscaras URL

Con el filtrado, puede cambiar el contenido de un documento web antes de indexarlo. Puede insertar etiquetas HTML, eliminar contenido irrelevante e incluso crear nuevos metadatos HTML basados en la URL, el tipo MIME y el contenido existente de un documento. La secuencia de comandos de máscaras URL es una secuencia de comandos Perl que proporciona una potente gestión de cadenas y la flexibilidad de la coincidencia de expresiones regulares.
Para cambiar el contenido de los documentos que solo existen en una parte específica del sitio web, puede especificar incluir máscaras URL, excluir máscaras URL o ambas, para definir las páginas adecuadas.
Si desea cambiar solo los documentos de "https://www.mysite.com/faqs/" , puede utilizar el siguiente conjunto de máscaras:
include https://www.mysite.com/faqs/ 
exclude *

También puede utilizar la expresión regular en una secuencia de comandos de máscara URL, como en el ejemplo siguiente:
include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Consulte Expresiones regulares .
Las máscaras URL con secuencias de comandos se consideran en el orden en que se introdujeron en el URL Masks campo. Cuando una dirección URL de documento coincide con una máscara, ese documento se incluye o excluye en función del tipo de máscara. Si la dirección URL de un documento no coincide con ninguna máscara de dirección URL, el documento solo se incluye si su tipo MIME es "text/html". Se excluyen todos los demás tipos MIME.

Adición de una secuencia de comandos de máscara URL

Especifique la URL, que incluye máscaras y que excluye máscaras para cambiar el contenido de los documentos que solo existen en una parte específica del sitio web.
Antes de que los visitantes vean los efectos de la configuración de las máscaras de URL, vuelva a crear el índice del sitio.
Adición de una secuencia de comandos de máscara URL
  1. En el menú de producto, haga clic en Settings > Filtering > URL Masks .
  2. (Opcional) En la URL Masks página, en el Test URL campo, introduzca una URL de un documento en el sitio web y, a continuación, haga clic en Test para probar la URL con las secuencias de comandos y máscaras de filtrado.
    Se descarga el documento de la URL de prueba, que se utiliza como entrada STDIN en el script de filtrado. A continuación, se ejecutan las secuencias de comandos de filtrado, inicialización y finalización. Si hay algún resultado STDOUT del script de filtrado, ese resultado se muestra en una nueva ventana del explorador.
    Al hacer clic Test no se actualiza ni se guarda la secuencia de comandos.
  3. En el URL Masks campo, introduzca una máscara URL por línea.
  4. (Opcional) Haga clic en Check Syntax para realizar una comprobación rápida de la sintaxis de las máscaras URL mediante la ejecución de las secuencias de comandos de filtrado, inicialización y finalización.
    Check Syntax no actualiza ni guarda la secuencia de comandos.
  5. Haga clic Save Changes .
  6. (Opcional) Si desea obtener una vista previa de los resultados, vuelva a generar el índice del sitio escalonado.
  7. (Opcional) En la URL Masks página, realice una de las siguientes acciones:

Acerca de los tipos de contenido en el filtrado

Permite seleccionar los tipos de contenido que desea filtrar para esta cuenta.
El texto que se encuentra dentro de los tipos de contenido seleccionados se convierte a HTML y, a continuación, se procesa con la secuencia de comandos especificada en Filtrar secuencias de comandos.
Los tipos de contenido que puede seleccionar incluyen lo siguiente:
  • Documentos PDF
  • Documentos de texto
  • Películas Adobe Flash
  • Archivos de Microsoft Word
  • Archivos de Microsoft Office (OpenXML)
  • Archivos de Microsoft Excel
  • Archivos de Microsoft Powerpoint
  • Texto en archivos de música MP3
Antes de que los efectos de la configuración de Tipos de contenido o los cambios en la configuración sean visibles para los clientes, debe volver a generar el índice del sitio.

Selección de los tipos de contenido que se filtran

Seleccione los tipos de contenido que desea pasar a la secuencia de comandos especificada en Filtro de secuencias de comandos.
Seleccionar los tipos de contenido que se filtran
  1. En el menú de producto, haga clic en Settings > Filtering > Content Types .
  2. En la Content Types página, compruebe los tipos de contenido que desea pasar al script de filtro.
  3. Haga clic Save Changes .
  4. (Opcional) Si desea obtener una vista previa de los resultados, vuelva a generar el índice del sitio escalonado.
  5. (Opcional) En la Content Types página, realice una de las siguientes acciones: