Show Menu
TEMAS×

Acerca del índice de secuencias de comandos

Con Índice de secuencias de comandos puede escribir, actualizar y mantener opciones de indexación incrementales sin necesidad de iniciar sesión. El robot de búsqueda lee instrucciones de un archivo de texto alojado en el servidor.

Uso del índice de secuencias de comandos

Acerca de la configuración de la indexación incremental mediante secuencias de comandos

Para utilizar índice con secuencias de comandos, utilice la página Configuración de índice incremental con secuencias de comandos para especificar la URL de un archivo de secuencia de comandos (un archivo de texto sin formato) que se encuentra en el servidor. Por ejemplo, https://www.mysite.com/indexlist.txt . A medida que el sitio cambia, puede agregar bloques de comandos al archivo de texto de forma manual o automática (con una secuencia de comandos desencadenada por la llegada de información desde una fuente de noticias, un ticker de bolsa u otro archivo modificado).
Cuando comienza el índice incremental con secuencias de comandos, el robot de búsqueda lee el archivo de texto y ejecuta los nuevos comandos que se encuentran en ese archivo. De forma predeterminada, el robot de búsqueda procesa sólo los nuevos comandos, que están determinados por la fecha del archivo. A menos que compruebe Clear Date en el momento de configurar el índice de secuencias de comandos, el robot de búsqueda "recuerda" el especificador de fecha del bloque procesado más recientemente.

Acerca del archivo de secuencias de comandos

El archivo de secuencias de comandos que se especifica en la URL es un archivo de texto sin formato que se encuentra en el servidor. Puede utilizar retornos de carro, fuentes de línea o ambos para la secuencia final de línea. Una línea en blanco contiene cero o más caracteres de espacio en blanco seguidos de una secuencia final de línea. Todos los comandos no distinguen entre mayúsculas y minúsculas.
El archivo de texto está organizado en bloques que describen la información que utiliza el robot de búsqueda cuando realiza un índice incremental con secuencias de comandos.
Los bloques se ordenan por fecha, con los bloques más antiguos en la parte superior del archivo de texto y los bloques más recientes en la parte inferior. Cada bloque comienza con una sola línea date-command y un comando date-specifier, y termina con un separador de línea en blanco como en el siguiente ejemplo de bloque (entre varios comandos):
Se requiere un cero inicial para todas las fechas ordinales inferiores a la décima cuando se utiliza el estilo HTTP 1.1. Por ejemplo, el 6 de noviembre es el 6 de noviembre, no el 6.
Comando
Descripción
date-command
La primera línea de cada bloque comienza con uno de los dos comandos de fecha:
  • date
    Utilice el comando "date" para indicar que el especificador de fecha constará de un día, una fecha, una hora y una zona horaria.
  • "Segundos"
    Utilice segundos para indicar que el especificador de fecha constará de una hora en segundos epoch (por ejemplo, 784111777). Cuando utilice segundos , asegúrese de que el número de segundos aumenta entre bloques.
date-specifier
El comando date-specifier suele registrar la fecha y hora ordinales (comando date) o la hora en segundos epoch (comando seconds) en que se agregó la información del bloque al archivo. Por ejemplo:
date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)
Se requiere un cero inicial para todas las fechas ordinales inferiores a la décima cuando se utiliza el estilo HTTP 1.1. Por ejemplo, el 6 de noviembre es el 6 de noviembre, no el 6.
El robot de búsqueda "recuerda" el especificador de fecha del bloque procesado más recientemente y sólo indexa la información que considera "más reciente". (El tiempo real no le importa al robot de búsqueda. En cambio, el tiempo en relación con otros tiempos procesados anteriormente es lo que importa).
Después de que el robot de búsqueda lea un bloque con un especificador de fecha de 10:00 p.m., por ejemplo, no lee ningún bloque que registre tiempos antes de las 10:00 p.m., independientemente de cuándo se ejecute la operación de índice. En el peor de los casos, podría introducir erróneamente el año "2040" en lugar de "2004" en el especificador de fechas. En tal caso, el robot de búsqueda indexa el bloque 2040 durante la siguiente operación de indexación y luego se niega a leer cualquier otro bloque de información (a menos que uno sea posterior a 2040). Si esto ocurriera, elimine todos los bloques procesados anteriormente del archivo de texto, haga clic en Borrar fecha y, a continuación, implemente la acción.
línea de comentarios
Comience las líneas de comentarios con el carácter "#".
Cada línea de comentarios debe ser una línea propia; no se pueden escribir comentarios de fin de línea.
Una línea de comentarios no se considera una línea en blanco. También puede aparecer en cualquier parte de un bloque, incluso antes de un comando date o seconds, como en el siguiente ejemplo:
    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 
action-command
Cada bloque de texto puede contener tantos comandos de acción como desee. Las siguientes opciones de acción-comando corresponden a las de indexación incremental estándar:
  • agregar
    Se utiliza con URL. El robot de búsqueda solo indexa las direcciones URL especificadas que han cambiado desde la última operación de indexación. Además, el robot de búsqueda sigue los vínculos contenidos en documentos especificados e indexa sólo los documentos que han cambiado.
    Puede seguir la dirección URL con noseguir o noindex palabras clave como en el siguiente ejemplo:
    add https://www.mydomain.com/ noindex
  • update
    Se utiliza con máscara de URL. El robot de búsqueda busca y actualiza todos los documentos que coinciden con la máscara de dirección URL especificada.
    Puede seguir la dirección URL con noseguir o noindex palabras clave como en el siguiente ejemplo:
    update https://www.mydomain.com/products/
  • están o excluir
    Se utiliza con máscara de URL. El robot de búsqueda busca e indexa ("incluir") o ignora ("excluir") documentos según el tipo de máscara especificada.
    Por ejemplo,
    include https://www.mydomain.com/products/household/lightbulbs*.html
    o
    exclude https://www.mydomain.com/archive/
  • include-date o exclude-date
    Se utiliza con máscara de URL. El robot de búsqueda busca e indexa ("incluir") o ignora ("excluir") documentos basados tanto en la dirección URL como en la fecha de los documentos. Están disponibles los siguientes tipos de máscaras:
    • include-days NNN
      El robot de búsqueda indexa todos los documentos que coinciden con la máscara URL especificada y que son NNNN días o más antiguos.
      Puede seguir la máscara de dirección URL con las palabras clave noseguir , noindex y/o server-date .
    • include-date AAAA-MM-DD
      El robot de búsqueda indexa todos los documentos que coinciden con la máscara de dirección URL especificada y que son tan antiguos o antiguos como la fecha AAAA-MM-DD, donde "AAAA" es el año de 4 dígitos, "MM" es el mes de uno o dos dígitos (1-12) y "DD" es el día de uno o dos dígitos (1-31).
      Puede seguir la máscara de dirección URL con las palabras clave noseguir , noindex y/o server-date .
    • exclude-days NNN
      Deshabilita la indexación de todos los documentos que coinciden con la máscara URL especificada y que son NNN días o más antiguos.
      Puede seguir la máscara de dirección URL con la palabra clave server-date .
    • exclude-date AAAA-MM-DD
      Deshabilita la indexación de todos los documentos que coinciden con la máscara URL especificada y que son anteriores o anteriores a la fecha AAAA-MM-DD.
      Puede seguir la máscara de dirección URL con la palabra clave server-date .
  • delete
    Especifique las direcciones URL. El robot de búsqueda elimina los documentos del índice identificados por la dirección URL.
  • eliminemask
    El robot de búsqueda elimina los documentos del índice que coinciden con la máscara de URL especificada.
Consulte también Acerca de las máscaras URL.

Ejemplo de archivo de secuencia de comandos

En el siguiente ejemplo de archivo de secuencia de comandos, el robot de búsqueda procesa los bloques siempre que los especificadores de fecha posterior a la fecha del especificador de fecha del bloque procesado más recientemente. Si ese es el caso, se producen las siguientes operaciones de indexación:
  • Elimina y2k-problems.html del índice.
  • Agrega no-y2k-problems.html al índice de búsqueda y no sigue ninguno de los vínculos de no-y2k-problems.html .
  • Durante el rastreo, excluya las direcciones URL que coinciden housewares.htm y lightfixtures.htm l del índice de búsqueda.
  • Incluya todos los demás directorios y documentos en www.mydomain.com .
  • Actualice todos los documentos de los directorios products y information , rastreando e indexando todos los vínculos subsidiarios que hayan cambiado desde la última operación de indexación.
  • Durante el rastreo, excluya las direcciones URL de la sección archive del sitio web si tienen fecha el 1 de enero de 1999 o antes.
  • Excluya las direcciones URL que coincidan housewares.html y lightfixtures.html del índice de búsqueda.
  • Indique los archivos del help directorio, pero no rastree ni indexe ningún vínculo de esos archivos.
  • Rastrear e indexar cualquier otro archivo encontrado para www.mydomain.com .
# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

Configuración de un índice incremental con secuencias de comandos

Puede especificar una secuencia de comandos que haya creado y que escriba, actualice y mantenga un índice incremental sin necesidad de iniciar sesión. El robot de búsqueda lee instrucciones del archivo de texto alojado en el servidor para realizar el índice incremental.
Para configurar un índice incremental con secuencias de comandos
  1. En el menú de producto, haga clic en Index > Scripted Index > Configuration .
  2. En la Scripted Incremental Index Configuration página, en la Script File URL , introduzca la dirección URL del archivo de texto que se encuentra en el servidor.
    Consulte Acerca del índice con secuencias de comandos.
  3. (Opcional) Compruebe Clear Date si no desea que el robot de búsqueda "recuerde" el especificador de fecha del bloque procesado más recientemente.
    De forma predeterminada, el robot de búsqueda procesa sólo los bloques nuevos de comandos que se encuentran en el archivo de texto, que se determina por la fecha del archivo. Si no desea el valor predeterminado, marque Clear Date .
  4. Haga clic Save Changes .
  5. (Opcional) Realice una de las siguientes acciones:

Configuración del programa de índice incremental con secuencias de comandos para un sitio web activo

Puede programar la indexación incremental mediante secuencias de comandos para que se produzca a intervalos regulares durante todo el día.
La hora base que seleccione es local según la zona horaria configurada en Configuración de cuenta.
Los servidores Web suelen programarse para que no funcionen por mantenimiento a mitad de la noche. Si el servidor está inactivo durante un tiempo de índice programado, el proceso de indexación fallará. Asegúrese de seleccionar una hora del día cuando el servidor web esté disponible.
La programación de índice solo se aplica al índice activo; no se pueden programar índices incrementales escalonados.
Definición de la programación de índice incremental con secuencias de comandos para un sitio web activo
  1. En el menú de producto, haga clic en Index > Scripted Index > Live Schedule .
  2. En la lista desplegable de la Scripted Incremental Index Schedule Read the Scripted Incrementally Indexing File página, seleccione la frecuencia con la que desea que se ejecute el archivo de texto de índice incremental con secuencias de comandos, en horas o minutos.
  3. En la lista Base Time desplegable, seleccione la hora de inicio en la que desea volver a generar un nuevo índice incremental con secuencias de comandos.
  4. Haga clic Save Changes .

Ejecución de un índice incremental con secuencias de comandos de un sitio web activo o en un sitio web en etapas

Puede utilizar el Índice incremental con secuencias de comandos para indexar "partes" del sitio web en vivo o en etapas, como una colección de páginas que se cambian con frecuencia, sin necesidad de iniciar sesión.
Para utilizar esta función, asegúrese de que ha configurado un archivo de texto de índice incremental con secuencias de comandos.
Consulte Configuración de un índice incremental con secuencias de comandos.
Ejecutar un índice incremental con secuencias de comandos de un sitio web activo o en un sitio web en etapas
  1. En el menú del producto, realice una de las siguientes acciones:
    • Haga clic en Index > Scripted Index > Live Index .
    • Haga clic en Index > Scripted Index > Staged Index .
  2. Haga clic Scripted Index Now .
  3. (Opcional) Si se producen errores de indexación, haga clic en View Errors para ver el registro asociado.

Visualización del registro de índice incremental con secuencias de comandos de un sitio Web activo o en un sitio Web en etapas

Cuando se completa un índice completo de secuencia de comandos activo o un índice escalonado de secuencia de comandos completa, puede ver su registro asociado para solucionar cualquier error que se haya producido.
No puede exportar registros ni guardarlos. Sin embargo, el registro permanece disponible para su visualización hasta que se produzca el nuevo índice.
Para ver el registro de índice incremental de un sitio Web activo o en etapas
  1. En el menú del producto, realice una de las siguientes acciones:
    • Haga clic en Index > Scripted Index > Live Log .
    • Haga clic en Index > Scripted Index > Staged Log .
  2. En la página de registro, en la parte superior o inferior, realice una de las siguientes acciones:
    • Utilice las opciones de navegación Prev , Next , Last o Go to line para desplazarse por el registro.
    • Utilice las opciones de visualización Errors only , Wrap line o Show para perfeccionar lo que ve.