Show Menu
TÓPICOS×

Sobre o menu Filtragem

Use o menu Filtragem para usar scripts que alteram o conteúdo de um documento da Web antes de ser indexado.

Sobre o script de filtragem

Você pode usar Filtering Script para alterar o conteúdo de um documento da Web antes de ele ser indexado.
Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base no URL de um documento, no tipo MIME e no conteúdo existente. O script de filtragem é um script Perl, que oferece uma manipulação poderosa de sequências de caracteres e a flexibilidade da correspondência de expressões regulares. Use o script de filtragem com um script de inicialização, um script de terminação, um script de máscaras de URL e um URL de teste.
O script de filtragem é executado sempre que um documento é lido do seu site. O script é executado como um filtro padrão. Em outras palavras, lê dados de STDIN, transforma esses dados de alguma forma e grava os resultados em STDOUT. Você pode usar o script de filtragem para imprimir mensagens de status do script de filtragem para o log de índice. Você pode imprimir as mensagens para STDERR ou por meio da _search_debug_log() subrotina.
Algumas opções de diferf GNU que podem ser usadas no Expert (diff) modo na página Script de filtragem por etapas incluem:
Opção de diff GNU
Descrição
-b
Ignora alterações na quantidade de espaço em branco.
-B
Ignora alterações que inserem ou excluem linhas em branco.
-c
Usa o formato de saída de contexto, mostrando três linhas de contexto.
Linhas C
Usa o formato de saída de contexto, mostrando linhas (um número inteiro) linhas de contexto ou três se as linhas não forem fornecidas.
-i
Ignora alterações em caso de ocorrência; considere letras maiúsculas e minúsculas equivalentes.
-f
Faz uma saída com aparência semelhante a um script ed, mas com alterações na ordem em que aparecem no arquivo.
-n
Gera os diffs em formato RCS; like -f , exceto que cada comando especifica o número de linhas que são afetadas.
-u
Usa o formato de saída unificado, mostrando três linhas de contexto.
Linhas -U
Usa o formato de saída unificado, mostrando linhas (um número inteiro) de contexto ou três se as linhas não forem fornecidas.
É possível usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais recebem o prefixo "main::" do namespace. Quando o script de filtragem é iniciado, seu ambiente contém os seguintes identificadores de arquivo padrão:
  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - substituição de HTML (se os dados forem impressos em STDOUT, serão usados no lugar do documento original)
  • STDERR - os dados impressos em STDERR são impressos no log de índice como um erro
Além disso, você pode gravar mensagens personalizadas no log de índice usando a _search_debug_log() subrotina, como no exemplo a seguir:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.
A seguir está um exemplo de filtragem. Os campos de página da Web <title> geralmente começam com o nome da empresa. Embora essas informações sejam úteis para fins de navegação do site, elas não são relevantes ao pesquisar. Se os títulos de todas as páginas da Web do MegaCorp começarem com uma string comum, como a seguinte:
<title>MegaCorp -- meaningful title 
here</title>

Você deve remover " MegaCorp -- " do início de cada título de documento e contar cada documento processado com o script de filtragem. Para fazer isso, você pode usar o seguinte script:
# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variáveis globais

Você pode usar as seguintes variáveis em qualquer script de filtragem:
Variável
Descrição
$main::search_crawl_type
O valor de $main::search_crawl_type indica o tipo de operação de índice em andamento. Formulário obsoleto: $main::ws_crawl_type As operações de índice e os valores associados incluem o seguinte:
  • Índice completo: Manual - manual
  • Índice completo: Agendado - auto
  • Índice completo: Controle remoto - CGI
  • Índice Incremental: Manual - manual-incremental
  • Índice Incremental: Agendado - auto-incremental
  • Índice Incremental: Controle remoto - CGI-incremental
  • Índice de script: Manual - manual-indexlist.txt
  • Índice de script: Agendado - auto-indexlist.txt
  • Índice de script: Controle remoto - CGI-indexlist.txt
  • Regenerar - manual-upgrade
$main::search_clear_cache
O valor indica se a opção de indexação "Limpar cache de índice" foi solicitada para a operação de índice atual. Se "Limpar cache de índice" for solicitado, o valor de $main::search_clear_cache é " 1 ". Forma obsoleta: $main::ws_clear_cache
$main::search_fields
O valor contém uma lista separada por tabulação dos campos de metadados que são definidos na conta. Por padrão, o valor é: Formulário url title desc keys target body alt date charset language obsoleto: $main::ws_fields
$main::search_collections
O valor contém uma lista separada por tabulações das Coleções definidas na conta. Forma obsoleta: $main::ws_collections
$main::search_url
O valor é o URL totalmente qualificado do documento. Forma obsoleta: $main::ws_url
$main::search_content_type
O valor é o tipo de conteúdo do documento como obtido da tag meta http-equiv. Um valor típico é "text/html; charset=iso-8859-1". Forma obsoleta: $main::ws_content_type
$main::search_content_class
O valor é a classe de conteúdo do documento, conforme derivada do campo tipo de conteúdo. Forma obsoleta: $main::ws_content_class
$main::search_syntax_check
O valor reflete o uso do botão "Verificar sintaxe". Se clicado, o valor é 1 (um); caso contrário, seu valor será 0 (zero). Forma obsoleta: $main::ws_syntax_check
$main::search_last_mod_date
Se fornecido pelo servidor da Web, esse valor conterá a representação de época (segundos desde 1º de janeiro de 1970) da data da última modificação do documento. Você pode formatar esse valor usando a chamada da biblioteca Perl localtime().

Dicas rápidas

  • Todas as variáveis globais têm o prefácio do namespace "main:": $main::doc_count = 0;
  • Todas as variáveis locais são declaradas com "my": my $i = 0;
  • Subrotinas são definidas no script de inicialização. Eles não precisam de um namespace "main:" explícito: sub my_sub { ...
    }
  • Teste os arquivos $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudar a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • O cabeçalho $main::search_content_type é o Tipo de conteúdo completo fornecido pelo servidor. Às vezes, pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".
  • Para cada tipo de documento não HTML, $main::search_content_type é possível usar vários valores. Testar cada valor em seu script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "application/msword", "application/vnd.ms-word" ou "application/x-msword". Nesses casos, $main::search_content_class é possível usar os seguintes valores:
    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • text
  • No exemplo, o teste $main::search_content_class para "word" corresponderia a qualquer um dos três valores de tipo de conteúdo possíveis.
  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisar alterar nada em um documento, não precisará copiar STDIN para STDOUT para esse documento.
  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionar um script de filtragem

O script de filtragem é um script Perl executado para cada documento baixado do site.
Use o script de filtragem juntamente com um script de inicialização, um script de terminação e um script de máscaras de URL.
Certifique-se de recriar o índice do site para que os resultados do script de filtragem fiquem visíveis aos clientes.
Para adicionar um script de filtragem
  1. No menu do produto, clique em Settings > Filtering > Filtering Script .
  2. (Opcional) Na Filtering Script página, no Test URL campo, insira o URL de um documento em seu site.
    Clique em uma opção de teste para ver as alterações no texto HTML bruto.
    Opção
    Descrição
    Campo URL de teste
    Permite que você insira o URL de um documento em seu site.
    Teste
    Testa o URL em relação aos scripts de filtragem e máscaras de URL.
    O documento de URL de teste é baixado, que é usado como entrada STDIN para o script de filtragem. Os scripts de inicialização, filtragem e encerramento são executados. Se houver alguma saída STDOUT do script de filtragem, essa saída será exibida em uma nova janela do navegador.
    Testar apenas
    Testa apenas a operação do script.
    Visualizar
    Permite que você visualize a página.
    Visual completo
    Gera uma exibição completa da tabela antes e depois dos documentos.
    Visual curto
    Mostra somente as diferenças entre as exibições anteriores e posteriores.
    Especialista (diff)
    Exibe a saída bruta do comando GNU diff usado para comparar os arquivos, usando as opções de linha de comando fornecidas.
    Script de filtragem
    Permite colar o script de filtragem no campo fornecido.
    Salvar alterações
    Salva o script de filtragem.
    Verificar sintaxe
    Permite que você faça uma verificação rápida da sintaxe do script executando os scripts de inicialização, filtragem e encerramento. Ele não atualiza e salva seu script.
    Todos os erros e avisos do compilador Perl e toda a saída STDERR são impressos.
    Antes que os efeitos do script fiquem visíveis para os clientes, é necessário recriar o índice do site.
    Opções de linha de comando de comparação GNU
    Algumas opções de diferf GNU que podem ser usadas no Expert (diff) modo na página Script de filtragem por etapas incluem:
    Opção de linha de comando de diff GNU
    Descrição
    -b
    Ignora alterações na quantidade de espaço em branco.
    -B
    Ignora alterações que inserem ou excluem linhas em branco.
    -c
    Usa o formato de saída de contexto, mostrando três linhas de contexto.
    Linhas C
    Usa o formato de saída de contexto, mostrando linhas (um número inteiro) linhas de contexto ou três se as linhas não forem fornecidas.
    -i
    Ignora alterações em caso de ocorrência; considere letras maiúsculas e minúsculas equivalentes.
    -f
    Faz uma saída com aparência semelhante a um script ed, mas com alterações na ordem em que aparecem no arquivo.
    -n
    Gera os diffs em formato RCS; like -f , exceto que cada comando especifica o número de linhas que são afetadas.
    -u
    Usa o formato de saída unificado, mostrando três linhas de contexto.
    Linhas -U
    Usa o formato de saída unificado, mostrando linhas (um número inteiro) de contexto ou três se as linhas não forem fornecidas.
  3. Clique em Test para testar os scripts de filtragem e as máscaras de URL.
    Clicar Test não atualiza e salva o script de filtragem.
  4. No Filtering Script campo, cole o script.
  5. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script, executando os scripts de filtragem, inicialização e encerramento.
    Check Syntax não atualiza e salva o script.
  6. Clique em Save Changes .
  7. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.
  8. (Opcional) Na Filtering Script página, execute um dos procedimentos a seguir:

Sobre o script de inicialização

Você pode usar Initialization Script para alterar o conteúdo de um documento da Web antes de ele ser indexado.
Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base no URL de um documento, no tipo MIME e no conteúdo existente. O script de inicialização é um script Perl, que oferece uma manipulação poderosa de sequência de caracteres e a flexibilidade da correspondência de expressões regulares. Use o script de inicialização com um script de filtragem, um script de terminação, um script de máscaras de URL e um URL de teste.
O script de inicialização é executado uma vez antes do início da indexação. Use esse script para inicializar variáveis e sub-rotinas globais usadas pelo script de filtragem. Você pode usar o script de inicialização para imprimir mensagens de status do script de filtragem para o log de índice. Você pode imprimir as mensagens em STDERR ou por meio da _search_debug_log() subrotina.
Algumas opções de diferf GNU que você pode usar no Expert (diff) modo na página Script de inicialização avançada incluem:
Opção de diff GNU
Descrição
-b
Ignora alterações na quantidade de espaço em branco.
-B
Ignora alterações que inserem ou excluem linhas em branco.
-c
Usa o formato de saída de contexto, mostrando três linhas de contexto.
Linhas C
Usa o formato de saída de contexto, mostrando linhas (um número inteiro) linhas de contexto ou três se as linhas não forem fornecidas.
-i
Ignora alterações em caso de ocorrência; considere letras maiúsculas e minúsculas equivalentes.
-f
Faz uma saída com aparência semelhante a um script ed, mas com alterações na ordem em que aparecem no arquivo.
-n
Gera os diffs em formato RCS; like -f , exceto que cada comando especifica o número de linhas que são afetadas.
-u
Usa o formato de saída unificado, mostrando três linhas de contexto.
Linhas -U
Usa o formato de saída unificado, mostrando linhas (um número inteiro) de contexto ou três se as linhas não forem fornecidas.
É possível usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais recebem o prefixo "main::" do namespace. Quando o script de inicialização é iniciado, seu ambiente contém os seguintes identificadores de arquivo padrão:
  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - nada (se os dados forem impressos em STDOUT, serão eliminados)
  • STDERR - os dados impressos em STDERR são impressos no log de índice como um erro
Além disso, você pode gravar mensagens personalizadas no log de índice usando a _search_debug_log() subrotina, como no exemplo a seguir:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.
Um exemplo de script de inicialização é o seguinte:
# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Consulte Variáveis globais

Dicas rápidas

  • Todas as variáveis globais têm o prefácio do namespace "main:": $main::doc_count = 0;
  • Todas as variáveis locais são declaradas com "my": my $i = 0;
  • Subrotinas são definidas no script de inicialização. Eles não precisam de um namespace "main:" explícito: sub my_sub { ...
    }
  • Teste os arquivos $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudar a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • O cabeçalho $main::search_content_type é o Tipo de conteúdo completo fornecido pelo servidor. Às vezes, pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".
  • Para cada tipo de documento não HTML, $main::search_content_type é possível usar vários valores. Testar cada valor em seu script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "application/msword", "application/vnd.ms-word" ou "application/x-msword". Nesses casos, $main::search_content_class é possível usar os seguintes valores:
    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • text
  • No exemplo, o teste $main::search_content_class para "word" corresponderia a qualquer um dos três valores possíveis do tipo de conteúdo.
  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisar alterar nada em um documento, não precisará copiar STDIN para STDOUT para esse documento.
  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionar um script de inicialização

O script de inicialização é um script Perl que é executado uma vez antes de qualquer documento ser indexado.
Use o script de inicialização juntamente com um script de filtragem, um script de terminação e um script de máscaras de URL.
Certifique-se de recriar o índice do site para que os resultados do script de inicialização fiquem visíveis aos clientes.
Para adicionar um script de inicialização
  1. No menu do produto, clique em Settings > Filtering > Initialization Script .
  2. (Opcional) Na Initialization Script página, no Test URL campo, insira o URL de um documento em seu site.
    Clique em uma opção de teste para ver as alterações no texto HTML bruto.
    Consulte a tabela de opções de filtragem em Adicionar um script de filtragem.
    Clique em Test para testar os scripts de filtragem e as máscaras de URL.
    Clicar Test não atualiza e salva o script de inicialização.
  3. No Initialization Script campo, cole o script.
  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script, executando os scripts de filtragem, inicialização e encerramento.
    Check Syntax não atualiza e salva o script.
  5. Clique em Save Changes .
  6. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.
  7. (Opcional) Na Initialization Script página, execute um dos procedimentos a seguir:

Sobre o script de terminação

Você pode usar Termination Script para alterar o conteúdo de um documento da Web antes de ele ser indexado.
Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base no URL de um documento, no tipo MIME e no conteúdo existente. O script de inicialização é um script Perl, que oferece uma manipulação poderosa de sequência de caracteres e a flexibilidade da correspondência de expressões regulares. Use o script de terminação com um script de inicialização, script de filtragem, script de terminação, script de máscaras de URL e URL de teste.
O script de terminação é executado uma vez depois que todos os documentos são indexados. Você pode usar o script de terminação para imprimir mensagens de status do script de filtragem para o log de índice. Você pode imprimir as mensagens em STDERR ou por meio da _search_debug_log() subrotina.
Algumas opções de linha de comando diff GNU que você pode usar no Expert (diff) modo na página Script de terminação de etapas incluem:
Opção de linha de comando de diff GNU
Descrição
-b
Ignora alterações na quantidade de espaço em branco.
-B
Ignora alterações que inserem ou excluem linhas em branco.
-c
Usa o formato de saída de contexto, mostrando três linhas de contexto.
Linhas C
Usa o formato de saída de contexto, mostrando linhas (um número inteiro) linhas de contexto ou três se as linhas não forem fornecidas.
-i
Ignora alterações em caso de ocorrência; considere letras maiúsculas e minúsculas equivalentes.
-f
Faz uma saída com aparência semelhante a um script ed, mas com alterações na ordem em que aparecem no arquivo.
-n
Gera os diffs em formato RCS; like -f , exceto que cada comando especifica o número de linhas que são afetadas.
-u
Usa o formato de saída unificado, mostrando três linhas de contexto.
Linhas -U
Usa o formato de saída unificado, mostrando linhas (um número inteiro) de contexto ou três se as linhas não forem fornecidas.
É possível usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais recebem o prefixo "main::" do namespace. Quando o script de terminação é iniciado, seu ambiente contém os seguintes identificadores de arquivo padrão:
  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - nada (se os dados forem impressos em STDOUT, serão eliminados)
  • STDERR - os dados impressos em STDERR são impressos no registro de índice como um erro
Além disso, você pode gravar mensagens personalizadas no log de índice usando a _search_debug_log() subrotina, como no exemplo a seguir:
# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.
Para exibir o número de documentos que foram processados pelo script de filtragem como uma linha de erro no log de índice, você pode usar o seguinte script de terminação:
# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Consulte Variáveis globais

Dicas rápidas

  • Todas as variáveis globais têm o prefácio do namespace "main:": $main::doc_count = 0;
  • Todas as variáveis locais são declaradas com "my": my $i = 0;
  • Subrotinas são definidas no script de inicialização. Eles não precisam de um namespace "main:" explícito: sub my_sub { ...
    }
  • Teste os arquivos $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudar a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:
    if ($main::search_content_type =~ /^text\/html/) { ...
  • O cabeçalho $main::search_content_type é o Tipo de conteúdo completo fornecido pelo servidor. Às vezes, pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".
  • Para cada tipo de documento não HTML, $main::search_content_type é possível usar vários valores. Testar cada valor em seu script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "application/msword", "application/vnd.ms-word" ou "application/x-msword". Nesses casos, $main::search_content_class é possível usar os seguintes valores:
    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • text
  • No exemplo, o teste $main::search_content_class para "word" corresponderia a qualquer um dos três valores de tipo de conteúdo possíveis.
  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisar alterar nada em um documento, não precisará copiar STDIN para STDOUT para esse documento.
  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionar um script de terminação

O script de terminação é um script Perl que é executado uma vez depois que todos os documentos são indexados.
Use o script de terminação juntamente com um script de filtragem, um script de terminação e um script de máscaras de URL.
Certifique-se de recriar o índice do site para que os resultados do script de inicialização fiquem visíveis aos clientes.
Para adicionar um script de terminação
  1. No menu do produto, clique em Settings > Filtering > Termination Script .
  2. (Opcional) Na Termination Script página, no Test URL campo, insira o URL de um documento em seu site.
    Clique em uma opção de teste para ver as alterações no texto HTML bruto.
    Consulte a tabela de opções de filtragem em Adicionar um script de filtragem.
    Clique em Test para testar os scripts de filtragem e as máscaras de URL.
    Clicar Test não atualiza e salva seu script de terminação.
  3. No Termination Script campo, cole o script.
  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script executando os scripts de inicialização, filtragem e finalização.
    Check Syntax não atualiza e salva o script.
  5. Clique em Save Changes .
  6. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.
  7. (Opcional) Na Termination Script página, execute um dos procedimentos a seguir:

Sobre o script de máscaras de URL

Com a filtragem, é possível alterar o conteúdo de um documento da Web antes de ele ser indexado. Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base no URL de um documento, no tipo MIME e no conteúdo existente. O script de máscaras de URL é um script Perl que fornece manuseio avançado de sequências de caracteres e flexibilidade de correspondência de expressões regulares.
Para alterar o conteúdo de documentos que existem apenas em uma parte específica do site, você pode especificar incluir máscaras de URL, excluir máscaras de URL ou ambas, para definir as páginas apropriadas.
Se você quiser alterar apenas os documentos em "https://www.mysite.com/faqs/" , use o seguinte conjunto de máscaras:
include https://www.mysite.com/faqs/ 
exclude *

Também é possível usar expressão regular em um script de máscara de URL, como no exemplo a seguir:
include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Consulte Expressões regulares .
As máscaras de URL com script são consideradas na ordem em que foram inseridas no URL Masks campo. Quando um URL de documento corresponde a uma máscara, esse documento é incluído ou excluído com base no tipo de máscara. Se o URL de um documento não corresponder a nenhuma máscara de URL, o documento será incluído somente se seu tipo MIME for "text/html". Todos os outros tipos MIME são excluídos.

Adicionar um script de máscara de URL

Especifique o URL para incluir máscaras e excluir máscaras para alterar o conteúdo de documentos que existem somente em uma parte específica do site.
Antes que os efeitos das configurações de Máscaras de URL fiquem visíveis para os visitantes, recrie o índice do site.
Para adicionar um script de máscara de URL
  1. No menu do produto, clique em Settings > Filtering > URL Masks .
  2. (Opcional) Na URL Masks página, no Test URL campo, insira o URL de um documento em seu site e clique Test para testar o URL em relação aos scripts de filtragem e máscaras.
    O documento de URL de teste é baixado, que é usado como entrada STDIN para o script de filtragem. Em seguida, os scripts de filtragem, inicialização e encerramento são executados. Se houver alguma saída STDOUT do script de filtragem, essa saída será exibida em uma nova janela do navegador.
    Clicar Test não atualiza e salva o script.
  3. No URL Masks campo, insira uma máscara de URL por linha.
  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe das máscaras de URL executando os scripts de filtragem, inicialização e encerramento.
    Check Syntax não atualiza e salva o script.
  5. Clique em Save Changes .
  6. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.
  7. (Opcional) Na URL Masks página, execute um dos procedimentos a seguir:

Sobre tipos de conteúdo na filtragem

Permite selecionar quais tipos de conteúdo você deseja filtrar para esta conta.
O texto encontrado nos tipos de conteúdo selecionados é convertido em HTML e, em seguida, processado usando o script especificado em Filtrar script.
Consulte Sobre o script de filtragem.
Os Tipos de conteúdo que podem ser selecionados incluem:
  • Documentos PDF
  • Documentos de texto
  • Filmes em Flash da Adobe
  • Arquivos do Microsoft Word
  • Arquivos do Microsoft Office (OpenXML)
  • Arquivos do Microsoft Excel
  • Arquivos do Microsoft PowerPoint
  • Texto em arquivos de música MP3
Antes que os efeitos das configurações de Tipos de conteúdo ou das alterações nas configurações fiquem visíveis para os clientes, é necessário recriar o índice do site.

Selecionar os tipos de conteúdo que são filtrados

Selecione os tipos de conteúdo que você deseja passar para o script especificado no Script de filtragem.
Consulte Sobre o script de filtragem.
Para selecionar os tipos de conteúdo que são filtrados
  1. No menu do produto, clique em Settings > Filtering > Content Types .
  2. Na Content Types página, verifique os tipos de conteúdo que deseja passar para o script de filtro.
  3. Clique em Save Changes .
  4. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.
  5. (Opcional) Na Content Types página, execute um dos procedimentos a seguir: