Show Menu
TÓPICOS×

Definindo Transformações de Pesquisa

Informações sobre as transformações que podem ser usadas para incorporar dados de pesquisa ao conjunto de dados.
Observe que nem todos os tipos podem ser usados durante ambas as fases do processo de construção do conjunto de dados.

Categorizar

A Categorize transformação usa uma tabela de pesquisa de duas colunas composta de pares de string/valor de padrão. Durante essa transformação, o servidor da análise de big data lê cada registro de dados de evento e compara o conteúdo de um campo designado no registro a cada uma das strings de padrão listadas na primeira coluna da tabela de pesquisa. Se o campo designado corresponder a uma das strings de padrões, o servidor da análise de big data gravará o valor (encontrado na segunda coluna) associado à string de padrão em um campo de saída designado no registro.
As strings na primeira coluna da tabela de pesquisa podem, opcionalmente, começar com o caractere ^ e/ou terminar no caractere $ para forçar a correspondência no início e/ou no fim. Essa transformação não aceita expressões regulares para definir condições de correspondência na primeira coluna. Se o valor de entrada for um vetor de strings, cada string será executada pela transformação e os resultados serão anexados a um vetor de string de saída.
Uma Categorize transformação é geralmente mais fácil e rápida do que usar uma Regular Expression transformação para conseguir a mesma coisa.
O teste de subsequência de caracteres usado em Categorize diferencia maiúsculas e minúsculas, a menos que especificado de outra forma usando o Case Sensitive parâmetro.
Parâmetro Descrição Padrão
Nome Nome descritivo da transformação. Você pode digitar qualquer nome aqui.
Diferenciação de maiúsculas e minúsculas Verdadeiro ou falso. Especifica se o teste de subsequência de caracteres faz distinção entre maiúsculas e minúsculas. true
Comentários Opcional. Notas sobre a transformação.
Condição As condições em que essa transformação é aplicada.
Padrão O valor padrão a ser usado se o teste de condição for aprovado e nenhuma entrada no arquivo de categorização corresponder à entrada, ou o campo de entrada não for definido na entrada de log fornecida.
Delimitador
String usada para separar as colunas no arquivo de pesquisa. Deve ter um único caractere de comprimento.
Se você pressionar a tecla Ctrl e clicar com o botão direito do mouse no parâmetro Delimitador, um menu Inserir será exibido. Esse menu contém uma lista de caracteres especiais que são usados com frequência como delimitadores.
Múltiplos valores Verdadeiro ou falso. Se verdadeiro, quando várias linhas no arquivo correspondem à entrada, cada correspondência resulta em um valor anexado ao vetor de saída de sequências. Se false, somente a primeira linha correspondente no arquivo será usada na saída. No último caso, se a entrada for um vetor, a saída também será um vetor de comprimento equivalente. Se a entrada for uma string simples, a saída também será uma string simples. false
Arquivo Caminho e nome de arquivo do arquivo de categorização. Os caminhos relativos referem-se ao diretório de instalação do servidor de análise de big data. Normalmente, esse arquivo está localizado no diretório Pesquisas no diretório de instalação do servidor da análise de big data.
Entrada O arquivo de categorização corresponde suas subsequências de caracteres em relação ao valor neste campo para identificar a linha correspondente no arquivo.
Saída O nome do campo associado ao resultado.
Considerações para categorização
  • As alterações nos arquivos de pesquisa em Categorize transformações definidas no Transformation.cfg arquivo ou em um Transformation Dataset Include arquivo exigem a retransformação do conjunto de dados. Os arquivos de pesquisa para Categorize transformações definidas no Log Processing.cfg arquivo ou em um Log Processing Dataset Include arquivo não estão sujeitos a essa limitação. Para obter informações sobre como reprocessar seus dados, consulte Reprocessamento e Retransformação .
  • Categorize as transformações definidas no Log Processing.cfg arquivo ou em um Log Processing Dataset Include arquivo recarregam seus arquivos de pesquisa sempre que os arquivos de pesquisa forem alterados. As alterações não são aplicadas retroativamente, mas se aplicam a todos os dados de log lidos após a alteração.
Este exemplo ilustra o uso da Categorize transformação para integrar dados de pesquisa com dados de evento coletados do tráfego do site. Suponha que um site em particular tenha seções de negócios e que haja um requisito para ser capaz de analisar e fazer comparações com base no fluxo de tráfego e no valor gerado pelas diferentes seções. Você pode criar um arquivo de pesquisa que lista as subsequências usadas para identificar essas diferentes seções.
O arquivo de pesquisa Lookups\custommap.txt contém a seguinte tabela:
/products/
Produtos
^/esportes/
Esportes
^/notícias/
Notícias
...
...
Este arquivo de categorização mapeia qualquer coisa que contenha a string "/products/" para o valor "Products", qualquer coisa que comece com "/Sports/" para o valor "Sports" e qualquer coisa que comece com "/news/" para o valor "News". A transformação de categorização a seguir usa o valor no campo cs-uri-stem como a string dentro da qual estamos procurando uma substring correspondente. O resultado da transformação é colocado no campo x-custommap.
Supondo que o parâmetro Vários valores esteja definido como falso, o exemplo produziria os seguintes valores para x-custommap, dados os valores listados para cs-uri-stem.
cs-uri-stem
x-custommap
/sports/news/today.php
Esportes
/sports/products/buy.php
Produtos
/news/headlines.php
Notícias
/news/products/subscribe.php
Produtos
A saída se baseia na ordem das subsequências no arquivo de pesquisa. Por exemplo, o sistema cs-uri- /sports/products/buy.php retorna "Produtos". Embora o sistema URI comece com "/Sports/", a sequência "/products/" é listada antes de "/Sports/" no arquivo de pesquisa. Se o parâmetro Vários valores estivesse definido como true, haveria um valor adicional para x-custommap, já que o último exemplo corresponderia a duas linhas na tabela de pesquisa: Produtos e notícias.

FlatFileLookup

A FlatFileLookup transformação usa uma tabela de pesquisa composta de qualquer número de colunas e linhas (embora, lembre-se de que ela reside na memória). Durante esse tipo de transformação, o servidor da análise de big data lê cada registro de dados de evento e compara o conteúdo de um campo designado no registro a cada um dos valores em uma coluna designada da tabela de pesquisa. Se houver uma correspondência, o servidor da análise de big data grava um ou mais valores da linha correspondente na tabela de pesquisa para um ou mais campos de saída designados no registro de dados do evento.
A tabela de pesquisa usada durante essa transformação é preenchida a partir de um arquivo simples cujo local você especifica ao definir a transformação.
Parâmetro Descrição Padrão
Nome Nome descritivo da transformação. Você pode digitar qualquer nome aqui.
Comentários Opcional. Notas sobre a transformação.
Condição As condições em que essa transformação é aplicada.
Padrão O valor padrão a ser usado se a condição for atendida e se nenhuma entrada no arquivo de pesquisa corresponder à entrada.
Delimitador
String usada para separar as colunas no arquivo de pesquisa. Deve ter um único caractere de comprimento.
Se você pressionar a tecla Ctrl e clicar com o botão direito do mouse no parâmetro Delimitador, um menu Inserir será exibido. Esse menu contém uma lista de caracteres especiais que são usados com frequência como delimitadores.
Arquivo Caminho e nome do arquivo de pesquisa. Os caminhos relativos referem-se ao diretório de instalação do servidor de análise de big data. Normalmente, esse arquivo está localizado no diretório Pesquisas dentro do diretório de instalação do servidor da análise de big data.
Linha do cabeçalho Verdadeiro ou falso. Indica que a primeira linha da tabela é uma linha de cabeçalho a ser ignorada no processamento.
Entrada Nome da coluna é o nome da coluna usada para corresponder a entrada às linhas no arquivo. Se a Linha do cabeçalho for verdadeira, poderá ser o nome de uma coluna no arquivo de pesquisa. Caso contrário, esse deve ser o número da coluna com base em zero para corresponder. Nome do campo é o nome do campo usado para localizar a linha no arquivo de pesquisa.
Múltiplos valores
Verdadeiro ou falso. Determina se um único valor (uma linha correspondente) ou vários valores devem ser retornados (um para cada linha correspondente).
Observação: Se Vários valores estiver definido como falso, verifique se não há várias correspondências. Quando ocorrem várias correspondências, não há garantia de qual correspondência será retornada.
Saídas
Um vetor de objetos de coluna (resultados) no qual cada objeto é definido por nomes de colunas e campos.
Nome da coluna é a coluna a partir da qual o valor de saída é obtido. Se a Linha do cabeçalho for verdadeira, poderá ser o nome de uma coluna no arquivo de pesquisa. Caso contrário, esse deve ser o número da coluna com base em zero para corresponder.
Nome do campo é o nome do campo usado para capturar a saída. Observe que isso pode ser um vetor de resultados, um para cada linha identificada no caso em que o parâmetro Vários valores é verdadeiro.
Considerações paraFlatFileLookup
  • A correspondência do campo de entrada com o arquivo de pesquisa sempre faz distinção entre maiúsculas e minúsculas.
  • As alterações nos arquivos de pesquisa em FlatFileLookup transformações definidas no Transformation.cfg arquivo ou nos Transformation Dataset Include arquivos exigem a retransformação do conjunto de dados. Os arquivos de pesquisa para FlatFileLookup transformações definidas no Log Processing.cfg arquivo ou nos Log Processing Dataset Include arquivos não estão sujeitos a essa limitação. Para obter informações sobre como reprocessar seus dados, consulte Reprocessamento e Retransformação .
  • FlatFileLookup transformações no Log Processing.cfg arquivo ou nos Log Processing Dataset Include arquivos recarregam seus arquivos de pesquisa sempre que os arquivos de pesquisa são alterados. As alterações não são aplicadas retroativamente, mas se aplicam a todos os dados de log lidos após a alteração.
Este exemplo ilustra o uso da FlatFileLookup transformação para integrar dados de pesquisa com dados de evento coletados do tráfego do site. Suponha que você queira isolar os parceiros do site que estão encaminhando tráfego para o site e transformar suas IDs de parceiro em nomes mais amigáveis. Em seguida, você pode usar os nomes amigáveis para criar dimensões e visualizações estendidas que mapeiam mais claramente para o relacionamento comercial do que o relacionamento site a site usado para rotear o tráfego.
A transformação de exemplo pesquisa o campo cs(referrer-query) pelo par nome-valor da PartnerID e, se estiver localizado, o arquivo de pesquisa Lookups\partners.txt é usado para comparar o valor da PartnerID com os valores na Partner coluna da tabela. Se uma linha estiver localizada, o campo de saída x-partner-name recebe o nome da PrintName coluna da linha identificada.
Se a tabela de pesquisa contiver as seguintes informações:
ID
Parceiro
Iniciado
PrintName
1
P154
21 de ago de 1999
Yahoo
2
P232
10 de julho de 2000
Microsoft
3
P945
12 de jan de 2001
Amazônia
Os exemplos a seguir se transformariam da seguinte forma:
  • Se cs(referrer)(PartnerID) retornasse P232, o campo x-partner-name receberia o valor "Microsoft".
  • Se cs(referrer)(PartnerID) retornasse P100, o campo x-partner-name receberia o valor "No Partner".
  • Se cs(referrer)(PartnerID) não retornasse nada, o campo x-partner-name receberia o valor "No Partner", conforme especificado pelo parâmetro Default.

ODBCLookup

A ODBCLookup transformação opera como uma FlatFileLookup transformação. A única diferença é que a tabela de pesquisa usada durante essa transformação é preenchida a partir de um banco de dados ODBC e não de um arquivo simples.
ODBCLookup as transformações só podem ser executadas durante a fase de transformação do processo de construção do conjunto de dados. Quando possível, a Adobe recomenda que você use a FlatFileLookup transformação em vez da ODBCLookup transformação. FlatFileLookup as transformações são inerentemente mais confiáveis porque não dependem da disponibilidade de um sistema externo. Além disso, há menos risco de que a tabela de pesquisa seja modificada se estiver em um arquivo simples que você controla localmente.
Parâmetro Descrição Padrão
Nome Nome descritivo da transformação. Você pode digitar qualquer nome aqui.
Comentários Opcional. Notas sobre a transformação.
Condição As condições em que essa transformação é aplicada.
Nome da fonte de dados Um DSN, conforme fornecido por um administrador da máquina do servidor da análise de big data na qual o conjunto de dados é processado, que se refere ao banco de dados a partir do qual os dados devem ser carregados.
Senha do banco de dados A senha a ser usada na conexão com o banco de dados. Se uma senha tiver sido configurada para o DSN no Administrador da fonte de dados, ela poderá ficar em branco. Qualquer senha fornecida aqui substitui a senha configurada para o DSN no Administrador da fonte de dados.
ID de usuário do banco de dados A ID de usuário a ser usada ao conectar-se ao banco de dados. Se uma ID de usuário tiver sido configurada para o DSN no Administrador da fonte de dados, isso pode ficar em branco. Qualquer ID de usuário fornecida aqui substitui a ID de usuário configurada para o DSN no Administrador da fonte de dados.
Padrão O valor padrão a ser usado se a condição for atendida e nenhuma entrada no arquivo de pesquisa corresponder à entrada.
Coluna de entrada Nome da coluna é o nome da coluna ou a expressão SQL para os dados correspondentes à entrada. Nome do campo é o nome do campo que contém os dados a serem pesquisados.
Múltiplos valores
Verdadeiro ou falso. Determina se um único valor (uma linha correspondente) ou vários valores devem ser retornados (um para cada linha correspondente).
Observação: Se Vários valores estiver definido como falso, verifique se não há várias correspondências. Quando ocorrem várias correspondências, não há garantia de qual correspondência será retornada.
Colunas de saída
Um vetor de objetos de coluna (resultados) em que cada objeto é definido por nomes de colunas e campos.
Nome da coluna é o nome ou a expressão SQL da coluna na qual o valor de saída é obtido. Nome do campo é o nome do campo usado para capturar a saída.
Identificador de tabela Uma expressão SQL que nomeia a tabela ou exibição a partir da qual os dados devem ser carregados. Um identificador de tabela típico tem o formato SCHEMA.TABLE.
  • Os parâmetros Nome da fonte de dados, Database User ID, Database Passworde Identificador de tabela são os mesmos parâmetros dos mesmos nomes descritos para fontes de dados ODBC. See ODBC Data Sources .
  • Diferentemente das fontes de dados ODBC, ODBCLookup as transformações não exigem uma coluna de ID crescente. See ODBC Data Sources . Isso ocorre porque o conteúdo da tabela de pesquisa não deve ser alterado de forma alguma enquanto o conjunto de dados estiver ativo. As alterações em uma tabela de pesquisa ou exibição não podem ser detectadas até que ocorra a retransformação. Para obter informações sobre como reprocessar seus dados, consulte Reprocessamento e Retransformação .
Suponha que você deseja converter registros DNS desatualizados para os registros atualizados. Ambos os conjuntos de registros são armazenados em um banco de dados SQL. Para executar essa tarefa, você faria referência a uma tabela de pesquisa gerada a partir do banco de dados e substituiria os registros DNS desatualizados.
Nosso exemplo de transformação pesquisa as entradas de log do campo s-dns e, se estiver localizado, a tabela de pesquisa VISUAL.LOOKUP é usada para comparar a entrada s-dns com as entradas na OLDDNS coluna da tabela. Se uma linha estiver localizada na tabela, o campo de saída s-dns receberá a entrada de registro DNS atualizada da NEWDNS coluna da linha identificada.