Show Menu
TEMAS×

Fuentes de registro

Los orígenes de registro son archivos que contienen los datos que se utilizarán para generar un conjunto de datos.
Los datos disponibles en las fuentes de registro se denominan datos de eventos porque cada registro de datos representa un registro de transacciones o una sola instancia de un evento. El servidor del área de trabajo de datos puede procesar fuentes de registro derivadas de datos recopilados Sensors o extraídos de otras fuentes de datos.
  • Datos recopilados por Sensors: Los datos recopilados por Sensors los servidores HTTP y de aplicaciones se transmiten a los servidores del área de trabajo de datos, que convierten los datos en archivos de registro ( .vsl) muy comprimidos. Consulte Archivos de sensor .
  • Datos extraídos por el servidor de perspectiva: El servidor del área de trabajo de datos lee los datos de eventos contenidos en archivos planos, archivos XML o bases de datos compatibles con ODBC y utiliza sus descodificadores para extraer los elementos deseados de los datos. Estos datos de evento no tienen que residir en la memoria, pero los registros que contienen los datos deben incluir un ID de seguimiento. Consulte Archivos de registro , Fuentes de registro XML y Fuentes de datos ODBC.
Para agregar un origen de registro
  1. Se abre Log Processing.cfg en el área de trabajo de datos.
  2. Haga clic con el botón secundario Log Sources y, a continuación, haga clic en Add New .
  3. Seleccione una de las siguientes opciones:
    • Sensor
    • Log File
    • XML Log Source
    • ODBC Data Source
  4. Los parámetros específicos utilizados para definir un conjunto de datos varían según el tipo de origen de registro que se va a utilizar en el proceso de configuración del conjunto de datos. Especifique los parámetros como se indica en la sección correspondiente al origen de registro correspondiente:
  5. Una vez definido el origen del registro (y realizado cambios en otros parámetros) en el Log Processing.cfg archivo, guarde el archivo localmente y guárdelo en el perfil del conjunto de datos en el servidor del área de trabajo de datos.
    Un servidor del área de trabajo de datos File Server Unit puede recibir y almacenar Sensor archivos, archivos de registro y archivos XML, y servirlos a los servidores del área de trabajo de datos Data Processing Units que construyen el conjunto de datos. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
    Puede abrir la configuración de cualquier origen de registro desde un Transformation Dependency Map. Para obtener más información Transformation Dependency Map, consulte Herramientas de configuración de conjuntos de datos.

Requisitos

Los datos de eventos recopilados por Sensors HTTP y los servidores de aplicaciones se transmiten a los servidores del área de trabajo de datos, que convierten los datos en archivos de registro ( .vsl) muy comprimidos. El servidor del área de trabajo de datos administra el formato del .vsl archivo y cada archivo tiene un nombre con el formato:
YYYYMDD- SENSORID .VSL
donde YYYMMDD es la fecha del archivo y SENSORID es el nombre (asignado por su organización) que indica qué Sensor recopiló y transmitió los datos al servidor del área de trabajo de datos.

Parámetros

Para Sensor los archivos, están disponibles los siguientes parámetros:
Parámetro Descripción
Rutas de registro
Directorios en los que se almacenan los archivos .vsl . La ubicación predeterminada es el directorio Registros. Una ruta relativa hace referencia al directorio de instalación del servidor del área de trabajo de datos.
Puede utilizar caracteres comodín para especificar qué archivos .vsl se procesarán:
  • * coincide con cualquier número de caracteres
  • ? coincide con un solo carácter
Por ejemplo, la ruta de registro Registros\*.vsl coincide con cualquier archivo del directorio Registros que termine en .vsl . La ruta de registro Logs\*-SENSOR?.vsl coincide con los archivos del directorio Logs con cualquier fecha (AAAAMMDD) y un solo carácter después de SENSOR, como en SENSOR1.
Si desea buscar en todos los subdirectorios de la ruta de acceso especificada, debe establecer el parámetro Recursive en true.
Nota: Si los archivos se van a leer desde la unidad de servidor de archivos de un servidor del área de trabajo de datos, debe introducir los URI correspondientes en el parámetro Rutas de registro. Por ejemplo, el URI /Logs/*-*.vsl coincide con cualquier archivo .vsl del directorio Logs. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
Servidor de registro Información (dirección, nombre, puerto, etc.) necesaria para conectarse a un servidor de archivos. Si hay una entrada en el parámetro del servidor de registro, las rutas de registro se interpretan como URI. De lo contrario, se interpretan como rutas locales. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
ID de origen de registro
El valor de este parámetro puede ser cualquier cadena. Si se especifica un valor, este parámetro permite diferenciar las entradas de registro de diferentes fuentes de registro para la identificación de origen o el procesamiento dirigido. El campo x-log-source-id se rellena con un valor que identifica el origen del registro para cada entrada de registro. Por ejemplo, si desea identificar entradas de registro de un sensor llamado VSensor01, puede escribir desde VSensor01 y esa cadena se pasaría al campo x-log-source-id por cada entrada de registro de ese origen.
Para obtener información sobre el campo x-log-source-id, consulte Campos de registro de datos de eventos.
Recurrente True o false. Si se establece en true, se buscarán en todos los subdirectorios de cada ruta especificada en Rutas de registro los archivos que coincidan con el nombre de archivo o el patrón comodín especificados. El valor predeterminado es false.
Usar horas de inicio y finalización
True o false. Si se establece en true y se especifica la hora de inicio o de finalización, todos los archivos de este origen de registro deben tener nombres de archivo que empiecen por fechas en formato ISO (AAAAMMDD). Se supone que cada archivo contiene datos de un día GMT (por ejemplo, el intervalo de tiempo que comienza a las 0000 GMT de un día y termina a las 0000 GMT del día siguiente). Si los archivos de fuentes de registro contienen datos que no corresponden a un día GMT, este parámetro debe establecerse en false para evitar resultados incorrectos.
Nota: De forma predeterminada, los archivos .vsl que contienen datos recopilados por Sensor cumplen automáticamente los requisitos de nomenclatura y de intervalo de tiempo descritos anteriormente. Si establece este parámetro en true, el servidor del área de trabajo de datos siempre procesa los datos de los archivos cuyos nombres incluyen fechas ISO que se encuentran entre la hora de inicio y la hora de finalización especificadas. Si establece este parámetro en false, el servidor del área de trabajo de datos lee todos los archivos .vsl durante el procesamiento del registro para determinar qué archivos contienen datos dentro del intervalo de tiempo de inicio y de finalización.
Para obtener información sobre los parámetros Hora de inicio y Hora de finalización, consulte Filtros de datos.
No utilice los parámetros de configuración para las fuentes de Sensor datos a fin de determinar qué entradas de registro dentro de un archivo de registro deben incluirse en un conjunto de datos. En su lugar, configure el origen de datos para que apunte a todos los archivos de registro dentro de un directorio. A continuación, utilice los parámetros Hora de inicio y Hora de finalización de Log Processing.cfg para determinar qué entradas de registro deben utilizarse en la construcción del conjunto de datos. Consulte Filtros de datos .
El archivo que contiene los datos del evento debe cumplir los siguientes requisitos:
  • Cada registro de datos de evento del archivo debe estar representado por una línea.
  • Los campos dentro de un registro deben separarse, estén vacíos o no, con un delimitador ASCII. El servidor del área de trabajo de datos no requiere el uso de un delimitador específico. Puede utilizar cualquier carácter que no sea un carácter de fin de línea y que no aparezca en ninguna parte de los datos del evento.
  • Cada registro del archivo debe contener:
    • Un ID de seguimiento
    • Marca de hora
  • Para especificar las horas de inicio y finalización para el procesamiento de datos, cada nombre de archivo debe tener el formato:
    • YYYYMMDD-SOURCE.log
    donde AAAAMMDD es el día de la hora media de Greenwich (GMT) de todos los datos del archivo, y SOURCE es una variable que identifica la fuente de los datos contenidos en el archivo.
    Póngase en contacto con los servicios de consultoría de Adobe para obtener una revisión de los archivos de registro que planea incorporar al conjunto de datos.

Parámetros

Para los orígenes de registro de archivos de registro, están disponibles los parámetros de la siguiente tabla.
El procesamiento de los orígenes de registro de archivos de registro requiere parámetros adicionales que se definen en un Log Processing Dataset Include archivo, que contiene un subconjunto de los parámetros incluidos en un Log Processing.cfg archivo, así como parámetros especiales para definir los decodificadores para extraer datos del archivo de registro. Para obtener información sobre la definición de descodificadores para orígenes de registro de archivos de texto, consulte Grupos de descodificadores de archivos de texto.
Parámetro Descripción
Nombre Identificador del origen del archivo de registro.
Rutas de registro
Directorios en los que se almacenan los archivos de registro. La ubicación predeterminada es el directorio Registros. Una ruta relativa hace referencia al directorio de instalación del servidor del área de trabajo de datos.
Puede utilizar caracteres comodín para especificar los archivos de registro que desea procesar:
  • * coincide con cualquier número de caracteres.
  • ? coincide con un solo carácter.
Por ejemplo, la ruta de registro Registros\*.log coincide con cualquier archivo del directorio Registros que termina en .log .
Si desea buscar en todos los subdirectorios de la ruta especificada, debe establecer el parámetro Recursive en true.
Si los archivos se van a leer desde la unidad de servidor de archivos de un servidor del área de trabajo de datos, debe introducir los URI correspondientes en el parámetro Rutas de registro. Por ejemplo, el URI/Logs/*.log coincide con cualquier archivo .log del directorio Registros. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
Servidor de registro Información (dirección, nombre, puerto, etc.) necesaria para conectarse a un servidor de archivos. Si hay una entrada en el parámetro del servidor de registro, las rutas de registro se interpretan como URI. De lo contrario, se interpretan como rutas locales. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
Comprimido True o false. Este valor debe establecerse en true si los archivos de registro que va a leer el servidor del área de trabajo de datos son archivos gzip comprimidos.
Grupo de decodificadores Nombre del grupo de descodificadores de archivos de texto que se aplicará al origen del registro de archivos de registro. Este nombre debe coincidir exactamente con el nombre del grupo de decodificadores de archivos de texto correspondiente especificado en el archivo Incluir conjunto de datos de procesamiento de registros. Consulte Grupos de descodificadores de archivos de texto.
ID de origen de registro
El valor de este parámetro puede ser cualquier cadena. Si se especifica un valor, este parámetro permite diferenciar las entradas de registro de diferentes fuentes de registro para la identificación de origen o el procesamiento dirigido. El campo x-log-source-id se rellena con un valor que identifica el origen del registro para cada entrada de registro. Por ejemplo, si desea identificar entradas de registro de un origen de archivos de registro llamado LogFile01, puede escribir desde LogFile01 , y esa cadena se pasaría al campo x-log-source-id para cada entrada de registro de ese origen.
Para obtener información sobre el campo x-log-source-id, consulte Campos de registro de datos de eventos.
Patrón de máscara
Expresión regular con un único subpatrón de captura que extrae un nombre coherente utilizado para identificar el origen de una serie de archivos de registro. Solo se considera el nombre del archivo. La ruta y la extensión no se consideran para la coincidencia de expresiones regulares. Si no especifica un patrón de máscara, se genera automáticamente una máscara.
Para los archivos Logs\010105server1.log y Logs\010105server2.log , el patrón de máscara sería [0-9]{6}(.*). Este patrón extrae la cadena "server1" o "server2" de los nombres de archivo anteriores.
Consulte Expresiones regulares.
Recurrente True o false. Si este parámetro se establece en true, se buscarán en todos los subdirectorios de cada ruta especificada en Rutas de registro los archivos que coincidan con el nombre de archivo o el patrón comodín especificados. El valor predeterminado es false.
Rechazar archivo Ruta de acceso y nombre de archivo del archivo que contiene las entradas de registro que no cumplen las condiciones del decodificador.
Usar horas de inicio y finalización
True o false. Si este parámetro se establece en true y se especifica la hora de inicio o de finalización, todos los archivos de este origen de registro deben tener nombres de archivo que empiecen por fechas en formato ISO (AAAAMMDD). Se supone que cada archivo contiene datos de un día GMT (por ejemplo, el intervalo de tiempo que comienza a las 0000 GMT de un día y termina a las 0000 GMT del día siguiente). Si los nombres de archivo de las fuentes de registro no comienzan con fechas ISO o si los archivos contienen datos que no corresponden a un día GMT, este parámetro debe configurarse en false para evitar resultados incorrectos.
Nota: Si se cumplen los requisitos de nomenclatura y intervalo de tiempo descritos anteriormente para los archivos de registro y se establece este parámetro en true, el grupo de descodificadores de archivos de texto especificado limita los archivos leídos a aquellos cuyos nombres tienen fechas ISO que se encuentran entre la hora de inicio y la hora de finalización especificadas. Si establece este parámetro en false, el servidor del área de trabajo de datos lee todos los archivos de registro durante el procesamiento del registro para determinar qué archivos contienen datos dentro del intervalo de tiempo de inicio y finalización.
Para obtener información sobre los parámetros Hora de inicio y Hora de finalización, consulte Filtros de datos.
En este ejemplo, el conjunto de datos se construye a partir de dos tipos de fuentes de registro.
La fuente de registro 0 especifica los archivos de registro generados a partir de los datos del evento capturados por Sensor. Esta fuente de datos apunta a un directorio llamado Registros y a todos los archivos de ese directorio con una extensión de nombre de .vsl archivo.
El Origen de registro 1 señala todos los archivos del directorio Registros con una extensión de nombre de .txt archivo. El grupo de descodificadores de este origen de registro se denomina "Registros de texto".
No debe eliminar ni mover archivos de registro después de haber definido las fuentes de datos para un conjunto de datos. Sólo los archivos de registro recién creados deben agregarse al directorio para las fuentes de datos.
El archivo que contiene los datos del evento debe cumplir los siguientes requisitos:
  • Los datos de eventos deben incluirse en un archivo XML con el formato correcto con las relaciones principales-secundarias adecuadas.
  • Debe existir un grupo de decodificadores único para cada formato de archivo XML. Para obtener información sobre la creación de un grupo de descodificadores, consulte Grupos de descodificadores XML.
  • Cada registro de visitante del archivo debe contener:
    • Un ID de seguimiento
    • Marca de hora
  • Para especificar las horas de inicio y finalización para el procesamiento de datos, cada nombre de archivo debe ser del formulario
YYYYMMDD-SOURCE.log
donde AAAAMMDD es el día de la hora media de Greenwich (GMT) de todos los datos del archivo, y SOURCE es una variable que identifica la fuente de los datos contenidos en el archivo.
Para ver un ejemplo de un archivo XML que cumple estos requisitos, consulte Grupos de decodificadores XML.
Póngase en contacto con los servicios de consultoría de Adobe para obtener una revisión de los archivos de registro XML que planea incorporar al conjunto de datos.

Parámetros

Para los orígenes de registro XML, están disponibles los parámetros de la siguiente tabla.
El procesamiento de los orígenes de registro XML requiere parámetros adicionales definidos en un Log Processing Dataset Include archivo, que contiene un subconjunto de los parámetros incluidos en un Log Processing.cfg archivo, así como parámetros especiales para definir los decodificadores para extraer datos del archivo XML. Para obtener información sobre la definición de descodificadores para orígenes de registro XML, consulte Grupos de descodificadores XML.
Campo Descripción
Nombre Identificador del origen de registro XML.
Rutas de registro
Directorios en los que se almacenan los orígenes de registro XML. La ubicación predeterminada es el directorio Registros. Una ruta relativa hace referencia al directorio de instalación del servidor del área de trabajo de datos.
Puede utilizar caracteres comodín para especificar los orígenes de registro XML que desea procesar:
  • * coincide con cualquier número de caracteres
  • ? coincide con un solo carácter
Por ejemplo, la ruta de registro Registros\*.xml coincide con cualquier archivo del directorio Registros que termine en .xml .
Si desea buscar en todos los subdirectorios de la ruta de acceso especificada, debe establecer el campo Recursive en true.
Nota: Si los archivos se van a leer desde la unidad de servidor de archivos de un servidor del área de trabajo de datos, debe introducir los URI correspondientes en el campo Rutas de registro. Por ejemplo, el URI/Logs/*.xml coincide con cualquier archivo .xml del directorio Registros. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
Servidor de registro Información (dirección, nombre, puerto, etc.) necesaria para conectarse a un servidor de archivos. Si hay una entrada en el campo Servidor de registro, las Rutas de registro se interpretan como URI. De lo contrario, se interpretan como rutas locales. Consulte Configuración de una unidad de servidor de archivos de Insight Server.
Comprimido True o false. Este valor debe establecerse en true si las fuentes de registro XML que leerá el servidor del área de trabajo de datos son archivos gzip comprimidos.
Grupo de decodificadores Nombre del grupo de decodificadores XML que se va a aplicar al origen de registro XML. Este nombre debe coincidir exactamente con el nombre del grupo de decodificadores XML correspondiente especificado en el archivo Incluir conjunto de datos de procesamiento de registros. Consulte Grupos de decodificadores XML.
ID de origen de registro
El valor de este campo puede ser cualquier cadena. Si se especifica un valor, este campo permite diferenciar las entradas de registro de diferentes orígenes de registro para la identificación de origen o el procesamiento dirigido. El campo x-log-source-id se rellena con un valor que identifica el origen del registro para cada entrada de registro. Por ejemplo, si desea identificar entradas de registro de un origen de archivos de registro denominado XMLFile01, puede escribir desde XMLFile01 y esa cadena se pasaría al campo x-log-source-id para cada entrada de registro de ese origen.
Para obtener información sobre el campo x-log-source-id, consulte Campos de registro de datos de eventos.
Patrón de máscara
Expresión regular con un único subpatrón de captura que extrae un nombre coherente utilizado para identificar el origen de una serie de archivos de registro. Solo se considera el nombre del archivo. La ruta y la extensión no se consideran para la coincidencia de expresiones regulares. Si no especifica un patrón de máscara, se genera automáticamente una máscara.
Para los archivos Logs\010105server1.xml y Logs\010105server2.xml , el patrón de máscara sería [0-9]{6}(.*). Este patrón extrae la cadena "server1" o "server2" de los nombres de archivo anteriores.
Consulte Expresiones regulares.
Recurrente True o false. Si este parámetro se establece en true, se buscarán en todos los subdirectorios de cada ruta especificada en Rutas de registro los archivos que coincidan con el nombre de archivo o el patrón comodín especificados. El valor predeterminado es false.
Rechazar archivo Ruta de acceso y nombre de archivo del archivo que contiene las entradas de registro que no cumplen las condiciones del decodificador.
Usar horas de inicio y finalización
True o false. Si este parámetro se establece en true y se especifica la hora de inicio o de finalización, todos los archivos de este origen de registro deben tener nombres de archivo que empiecen por fechas en formato ISO (AAAAMMDD). Se supone que cada archivo contiene datos de un día GMT (por ejemplo, el intervalo de tiempo que comienza a las 0000 GMT de un día y termina a las 0000 GMT del día siguiente). Si los nombres de archivo de las fuentes de registro no comienzan con fechas ISO o si los archivos contienen datos que no corresponden a un día GMT, este parámetro debe configurarse en false para evitar resultados incorrectos.
Nota: Si se cumplen los requisitos de nomenclatura y intervalo de tiempo descritos anteriormente para los archivos XML y se establece este parámetro en true, el grupo de decodificadores XML especificado limita los archivos leídos a aquellos cuyos nombres tienen fechas ISO que se encuentran entre la hora de inicio y la hora de finalización especificadas. Si establece este parámetro en false, el servidor del área de trabajo de datos lee todos los archivos XML durante el procesamiento del registro para determinar qué archivos contienen datos dentro del intervalo de tiempo de inicio y de finalización.
Para obtener información sobre los parámetros Hora de inicio y Hora de finalización, consulte Filtros de datos.
No debe eliminar ni mover orígenes de registro XML una vez definidas las fuentes de datos para un conjunto de datos. Solo se deben agregar al directorio los archivos XML recién creados para las fuentes de datos.
La fuente de datos Avro proporciona una forma más eficaz de integrar datos en el área de trabajo de datos:
  • Avro proporciona un formato de origen único para los datos de comercio y tráfico.
  • La fuente Avro son datos comprimidos de varios fragmentos de origen proporcionados por día. Proporciona únicamente campos rellenados y proporciona funciones de supervisión y notificación, acceso a datos históricos y recuperación automática.
  • El esquema, una presentación autodefinida de los archivos de registro de Avro, se incluye al principio de cada archivo.
  • Los campos nuevos se agregan con información de soporte para la ingesta de datos del área de trabajo de datos sin necesidad de realizar ningún cambio en el decodificador. Son:
    • Evars: 1-250 (anteriormente 1-75)
    • Eventos personalizados: 1-1000 (frente a 1-100)
    • Acceso a variables de solución para datos móviles, sociales y de vídeo
Además, el uso de la fuente Avro permite el acceso inmediato a cualquier campo nuevo de la fuente sin apagarse, lo que permite actualizar los campos sin necesidad de horas de servicio.
La fuente de datos Avro se configura en archivos independientes:
  • Un archivo de registro Avro: Es el formato de registro de Avro generado a partir del decodificador para dar formato a los datos de comercio y tráfico.
  • Un archivo de descodificador de avro : Este archivo le permite asignar valores al nuevo formato Avro. Puede configurar el decodificador mediante el Asistente de descodificador de Avro.

Asistente para descodificador de avro

Este asistente configura el archivo de registro del descodificador Avro.
Para abrir, haga clic con el botón derecho en un espacio de trabajo y seleccione Administración > Asistentes > Asistente para Decodificadores Avro .
Paso 1: Seleccione un archivo de registro Avro.
En este paso, puede seleccionar un archivo de origen para el esquema Avro. Se puede acceder a los esquemas desde un archivo de registro (.log) o desde un archivo de decodificador existente (.avro). Los esquemas se pueden extraer de cualquier archivo.
Archivo de registro promedio
Haga clic para abrir un archivo de registro (.log) para ver el esquema en la parte superior del archivo de registro y generar el archivo de decodificador.
Archivo de descodificador de Avro
Haga clic para abrir y editar el esquema de un archivo de decodificador (.avro) existente.
Paso 2: Seleccione Campos de entrada.
Seleccione los campos de entrada que se utilizarán en el conjunto de datos para pasar por el procesamiento del registro. Se mostrarán todos los campos del archivo, permitiéndole seleccionar los campos de la fuente.
Se proporciona un x-product(Generates row) campo si se encuentra una matriz en los datos. Este campo genera nuevas filas para los datos anidados en una matriz como campos de entrada. Por ejemplo, si tiene una fila de visita individual con muchos valores de producto en una matriz, se generarán filas en el archivo de entrada para cada producto.
Seleccionar valores predeterminados
Seleccione los campos que desea identificar como un conjunto estándar de campos predeterminados.
Seleccionar todo
Seleccione todos los campos del archivo.
Anular todas las selecciones
Borre todos los campos del archivo.
Paso 3: Seleccione los campos que se copiarán para generar filas.
Dado que se pueden crear nuevas filas a partir de valores anidados en una matriz, cada nueva fila creada debe tener un ID de seguimiento y una marca de hora. Este paso le permite seleccionar los campos que se copiarán en las filas del registro principal, como un ID de seguimiento y una marca de hora. También puede seleccionar otros valores que desee agregar a cada fila.
Seleccionar valores predeterminados
Seleccione un conjunto estándar de campos predeterminados que requieran nuevos valores de columna agregados a cada fila, como un ID de seguimiento y una marca de hora. Por ejemplo, un hit_source campo es un valor predeterminado que se debe agregar a cada fila nueva (se define como un valor predeterminado en la lista). Puede agregar otros valores de columna a cada fila según sea necesario.
Seleccionar todo
Seleccione todos los campos del archivo.
Anular todas las selecciones
Borre todos los campos del archivo.
Utilice el cuadro Buscar para buscar valores en la lista.
Paso 4: Especificar el nombre del decodificador
Asigne un nombre al grupo de campos y guárdelo como archivo de decodificador. El nombre debe coincidir con el nombre del grupo Decoder especificado en el origen de registro.
Paso 5: Guarde el archivo de decodificador.
El menú de archivos se abrirá para asignar un nombre al archivo decodificador y se guardará como .cfg archivo en la carpeta Registros .