Show Menu
トピック×

ログソース

ログソースは、データセット構築用の元データを含むファイルです。
各データレコードが 1 件のトランザクションレコードまたは 1 回のイベントの発生を表していることから、ログソース内のデータは「イベントデータ」と呼ばれます。The data workbench server can process log sources that are derived from data collected by Sensors or extracted from other data sources.
  • Data Collected by Sensors: Data collected by Sensors from HTTP and application servers is transmitted to data workbench servers, which convert the data into highly compressed log ( .vsl) files. Sensor Filesを参 照してください
  • Insight サーバーによって抽出されたデータ: Data Workbench サーバーは、フラットファイルや XML ファイル、ODBC 準拠のデータベースからイベントデータを読み取り、デコーダーを使用して、データから目的のエレメントを抽出します。そうしたイベントデータは、メモリに常駐している必要はありませんが、イベントデータを含んでいるレコードには追跡 ID が格納されている必要があります。詳しくは、 ログフ ァイル XMLログソース ODBCデータソース
ログソースを追加するには
  1. Open Log Processing.cfg in data workbench.
  2. 右クリックし、 Log Sources ​をクリックしま Add New ​す。
  3. 次のいずれかを選択します。
    • Sensor
    • Log File
    • XML Log Source
    • ODBC Data Source
  4. データセットの定義で実際に使用するパラメーターは、データセットの設定プロセスで使用するログソースのタイプによって異なります。ログソースごとの節で紹介しているパラメーターを指定してください。
  5. Log Processing.cfg ファイルでログソースを定義し、他のパラメーターに必要な変更を加えたら、そのファイルをローカルに保存してから、Data Workbench サーバー上のデータセットプロファイルに保存します。
    A data workbench server File Server Unit can receive and store Sensor files, log files, and XML files and serve them to the data workbench server's Data Processing Units that construct the dataset. Insightサーバ ーのファイルサーバーユニットの設定を参照してくださ い。
    You can open the configuration of any log source from a Transformation Dependency Map. 詳しくは、データセッ Transformation Dependency Mapト設定ツー ルを参照してください

要件

Event data collected by Sensors from HTTP and application servers is transmitted to data workbench servers, which convert the data into highly compressed log ( .vsl) files. The .vsl file format is managed by the data workbench server, and each file has a name of the format:
YYYYMMDD- SENSORID .VSL
YYYYMMDD はファイルの日付で、 SENSORID は、データを収集して Data Workbench サーバーに送信した Sensor の名前(カンパニー内で割り当てられる名前)です。

パラメーター

Sensor のファイルには、以下のパラメーターを使用できます。
パラメーター 説明
Log Paths
.vsl ファイルが格納されるディレクトリ。デフォルトでは Logs ディレクトリです。Data Workbench サーバーのインストールディレクトリが相対パスの基準となります。
処理対象とする .vsl ファイルは、ワイルドカード文字で指定できます。
  • 「*」は、任意の数の文字と一致します。
  • 「?」は、単一の文字と一致します。
例えば、 Logs\*.vsl というパスは、Logs ディレクトリ内の、 .vsl で終わるすべてのファイルと一致します。 Logs\*-SENSOR?.vsl というパスは、任意の日付(YYYYMMDD)を持ち、SENSOR の後に 1 文字続く(SENSOR1 など)、Logs ディレクトリ内のファイルと一致します。
指定したパスのすべてのサブディレクトリを検索対象にしたい場合は、Recursive パラメーターを true に設定する必要があります。
注意:Data Workbench サーバーの ファイルサーバーユニット からファイルを読み取る場合、適切な URI を Log Paths パラメーターに入力する必要があります。例えば、 /Logs/*-*.vsl という URI は、Logs ディレクトリ内のすべての .vsl ファイルと一致します。Insightサーバ ーのファイルサーバーユニットの設定を参照してください
Log Server ファイルサーバーへの接続に必要な情報(アドレス、名前、ポートなど)。Log Server パラメーターに値が入力されている場合、 Log Paths は URI として解釈されます。それ以外の場合は、ローカルパスとして解釈されます。詳しくは、 Insightサー バーのファイルサーバーユニットの設定
Log Source ID
このパラメーターには、任意の文字列を値として指定できます。このパラメーターの値が指定されていると、異なるログソースからのログエントリを区別して、ログの生成元を特定したり、処理の対象を絞り込んだりすることができます。x-log-source-id フィールドには、ログソースを識別する値がログエントリごとに格納されます。例えば、VSensor01 という Sensor からのログエントリを識別したい場合、「 from VSensor01 」と入力すれば、このソースから収集されるすべてのログエントリの x-log-source-id フィールドにその文字列が渡されます。
x-log-source-idフィールドについて詳しくは、「イベントデータレコードのフ ィールド」を参照してください
Recursive true または false。true に設定した場合、 Log Paths に指定された各パスのすべてのサブディレクトリを対象に、指定したファイル名やワイルドカードパターンと一致するファイルが検索されます。デフォルト値は false です。
Use Start/End Times
true または false。このパラメーターを true に設定し、Start Time または End Time を指定する場合、ログソースのすべてのファイルの名前は、ISO 形式の日付(YYYYMMDD)で始まっている必要があります。すべてのファイルに、GMT に基づく 1 日分(特定の日付の 0000 GMT から翌日の 0000 GMT までなど)のデータが含まれていることが前提となります。GMT の 1 日に対応しないデータがログソースファイルに含まれている場合、結果が不正確になるので、それを避けるために、このパラメーターを false に設定する必要があります。
注意: Sensor によって収集されたデータの .vsl ファイルは、特に何もしなくても、名前付けと時間範囲に関する前述の要件を自動的に満たします。このパラメーターが true に設定されている場合、Data Workbench サーバーは常に、指定された Start Time と End Time の期間に該当する ISO 形式の日付を名前に含んだファイルからのデータを処理します。このパラメーターが false に設定されている場合、Data Workbench サーバーは、ログ処理の過程ですべての .vsl ファイルを読み取り、Start Time から End Time までの期間に該当するデータが含まれているファイルを特定します。
For information about the Start Time and End Time parameters, see Data Filters .
Do not use the configuration parameters for Sensor data sources to determine which log entries within a log file should be included in a dataset. その場合は、特定のディレクトリ内のすべてのログファイルを指すようにデータソースを設定したうえで、Log Processing.cfg の Start Time パラメーターと End Time パラメーターを使用し、データセットの構築に使用するログエントリを選択します。データフィ ルタを参照してくださ い。
イベントデータを含むファイルは、次の要件を満たしている必要があります。
  • ファイル内のイベントデータレコードは、1 件につき 1 行で記述されている必要があります。
  • レコード内のフィールドは、データが存在するかどうかに関係なく、ASCII の区切り文字で区切られている必要があります。Data Workbench サーバーの要件として定められた区切り文字はありません。行終端文字以外で、かつイベントデータ自体に出現していない文字であれば、どのような文字でも使用できます。
  • ファイル内の各レコードには次のデータが含まれている必要があります。
    • 追跡 ID
    • タイムスタンプ
  • データ処理の始まりと終わりの時間を指定するために、各ファイル名は次の形式になっている必要があります。
    • YYYYMMDD-SOURCE.log
    YYYYMMDD はファイル内の全データのグリニッジ標準時(GMT)の日付で、 SOURCE はファイルに含まれているデータの取得元を表す変数です。
    データセットへの組み込みを計画しているログファイルの確認については、アドビのコンサルティングサービスにお問い合わせください。

パラメーター

ログファイルのログソースに関して、以下の表に示したパラメーターが用意されています。
The processing of log file log sources requires additional parameters that are defined in a Log Processing Dataset Include file, which contains a subset of the parameters included in a Log Processing.cfg file as well as special parameters for defining decoders for extracting data from the log file. ログファイルログソースのデコーダーの定義について詳しくは、 Text File Decoder Groupsを参照してください
パラメーター 説明
名前 ログファイルソースを識別する情報。
Log Paths
ログファイルを格納するディレクトリ。デフォルトでは Logs ディレクトリです。Data Workbench サーバーのインストールディレクトリが相対パスの基準となります。
処理対象とするログファイルは、ワイルドカード文字で指定できます。
  • 「*」は、任意の数の文字を表します。
  • 「?」は、単一の文字を表します。
例えば、 Logs\*.log というパスは、Logs ディレクトリ内の、 .log で終わるすべてのファイルと一致します。
指定したパスのすべてのサブディレクトリを検索対象にしたい場合は、Recursive パラメーターを true に設定する必要があります。
Data Workbench サーバーの ファイルサーバーユニット からファイルを読み取る場合、適切な URI を Log Paths パラメーターに入力する必要があります。例えば、 URI/Logs/*.log は、Logs ディレクトリ内のすべての .log ファイルと一致します。Insightサーバ ーのファイルサーバーユニットの設定を参照してください
Log Server ファイルサーバーへの接続に必要な情報(アドレス、名前、ポートなど)。Log Server パラメーターに値が入力されている場合、 Log Paths は URI として解釈されます。それ以外の場合は、ローカルパスとして解釈されます。詳しくは、 Insightサー バーのファイルサーバーユニットの設定
Compressed true または false。Data Workbench サーバーによって読み取られるログファイルが圧縮 gzip ファイルである場合、この値を true に設定する必要があります。
Decoder Group ログファイルログソースに適用するテキストファイルデコーダーグループの名前。この名前は、 ログ処理データセットインクルード ファイルに指定された、対応するテキストファイルデコーダーグループの名前と完全に一致している必要があります。See Text File Decoder Groups .
Log Source ID
このパラメーターには、任意の文字列を値として指定できます。このパラメーターの値が指定されていると、異なるログソースからのログエントリを区別して、ログの生成元を特定したり、処理の対象を絞り込んだりすることができます。x-log-source-id フィールドには、ログソースを識別する値がログエントリごとに格納されます。例えば、LogFile01 というログファイルソースからのログエントリを識別したい場合、「 from LogFile01 」と入力すれば、このソースから収集されるすべてのログエントリの x-log-source-id フィールドにその文字列が渡されます。
x-log-source-idフィールドについて詳しくは、「イベントデータレコードのフ ィールド」を参照してください
Mask Pattern
規則的な名前のログファイルを指定するための正規表現パターン。一連のログファイルのソースを識別する目的で使用されます。考慮されるのはファイル名のみです。パスと拡張子は、正規表現のマッチングの対象外となります。 マスクパターン を指定しなかった場合は、マスクが自動的に生成されます。
Logs\010105server1.log Logs\010105server2.log というファイルの場合、 マスクパターン は [0-9]{6}(.*) となります。このパターンを適用した場合、ファイル名から「server1」や「server2」という文字列が抽出されます。
詳しくは、 正規表現 .
Recursive true または false。このパラメーターを true に設定した場合、 Log Paths に指定された各パスのすべてのサブディレクトリを対象に、指定したファイル名やワイルドカードパターンと一致するファイルが検索されます。デフォルト値は false です。
Reject File デコーダーの条件を満たさないログエントリを含むファイルのパスと名前。
Use Start/End Times
true または false。このパラメーターを true に設定し、Start Time または End Time を指定する場合、ログソースのすべてのファイルの名前は、ISO 形式の日付(YYYYMMDD)で始まっている必要があります。すべてのファイルに、GMT に基づく 1 日分(特定の日付の 0000 GMT から翌日の 0000 GMT までなど)のデータが含まれていることが前提となります。ログソースファイル名の先頭が ISO 形式の日付になっていない場合や、GMT の 1 日に対応しないデータがファイルに含まれている場合、結果が不正確になるので、それを避けるために、このパラメーターを false に設定する必要があります。
注意:前述の命名規則と時間範囲の要件をログファイルが満たしている場合、このパラメーターを true に設定することによって、指定したテキストファイルデコーダーグループによって読み取り対象のファイルが限定され、ISO 形式の日付をファイル名に含んでいて、Start Time と End Time で指定した期間に該当するファイルだけが読み取り対象となります。このパラメーターが false に設定されている場合、Data Workbench サーバーは、ログ処理の過程ですべてのログファイルを読み取り、Start Time から End Time までの期間に該当するデータが含まれているファイルを特定します。
Start Time パラメーターと End Time パラメーターについて詳しくは、 データフィルター を参照してください。
次の例では、2 種類のログソースからデータセットが構築されます。
Log Source 0 には、Sensor によって収集されたイベントデータから生成されたログファイルが指定されています。This data source points to a directory called Logs and to all of the files in that directory with a .vsl file name extension.
Log Source 1 points to all of the files in the Logs directory with a .txt file name extension. このログソースのデコーダーグループには、「Text Logs」という名前が付けられています。
データセットのデータソースを定義した後でログファイルを削除したり移動したりすることは避けてください。データソースのディレクトリには、新しく作成されたログファイルだけを追加する必要があります。
イベントデータを含むファイルは、次の要件を満たしている必要があります。
  • イベントデータは、必要な親子関係を持った適切な形式の XML ファイルに格納されていなければなりません。
  • XML ファイル形式ごとに一意のデコーダーグループが存在している必要があります。デコーダーグループの作成について詳しくは、 XML デコーダーグループ .
  • ファイル内の訪問者レコードにはそれぞれ次のデータが含まれている必要があります。
    • 追跡 ID
    • タイムスタンプ
  • データ処理の始まりと終わりの時間を指定するために、各ファイル名は次の形式になっている必要があります。
YYYYMMDD-SOURCE.log
YYYYMMDD はファイル内の全データのグリニッジ標準時(GMT)の日付で、 SOURCE はファイルに含まれているデータの取得元を表す変数です。
これらの要件を満たした XML ファイルの例については、 XML デコーダーグループ .
データセットへの組み込みを予定しているXMLログファイルの確認については、アドビのコンサルティングサービスにお問い合わせください。

パラメーター

XML ログソースに関して、以下の表に示したパラメーターが用意されています。
The processing of XML log sources requires additional parameters that are defined in a Log Processing Dataset Include file, which contains a subset of the parameters included in a Log Processing.cfg file as well as special parameters for defining decoders for extracting data from the XML file. For information about defining decoders for XML log sources, see XML Decoder Groups .
フィールド 説明
名前 XML ログソースを識別する情報。
Log Paths
XML ログソースが格納されるディレクトリ。デフォルトでは Logs ディレクトリです。Data Workbench サーバーのインストールディレクトリが相対パスの基準となります。
処理対象とする XML ログソースは、ワイルドカード文字で指定できます。
  • 「*」は、任意の数の文字と一致します。
  • 「?」は、単一の文字と一致します。
例えば、 Logs\*.xml というパスは、Logs ディレクトリ内の、 .xml で終わるすべてのファイルと一致します。
指定したパスのすべてのサブディレクトリを検索対象にしたい場合は、 Recursive フィールドを true に設定する必要があります。
注意:Data Workbench サーバーの ファイルサーバーユニット からファイルを読み取る場合、適切な URI を Log Paths フィールドに入力する必要があります。例えば、 URI/Logs/*.xml は、Logs ディレクトリ内のすべての .xml ファイルと一致します。Insightサーバ ーのファイルサーバーユニットの設定を参照してください
Log Server ファイルサーバーへの接続に必要な情報(アドレス、名前、ポートなど)。 Log Server フィールドに値が入力されている場合、 Log Paths は URI として解釈されます。それ以外の場合は、ローカルパスとして解釈されます。詳しくは、 Insightサー バーのファイルサーバーユニットの設定
Compressed true または false。Data Workbench サーバーによって読み取られる XML ログソースが圧縮 gzip ファイルである場合、この値を true に設定する必要があります。
Decoder Group XML ログソースに適用する XML デコーダーグループの名前。この名前は、 ログ処理データセットインクルード ファイルに指定された、対応する XML デコーダーグループの名前と完全に一致している必要があります。See XML Decoder Groups .
Log Source ID
このフィールドには、任意の文字列を値として指定できます。このフィールドの値が指定されていると、異なるログソースからのログエントリを区別して、ログの生成元を特定したり、処理の対象を絞り込んだりすることができます。x-log-source-id フィールドには、ログソースを識別する値がログエントリごとに格納されます。例えば、XMLFile01 というログファイルソースからのログエントリを識別したい場合、「 from XMLFile01 」と入力すれば、このソースから収集されるすべてのログエントリの x-log-source-id フィールドにその文字列が渡されます。
x-log-source-idフィールドについて詳しくは、「イベントデータレコードのフ ィールド」を参照してください
Mask Pattern
規則的な名前のログファイルを指定するための正規表現パターン。一連のログファイルのソースを識別する目的で使用されます。考慮されるのはファイル名のみです。パスと拡張子は、正規表現のマッチングの対象外となります。 マスクパターン を指定しなかった場合は、マスクが自動的に生成されます。
Logs\010105server1.xml Logs\010105server2.xml というファイルの場合、マスクパターンは [0-9]{6}(.*) となります。このパターンを適用した場合、ファイル名から「server1」や「server2」という文字列が抽出されます。
詳しくは、 正規表現 .
Recursive true または false。このパラメーターを true に設定した場合、 Log Paths に指定された各パスのすべてのサブディレクトリを対象に、指定したファイル名やワイルドカードパターンと一致するファイルが検索されます。デフォルト値は false です。
Reject File デコーダーの条件を満たさないログエントリを含むファイルのパスと名前。
Use Start/End Times
true または false。このパラメーターを true に設定し、Start Time または End Time を指定する場合、ログソースのすべてのファイルの名前は、ISO 形式の日付(YYYYMMDD)で始まっている必要があります。すべてのファイルに、GMT に基づく 1 日分(特定の日付の 0000 GMT から翌日の 0000 GMT までなど)のデータが含まれていることが前提となります。ログソースファイル名の先頭が ISO 形式の日付になっていない場合や、GMT の 1 日に対応しないデータがファイルに含まれている場合、結果が不正確になるので、それを避けるために、このパラメーターを false に設定する必要があります。
注意:前述の命名規則と時間範囲の要件を XML ファイルが満たしている場合、このパラメーターを true に設定することによって、指定した XML デコーダーグループによって読み取り対象のファイルが限定され、ISO 形式の日付をファイル名に含んでいて、Start Time と End Time で指定した期間に該当するファイルだけが読み取り対象となります。このパラメーターが false に設定されている場合、Data Workbench サーバーは、ログ処理の過程ですべての XML ファイルを読み取り、Start Time から End Time までの期間に該当するデータが含まれているファイルを特定します。
Start Time パラメーターと End Time パラメーターについて詳しくは、 データフィルター を参照してください。
データセットのデータソースを定義した後で、XMLログソースを削除または移動しないでください。 データソースのディレクトリには、新しく作成された XML ファイルだけを追加する必要があります。
Avro データフィードは、より効率的な方法でデータを Data Workbench に統合します。
  • Avro は、トラフィックおよびコマースデータ用の単一ソース形式を提供します。
  • Avro フィードは、1 日ごとに提供される複数のソースチャンクの圧縮データです。入力されたフィールドのみをプロビジョニングしたり、監視および通知機能を提供したり、履歴データにアクセスしたり、自動リカバリしたりします。
  • スキーマ(AVRO ログファイルの自動定義レイアウト)は、各ファイルの最初に含まれます。
  • デコーダーへの変更なしに Data Workbench データを取り込むための情報をサポートする新しいフィールドが追加されます。以下が含まれます。
    • eVar:1 ~ 250(以前は 1 ~ 75)
    • カスタムイベント:1 ~ 1000(1 ~ 100 に対して)
    • モバイル、ソーシャル、ビデオデータ用のソリューション変数へのアクセス
また、Avroフィードを使用すると、シャットダウンせずにフィード内の新しいフィールドに即座にアクセスできるので、サービス時間の要件なしでフィールドを更新できます。
Avro データフィードは、個別のファイルに設定されます。
  • AVRO ログファイル :これは、トラフィックおよびコマースデータをフォーマットするためにデコーダーから生成された Avro ログ形式です。
  • AVRO デコーダーファイル :このファイルを使用すると、値を新しい Avro 形式にマッピングできます。AVRO デコーダーウィザードを使用して、デコーダーを設定できます。

AVRO デコーダーウィザード

このウィザードは、Avro デコーダーログファイルを設定します。
開くには、ワークスペースで右クリックして、 管理者 ウィザード AVRO デコーダーウィザード ​を選択します。
手順 1: AVRO ログファイルを選択 ​します。
この手順では、Avro スキーマのソースファイルを選択できます。スキーマは、ログファイル(.log)または既存のデコーダーファイル(.avro)からアクセスできます。スキーマは、どちらかのファイルから取り込むことができます。
Avroログファイル
クリックして(.log)ファイルを開くと、ログファイルの最上部にスキーマが表示され、デコーダーファイルを生成します。
AVRO デコーダーファイル
クリックして開き、既存のデコーダー(.avro)ファイルのスキーマを編集します。
手順 2:入力フィールドを選択 ​します。
ログ処理を経るために、データセットで使用する入力フィールドを選択します。ファイルのすべてのフィールドが表示され、フィード用のフィールドを選択できます。
データ x-product(Generates row) 内で配列が検出された場合は、フィールドが指定されます。 このフィールドは、配列にネストされたデータ用に新しい行を入力フィールドとして生成します。例えば、配列に多くの製品の値を持つヒット行がある場合、各製品の入力ファイルに行が生成されます。
デフォルトを選択
デフォルトフィールドの標準として識別するためのフィールドを選択します。
すべて選択
ファイルのすべてのフィールドを選択します。
すべて選択解除
ファイルのすべてのフィールドをクリアします。
手順3:行を生成するためにコピーされるフィールドを選択します。
新しい行は配列のネストされた値から作成できるので、それぞれの作成された新しい行には、追跡 ID およびタイムスタンプがある必要があります。この手順により、追跡 ID およびタイムスタンプなどの親レコードから行にコピーされるフィールドを選択できます。また、各行に追加したい他の値も選択できます。
デフォルトを選択
追跡 ID およびタイムスタンプなど、各行に追加された新しい列の値に必要なデフォルトフィールドの標準セットを選択します。例えば、hit_source フィールドは、それぞれの新しい行に追加されるために必要なデフォルト値です(リストのデフォルト値として定義されます)。必要に応じて、他の列の値を各行に追加できます。
すべて選択
ファイルのすべてのフィールドを選択します。
すべて選択解除
ファイルのすべてのフィールドをクリアします。
検索 ​ボックスを使用して、リストの値を検索します。
手順 4:デコーダー名を指定します。
フィールドのグループに名前を割り当てて、デコーダーファイルとして保存します。名前は、ログソースで指定したデコーダーグループ名と一致する必要があります。
手順 5:デコーダーファイルを保存します。
The file menu will open to name the decoder file and save as a .cfg file in the Logs folder.