Show Menu
トピック×

UIでのクラウドストレージバッチコネクタのデータフローの設定

データフローとは、ソースからデータセットにデータを取得し、取り込むスケジュール済みのタスク Platform です。 このチュートリアルでは、クラウドストレージアカウントを使用して新しいデータフローを設定する手順を説明します。

はじめに

このチュートリアルは、Adobe Experience Platform の次のコンポーネントを実際に利用および理解しているユーザーを対象としています。
さらに、このチュートリアルでは、クラウドストレージアカウントを確立している必要があります。 UIで異なるクラウドストレージアカウントを作成するためのチュートリアルのリストは、 source connectorsの概要に記載されています

サポートされているファイル形式

Experience Platform は、外部ストレージから取り込む次のファイル形式をサポートしています。
  • 区切り文字区切り値(DSV):DSV形式のデータ・ファイルのサポートは、現在、コンマ区切り値に制限されています。 DSV形式のファイル内のフィールド・ヘッダーの値は、英数字とアンダースコアのみで構成する必要があります。 一般的なDSVファイルは、今後サポートされる予定です。
  • JavaScript Object Notation (JSON):JSON形式のデータファイルは、XDMに準拠している必要があります。

データの選択

クラウドストレージアカウントを作成すると、 データの選択 手順が表示され、クラウドストレージ階層を調べるためのインタラクティブインターフェイスが提供されます。
  • インターフェイスの左半分はディレクトリブラウザーで、サーバーのファイルとディレクトリが表示されます。
  • インターフェイスの右半分を使用すると、互換性のあるファイルから最大100行のデータをプレビューできます。
リストに表示されているフォルダーを選択すると、フォルダー階層を深いフォルダーに移動できます。 互換性のあるファイルまたはフォルダを選択すると、 # ドロップダウンが表示され、プレビューウィンドウにデータを表示する形式を選択できます。
プレビューーウィンドウが設定されたら、「 次へ 」を選択して、選択したフォルダー内のすべてのファイルをアップロードできます。 特定のファイルにアップロードする場合は、「 次へ 」を選択する前に、リストからそのファイルを選択します。

インジェストパーケまたはJSONファイル

クラウドストレージアカウントでサポートされるファイル形式には、JSONやParketも含まれます。 JSONファイルとParketファイルは、XDMに準拠している必要があります。 JSONファイルまたはParketファイルを取り込むには、ディレクトリブラウザーから適切なファイル形式を選択し、適切なインターフェイスから互換性のあるデータ形式を適用します。 「 次へ 」を選択して次に進みます。
区切り形式のファイルタイプとは異なり、JSONやParket形式のファイルはプレビューできません。

データフィールドのXDMスキーマへのマッピング

マッピング 」の手順が表示され、ソースデータをデータセットにマッピングするインタラクティブなインターフェイスが提供され Platform ます。 JSONまたはParket形式のソースファイルはXDMに準拠している必要があり、手動でマッピングを設定する必要はありません。 逆に、CSVファイルでは、マッピングを明示的に設定する必要がありますが、マッピングするソースデータフィールドを選択できます。
取り込む受信データのデータセットを選択します。 既存のデータセットを使用することも、新しいデータセットを作成することもできます。
既存のデータセットを使用する
既存のデータセットにデータを取り込むには、 既存のデータセット 、データセットアイコンの順に選択します。
The Select dataset dialog appears. 使用するデータセットを見つけて選択し、「 続行 」をクリックします。
新しいデータセットの使用
データを新しいデータセットに取り込むには、「 新しいデータセット 」を選択し、表示されるフィールドにデータセットの名前と説明を入力します。 スキーマを追加するには、 スキーマの選択 ダイアログボックスで既存のスキーマ名を入力します。 または、 スキーマのアドバンス検索を選択して、適切なスキーマを検索することもできます
この手順では、データセットを有効にし、エンティティの属性 Real-time Customer Profile と行動を総合的に表示できます。 すべての有効なデータセットのデータはに含まれ、データフローを保存する際 Profile に変更が適用されます。
ターゲットデータセットを有効にするには、 プロファイルデータセット ボタンを切り替え Profileます。
The Select schema dialog appears. 新しいデータセットに適用するスキーマを選択し、「 完了 」を選択します。
必要に応じて、フィールドを直接マップするか、マッパー関数を使用してソースデータを変換し、計算値や計算値を抽出することができます。 データマッピングおよびマッパーの機能について詳しくは、CSVデータのXDMスキーマフィールドへの マッピングに関するチュートリアルを参照してください
Platform 選択したターゲットスキーマまたはデータセットに基づいて、自動マップされたフィールドに高度な推奨機能を提供します。 使用事例に合わせて手動でマッピングルールを調整できます。
選択したデータセットから最大100行のサンプルデータのマッピング結果を表示するには、 プレビューデータ (Data Select Data)を選択します。
マッピング結果を検証する際に必要な重要な情報なので、プレビュー時に、ID列が最初のフィールドとして優先付けされます。
ソースデータがマッピングされたら、「 閉じる 」を選択します。

インジェストのスケジュール設定

# ステップが表示され、設定済みのマッピングを使用して選択したソースデータを自動的に取り込むように取り込みスケジュールを設定できます。 次の表に、スケジュール設定用の様々な設定可能フィールドの概要を示します。
フィールド
説明
頻度
選択可能な周波数 Once には、、、、、、、、、、が含ま Minute Hour Day Week ます。
間隔
選択した頻度の間隔を設定する整数。
開始時間
最初の取り込みがいつ行われるかを示すUTCタイムスタンプ。
埋め戻し
最初に取り込まれるデータを決定するboolean値です。 # を有効にすると、指定したパスにある現在のファイルは、最初にスケジュールされた取り込み中にすべて取り込まれます。 # を無効にすると 、最初の取り込み実行から 開始時間の間に読み込まれたファイルだけが取り込まれます。 開始時間より前に読み込まれたファイルは取り込まれません
データフローは、スケジュールに基づいてデータを自動的に取り込むように設計されています。 開始するには、取り込み頻度を選択します。 次に、2つのフローの実行間隔を指定する間隔を設定します。 間隔の値は、0以外の整数で、15以上に設定する必要があります。
取り込みの開始時間を設定するには、開始時間ボックスに表示される日時を調整します。 または、カレンダーアイコンを選択して、開始時間の値を編集することもできます。 開始時刻は、現在の時刻(UTC)以上である必要があります。
スケジュールの値を指定し、「 次へ 」を選択します。

1回のみの取り込みデータフローの設定

1回のみの取り込みを設定するには、頻度ドロップダウン矢印を選択し、「 1回 」を選択します。 1回限りの頻度で取り込むためのデータフローセットに対する編集は、開始時間が将来的に残る限り継続して行うことができます。 開始時間が経過すると、1回限りの頻度の値は編集できなくなります。
1回限りの取り込みでは 、Intervalと Backfill は表示されません。
スケジュールに適切な値を入力したら、「 次へ 」を選択します。

データフローの詳細の指定

# ステップが表示され、新しいデータフローに名前を付け、簡単に説明を付けることができます。
このプロセス中に、 部分的な取り込み エラー診断も有効にできます 。 「 部分的な取り込み 」を有効にすると、エラーを含むデータを取り込むことができ、設定可能な特定のしきい値まで取り込むことができます。 エラー 診断を有効にすると 、誤ったデータに関する詳細情報が別々にバッチ処理されます。 詳しくは、 部分的なバッチインジェストの概要を参照してください
データフローの値を指定し、「 Next 」を選択します。

データフローの確認

レビュー 」ステップが表示され、新しいデータフローを作成前に確認できます。 詳細は次のカテゴリに分類されます。
  • 接続 :ソースの種類、選択したソースファイルの関連パス、およびそのソースファイル内の列数が表示されます。
  • データセットとマップのフィールドの割り当て :ソースデータが取り込まれるデータセット(データセットに従うスキーマなど)を示します。
  • スケジュール :取り込みスケジュールの有効期間、頻度、間隔を表示します。
データフローをレビューしたら、 「Finish 」をクリックし、データフローを作成するまでの時間を設定します。

データフローの監視

データフローを作成したら、データフローを介して取り込まれるデータを監視し、取り込み率、成功、エラーに関する情報を確認できます。 データフローの監視方法の詳細については、「UIでのアカウントとデータフローの 監視に関するチュートリアル 」を参照してください。

データフローの削除

不要になったデータフローや誤って作成されたデータフローは、 データフロー ・ワークスペースで使用可能な 削除 機能を使用して削除できます。 データフローの削除方法の詳細については、UIでのデータフローの 削除に関するチュートリアルを参照してください

次の手順

このチュートリアルに従うと、外部のクラウドストレージからデータを取り込むためのデータフローが正しく作成され、データセットの監視に関する洞察が得られます。 データフローの作成について詳しくは、以下のビデオを参照して学習を補うことができます。 また、入力データは、やなどの下流の Platform サービスで使用でき Real-time Customer Profile るようになり Data Science Workspaceました。 詳しくは、次のドキュメントを参照してください。
次のビデオに示す Platform UIは古いです。 最新のUIのスクリーンショットと機能については、上記のドキュメントを参照してください。

付録

以下の節では、ソースコネクタを使用する場合の追加情報について説明します。

データフローの無効化

データフローが作成されると、そのデータはすぐにアクティブになり、指定されたスケジュールに従ってデータを取り込みます。 アクティブなデータフローは、次の手順に従っていつでも無効にできます。
ソース 」ワークスペース内で、「 参照 」タブをクリックします。 次に、無効にするアクティブなデータフローに関連付けられているアカウントの名前をクリックします。
ソースアクティビティ 」ページが表示されます。 リストからアクティブなデータフローを選択し、画面の右側に 「Properties 」列を開きます。この列には「 Enabled 」トグル・ボタンが含まれています。 切り替えボタンをクリックして、データフローを無効にします。 同じ切り替えを使用して、データフローを無効にした後で再び有効にできます。

母集団の受信データを有効にし Profile ます

ソースコネクタから受信するデータは、データの富化と埋め込みに使用でき Real-time Customer Profile ます。 データの入力について詳しくは、 Real-time Customer Profile​ プロファイルの入力に関するチュートリアルを参照してください