Show Menu
トピック×

A/B テストを実行すべき期間はどのくらいですか?

A/B テストを成功させるにはコンバージョン率を向上させるのに十分な数の訪問者(サンプルサイズ)が必要ですが、A/B テストを実行すべき期間はどのようにすれば知ることができますか?この記事では、自動配分アクティビティと Target サンプルサイズ計算ツールを使用して、目標を達成するのに十分な数の訪問者をアクティビティで確保する方法について説明します。
アクティビティの最初の数日でオファーの 1 つのパフォーマンスが他に比べてずっと優れている、または劣っている場合、アクティビティを停止したくなります。ただし、観測結果の数が少ない場合、コンバージョン率は少ない訪問者数の平均なので、まったく偶然にプラスまたはマイナスの上昇が観測される可能性が高いです。アクティビティでより多くのデータポイントを収集するに従って、コンバージョン率は真の長期的な値に近づきます。
アクティビティを早期に停止することは、A/B テストを実行する際に陥る 9 つの最も重大な落とし穴の 1 つです。詳しくは、 9 つの一般的な A/B テストの落とし穴と回避方法 .
Target には、コンバージョン目標を達成するのに十分な大きさのサンプルをアクティビティで確保するのに役立つツールが用意されています。
  • 自動配分: ​自動配分アクティビティは、2 つ以上のエクスペリエンスの中から勝者を特定したうえで、自動的にその勝者に配分するトラフィックを増やすことでコンバージョンを促進する A/B テストの一種です。この処理の間も、テストによる学習は続けられます。
    標準的な A/B テストには、固有のコストがあります。各エクスペリエンスのパフォーマンスを測定するためにトラフィックを費やす必要があり、分析を通じて勝者エクスペリエンスを見つけ出す必要があります。トラフィックの配分は、一部のエクスペリエンスが他よりもパフォーマンスに優れているとわかった後でも、固定されたままです。また、サンプルサイズの計算が複雑で、アクティビティは、勝者に対して働きかけられるようになる前に全コースを実行する必要があります。これをすべておこなった後でも、特定した勝者が真の勝者ではない可能性があります。
    これを解決するのが自動配分です。自動配分は、このコストおよび勝者エクスペリエンスの判別のオーバーヘッドを削減します。自動配分では、すべてのエクスペリエンスの目標指標パフォーマンスを監視し、パフォーマンスの高いエクスペリエンスに、パフォーマンスの高さに応じて多くの新規参加者を送ります。他のエクスペリエンスを調査するのに十分なトラフィックが予約されます。学習と平行してアクティビティの最適化を実行中であっても、結果に対するテストのメリットを確認できます。
    自動配分は、アクティビティが終了して勝者が決まるまで待たずに、訪問者を徐々に勝者エクスペリエンスに近づけます。成功していないエクスペリエンスに送られたアクティビティ参加者は勝者エクスペリエンスの可能性を示しているので、より迅速に上昇するメリットが得られます。
    自動配分機能を使用すると、Target は、アクティビティが十分な信頼性のあるコンバージョンの最低数に達するまで、アクティビティのページの最上部に「まだ勝者がありません」ということを示すバッジを表示します。次に、Target は、アクティビティのページの上部にバッジを表示して、勝者エクスペリエンスを宣言します。
    詳しくは、 自動配分 を参照してください。
  • Target サンプルサイズ計算ツール: ​自動配分をおこなわずに A/B テストを手動で使用する場合は、Target サンプルサイズ計算ツールを使用すると、テストの成功に必要なサンプルサイズを判断できます。手動のA/Bテストは固定水平線テストなので、計算ツールが非常に役立ちます。 自動配分は推奨結果を宣言するので、自動配分アクティビティの計算ツールの使用はオプションです。 計算ツールを使用すると、必要なサンプルサイズの概算が表示されます。 計算ツールの使い方について詳しくは、以降の節を参照してください。

Adobe Target サンプルサイズ計算ツール

Before setting up your A/B test, access the Adobe Target sample size calculator .
結果を見積もる前のテストの実行時間を決めることを目的に、A/B テストの実施前に十分なサンプルサイズ(訪問者数)を判断することが重要です。統計的有意性が達成されるまでテストを監視するだけでは、信頼区間が大幅に低く見積もられて、信頼できるテストになりません。この場合、統計的に有意な結果が検出された時点でテストは停止して、勝者が宣言されます。ただし、結果が統計的に有意でない場合は、テストの続行が許可されます。この方法では、前向きな結果に大きく偏向して偽陽性率が高くなるので、テストの有効有意水準にゆがみが生じます。
この場合、偽陽性が大量に発生する可能性があり、予測された上昇率が長期的に持続しないオファーを誤って実装してしまうことにつながります。不十分な上昇率となるのは不満が残る結果ですが、それよりも深刻な結果は、上昇率を正確に予測できないことで、プラクティスとしてのテストで組織の信頼性が徐々に低下することです。
この記事では、サンプルサイズを決定するときにバランスを取る必要がある要因について説明し、十分なサンプルサイズを見積もるために使用するスプレッドシート計算表を紹介します。A/B テストを始める前にサンプルサイズ計算ツール(前述のリンク参照)を使用してサンプルサイズを計算すると、統計基準に準拠した高品質な A/B テストを常におこなうことができます。
A/B テストを定義する 5 つのユーザー定義パラメーターがあります。これらのパラメーターは関連しているので、4 つが定まると、5 つ目のパラメーターを計算できます。
  • 統計的有意性
  • 統計的検出力
  • 最小信頼検出可能上昇率
  • ベースラインコンバージョン率
  • 訪問者数
A/B テストの場合、統計的有意性、統計的検出力、最小信頼検出可能上昇率およびベースラインコンバージョン率は、アナリストが設定し、必要な訪問者数は、これらの数字から計算されます。この記事では、これらの要素について説明し、特定のテストに対してこれらの要素を決定する方法のガイドラインを示します。
下の図に、A/B テストの考えられる 4 つの結果を示します。
偽陽性または偽陰性はないのが望ましいです。ただし、それを統計テストによって保証することはできません。観察傾向が基本的なコンバージョン率を表していない可能性は常にあります。例えば、コインの表または裏のどちらが出やすいかを調べるテストでは、いんちきのないコインを使用しても、たまたま 10 回中 10 回とも表が出ることがありました。統計的有意性と統計的検出力によって、偽陽性率と偽陰性率を定量化して、特定のテストでこれらの率を適度なレベルに維持することができます。

統計的有意性

テストの有意水準は、異なる 2 つのオファーについて、実際にはコンバージョン率に違いがないにもかかわらず、有意な違いがあると報告される可能性を判断します。これは、偽陽性または第一種過誤と呼ばれます。有意水準は、ユーザーによって指定されるしきい値で、偽陽性の許容値と、テストに含める必要がある訪問者の数との間のトレードオフです。
A/B テストでは、当初、どちらのオファーもコンバージョン率は同じであると想定します。その後、この想定に基づいて観察結果の確率が計算されます。この確率(p 値)が事前に定義されたしきい値(有意水準)よりも小さい場合、Target は初期の想定(どちらのオファーもコンバージョン率は同じ)は誤りで、A と B のコンバージョン率はその特定の有意水準において統計的に異なると結論付けます。
A/B テストで一般的に使用される有意水準は 5%です。これは、信頼水準 95%(信頼水準=100% - 有意水準)に相当します。信頼水準 95%とは、毎回のテストでオファー間に違いがない場合でも、統計的に有意な上昇率が 5%の確率で見つかるという意味です。
信頼水準の一般的な解釈を下の表にまとめます。
信頼水準
解釈
< 90%
コンバージョン率に違いがあるとする証拠がない。
90 ~ 95%
コンバージョン率に違いがあるとする薄弱な証拠。
95 ~ 99%
コンバージョン率に違いがあるとする中程度の証拠。
99 ~ 99.9%
コンバージョン率に違いがあるとする強力な証拠。
+99.9%
コンバージョン率に違いがあるとするきわめて強力な証拠。
常に 95%以上の信頼水準を使用することをお勧めします。
できるだけ高い信頼水準を使用して偽陽性をほとんど発生させないのが望ましいです。ただし、信頼水準が高くなると、それだけ必要となる訪問者数が増え、テストの実施に要する時間も長くなります。また、信頼水準が高くなると、統計的検出力が低下します。

統計的検出力

A/B テストの統計的検出力は、ある特定の規模におけるコンバージョン率の実際の違いを検出する確率です。コンバージョンイベントのランダム性(確率性)のため、2 つのオファー間で実際にはコンバージョン率に違いあっても、統計的に有意な違いは観察されない(単なる偶然と見なされる)可能性があります。これは、偽陰性または第二種過誤と呼ばれます。
統計的有意性とは対照的に、A/B テストをおこなうために統計的検出力の決定は必要ないので、統計的検出力は一般的には無視されます。ただし、統計的検出力を無視すると、サンプルサイズが非常に小さいので、異なるオファーのコンバージョン率に存在する実際の違いがテストで検出されない可能性が大幅に高まります。その結果、テストで偽陽性が大量に発生します。
高い統計的検出力を使用することで、実際のコンバージョン率の違いを識別する可能性を高くして、偽陰性をほとんど発生させないことが望ましいです。ただし、ある特定の上昇率を検出する統計的検出力を高めるには、より多くの訪問者数が必要となるので、テストの実施に要する時間が長くなります。
統計的検出力のために一般的に使用される値は 80%です。これは、テストで最小信頼検出可能上昇率と同等の違いが検出される可能性が 80%であるという意味です。テストでは、より低い上昇率を検出する確率が下がり、より高い上昇率を検出する確率が上がります。

最小信頼検出可能上昇率

上昇率が低くても実装する価値はあるので、ほとんどの組織は、コンバージョン率のわずかな違いでも検出することを望んでいます。ただし、A/B テストできわめて低い上昇率を高い確率で検出しようとすると、テストに含める訪問者の数が法外に多くなります。その理由は、コンバージョン率の違いが小さい場合は、コンバージョン率の違いを識別できるだけの高い精度で両方のコンバージョン率を見積もる必要があり、そのためには大量の訪問者が必要となるからです。したがって、低い上昇率を検出することと、テストの実施に要する時間が長くなることとの間のトレードオフを考慮したビジネス要件によって、最小信頼検出可能上昇率を決定する必要があります。
例えば、2 つのオファー(A と B)の真のコンバージョン率がそれぞれ 10%と 15%であるとします。これらのオファーがそれぞれ 100 人の訪問者に示される場合、コンバージョンの確率的な性質のため、95%の確率で、オファー A については 4 ~ 16%の範囲のコンバージョン率が、オファー B については 8 ~ 22%の範囲のコンバージョン率が観察されます。これらの範囲は、統計学的には信頼区間と呼ばれます。これらは、コンバージョン率の見積もり精度の信頼性を表します。サンプルサイズが大きくなれば(訪問者数が多くなれば)、コンバージョン率の見積もりの精度に対する信頼性は高くなります。
下の図は、これらの確率分布を示しています。
2 つの範囲間で重複する部分が大きいので、このテストによって、コンバージョン率が異なるかどうかを判定することはできません。したがって、この 100 人の訪問者を含むテストでは、2 つのオファーを区別できません。ただし、それぞれのオファーを 5,000 人の訪問者に公開すると、95%の確率でそれぞれ 9 ~ 11%と 14 ~ 16%の範囲のコンバージョン率が観察されます。
この場合、テストから誤った結論が導かれる可能性はきわめて低いので、この 5,000 人の訪問者を含むテストでは 2 つのオファーを区別できます。この 5,000 人の訪問者を含むテストの信頼区間は約 +/-1%です。これは、このテストでは約 1%の違いを検出できるという意味です。したがって、例えば、これらのオファーの真のコンバージョン率が 10%と 15%ではなく、10%と 10.5%の場合は、さらに多くの訪問者が必要になります。

ベースラインコンバージョン率

ベースラインコンバージョン率は、制御オファー(オファー A)のコンバージョン率です。一般に、以前の経験に基づくオファーのコンバージョンレベルは正しく判断できます。それが当てはまらない場合、例えば、新しい種類のオファーまたはクリエイティブの場合は、テストを 1 日ぐらいかけておこなって、サンプルサイズの計算に使用できるベースラインコンバージョン率の大まかな見積もりを得ることができます。

サンプルサイズの見積もり

テストを長時間実行する機会費用と偽陽性や偽陰性のリスクとのバランスを取るのは難しい場合があります。判断を誤ることは望ましくありませんが、テスト基準が厳密すぎて麻痺してしまうことも望ましくありません。一般的なガイドラインとして、信頼水準 95%と統計的検出力 80%をお勧めします。
サンプルサイズ計算ツール(前述のリンク参照)を使用すると、統計的有意性(推奨値 95%)と統計的検出力(推奨値 80%)を決定できます。すべてのオファー全体を対象としたベースラインコンバージョン率と毎日のトラフィックを入力すると、テストの指定された統計的検出力と同等の確率で上昇率 1%、2%、5%、10%、15%および 20%を検出するために必要な訪問者の数が出力されます。また、このスプレッドシートには、最小信頼検出可能上昇率のカスタム値を入力することもできます。さらに、ユーザーが入力したトラフィックレベルに基づいてテストをおこなうために必要な週数も出力されます。必要な週数は、結果に影響する曜日効果を避けるために直近の一週間に切り上げられます。
テストによって確実に識別できる最小上昇率と、必要な訪問者数との間にトレードオフがあります。下の図は、ベースライン(制御)コンバージョン率 5%に対して有効で、訪問者数の増加に対する顕著な収穫逓減を示しています。確実に検出できる最小上昇率は、最初に少数の訪問者を追加すると著しく向上しますが、テストを向上させるために徐々に訪問者数が増えていきます。この図は、テストの実施に要する時間(必要な訪問者数と、サイトのトラフィックによって決定される)と、テストで確実に検出できる最小上昇率との間の適当なトレードオフを見つけるのに役立ちます。
この例では、100 件のテスト中 80 件のテストで上昇率 5%(代替オファーのコンバージョン率(100%+5%) 5% = 5.25%に相当)を検出できることが適切と判断できるので、各オファーのサンプルサイズとして 100,000 人の訪問者が必要です。このサイトには 1 日あたり 20,000 人の訪問者があり、2 つのオファーをテストする場合、代替オファーが制御オファーよりも統計的に有意に優れているかどうかを判断するには、テストを 2 100,000/20,000 = 10 日間実行できる必要があります。前にも説明しましたが、必要な時間は常に直近の一週間に切り上げて、曜日効果を避けることをお勧めします。したがって、この例では、結果を見積もる前にテストは 2 週間実行されます。

訪問あたりの利益指標

訪問あたりの利益(RPV)は、それぞれ独自の分散を持つ注文あたりの利益とコンバージョン率の積なので(RPV = 利益/訪問者数 =(注文あたりの利益 * 注文数)/訪問者数 = 注文あたりの利益 *(訪問者数 * CTR)/訪問者数 = 注文あたりの利益 * CTR)、RPV を指標として使用するときは、分散の追加ソースが追加されます。コンバージョン率の分散は、数学モデルを使用して直接見積もることができますが、注文あたりの利益の分散はキャンペーンに固有です。したがって、以前のキャンペーンからこの分散の知識を使用するか、A/B テストを数日間実施して利益の分散を見積もります。分散は、CSV ダウンロードファイルにある販売合計、販売合計の 2 乗および訪問者数の各値から計算されます。この分散が定まったら、スプレッドシートを使用して、テストの実施に要する時間を計算します。
サンプルサイズ計算ツール(上記のリンクを参照)は、RPV 指標の設定に役立ちます。計算ツールを開くと、「RPV Metric」というタブが表示されます。RPV バージョンの計算ツールを使用する場合は、次の情報が必要になります。
  • 制御オファーへの訪問者数
  • 制御オファーの合計利益
    極端な注文のフィルターが有効になっていることを確認します。
  • 制御オファーの利益の平方和
    極端な注文のフィルターが有効になっていることを確認します。
通常、RPV を指標として使用する場合は、コンバージョンごとに異なる注文数の分散が追加されるので、同じレベルの測定された上昇率に対して同じレベルの統計的信頼性を実現するには、20 ~ 30%長い時間がかかります。単純なコンバージョン率と RPV のどちらを最終的なビジネス上の意思決定の基礎とするかを選択する場合には、このことを考慮する必要があります。

複数オファーの比較の調整

2 つのオファーを比較するたびに、偽陽性(コンバージョン率に違いがない場合でも、統計的に有意な違いを観察すること)が発生する可能性は有意水準と同じです。例えば、A/B/C/D/E の 5 つのオファーがあり、A が制御オファーの場合、 つの比較(制御オファーと B、制御オファーと C、制御オファーと D および制御オファーと E)がおこなわれ、信頼水準が 95%でも偽陽性の確率は 18.5%になります(Pr(少なくとも 1 つの偽陽性)= 1 - Pr(偽陽性なし)= 1 - 0.954 = 18.5%)。偽陽性は、代替オファーよりも優れていると報告される制御オファー、または制御オファーよりも優れていると報告される代替オファーのいずれかとして定義されるコンテキスト(実際は両方のオファーに違いはない)にあります。

まとめ

自動配分アクティビティを使用すると、Target は 2 つ以上のエクスペリエンスの中から勝者を特定したうえで、自動的にその勝者に配分するトラフィックを増やすことでコンバージョンを促進します。その間もテストによる学習は続けられます。自動配分を使用すると、推測による作業を排除して、コンバージョン目標を簡単に達成できます。
この記事で紹介したサンプルサイズ計算ツール(前述のリンク参照)を使用し、算出された時間に基づいてテストを実施すれば、特定のテストにふさわしいと判断された偽陽性率と偽陰性率に従って高品質な A/B テストを実施できます。その結果、テストは首尾一貫したものとなり、最適な上昇率を確実に検出することができます。