Show Menu
主題×

A/B 測試該執行多久?

成功的 A/B 測試需要足夠的訪客數量 (樣本大小) 來改善轉換率,但要如何知道該花多久時間執行 A/B 測試呢? 本文包含有關「自動分配」活動和 Target 樣本大小計算機的資訊,能幫助您確保活動有足夠的訪客數量以完成目標。
在活動剛開始的幾天,如果其中一個選件表現得比其他選件好很多或差很多,就會很想停止活動。不過,當觀察值數目太少時,觀察到正提升度或負提升度極有可能只是機遇,因為轉換率以很少的訪客數目來算平均值。隨著活動收集更多的資料點,轉換率就會往真正長期值收斂。
過早停止活動,是執行 A/B 測試時可能深受其害的九個顯著陷阱之一。如需詳細資訊,請參閱 九個常見的 A/B 測試陷阱以及避免方式
Target 提供的工具可幫助確保您的活動有足夠的樣本大小,以達成轉換目標。
  • 自動分配: 「自動分配」活動為 A/B 測試的一種,會從兩個或多個體驗中識別獲勝者,並自動重新分配更多流量給獲勝者以增加轉換,同時測試會繼續執行和學習。
    標準 A/B 測試有其固有成本。您必須耗費流量來測量每個體驗的效能,並透過分析來定奪勝出體驗。即使在您認定某些體驗勝過其他體驗之後,流量分布仍然固定。另外,很難決定樣本大小,必須等到活動執行完整個過程,您才能對獲勝者採取動作。即使完成所有作業,已識別出的獲勝者仍有可能不是真正贏家。
    解決方案為自動分配。自動分配可降低這項成本及定奪勝出體驗時的額外負荷。自動分配會監控所有體驗的目標量度效能,並依比例將更多新加入者安排到表現優異的體驗。有足夠的流量保留來探索其他體驗。即使活動仍在執行,您也可以看到測試帶給結果的好處: 最佳化與學習同步進行。
    自動分配會逐漸將訪客移往勝出體驗,您不必等到活動結束才決定獲勝者。您會更快從提升中受益,因為原本安排到較差體驗的活動加入者會看到潛在的勝出體驗。
    使用自動分配功能時,在活動達到最低轉換次數且有足夠信賴度之前,Target 會在活動頁面頂端顯示徽章,指出「尚未有贏家」。然後,Target 會透過在活動頁面的頂端顯示徽章,宣告成功體驗。
    如需詳細資訊,請參閱 自動分配
  • Target 樣本大小計算機: 若您選擇使用手動 A/B 測試而非自動分配,則 Target 樣本大小計算機可協助您確定成功測試所需的樣本大小。手動A/B測試是固定水準測試,因此計算器非常有用。 使用自動分配活動的計算器是可選的,因為自動分配將為您聲明一個成功者。 電腦可粗略估計所需的樣本大小。 如需有關如何使用此計算機的詳細資訊,請繼續閱讀。

Adobe Target 樣本大小計算機

Before setting up your A/B test, access the Adobe Target sample size calculator .
執行任何 A/B 測試之前必須決定足夠的樣本大小 (訪客數目),以確定在評估結果之前應該允許測試執行的時間。如果只是監控測試直到達到統計顯著性,將會過份低估信賴區間,使測試變得不可靠。這意味著只要偵測到統計顯著結果,就停止測試並宣布獲勝者。但是,如果不是統計顯著的結果,則允許繼續測試。此程序非常偏袒正面結果,這會增加誤判率,因而扭曲測試的有效顯著水準。
這可能產生大量的誤判,導致實施的選件在長期無法達成預測的提升度。提升度不足本身就無法令人滿意,而更嚴重的後果是隨著時間經過一直無法準確預測提升度,將會讓組織越來越不信任將測試當作慣例。
本文討論在決定樣本大小時必須平衡的因素,並介紹用來預估足夠樣本大小的試算表計算機。在任何 A/B 測試開始之前,使用樣本大小計算機 (上方提供的連結) 來計算樣本大小,可確保一定能執行符合統計標準的高品質 A/B 測試。
有五個使用者定義參數可定義 A/B 測試。這些參數相互關聯,建立其中四個時,即可算出第五個:
  • 統計顯著性
  • 統計檢定力
  • 最低可靠偵測提升度
  • 基準轉換率
  • 訪客數目
在 A/B 測試中,統計顯著性、統計檢定力、最低可靠偵測提升度及基準轉換率由分析師設定,然後從這些數目算出必要的訪客數目。本文討論這些元素,並提供如何為特定測試決定這些元素的準則。
下圖顯示 A/B 測試可能的四種結果:
最好是沒有偽陽性或偽陰性。但是,統計測試絕不可能保證這點。觀察的趨勢很可能無法代表基礎轉換率。例如,在測試硬幣比較可能擲出正面或反面時,即使用公正硬幣,您可能擲出 10 次正面和 10 次反面,純粹是機遇。統計顯著性和檢定力協助我們將偽陽性率和偽陰性率量化,還可讓我們在給定的測試中,將這兩種比率維持在合理的水準。

統計顯著性

測試的顯著水準會決定測試報告兩個不同選件之間的轉換率看似有顯著差異,而其實卻沒有實質差異的可能性有多大。這稱為偽陽性或第一型誤差。顯著水準是使用者指定的臨界值,也是在偽陽性的允差與必須納入測試中的訪客數目之間所做的取捨。
在 A/B 測試中,最初會假設兩個選件有相同的轉換率。然後,根據此假設來計算觀察結果的機率。如果此機率 (p 值) 小於某些預先定義的臨界值 (顯著水準),Target 會斷定初始假設 (兩個選件有相同的轉換率) 不正確,因此,A 和 B 的轉換率在給定的顯著水準下有統計差異。
A/B 測試中常用的顯著水準是 5%,這對應於信賴水準 95% (信賴水準 = 100% - 顯著水準)。信賴水準 95% 表示每次執行測試時,即使選件之間沒有差異,仍有 5% 的機會偵測到統計顯著的提升度。
下表彙總了信賴水準的一般解釋:
信賴等級
解釋
< 90%
沒有跡象顯示轉換率之間有差異
90-95%
有微弱跡象顯示轉換率之間有差異
95-99%
有中等跡象顯示轉換率之間有差異
99-99.9%
有強烈跡象顯示轉換率之間有差異
+99.9%
有非常強跡象顯示轉換率之間有差異
建議一律使用 95% 或更高的信賴水準。
最好儘可能使用最高的信賴水準,讓測試產生較少的誤判。不過,較高的信賴水準需要較大量的訪客,因而增加執行測試所需的時間。再者,信賴水準提高會導致統計檢定力降低。

統計檢定力

A/B 測試的統計檢定力是指偵測到某個數量的轉換率有實質差異的機率。由於轉換事件的隨機 (推測) 本質,即使兩個選件之間的轉換率有實質差異,還是有可能沒觀察到統計顯著的差異 (只是巧合)。這稱為偽陰性或第二型誤差。
人們經常忽略統計檢定力,因為與統計顯著性相反,執行 A/B 測試不需要判定統計檢定力。不過,如果忽略統計檢定力,測試極可能因為樣本大小太小,而偵測不到不同選件的轉換率之間的實質差異。這會導致測試充滿偽陽性的結果。
我們會希望統計檢定力較高,測試才會有較大機會可識別出轉換率的實質差異,並產生較少的偽陰性結果。不過,需要有大量訪客,才能在偵測任何給定的提升度時提高統計檢定力,而這又需要更多時間來執行測試。
統計檢定力的常用值是 80%,這表示測試有 80% 的機會偵測到差異等於最低可靠偵測提升度。測試偵測到小幅提升度的機率較低,而偵測到大幅提升度的機率較高。

最低可靠偵測提升度

大部分組織需要測量轉換率中可能的最小差異,因為即使小幅提升度也值得實作。不過,如果要讓 A/B 測試有較高的機率偵測到極小的提升度,則需要納入測試的訪客數目會多到令人卻步。原因在於,如果轉換率的差異很小,則必須以高準確度來估計兩個轉換率,才能辨別差異,而這需要很大量的訪客。因此,應該依商業需求來決定最低可靠偵測提升度,而且在偵測小幅提升度與花更多時間執行測試之間需要取捨。
例如,假設兩個選件 (A 和 B) 的真實轉換率分別為 10% 和 15%。如果這些選件各顯示給 100 位訪客,由於轉換的隨機本質,選件 A 所觀察到的轉換率有 95% 的機會將落在 4% 至 16% 範圍內,而選件 B 則是落在 8% 至 22% 的範圍內。在統計學上,這些範圍稱為信賴區間。代表對於預估轉換率準確度的信賴度。樣本大小越大 (越多訪客),您對轉換率預估正確就越有信心。
下圖顯示這些機率分布。
因為兩個範圍之間有很大重疊,測試無法判斷轉換率是否不同。因此,有 100 位訪客的這項測試無法區別兩個選件。不過,如果將選件各公開給 5,000 位訪客,則觀察到的轉換率有 95% 的機會分別落在 9% 至 11% 的範圍,以及 14% 至 16% 的範圍內。
在此情況下,測試不太可能得到錯誤結論,所以有 5,000 位訪客的測試可以區別兩個選件。有 5,000 位訪客的測試具有大約為 +/-1% 的信賴區間。這表示測試可以偵測到大約 1% 的差異。因此,舉例來說,如果選件的真實轉換率是 10% 和 10.5%,而非 10% 和 15%,則需要更多訪客才能偵測到差異。

基準轉換率

基準轉換率是控制選件 (選件 A) 的轉換率。通常,根據以往經驗,您大致上都能正確預估選件的轉換水準。如果不是這樣,例如,因為是新型的選件或創意,可讓測試執行大約一天,以粗估可用於計算樣本大小的基準轉換率。

預估樣本大小

在長時間執行測試的機會成本與得到偽陽性和偽陰性的風險之間,很難取得平衡。您顯然不希望決策錯誤,但也不應該因為太嚴格或僵硬的測試標準而寸步難行。一般而言,建議採用 95% 的信賴水準和 80% 的統計檢定力。
樣本大小計算機 (上方提供的連結) 會要求您選定統計顯著性 (建議: 95%) 和統計檢定力 (建議: 80%)。輸入基準轉換率和所有選件的每日流量之後,試算表會輸出偵測到提升度 1%、2%、5%、10%、15% 和 20% (機率等於指定的測試檢定力) 所需的訪客數目。試算表也可讓使用者輸入自訂的最低可靠偵測提升度。此外,試算表會根據使用者輸入的流量水準,輸出測試所需的週數。所需的週數會四捨五入到最接近的整數週,以避免星期幾效應影響結果。
測試所能可靠辨識的最低提升度與所需的訪客數目之間需要取捨。下圖 (以基準 (控制) 轉換率 5% 而言有效) 顯示隨著訪客數目增加,報酬遞減很嚴重。在測試中增加前幾位訪客時,能夠可靠偵測的最低提升度會有極大改善,但之後需要更大量的訪客才能改善測試。此圖有助於在執行測試所需的時間 (取決於需要的訪客數目和網站流量) 與測試能夠可靠偵測的最低提升度之間做出適當取捨。
在此範例中,您可能決定在 100 次測試中,有 80 次能夠偵測到提升度 5% (對應於對立選件的轉換率 (100%+5%) 5% = 5.25%) 就足夠,所以每一個選件需要有 100,000 位訪客的樣本大小。如果網站每天有 20,000 位訪客,而您要測試兩個選件,則應該允許測試執行 2 100,000/20,000 = 10 天,才能判斷對立選件在統計上是否顯著優於控制選件。同樣地,建議將所需時間一律四捨五入至最接近的整數週,以避免星期幾效應。因此,在此範例中,測試會執行兩週之後才評估結果。

每次造訪帶來的收入量度

使用「每次造訪帶來的收入 (RPV)」作為量度時,將會多增加一個變異數來源,因為 RPV 是每次訂購的收入與轉換率的乘積 (RPV = 收入 / 訪客數 = (每次訂購的收入 * 訂購數) / 訪客數 = 每次訂購的收入 * (訪客數 * CTR) / 訪客數 = 每次訂購的收入 * CTR),各有自己的變異數。利用數學模型可以直接預估轉換率的變異數,但每次訂購的收入的變異數視行銷活動而定。因此,請從過去的行銷活動來決定此變異數,或讓 A/B 測試執行幾天來預估收入的變異數。變異數是根據 CSV 下載檔案中的銷售總和、銷售總和平方及訪客數目的值來計算。建立此變異數之後,請使用試算表來計算完成測試所需的時間。
樣本大小計算機 (上方提供的連結) 可協助您設定 RPV 量度。開啟計算機時您會看到標示為「RPV 量度」的標籤。使用 RPV 版的計算機時需要下列資訊:
  • 控制選件的訪客數目
  • 控制選件的總收入
    確定已勾選極端訂單篩選。
  • 控制選件的收入平方和
    確定已勾選極端訂單篩選。
一般而言,使用 RPV 作為量度需要多花 20-30% 的時間,才能在相同水準的測量提升度下達到相同水準的統計信賴度,因為 RPV 在每次轉換時會增加不同訂單大小的變異數。在選擇直接轉換率或 RPV 作為量度來做出最終商業決策時,應該注意這一點。

比較多個選件時修正

每次比較兩個選件時,得到偽陽性 (即使轉換率沒有差異也觀察到統計顯著差異) 的機會等於顯著水準。例如,假設有五個選件 A/B/C/D/E,其中 A 是控制選件,然後執行四次比較 (控制對 B、控制對 C、控制對 D、控制對 E),即使信賴水準是 95%,偽陽性的機率也會有 18.5%,因為 Pr (至少一個偽陽性) = 1 - Pr (沒有偽陽性) = 1 - 0.95 = 18.5%。在此背景下,偽陽性的定義是回報指出控制優於對立或對立優於控制,但其實兩者之間沒有差異。

結論

透過使用「自動分配」活動,Target 會從兩個或多個體驗中識別獲勝者,並自動重新分配更多流量給獲勝者以增加轉換,同時測試會繼續執行和學習。自動分配可讓您輕鬆達成轉換目標,同時消除猜測工作。
利用本文介紹的樣本大小計算機 (上方提供的連結),並依照所建議的時間量來執行測試,就可確保一定能執行高品質的 A/B 測試,且符合您認為可滿足特定測試的偽陽性率和偽陰性率。如此可確保測試一致,且能夠可靠地偵測到您所尋找的提升度。