A/Bn 測試中的統計計算

本文記錄了在手動A/Bn測試中使用的詳細統計計算 Adobe Target. 提供的定義如下 轉換率, 轉換率的信賴區間, 提升度, 提升度的信賴區間、和 信賴度.

NOTE
本文資訊取代了 Adobe Target 中 A/B 測試使用的計算 pdf 檔案 (先前可在此網站下載)。

顯示 轉換率, 平均提升度和信賴區間、和 信賴度 A/B測試活動的摘要。

平均績效

下節將說明上圖中所使用的計算。

轉換率和每位訪客帶來的收入(RPV)行銷活動

下圖顯示 轉換率, 轉換率的信賴區間,以及 轉換 在 Target 報告。 例如,第一行顯示對於體驗A: 轉換率 為25.81%,使用 信賴區間 已記錄±7.7%和32次轉換。 假設有124位訪客看過該體驗,則等於32/124 = 25.81%。

轉換率或 平均值μν,適用於每個體驗 ν 在實驗中,定義為量度加總與指派給該量度的單位數之間的比率, Nν

此處,

  • Y 是每個單位的量度值 ì,已指派給指定體驗 ν.

  • 單位總和 ì 取決於計數方法的選擇。

    • 如果 訪客 計數方法使用,每個單位都是定義為活動期限內的不重複活動參與者的不重複訪客。
    • 如果 造訪 用於計數方法,每個單位都是定義為期間體驗中獨特參與者的不重複造訪。 Target 工作階段(具有唯一 sessionId)。 當 sessionId 若有變更,或訪客達到轉換步驟,則會計為新造訪。
    • 如果 活動曝光次數 計數方法使用,每個單位都是定義為每次訪客載入活動任何頁面時的唯一曝光次數。

平均值的信賴區間/轉換率

轉換率的信賴區間在直覺上定義為與基礎資料一致的可能轉換率範圍。

執行實驗時,給定體驗的轉換率為 預估 「真」轉換率的10%。 若要量化此估計中的不確定性, Target 使用信賴區間。 Target 一律會報告95%信賴區間,這表示到最後,計算的95%信賴區間都會包含體驗的真正轉換率。

轉換率的95%信賴區間 μν 定義為值的範圍:

其中平均值的標準誤差定義為

其中使用樣本標準差的無偏估計值:

當行銷活動為轉換率行銷活動時(即轉換量度為二進位),標準錯誤會減少為:

提升度

下圖顯示 提升度 和 提升度的信賴區間 在 Target 報表。 數字代表提升度界限的平均值,而箭頭則反映提升度是正數或負數。 箭頭會以灰色顯示,直到信賴度超過95%為止。 信賴度超過臨界值後,箭頭會根據提升度為正值或負值,變成綠色或紅色。

體驗之間的提升度 ν、和控制體驗 ν0 是轉換率中的相對「差異」,定義為

其中個別轉換率定義如上。 更簡單地說,

Lift(Experience N) = (Performance_Experience_N - Performance_Control)/ Performance_Control

如果控制體驗的轉換率 ν0 為0,沒有提升。

Confidence Interval of Lift

中的箱形圖 平均提升度和信賴區間 欄代表平均值和95% 提升度的信賴區間. 指定非控制體驗的信賴區間與控制體驗的信賴區間發生任何重疊時,箱形圖就會呈現灰色。 當指定體驗的信賴區間範圍高於或低於控制體驗的信賴區間時,箱形圖就會呈現綠色或紅色。

體驗之間提升度的標準錯誤 ν、和控制體驗 ν0 定義為:

量度平均值

提升度的95%信賴區間是:

此計算使用「差異」方法,並加以說明 於本檔案中取得詳細資訊

可信度

最後一欄顯示 Target 報告。 體驗的信賴度是一種取得極端結果的機率(以百分比表示),當作觀察到的結果,假設null假設為true。 就p值而言,顯示的信賴度為 1 - p值. 直覺上,較高的信賴度表示控制體驗和非控制體驗擁有相同轉換率的可能性較低。

在 Target,雙尾 韋爾奇的t檢定 會在測試體驗和控制體驗之間執行,以測試測試測試方法和控制體驗是否相同。 因為我們通常不知道在執行實驗之前,兩個群組的樣本大小和變異是否相同,並且 Target 也可讓您傳送到每個體驗的流量百分比不相等,我們並未假設每個體驗的變數相等。 因此,選擇Welch的t檢驗,而非Student的t檢驗。

若要執行Welch的t檢定,我們先開始計算t統計值和自由度,然後執行雙尾t檢定,以產生p值。 最後,我們會根據p值計算可信度。

t-statistic定義為任何兩個獨立隨機變數之均值的差異, νν0,除以標準誤差差:

位置 μvμv0 是的方法 νν0 分別是和標準誤差之間的差異 μvμv0 由下列人員提供:

位置 σ2vσ2v0 是兩種體驗的差異 νν0 分別是,和 NvNv0 的樣本大小 νν0 (分別)。

對於Welch的t檢定,自由度計算如下:

與自由度 νν0 定義為:

接著,p值便可從的尾部區域計算得出 t-distribution:

最後,中報告的信賴度 Target 定義為:

離線執行計算

下載的 CSV 報表只包含原始資料,不含計算度量,例如每次造訪帶來的收入、提升度或用於 A/B 測試的信賴度。

若要計算這些統計數量,請下載 Target 完整可信度電腦 Excel檔案來輸入活動的值。

recommendation-more-help
3d9ad939-5908-4b30-aac1-a4ad253cd654