在產品運營中,我們會遇到各種需要評估運營效果的場景,包括促活的活動是否起到作用、A/B 測試的策略有無成效等等。具體例如,產品升級前的平均 DAU 是 155 萬,產品升級後的平均 DAU 是 157 萬,那麼如何判斷 DAU 提升的 2 萬是正常的波動,還是升級帶來的效果呢?對比同一組資料在實施某些策略前後的資料變化,判斷資料波動是不是某一因素導致的,這種方法我們稱之為方差分析。方差分析通常縮寫為 ANOVA(Analysis of Variance),也叫“F 檢驗”,用於兩個及兩個以上分組樣本的差異性檢驗。簡單的說,分析差異的顯著性是否明顯的方法就是方差分析。
舉一個例子,如果我們需要分析優惠券的金額對使用者的購買轉化率是否能起到有效作用,我們可以將資料分成以下三個組:
使用者購買行為是隨機的,購買率很高的不會很多,購買率極低的也不會很多,絕大部分使用者的購買率都集中在某個值附近,這個值我們叫作整體購買率的平均值。如果每個客群分組自身的購買率均值與這個整體購買率平均值不一致,就會出現以下兩種情況。
-
第一種情況
藍色分組的購買率平均值(藍色線)比整體平均值(黑色線)要高,有可能是最右邊那個很高的購買率把分組的均值抬升的,同時藍色分組的資料分佈很散(方差大),此時不能有十足把握說明該組使用者的購買轉化率很高。
-
第二種情況
綠色分組的購買率平均值(綠色線)比整體平均值(黑色線)要高,但是綠色分組的資料非常集中,都集中在分組的平均值(綠色線)附近,此時我們可以認為該組的轉化率平均值與整體有明顯區別。
為了更好表述上面的問題,我們可以引入“組內方差”的概念,即描述每個分組內部資料分佈的離散情況。如下圖所示,對於上面藍色和綠色分組的“組內方差”,顯然藍色的組內方差更大,綠色的組內方差更小。
綜上所述,如果上面三個分組的使用者購買率平均值不在中線(整體購買率)左右,而是有明顯的偏高或偏低,並且該組內的每個轉化率都緊緊圍繞在該組購買率平均值的附近(即組內方差很小)。那麼我們就可以斷定:該組的購買率與整體不一致,是該組對應優惠金額的影響造成的。
如果要進行定量分析,可以使用 F 檢驗值和 F crit 臨界值這兩個指標。F 檢驗值用來精確表達這幾組差異大小的,F crit臨界值是一個判斷基線:
- 當 F > F crit,這幾組之間的差異超過判斷基準了,認為不同優惠金額的分組間的購買率是不一樣的,優惠金額這個因素會對購買率產生影響,也就是說透過運營優惠金額這個抓手,是可以提升使用者購買轉化率的;
- 當 F < F crit,則認為不同優惠金額的分組間的購買率是一樣的,優惠金額這個因素不會對購買率產生影響,也就是說需要繼續尋找其他與購買轉化率有關的抓手。
說明:圖中 SS 代表方差、df 代表指標自由度、MS 是均方差、P-value 是差異的顯著性水平。
上圖是用 Excel 得出的 A、B、C 三組的方差分析結果,如圖所示 F < F crit,所以從定量分析角度,可以判定優惠金額不會對購買率產生影響。
實施方差分析可以分為以下三步走:
-
判斷樣本是否滿足“方差分析”的前提條件
- 每個分組中的每個值都必須來自同一個總體樣本;
- 方差分析只能分析滿足正態分佈的指標,事實上,在產品運營中大部分指標都是正態分佈,例如:
- 幾乎所有的轉化率都滿足正態分佈:購買率、點選率、轉化率、活躍率、留存率、復購率等。
- 幾乎所有的業務量都滿足正態分佈:客單價、每日新增使用者數、渠道引流的流量等。
- 幾乎所有的使用者畫像指標都滿足正態分佈:年齡、城市、登入次數、使用時長等。
- 分析的樣本必須是隨機抽樣
-
計算 F 檢驗值和 F crit 臨界值
-
如果有差異,需要評估差異大小
我們用一個新的指標來表示:$ R^2=SSA / SST $,其中 $ R^2 $ 表示差異大小,$ SSA $ 是組間誤差平方和,$ SST $ 是總誤差平方和。
- 當 $ R^2 \gt 0.5 $,認為各個分組間的差異非常顯著;
- 當 $ R^2 $ 在 $ [0.1, 0.5] $ 之間時,認為各個分組間的差異一般顯著;
- 當 $ R^2 \lt 0.1 $ 時,認為各個分組間的差異微弱顯著。
練習:開啟“方差分析練習.xlsx”檔案,完成練習1。
上面的案例是針對一種策略來分析效果。我們把這種形式的方差分析叫作單因素方差分析,實際工作中,我們可能需要研究多種策略(例如運營中的渠道、活動、客群等)對結果的影響,我們稱之為多因素方差分析。例如我們會在多個運營渠道上安排多種運營活動,評價各個渠道的轉化率。此時,影響轉化率的因素有渠道和活動兩個因素,我們可以使用“無重複雙因素方差分析”來檢查資料。
工作中遇到以下兩類場景就可以使用方差分析:
- 同一個客群在實施某個策略前後的指標對比。
- 兩個或多個客群對比同一指標,評估同一指標在不同客群上的差異。
在產品運營的工作中,資料分析常會遭遇諸多非常讓人困擾的情況,例如:產品運營面對的資料量動輒百萬級、千萬級,帶來的就是分析速度急劇下降,跑個數等一兩天時間已經是很理想情況;另外,在很多場景下,我們都只能拿到部分資料(樣本),而無法獲取全量資料(總體)。在這種情況下我們就必須透過分析非常小量樣本的特徵,再用這些特徵去評估海量總體資料的特徵,可以稱之為樣本檢驗。
推斷型統計的核心就是用樣本推測總體。在實際生產環境中,可能無法獲得所有的資料,或者即便獲取了所有的資料,但是沒有足夠的資源來分析所有的資料,在這種情況下,我們都需要用非常小量的樣本特徵去評估總體資料的特徵,這其中的一項工作就是引數估計。
引數估計應用的場景非常的多,例如:
- 在產品側,我們可以用引數估計的方式評估A/B測試的效果。
- 在運營側,我們可以用引數估計的方式最佳化活動配置和推薦策略。
- 在市場側,我們可以用引數估計的方式制定廣告投放策略。
-
確定分析的置信水平
-
確定估計的引數型別
-
計算引數估計的區間
- 數值型指標:$ A = z \times 樣本標準差 / \sqrt{樣本數量} $,其中 $ z $ 的值可以透過查表得到,如果置信水平選擇95%,那麼 $ z $ 的值就是1.96。大部分運營指標都是數值型指標,例如DAU、ARPU、轉化率等。
- 佔比型指標:$ A = z \times \sqrt{佔比 \times (1 - 佔比) / 樣本數量}
z $ 值同上。佔比型指標如性別佔比、渠道佔比、品類佔比等。
最終得到的估計區間就是:$ [樣本均值 - A, 樣本均值 + A] $。