色翁荡息又大又硬又粗又视频软件,人人妻人人爽.,人人妻人人狠人人爽天天综合网,欧美精品亚洲精品日韩已满十八 ,欧美激情猛片xxxⅹ大3

Netflix是如何做決策的?(四):漏報與功效

神譯局是36氪旗下編譯團隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風向。

編者按:決策是行動的指南。不管是個人還是企業(yè),每天都要面臨著無數(shù)的決策。決策的好壞會對結(jié)果產(chǎn)生巨大影響,如何做好決策是每個人都要上的一門必修課。在Netflix這里,他們采用了一種以實驗為導(dǎo)向的決策流程,先小范圍地對不同方案進行測試,根據(jù)對比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/N測試做出決策的系列文章。本文來自編譯,是系列文章的第四篇。后續(xù)文章還將介紹實驗在 Netflix 中的作用、Netflix對基礎(chǔ)設(shè)施的投資是如何為實驗提供支撐和擴展的,以及 Netflix內(nèi)部實驗文化的重要性。

劃重點:

功效給出的是特定實驗設(shè)計和規(guī)模下真陽性的概率

提高功效的手段一般有三種:增加效應(yīng)量、擴大樣本規(guī)模、減少基礎(chǔ)總體指標的可變性

約定俗成的功效一般是80%

誤報與漏報不能同時減少

Netflix 是如何做決策的?(一):介紹

Netflix是如何做決策的?(二):什么是 A/B 測試?

Netflix是如何做決策的?(三):誤報與統(tǒng)計顯著性

在《第 3 篇:誤報與統(tǒng)計顯著性》,我們定義了在解釋測試結(jié)果時可能會出現(xiàn)的兩種錯誤類型:誤報與漏報。然后,我們用拋硬幣這個簡單的思維練習來建立對誤報和相關(guān)概念(如統(tǒng)計顯著性、p 值與置信區(qū)間)的直覺。在這篇文章里,我們將對漏報與統(tǒng)計功效的相關(guān)概念做同樣的事情。

圖 1:跟第 3 篇一樣,我們還是拿拋硬幣這個思維練習,比如這個凱撒·奧古斯都面朝上的游戲,一邊建立起對核心統(tǒng)計概念的直覺。

漏報與功效

當數(shù)據(jù)沒能表明治療組與控制組之間存在有意義的差異,但實際上差異是存在的時候,就會出現(xiàn)漏報(假陽性,false positive)。繼續(xù)第 3 篇里面的示例,漏報對應(yīng)于把貓的照片標記成“沒有貓”。漏報與功效這個統(tǒng)計概念密切相關(guān),功效給出的是特定實驗設(shè)計和規(guī)模下真陽性的概率。事實上,功效不過是1減去漏報率而已。

功效牽涉到的是對有關(guān)世界實際狀態(tài)的特定假設(shè)的可能結(jié)果——跟我們在第 3 篇里面首先要假設(shè)零假設(shè)為真來定義顯著性類似。為了建立對功效的直覺,我們不妨回到第 3 篇里面舉過的那個拋硬幣的例子,目標是用計算拋 100 次硬幣時出現(xiàn)正面的比例這個實驗來確定硬幣是不是均勻的。在硬幣是均勻的零假設(shè)下,結(jié)果分布如圖 2 所示,用黑色標記。為了讓那張圖解釋起來更容易些,我們對直方圖的頂部進行了平滑處理。

如果硬幣不均勻的話,這個實驗會出現(xiàn)什么情況?為了讓這個思維練習更具體些,我們不妨看看當我們有一枚硬幣出現(xiàn)正面的平均概率為64% 時會發(fā)生什么(為什么要選這個數(shù)字后面我們會解釋的)。因為我們的實驗存在不確定性或噪音,所以我們不指望拋 100 次能夠正好看到有 64 次為正面。但就像假設(shè)硬幣是均勻的零假設(shè)一樣,如果這個特定的替代性假設(shè)為真,我們就可以計算粗所有可能的結(jié)果。這種分布如圖 2 的紅色曲線所示。

圖 2:用擲100 次硬幣然后計算正面朝上的占比這個例子來說明功效。黑色和紅色虛線分別顯示的是假設(shè)出現(xiàn)正面概率為 50%(零假設(shè))與 64%(替換假設(shè)的特定值)的結(jié)果分布。在本例中,該替代方案的功效為 80%(紅色陰影)。

從上圖看,功效是替代分布(紅色)里面超出零假設(shè)(藍線和黑色曲線;參見第 3 篇)臨界值的部分。在本例中, 替代分布(紅色)有80%落在了較高的藍色線(該線劃定的是右側(cè)拒絕區(qū)域的臨界值)的右側(cè)。假設(shè)這枚硬幣正面朝上事實上的概率是 64%,那么本次測試的功效就是 80%。為了完整起見,替代分布(紅色)還有一小部分落在左側(cè)拒絕區(qū)域內(nèi)(藍色短線的左側(cè))。

檢驗的功效跟特定的假設(shè)的效應(yīng)量相對應(yīng)。在我們的例子里面,如果這個不均勻的硬幣正面朝上的實際概率為 64%,則檢測硬幣是否不均勻的功效為 80%。解釋如下:如果硬幣正面朝上的概率為 64%,并且我們反復(fù)進行拋 100 次的實驗并按照 5% 的顯著性水平做出決定,那么我們每5次實驗得出拒絕硬幣是均勻的零假設(shè)的結(jié)論中大約有 4 個是對的。這些重復(fù)的實驗當中有 20% 會導(dǎo)致漏報:也就是我們不會拒絕硬幣是均勻的零假設(shè),哪怕其實硬幣是不均勻的。

提高功效的辦法

在設(shè)計 A/B 測試的時候,我們首先要確定顯著性水平(約定為 5%:如果治療與控制之間沒有差異的話,我們有 5% 的可能性出現(xiàn)誤報),然后我們設(shè)計實驗來控制漏報。我們可以通過三個主要手段來提高功效,減少漏報的可能性:

效應(yīng)量。簡而言之,效應(yīng)量(A 組和 B 組之間的指標值差異)越大,我們能夠正確檢測到這種差異的概率就越高。為了建立直覺,不妨假設(shè)做個實驗來確定硬幣是否不均勻,我們要收集的數(shù)據(jù)是拋 100 里面出現(xiàn)正面的比例?,F(xiàn)在設(shè)想兩種場景。在第一種情況下,正面朝上的真實概率為 55%,而在第二種情況下為 75%。直觀上(以及數(shù)學上?。┪覀兊膶嶒灨锌赡茉谠诘诙N情況下將硬幣識別為不均勻。正面的真實概率與 50% 的零假設(shè)相差更大,所以實驗產(chǎn)生的結(jié)果更有可能落在拒絕區(qū)域內(nèi)。在產(chǎn)品開發(fā)的環(huán)境下,我們可以通過我們大膽增加要測試的假設(shè)的增量來增加指標變動的預(yù)期幅度。增加效應(yīng)量的另一個策略是在會員滿意度可能有更大的提升空間的產(chǎn)品新領(lǐng)域進行測試。也就是說,通過實驗學習的樂趣之一是其中會有驚喜元素:有時候,看似微小的變化可能也會對最高級別的指標產(chǎn)生重大影響。

樣本規(guī)模。實驗的單位越多,功效越高,越容易正確識別較小的效應(yīng)。為了建立直覺,再設(shè)想去做個實驗來確定硬幣是不是不均勻,我們要收集的數(shù)據(jù)是拋固定次數(shù)下正面朝上的比例,而正面朝上的真實概率為 64%。然后考慮兩種情況:第一種情況,我們拋20 次硬幣,第二種情況,我們拋100 次硬幣。直觀上(以及數(shù)學上?。┒裕覀兊膶嶒灨锌赡茉诘诙N情況下把硬幣識別成不均勻。因為在有了更多數(shù)據(jù)的情況下,實驗的結(jié)果會更接近 64% 的真實概率,而基于硬幣是均勻的假設(shè)下,結(jié)果應(yīng)該集中在 0.50 左右,導(dǎo)致拒絕區(qū)域侵占掉 50% 的值。在這些效應(yīng)相結(jié)合下,因此如果拿不均勻的硬幣做實驗,數(shù)據(jù)越多,結(jié)果就越有可能落入該拒絕區(qū)域,從而產(chǎn)生真陽性。在產(chǎn)品開發(fā)環(huán)境里,我們可以通過給測試分配更多的會員(或其他單位)或減少測試組的數(shù)量來提高功效,不過在每次測試的樣本量與同時可以進行的不重疊的測試數(shù)量之間需要做出權(quán)衡(樣本量大,可進行的測試數(shù)就少)。

基礎(chǔ)總體指標的可變性。指標在待測試總體里面越同質(zhì)化,就越容易正確識別真實效果。這個的直覺有點難以理解,我們那個簡單的拋硬幣例子終于沒法解釋了。假設(shè)在Netflix這里,我們要進行一項測試,目的是看看某些減少延遲(比方說成員按下播放與開始視頻播放之間的延遲)的措施是否有效。鑒于大家用來訪問 Netflix 的設(shè)備與互聯(lián)網(wǎng)連接的多樣性,在我們的用戶當中這個指標會存在很多自然的可變性。因此,如果測試治療組的結(jié)果只是延遲指標小幅減少的話,是很難識別成功的——因為不同會員之間可變性的“噪音”比信號要強。相比之下,如果我們對采用類似網(wǎng)絡(luò)連接與類似設(shè)備的一組會員進行測試的話,那么強度不大的信號就會更容易識別——因為可能會壓制信號的噪音更少了。在 Netflix 這里,我們花費了大量時間來構(gòu)建利用這種直覺的統(tǒng)計分析模型,并通過有效降低可變性來提高功效;相關(guān)做法的技術(shù)說明,請參見此處。

為合理和有意義的效應(yīng)設(shè)定功效

功效和漏報率是假定效應(yīng)量的函數(shù)。就像 5% 的誤報率是一個被廣泛接受的約定一樣,功效的經(jīng)驗法則是將 80% 的功效定為合理且有意義的效應(yīng)量的目標。也就是說,我們假設(shè)了一個效應(yīng)量,然后設(shè)計實驗(主要是設(shè)置樣本大?。?,這樣的話,如果治療體驗的真實影響如我們假設(shè)一樣的話,在80%的時間內(nèi)測試都能夠正確地識別出效應(yīng)的存在。在 20% 的時間內(nèi)測試結(jié)果會是漏報:也就是說其實是有效果的,但我們對測試觀察到的結(jié)果不在拒絕區(qū)域內(nèi),所以我們無法得出有效應(yīng)的結(jié)論。這就是為什么上面的例子用了 64% 正面朝上的概率:拋100 次的實驗功效為 80%。

合理的效應(yīng)量由哪些東西構(gòu)成這個問題很棘手,因為測試可能會產(chǎn)生意外結(jié)果。但是結(jié)合領(lǐng)域知識與常識一般可以提供可靠的估計。在測試歷史悠久的領(lǐng)域,比方說幫助Netflix 會員選擇適合自己的內(nèi)容的優(yōu)化推薦系統(tǒng),我們對測試大致產(chǎn)生的效應(yīng)量(不管是陽性還是陰性)已經(jīng)有了明確想法。在對過去的效應(yīng)量以及分析策略有了了解之后,我們就可以設(shè)置樣本大小,來確保測試對合理的指標變動具有 80% 的功效。

不管是在這個實驗設(shè)計階段還是在決定往什么地方做出努力時,第二個考慮因素是要確定什么對用來決定測試的主要指標產(chǎn)生了有意義的效應(yīng)。怎么才算有意義要取決于實驗的影響領(lǐng)域(會員滿意度、播放延遲、后端系統(tǒng)的技術(shù)性能等),以及與新產(chǎn)品體驗相關(guān)的潛在工作或成本。我們不妨假設(shè)如果效應(yīng)量小于主要指標 0.1% 的變化的話,則支撐新產(chǎn)品功能的成本就大于收益。在這種情況下,通過測試來檢測指標是不是發(fā)生了 0.01% 變化就幾乎沒有意義,因為成功識別這種效應(yīng)量并不會導(dǎo)致決策發(fā)生有意義的變化。同樣地,如果對特定創(chuàng)新領(lǐng)域所做測試觀察到的效應(yīng)量對用戶體驗或業(yè)務(wù)來說始終都無關(guān)緊要的話,則表明我們可以把實驗資源部署到其他更有效的地方了。

總結(jié)

本系列的第 3 篇和第 4 篇重點是對用來分析測試結(jié)果的核心概念進行定義并建立相關(guān)直覺:其中包括了假陽性(誤報)、假陰性(漏報)、統(tǒng)計顯著性、p 值,以及功效

關(guān)于實驗,有個事實也許會令人不安,那就是我們不能同時最大限度地減少誤報和漏報。事實上,誤報和漏報會相互制約。如果我們采用更嚴格的誤報率,比方說 0.01%的話, A 和 B 之間沒有差異的測試的誤報數(shù)量就會減少——但這樣也會降低測試的功效,增加那些存在有意義差異的測試的假陰性(漏報)率。用 5% 的誤報率以及 80% 的功效是約定俗成的慣例,可以在限制發(fā)現(xiàn)錯誤與取得真正發(fā)現(xiàn)之間取得平衡。然而,在假陽性(或假陰性)會帶來更大風險的情況下,研究人員可能就會拋開這些經(jīng)驗法則,好盡量減少某種類型的不確定性。

我們的目標不是要消除不確定性,而是去理解和量化這種不確定性,以便做出合理的決策。在很多情況下,A/B 測試的結(jié)果需要細致入微的解釋,實際上測試結(jié)果本身也只是商業(yè)決策的一個輸入。在下一篇文章里,我們會介紹怎么用測試結(jié)果建立起對決策的信心。

譯者:boxi。