Netflix是如何做決策的?(三):誤報(bào)與統(tǒng)計(jì)顯著性
神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹國(guó)外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。
編者按:決策是行動(dòng)的指南。不管是個(gè)人還是企業(yè),每天都要面臨著無(wú)數(shù)的決策。決策的好壞會(huì)對(duì)結(jié)果產(chǎn)生巨大影響,如何做好決策是每個(gè)人都要上的一門(mén)必修課。在Netflix這里,他們采用了一種以實(shí)驗(yàn)為導(dǎo)向的決策流程,先小范圍地對(duì)不同方案進(jìn)行測(cè)試,根據(jù)對(duì)比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/N測(cè)試做出決策的系列文章。本文來(lái)自編譯,是系列文章的第三篇。后續(xù)文章還將介紹實(shí)驗(yàn)在 Netflix 中的作用、Netflix對(duì)基礎(chǔ)設(shè)施的投資是如何為實(shí)驗(yàn)提供支撐和擴(kuò)展的,以及 Netflix內(nèi)部實(shí)驗(yàn)文化的重要性。
劃重點(diǎn):
任何決策方法都不能完全消除不確定性以及犯錯(cuò)誤的可能性
在對(duì)測(cè)試結(jié)果采取行動(dòng)時(shí),可能會(huì)犯兩種類(lèi)型的錯(cuò)誤:誤報(bào)與漏報(bào)
誤報(bào)率跟觀察到的實(shí)驗(yàn)組與對(duì)照組之間的度量值差異的“統(tǒng)計(jì)顯著性”密切相關(guān)
A/B 測(cè)試?yán)锩孢€有兩個(gè)概念跟 p 值密切相關(guān):測(cè)試的否定域以及觀測(cè)的置信區(qū)間
Netflix 是如何做決策的?(一):介紹
Netflix是如何做決策的?(二):什么是 A/B 測(cè)試?
在《Netflix是如何做決策的?(二):什么是 A/B 測(cè)試?》中,我們討論了在 Netflix 上面測(cè)試 Top 10,以及如何利用這項(xiàng)測(cè)試的主要決策指標(biāo)衡量會(huì)員對(duì) Netflix 的滿(mǎn)意度的。如果像這樣的測(cè)試顯示出主要的決策指標(biāo)在統(tǒng)計(jì)上有顯著改善的話(huà),就說(shuō)明這項(xiàng)功能非常適合面向所有會(huì)員推出。但是,得到測(cè)試的結(jié)果之后,我們?nèi)绾尾拍苤雷约鹤龀龅臎Q定是否正確呢?重要的是要承認(rèn)一點(diǎn),任何決策方法都不能完全消除不確定性以及犯錯(cuò)誤的可能性。利用基于假設(shè)生成、A/B 測(cè)試以及統(tǒng)計(jì)分析的框架,我們可以對(duì)不確定性進(jìn)行細(xì)致的量化,并了解犯不同類(lèi)型錯(cuò)誤的概率。
在對(duì)測(cè)試結(jié)果采取行動(dòng)時(shí),我們可能會(huì)犯兩種類(lèi)型的錯(cuò)誤。當(dāng)來(lái)自測(cè)試的數(shù)據(jù)表明控制組和實(shí)驗(yàn)組體驗(yàn)之間存在表明差別,但實(shí)際上沒(méi)有差別時(shí),就會(huì)出現(xiàn)假陽(yáng)性(也稱(chēng)為 I 型錯(cuò)誤)。這種情況就好比健康人的體檢結(jié)果呈陽(yáng)性。在對(duì)測(cè)試做決定時(shí)可能還會(huì)犯另一個(gè)錯(cuò)誤,那就是假陰性(也稱(chēng)為 II 型錯(cuò)誤),當(dāng)數(shù)據(jù)沒(méi)有表明實(shí)驗(yàn)和控制之間存在表面差異,但實(shí)際存在差異時(shí),就會(huì)發(fā)生這種情況。這種情況就像你有病,但相關(guān)的醫(yī)學(xué)檢測(cè)結(jié)果呈陰性。
作為建立直覺(jué)的另一種辦法,不妨思考一下這個(gè)互聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)之所以存在的真正原因(編者注:一個(gè)玩笑):標(biāo)記圖像里面有沒(méi)有貓。對(duì)于特定圖像來(lái)說(shuō),決策有兩種可能(貼上 “有貓”或“沒(méi)貓”的標(biāo)簽),同樣地事實(shí)也有兩種(圖像要么有貓,要么沒(méi)有)。這導(dǎo)致總共有四種可能的結(jié)果,如圖 1 所示。 A/B 測(cè)試也是如此:我們根據(jù)數(shù)據(jù)做出兩個(gè)決策之一(“有足夠的證據(jù)得出十大排名會(huì)影響會(huì)員的滿(mǎn)意度這個(gè)結(jié)論”)或“證據(jù)不足”),而事實(shí)也會(huì)有兩種可能,但我們永遠(yuǎn)沒(méi)法完全確定(“十大排名確實(shí)影響到會(huì)員的滿(mǎn)意度”或“沒(méi)影響”)。
圖 1:把圖像標(biāo)記為圖中有沒(méi)有貓時(shí)的四種可能結(jié)果。
關(guān)于誤報(bào)和漏報(bào),一個(gè)令人不安的事實(shí)是,我們沒(méi)法排除掉。事實(shí)上,這兩者是此消彼長(zhǎng)的關(guān)系。對(duì)實(shí)驗(yàn)進(jìn)行設(shè)計(jì)好讓誤報(bào)率很小必然會(huì)增加漏報(bào)率,反之亦然。在實(shí)踐上,我們的目標(biāo)是對(duì)這兩種錯(cuò)誤來(lái)源做好量化、理解和控制。
在本文的其余部分里,我們會(huì)利用簡(jiǎn)單的示例來(lái)建立起對(duì)誤報(bào)和相關(guān)統(tǒng)計(jì)概念的直覺(jué);在本系列的下一篇文章里,我們?cè)僬務(wù)劼﹫?bào)及相關(guān)統(tǒng)計(jì)概念。
誤報(bào)與統(tǒng)計(jì)顯著性
有了一個(gè)很好的假設(shè),并且對(duì)主要決策指標(biāo)有了清晰理解之后,是時(shí)候轉(zhuǎn)到設(shè)計(jì) A/B 測(cè)試的統(tǒng)計(jì)方面了。這個(gè)過(guò)程一般從確定可接受的誤報(bào)率開(kāi)始。按照慣例,這個(gè)誤報(bào)率通常設(shè)定為 5%:對(duì)于實(shí)驗(yàn)組與對(duì)照組之間其實(shí)沒(méi)有實(shí)質(zhì)差異的測(cè)試,我們有5%的幾率會(huì)錯(cuò)誤地得出存在 “統(tǒng)計(jì)上顯著”差異的結(jié)論。誤報(bào)率為5%的測(cè)試就是顯著性水平為 5%的測(cè)試。
約定顯著性水平為5%可能會(huì)讓人感到不舒服。遵循這一慣例,意味著我們接受這樣的事實(shí),即對(duì)于會(huì)員來(lái)說(shuō)實(shí)驗(yàn)組和控制組體驗(yàn)沒(méi)有明顯不同的情況下,我們犯錯(cuò)的幾率是5%。我們會(huì)把 5% 沒(méi)有貓的照片標(biāo)記成有貓。
誤報(bào)率跟觀察到的實(shí)驗(yàn)組與對(duì)照組之間的度量值差異的“統(tǒng)計(jì)顯著性”密切相關(guān),我們就用 p 值來(lái)測(cè)量吧。p 值是觀測(cè)到至少與A/B測(cè)試實(shí)際觀測(cè)樣本相同極端的樣本的概率,前提是實(shí)驗(yàn)組跟對(duì)照組的體驗(yàn)確實(shí)沒(méi)有差異。理解統(tǒng)計(jì)顯著性跟 p 值(這玩意兒已經(jīng)讓學(xué)統(tǒng)計(jì)學(xué)的困惑了一個(gè)多世紀(jì))有一個(gè)直觀的辦法,那就是玩簡(jiǎn)單的機(jī)會(huì)游戲,去計(jì)算所有的相關(guān)概率并進(jìn)行可視化。
圖 2:不妨考慮玩一個(gè)簡(jiǎn)單的機(jī)會(huì)游戲,比方說(shuō)像這樣的拋硬幣游戲,這是建立起統(tǒng)計(jì)直覺(jué)的好方法。
假設(shè)我們想知道一枚硬幣是不是不均勻,也就是拋到正面的概率不是 0.5(或 50%)。這個(gè)情況看起來(lái)似乎很簡(jiǎn)單,但其實(shí)跟很多企業(yè)直接相關(guān),其目標(biāo)是要了解新產(chǎn)品體驗(yàn)會(huì)不會(huì)導(dǎo)致某些二元性的用戶(hù)活動(dòng)(單擊某項(xiàng)UI 功能,再續(xù)租Netflix 服務(wù)一個(gè)月)出現(xiàn)的比率不同。所以任何我們可以通過(guò)簡(jiǎn)單的拋硬幣游戲建立的直覺(jué)都可以直接映射到對(duì)A/B測(cè)試做出的解釋。
為了確定硬幣是不是不均勻,我們不妨做個(gè)實(shí)驗(yàn):拋 100 次硬幣并計(jì)算正面朝上的比例。由于存在隨機(jī)性或“噪音”,就算硬幣是完全均勻的,我們也不指望正好會(huì)有 50 次正面朝下, 50次反面朝上——但跟50 這個(gè)數(shù)偏差多少才算 “太多”呢?什么時(shí)候才有足夠的證據(jù)來(lái)拒絕硬幣其實(shí)是均勻的這個(gè)基線(xiàn)判定?如果拋 100 次有 60 次是正面的話(huà),你是不是愿意得出硬幣不均勻的結(jié)論?70呢?我們需要有一種方法來(lái)調(diào)整決策框架并了解相關(guān)的誤報(bào)率。
為了建立直覺(jué),不妨來(lái)一次思考練習(xí)。首先,我們假設(shè)硬幣是均勻的——這就是我們的“零假設(shè)”。零假設(shè)始終是對(duì)現(xiàn)狀或均等的陳述。然后,我們從數(shù)據(jù)里面尋找反對(duì)這個(gè)零假設(shè)的那些令人信服的證據(jù)。為了決定令人信服的證據(jù)應(yīng)該由什么構(gòu)成,在假設(shè)原假設(shè)為真的情況下,我們要計(jì)算每個(gè)可能結(jié)果的概率。對(duì)于拋硬幣這個(gè)例子而言,就是拋100 次硬幣拋出 0 個(gè)正面、1個(gè)正面、2個(gè)正面,以此類(lèi)推直至 100 個(gè)正面的概率——前提假設(shè)是硬幣是均勻的。具體數(shù)學(xué)我們就略過(guò)了,只需要留意所有這些可能的結(jié)果及其相關(guān)概率都用圖 3 里面的黑條和藍(lán)條顯示(現(xiàn)在先忽略顏色)。
然后,我們可以將在硬幣均勻的假設(shè)下計(jì)算得出的結(jié)果概率分布跟我們收集到的數(shù)據(jù)進(jìn)行比較。假設(shè)我們觀察到拋100 次里面其中的55% 得到的是正面(圖 3 中的紅色實(shí)線(xiàn))。為了對(duì)這個(gè)觀察是否硬幣不均勻的有力證據(jù)進(jìn)行量化,我們把每一個(gè)可能性低于觀察的每一個(gè)結(jié)果的相關(guān)概率進(jìn)行合計(jì)。此處,由于我們沒(méi)有對(duì)更有可能出現(xiàn)正面或反面做出任何假設(shè),所以我們把出現(xiàn)正面概率達(dá)到或超過(guò)55%的累加起來(lái)(紅色實(shí)線(xiàn)右側(cè)的條),把出現(xiàn)反面概率達(dá)到或超過(guò)55%的也累加到一起(紅色虛線(xiàn)左側(cè)的條)。
神秘的 p 值就出現(xiàn)了:在零假設(shè)為真的情況下,觀測(cè)到至少與實(shí)際觀測(cè)樣本相同極端的樣本的概率。在我們的例子中,零假設(shè)是硬幣是均勻的,觀測(cè)到的結(jié)果是拋100 次硬幣當(dāng)中有 55% 是正面,而 p 值大概是 0.32。解釋如下:拋硬幣 100 次并計(jì)算正面朝上占比的實(shí)驗(yàn),用均勻的硬幣(零假設(shè)為真)來(lái)拋,如果我們重復(fù)多次的話(huà),在這些實(shí)驗(yàn)當(dāng)中,其中有32% 的結(jié)果將至少有 55% 是正面朝上或至少 55% 是反面朝上(結(jié)果至少跟我們的實(shí)際觀測(cè)結(jié)果一樣不可能)。
圖 3:將一枚均勻的硬幣拋 100 次,每一個(gè)結(jié)果的概率表示為正面朝上的占比。
那我們?cè)趺从?p 值來(lái)確定是否存在統(tǒng)計(jì)上顯著的證據(jù)表明硬幣是不均勻的——或者表明我們的新產(chǎn)品體驗(yàn)對(duì)現(xiàn)狀有改進(jìn)呢?回到我們?cè)陂_(kāi)始時(shí)同意接受的 5% 的誤報(bào)率:我們得出結(jié)論,如果 p 值小于 0.05,則存在統(tǒng)計(jì)上的顯著影響。這形成了這樣一種直覺(jué),也就是如果我們的結(jié)果在硬幣是均勻的假設(shè)下不太可能發(fā)生的話(huà),我們應(yīng)該拒絕硬幣是均勻的零假設(shè)。在拋 100 次硬幣觀測(cè)到有 55 次正面朝上的例子里,我們計(jì)算出的 p 值為 0.32。由于 p 值大于 0.05 顯著性水平,因此我們得出結(jié)論,沒(méi)有統(tǒng)計(jì)上顯著的證據(jù)表明硬幣不均勻。
我們可以從實(shí)驗(yàn)或 A/B 測(cè)試中得出兩個(gè)結(jié)論:要么得出有影響的結(jié)論(“硬幣不均勻”、“十大排名功能提高了會(huì)員的滿(mǎn)意度”),要么得出證據(jù)不足以得出有影響的結(jié)論(“不能得出硬幣不均勻的結(jié)論”,“不能得出十大排名提高了會(huì)員滿(mǎn)意度的結(jié)論”)。這跟陪審團(tuán)審判很像,陪審團(tuán)最后只能得出兩個(gè)可能的結(jié)果,要么“有罪”,要么“無(wú)罪”(not guilty)——而“無(wú)罪”跟“清白”(innocent)是是非常不同的。同樣地,這種A/B 測(cè)試的(頻率主義)方法不允許我們得出沒(méi)有影響的結(jié)論——我們從來(lái)都不會(huì)得出硬幣是均勻的,或者新產(chǎn)品功能對(duì)我們的會(huì)員沒(méi)有影響的結(jié)論。我們只是得出這樣的結(jié)論,我們沒(méi)有收集到足夠的證據(jù)來(lái)駁回不存在差異的零假設(shè)。在上面拋硬幣的例子里,我們拋了 100 次硬幣然后觀測(cè)到有 55% 是正面朝上,并得出結(jié)論,我們沒(méi)有足夠的證據(jù)可以將硬幣標(biāo)記為不均勻。至關(guān)重要的是,我們也沒(méi)有得出硬幣是均勻的結(jié)論——畢竟,如果我們收集到更多的證據(jù),比如將同一枚硬幣拋 1000 次的話(huà),我們可能就能找到足夠令人信服的證據(jù)來(lái)駁回硬幣是均勻的零假設(shè)。
否定域與置信區(qū)間
A/B 測(cè)試?yán)锩孢€有兩個(gè)概念跟 p 值密切相關(guān):測(cè)試的否定域以及觀測(cè)的置信區(qū)間。我們會(huì)在本節(jié)介紹這兩個(gè)概念,還是用上面的拋硬幣例子作為基礎(chǔ)。
否定域。給測(cè)試建立決策規(guī)則的另一種方法是根據(jù)所謂的“拒絕域”——我們得出結(jié)論認(rèn)為硬幣是不均勻的一組值。為了計(jì)算拒絕域,我們?cè)俅渭僭O(shè)原假設(shè)為真(硬幣是均勻的),然后將拒絕域定義為概率總和不超過(guò) 0.05 的最不可能結(jié)果的集合。拒絕域由最極端的結(jié)果組成,前提是原假設(shè)是正確的——是拒絕原假設(shè)的證據(jù)最強(qiáng)的結(jié)果。如果觀測(cè)值落在拒絕域內(nèi),我們就可以得出結(jié)論,存在統(tǒng)計(jì)上顯著的證據(jù)表明硬幣是不均勻的,并“拒絕”零假設(shè)。在那個(gè)拋硬幣實(shí)驗(yàn)的情況下,拒絕域?qū)?yīng)于觀測(cè)到正面朝上的情況少于 40% 或超過(guò) 60%(如圖 3 的藍(lán)色陰影條所示)。我們稱(chēng)拒絕域的邊界,本例情況下為正面朝向占比為 40% 與 60% ,為測(cè)試的臨界值。
拒絕域與 p 值之間存在等價(jià)關(guān)系,兩者都可得出相同的決定:當(dāng)且僅當(dāng)觀測(cè)值位于拒絕域內(nèi)時(shí),p 值小于 0.05。
置信區(qū)間。到目前為止,我們已經(jīng)通過(guò)首先從零假設(shè)開(kāi)始來(lái)設(shè)立決策規(guī)則。零假設(shè)始終都是沒(méi)有變化或等價(jià)的陳述(“硬幣是均勻的”或“產(chǎn)品創(chuàng)新對(duì)會(huì)員滿(mǎn)意度沒(méi)有影響”)。然后,我們?cè)谠摿慵僭O(shè)下定義可能的結(jié)果,并將我們的觀測(cè)結(jié)果跟這一分布進(jìn)行比較。要想理解置信區(qū)間,把問(wèn)題倒過(guò)來(lái),去關(guān)注觀測(cè)結(jié)果會(huì)有所幫助。我們不妨做個(gè)思考練習(xí):給定觀測(cè)結(jié)果,假設(shè)誤報(bào)率指定為 5% 的情況,零假設(shè)的哪些值會(huì)導(dǎo)致得出不拒絕的決定?對(duì)于那個(gè)的拋硬幣的例子,觀測(cè)結(jié)果是在拋100 次硬幣當(dāng)中有 55% 是正面朝上,我們不拒絕硬幣為均勻的無(wú)效。我們也不會(huì)拒絕正面朝上概率為 47.5%、50% 或 60% 的零假設(shè)。正面朝上概率從大約 45% 到 65% 的范圍內(nèi),我們都不會(huì)拒絕零假設(shè)(圖 4)。
這個(gè)值范圍就是一個(gè)置信區(qū)間:在給定測(cè)試數(shù)據(jù)的情況下,在零假設(shè)下不會(huì)導(dǎo)致拒絕的值的范圍。因?yàn)槲覀円呀?jīng)用顯著性水平為5%的測(cè)試劃定了區(qū)間,所以就設(shè)定了 95% 的置信區(qū)間。我們的解釋是,在重復(fù)實(shí)驗(yàn)的情況下,置信區(qū)間在 95% 的時(shí)間內(nèi)可覆蓋真實(shí)值(此處為正面朝上的實(shí)際概率)。
置信區(qū)間與 p 值之間存在等價(jià)關(guān)系,兩者都可得出相同的決定:當(dāng)且僅當(dāng) p 值小于 0.05 時(shí),95% 置信區(qū)間未覆蓋空值,并且在這兩種情況下我們都拒絕無(wú)影響的零假設(shè)。
圖 4:通過(guò)映射一組值來(lái)建立置信區(qū)間,這些值在用來(lái)定義零假設(shè)時(shí)不會(huì)導(dǎo)致拒絕給定觀測(cè)結(jié)果。
總結(jié)
通過(guò)以?huà)佊矌艦槔囊幌盗兴伎季毩?xí),我們已經(jīng)建立起關(guān)于誤報(bào)、統(tǒng)計(jì)顯著性、 p 值、拒絕域、置信區(qū)間以及我們可根據(jù)測(cè)試數(shù)據(jù)做出的兩個(gè)決定的直覺(jué)。這些核心概念和直覺(jué)可直接映射到比較 A/B 測(cè)試的實(shí)驗(yàn)與控制體驗(yàn)上面。我們定義了一個(gè)二者沒(méi)有差異的“零假設(shè)”:也就是“B”體驗(yàn)沒(méi)有改變會(huì)員滿(mǎn)意度。然后我們進(jìn)行同樣的思考實(shí)驗(yàn):假設(shè)會(huì)員滿(mǎn)意度沒(méi)有差異的話(huà),實(shí)驗(yàn)組和對(duì)照組之間的指標(biāo)差異可能有哪些結(jié)果,相關(guān)概率是多少?然后,就像拋硬幣例子一樣,我們可以把實(shí)驗(yàn)的觀測(cè)結(jié)果跟這個(gè)分布進(jìn)行比較,計(jì)算出 p 值并得出測(cè)試的結(jié)論。就像拋硬幣的例子一樣,我們可以定義拒絕域并計(jì)算出置信區(qū)間。
但是誤報(bào)只是我們?cè)趯?duì)測(cè)試結(jié)果采取行動(dòng)時(shí)可能會(huì)犯的兩個(gè)錯(cuò)誤當(dāng)中的一個(gè)。在本系列的下一篇文章里,我們還會(huì)介紹另一種類(lèi)型的錯(cuò)誤:漏報(bào)以及與統(tǒng)計(jì)功效密切相關(guān)的概念。
譯者:boxi。