MarTechCareer - Netflix教你如何從業務需求出發，用數據科學和機器學習解決商業問題！－鑽石舞台

如今，數據科學與人工智能正越來越普遍——尤其是隨着 Netflix、亞馬遜、Facebook、Spotify 等大公司不斷部署人工智能戰略，想在幕後與消費者展開更緊密的互動。

但是，有很多企業並沒有用好數據科學，而把數據科學當成了一個好看而無用的花瓶。到底應該如何「正確地應用」數據科學和人工智能呢？如何真正地從業務需求出發，把數據科學用在刀刃上呢？今天這篇文章，我們就來看看Netflix是如何從產品需求出發，讓數據科學和機器學習成為真正的增長引擎，而不是擺設的花瓶。

Netflix數據科學/人工智能的五大實例

電影推薦個性化——觀看A電影的用戶可能會觀看 B電影。這可能是 Netflix 最著名的功能， Netflix根據品味相似的用戶觀看歷史記錄來推薦你接下來可能最有興趣觀看的內容，從而提升客戶滿意度，維持訂閱量。

縮略圖的自動生成和個性化——Netflix使用來自現有電影或節目的數千個視頻幀作為縮略圖生成的起點，再對這些圖像進行注釋，然後對每張圖像進行排名，從而判斷哪些縮略圖最有可能被客戶點擊。這些計算基於與你相似的用戶點擊的內容，發現可能喜歡某些演員/電影的用戶更有可能點擊具有某些演員/圖像屬性的縮略圖。

電影製作的選址（前期製作）——Netflix使用數據來輔助決定最佳拍攝地點和時間。考慮到日程安排（包括演員/工作人員的可用性等）、預算（場地、航班/酒店成本）和製作的限制場景要求（比如是白天還是夜間拍攝，極端天氣狀況的發生概率等）。這個應用場景屬於數據科學中的優化問題，而不是基於過去數據進行預測的機器學習模型。

電影編輯（後期製作）——Netflix使用過去的有質量問題的視頻數據（指字幕與聲音/動作不同步的情況）——預測人工檢查在什麼時候最有益，因為人工檢查往往是一個非常耗時和費力的過程。

流媒體質量——使用過去的觀看數據來預測帶寬使用情況，以幫助 Netflix 決定何時緩存區域服務器，從而能在在峰值（預期）需求期間加快加載時間。

對Netflix而言，這 5 個數據科學/機器學習的應用產生了非常可觀的影響，而它們之所以能對Netflix的業務產生長足的影響是因為，Netflix的數據科學家和產品經理們，能夠把這些數據科學技術與業務需求正確地聯繫起來。如果沒有把這些技術與業務進行連接，那麼這些技術就只會是空中樓閣。只有把這些技術和 Netflix 的核心業務問題聯繫起來，才能真正改變人們的生活。

那什麼是所謂的「業務需求」呢？

這五大Netflix的數據科學應用場景，每個實例都與特定的業務需求、目標或假設相關聯。對於所有的數據科學家與產品經理來說，明確目標至關重要，如果沒有清楚地確定問題或業務需求，可能會在沒有業務的情況下耗盡寶貴的技術資源。

我們做數據科學並不是因為它是一項有趣的技術，而是因為它能解決問題。

那麼讓我們再看看電影推薦和那些個性化的縮略圖的商業目標是什麼？

1. 電影推薦：增加忠誠度、減少訂閱者

Netflix 擁有大量的內容，根據它自己的統計，它擁有超過 1 億種不同的產品。這些內容在不斷變化，有的可能並不討用戶歡心，如果不做智能推薦，那麼每天會有多少用戶面對海量視頻挑花了眼，因而感到沮喪，這導致的結果就是，他們可能會退訂。Netflix的賺錢方式就是讓儘可能多的用戶付費訂閱。所以「電影推薦」這個功能的終極目標，就是減少退訂的人，其方式就是讓每個用戶，能在短時間內就找到自己感興趣的電影電視，並且忍不住要經常回來看。

所以我們就很清楚「電影推薦」這個功能的產品目標：

在有限的觀看時間內增加/保持收視率

增加探索的視頻的數量，重新登錄的頻率

超過公司制定的任何最低閾值

每月訂閱忠誠度總體增加/訂閱者取消減少

Netflix之所以開發「電影推薦」這個功能，不是為了耍酷的，而是為了解決上面這些產品功能的。

2. 個性化圖像縮略圖：識別問題

這個例子可以當作是電影推薦系統的分支問題。鑑於要向用戶提供電影推薦，我們現在還有另一個業務問題，就是如何讓人們點擊他們可能感興趣的電影？

一種方法是通過電影縮略圖，但是應該提供什麼樣的縮略圖？縮略圖有多重要？改變縮略圖會影響收視率和訂閱者忠誠度呢？我們有這方面的數據嗎？

Netflix的產品團隊在 2014 年之前就提出了這些問題，他們整合了用戶調研數據和其他數據，證明了圖像縮略圖和收視率之間確實存在密切聯繫。

Netflix創意服務全球經理 Nick Nelson 解釋說，公司在 2014年初進行的研究發現，縮略圖的呈現內容「不僅是影響用戶是否觀看內容的最大因素」，同時也占據了超過82% 用戶在瀏覽Netflix時的注意力。

Nelson寫道：「我們還看到，用戶在每個縮略圖標題上平均花費 1.8 秒。」「我們之前沒有想到一張圖片對會員的影響有多大，還有我們擁有的時間是如此之短（指1.8秒）。

那當我們明確了電影縮略圖的重要性之後，我們怎麼來確定，每一步電影到底該用什麼樣的縮略圖呢？讓我們接着往下看看Netflix是如何用數據來創建縮略圖的！

如何用數據科學來解決業務問題？

首先，這裡需要解答兩個問題：

Netflix使用哪些數據來創建這些個性化縮略圖？

Netflix使用哪些數據將這些自定義創建的縮略圖定位到個人？

對於第一個問題，我們就得考慮以下這些因素：

一集《怪奇物語》有1小時，其中包括超過 86,000 個靜態視頻幀。

這些視頻幀可以單獨被分配某些屬性，這些屬性稍後會經由一組稱為美學視覺分析 (AVA) 的工具和算法過濾，成為最佳縮略圖的候選者。這一系列操作是為了了從視頻的每個靜態幀中找到最佳的自定義縮略圖圖像。

Netflix 注釋 — Netflix 為每一幀創建元數據，包括亮度 (.67)、面部數量 (3)、膚色 (.2)、裸露概率 (.03)、運動模糊級別 (4)、對稱性 (. 4)。

Netflix 圖像排名 — Netflix 使用來自上方的元數據來挑選出最高質量的特定圖像（光線良好、無運動模糊、可能包含一些從適當角度拍攝的主要角色的面部照片、不包含未經授權的品牌內容等） ) 和最容易被點擊的圖像。

對於第二個問題，可以從Netflix的用戶行為數據來考慮：

觀看的電影數量，每個節目的觀看分鐘數

每個視頻/系列的完成百分比

『點讚』的數量，哪些電影獲得了最多的贊

可歸因於任何特定節目的整體觀看內容的百分比（用戶是不是出於對特定演員/節目的興趣才觀看的）

與用戶參與度等相關的任何季節性或周趨勢。

有趣的是，在2018年，Netflix 不再採用用戶評論作為數據點，在那之前Netflix只在網頁版本上設置評論功能。為什麼？因為這個功能實際上降低了收視率，負面評論會降低用戶們的興趣，這是業務需求如何取代流行用戶需求的另一個例子。

因此，Netflix擁有大量關於每個客戶的數據——從觀看的視頻到點擊的圖像。

那麼問題來了，他們如何處理所有這些數據？

Netflix利用這些數據來匯總每個用戶的全景圖，構建每個用戶的個人資料，並根據數百甚至數千個不同的屬性對每個用戶進行數學索引。他們這樣做是為了將興趣相似的人組合在一起，這樣就可以利用來自一個用戶的數據來幫助預測其他類似用戶的可能行為。

對於Netflix用戶，每個用戶的個人資料都可以用數值來描述，每個數值代表該用戶興趣的單個維度，這些維度包括電影類型、最喜歡的演員/女演員、電影主題等。

下圖可以看成是Netflix的部分用戶們在電影類型這一個維度上的得分分組：

比如：

「6」=浪漫喜劇

「4」=驚悚片

如果一個用戶被Netflix 標記為「6」，那麼他/她將被放置在上圖中靠近底部的綠松石色6的位置附近。

同樣，如果用戶被 Netflix 標記為「4」，那麼他/她將被放置在上圖中洋紅色4的位置附近（靠近頂部）。

請注意綠松石色的「6」區域（浪漫喜劇）與灰色的「5」區域（模仿或諷刺電影）有些重疊。這可能類似於喜歡浪漫喜劇的用戶也喜歡模仿或諷刺電影，因為它們都涉及搞笑。

同樣，由于洋紅色「4」區域（驚悚片）有點接近粉紅色「9」區域——這個粉紅色 9 區域代表那些喜歡動作片的人——在數學上比浪漫喜劇「6」更接近驚悚片「4」區域「地區。

因此，在上圖中，可以用空間距離來表示兩個用戶的品味有多相似或者多不同不同。當然，當喜歡浪漫喜劇的人也喜歡驚悚片時，這會變得無限複雜——但這個類比的目的是展示不同類別之間數學/空間關係的一般概念。

如果用戶喜歡附近的其他類型的電影，彼此相關的興趣組會看起來更接近，並且可以很好地預測用戶會喜歡什麼。

這種類型的機器學習模型就被Netflix以及其他的眾多公司頻繁使用，在看似非結構化的數據之間建立聯繫，並將他們轉化為數字表示。

所以讓我們總結一下：一堆 Netflix 圖像縮略圖其實就是一堆非結構化數據。但是一旦 Netflix 對每個縮略圖進行注釋並為每個縮略圖分配元數據來描述該縮略圖中的內容——我們就有了非結構化數據的數字表示。

然後我們找到彼此相對靠近的數據點，並使用它們來幫助預測未來的點擊行為，並且會相應地調整這些特徵的數學定位，直到模型隨着時間的推移變得越來越好。

這就是Netflix 將非結構化數據轉化為數學表示的方式。它使用數據點之間的關係距離作為製作和改進圖像縮略圖推薦的基礎。

從這樣的分析中，Netflix得到了一些在縮略圖方面很有意思的洞察：

● 縮略圖最好要展示表情豐富的面部特寫鏡頭

● 縮略度最好向人們展示反派角色而不是英雄角色

由此，Netflix在以「正確的方式」應用人工智能、數據科學和機器學習方面做得非常出色 —— 使用基於產品的方法，首先關注業務需求，然後才利用人工智能解決方案，而不是反過來。

隨着 AI、數據科學和機器學習領域的不斷發展，通過數據驅動業務的重要性不斷提升不斷提升，如果你也想全面提高自己對數據科學的深層理解，那就千萬不要錯過MarTechApe的《A/B測試企業級實戰訓練營》以真實商業場景中的複雜A/B測試問題為項目背景，讓學員在兩個月的時間裡，使用百萬量級原始數據，搭建完整的A/B測試流程！

在過去開辦的《訓練營》中，我們為頂尖科技公司輸送數據能力強、實驗經驗豐富、統計基礎紮實的數據人才。不論你本來是什麼背景，都能通過這門課程，打開盛行「測試文化」的互聯網高科技公司的大門！

《A/B測試企業級實戰訓練營》往期學員戰績：

1你將獲得

真槍實彈的A/B測試項目實操，百萬量級真實數據+五大應用案例，從零學會A/B測試的里里外外！

為你建立一個完整的、專業的、深度還原大公司的的A/B測試項目，讓你在面試時可以自信展示自己親自做的案例，成功拿下offer！

從0到100真實操作A/B測試項目的全套流程：數據清洗、數據自動化處理、實驗設計、實驗執行、結果分析、報告展示。

經歷真實工作場景中的、各大互聯網科技公司里使用的A/B測試流程，以及適應不同商業場景的各類實驗/准實驗方法。學會工作中最重要的分析方法！

深度學習A/B測試實戰中常見的測試陷阱及避免方法。

牢固掌握公司里A/B測試項目中的實際SQL與Python應用，為A/B測試搭建數據庫、清理數據、創建數據集。

學會用Python自動化實現A/B測試，為你的老闆提高100%的工作效率！

接受系統的統計訓練，打下堅實牢固的統計基礎，徹底明白A/B測試的統計原理、分析方法、實驗設計方法、抽樣準則。

各大互聯網、科技公司A/B testing面試題解題步驟示範與詳細解析。對互聯網科技公司的深度剖析和指標介紹，讓你自如面對各類面試考驗！

模擬實際工作中與產品經理的合作，培養商業意識與產品思維。

專業的Bootcamp經歷簡歷模版與認證證書，可以曬到LinkedIn等求職網站，大大提高面試邀請率！

福利升級：訓練營以往只內推成功從訓練營中畢業的學生。但在疫情期間，所有A/B測試實戰訓練營學員，均可獲得全職或實習崗位的內推機會！

2訓練營老師介紹

Emma老師

美國知名電商Wayfair高級商業分析專家

擁有多年電商A/B測試實戰經驗，及新人教授經驗

精通AdvancedSQL, Python等數據分析工具

設計推出的A/B測試，為公司帶來上千萬美元的收入

Emma老師對學員知無不言，有問必答！無論是面試中遇到的問題，還是工作中遇到的困惑。

3訓練營課程內容

整個Bootcamp歷時8周，每周3小時課程，共計24小時課時。

周末線上實時授課，課後完成老師布置的作業，助教團隊在班級群內隨時答疑，直播錄像永久回放。

五大課程模塊：

A/B測試商業訓練（案例、變量設計、測試計劃）

A/B測試數據技能訓練（數據源概況、SQL數據庫建立、Python自動化分析）

A/B測試實驗設計訓練（A/B測試 vs 准實驗、實驗步驟、真實商業環境中的實驗挑戰）

A/B測試統計訓練（統計分析、深度解析）

A/B測試面試訓練

課程內容涵蓋了A/B測試在各大互聯網科技公司中的完整工作流程：

A/B測試統計基礎與應用場景

A/B測試實驗設計

A/B測試假設檢驗、變量選擇、流量計算與實驗周期計算

A/B測試各類應用場景中的實驗變體與前後測實戰分析

用SQL與Python完成A/B測試項目實戰

A/B測試結果解讀與高階統計

結果展示

每位學員將有一套親自做的A/B測試成果作品

每位學員獲得A/B測試面試真題解題輔導

結課後，每位學員獲得提升簡歷的Industry Project Experience完美描述，所有學員獲得內推機會！

1. A/B測試商業訓練

了解A/B測試在頂流科技公司中的各類應用場景

了解A/B測試適用的商業問題與它的局限

了解科技公司產品團隊如何使用A/B測試

面對商業問題，如何設計有效的假設？

如何制定A/B測試的實驗計劃與執行框架？

2. A/B測試數據技能

搭建一個真實的A/B測試實驗數據庫

了解A/B測試中常面臨的數據問題

用SQL對數據進行清洗與轉制，完成樣本選取、組別分配、變量選取等實驗步驟，為A/B測試做好數據準備

用Python搭建A/B測試分析流程

學員在項目中重點使用SQL與Python，全方位了解A/B測試中涉及的數據庫搭建、樣本選取、實驗組與測試組分配、變量選取等數據分析步驟。並且充分掌握用Python搭建A/B測試結果分析流程，實現A/B測試自動化，對真實工作中的A/B測試分析了如指掌。簡而言之，項目後，你不僅將牢固掌握SQL與Python等最熱門的數據分析軟件，還將成為真正的A/B測試技術流，完全掌握A/B測試這項數據分析工作中最重要的技能。

3. A/B測試實驗設計

充分了解A/B測試的實驗步驟

設立零假設與被擇假設

確認實驗指標，設計實驗變量

根據指標類型確認統計檢驗方法

估算樣本量，確定實驗周期

置信區間與統計功效

A/B測試中的各類偏差

樣本量不夠或其他實驗條件不滿足時的實驗設計

了解准實驗與A/B測試的應用區別

為項目案例設計A/B測試實驗

學員在項目中將透徹學習實驗方法與實驗設計。在這個環節中，將研究如何制定實驗方案，以提高實驗效率，縮小隨機誤差的影響，並使實驗結果能有效地進行統計分析。學習在工作場景中如何用A/B測試等實驗來提高用戶激活/活躍/留存等關鍵的產品指標，提升產品功能表現，真正理解A/B測試的商業價值與業務地位。