我們從一個真實的例子開始:
一家保險公司正在把前一天搜集到的潛在客戶表交給代理商。希望通過外撥電話活動,能夠將 5% 的潛在客戶轉化為銷售量。
同時,公司已經意識到,他們現在一天內產生的潛在客戶甚至超出了代理商的處理能力,更重要的是,他們還有一種感覺,那就是很多潛在客戶其實都是在浪費時間,並沒有什麼轉化為銷售的可能。
公司的數據科學團隊開始以數據為導向,優化觸達潛在客戶的優先級。為此,他們使用從網站收集的潛在客戶數據,建立了一個模型,對每個潛在客戶可能轉化為銷售的概率進行評分。
這樣的話,代理商可以每天開始密切關注未來最有可能轉化為銷售的潛在客戶。同時還可以避免將時間浪費在很可能永遠不會產生銷售的潛在客戶上。
當模型投入生產後,公司觀察到代理商現在能夠將 10% 的潛在客戶轉化為銷售。可喜可賀的是,這比之前有了 100% 的提高!
看起來項目已經很成功了,但問題是:你如何知道是通過電話活動讓客戶轉換的?這可能只是摘到了容易的櫻桃,純屬幸運而已。
換句話說,傾向模型(propensity model)所做的只是收集最有可能轉化為銷售的線索。它並沒有將「無論看到廣告與否都已經打算購買的客戶「與「需要外撥電話才成功被說服轉化的客戶」 區分開來。
這家保險公司的案例忽略了說服力、增量或和電話活動的真正效果。
增量模型
上面提到的購買傾向模型使用機器學習來回答這個問題:
「我的廣告是不是導致客戶購買的原因?」
「我是不是浪費了廣告費向早就已經打算購買的客戶做廣告?」
「我的廣告是不是使某人購買的可能性甚至變得更糟(負面影響)?」
換句話說,經典的傾向模型(和大多數機器學習算法)在給定特徵 (x) 的情況下預測目標 (y)。增量模型則是要解決給定特徵 (x) 的處理 (t) 對目標 (y) 的影響。
增量模型通常通過使用四個客戶細分來解釋(Siegel 2011):
1. 無論如何都會購買的人(Sure Things)2. 只在看到廣告時才會購買的人(Persuables)3. 無論如何都不會購買的人(Lost Causes)4. 看到廣告反而不買的人(Sleeping Dogs)
傾向模型通過避免向Lost Causes投放廣告來增加利益。增量模型則更加優化,它可以幫助公司僅向Persuadable客戶投放廣告,進一步增加投資回報。
增量模型在總統大選中就有被應用過,通過識別和定位在搖擺的選民(voters who are on the fence)(Stedman 2013),在政治營銷活動中可以避免那些早已死心塌地的人,而只關注可以被說服的選民。
通過增量模型,我們不僅評估整個治療組與對照組的結果提升,而是去了解治療如何以不同方式影響某些組,以及這些影響的差異有多大。
也許這種治療對 50 歲以上且有潛在健康狀況的人有很大的積極影響,但對 50 歲以下且健康的人影響很小。
一家公司有一個潛在客戶數據庫,但他們產生的潛在客戶數量超過了處理的容量,而且很多潛在客戶都是浪費時間,根本沒有轉化的可能。通過增量模型,代理商可以按照他們選擇的任何優先級順序,更加有目的的發放廣告給潛在客戶。
一家公司想要進行交叉銷售活動,並且假設因為預算有限,他們不想交叉銷售給整個客戶群,並且有些人可能不需要或根本就不想要其他產品,那麼這個情況下增量模型就可以幫助到公司。
一家公司希望觸達即將流失的客戶,並拯救他們。公司希望在與客戶聯繫時防止進一步讓客戶感到反感,所以應該只關注高風險可挽救的客戶。
一家公司想要了解其網站或應用程序的更改是否導致了預期的結果。

常用技術在一個快速發展的時代,我覺得技術目前可以分為三個支柱。
這實際上不是一個增量模型,但這裡也需要包括在內,因為它是解決增量問題的經典方法。這個算法通常是一個分類器,如邏輯回歸。這些算法可以輸出一個 0 到 1 的概率,可以用來對觀眾進行排序。然後可以選擇一個閾值(可能是 0.70 概率或更大)作為採取treatment的分界限。
這個支柱算法可以直接模擬treatment的效果。它需要對隨機森林等算法進行完全重新設計,以進行特徵選擇、超參數調整,並擬合解決 (t) 對給定 (x) 的 (y) 的影響。像 Scikit-learn 這樣的包中的典型算法無法做到這一點。你可以使用 Uplift for R 和 CausalML for Python 包來實現提升樹。
最後一個支柱算法應用增量進行建模但使用某種捷徑或者近似。這種近似方法在大多數應用中往往很有用,並且通常帶來速度和/或簡單性方面的好處。
有很多技術模型,所以下面的列表絕不是全面的。也有不同的方法來實現這些技術,具體取決於你的問題和目的。
增量模型當前面臨的挑戰
1. 除非數據是合成的,否則並沒有事實標籤。
在機器學習中,通常具有特徵(有助於預測的輸入)和基本事實標籤(要預測的目標)。
在增量中,基本事實永遠無法獲得,因為個人無法同時看到和看不到廣告。其解決方法,是使用因果推理通過模擬沒有發生的場景來估計基本事實標籤,並將其視為機器學習問題。
由於不提供事實標籤,那麼測量和驗證都變得不那麼簡單了。通常,機器學習是通過將預測與實際進行比較來了解模型的執行情況。但是,在增量建模中,你則可以通過與估計的實際值進行比較來了解模型的執行情況。
採用生成用於驗證的合成數據的方法,可以構建模擬兩種場景。這樣,可以更清晰地評估不同的模型和技術的好壞,選擇勝者。但是,合成數據可能永遠不會完美地反映真實世界數據。
2. 像 Scikit-learn這樣高度優化的軟件包不是為了解決增量問題而設置的。
如前所述,機器學習算法被設置為在給定特徵 (x) 的情況下預測目標 (y)。使用直接增量模型,就需要調整算法和整個機器學習管道。特徵選擇、模型選擇、超參數調整以及使用 Scikit-learn 等優化包進行擬合併非易事。
目前,直接建立增量模型的方法可用,但即使在小型數據集上也很慢。
為了說明這個雜亂無章的情況,就拿增量建模的名稱舉例子,都會在不同地方而不同名字,比如下面都是增量建模的不同叫法:
估計異質處理效果
增量響應建模
淨得分
真實響應建模
以上就是對增量模型的概括介紹。如果你對能大幅改善營銷策略的簡單機器學習——增量模型感興趣的話,如果你想進一步擴大自己的求職優勢,在進入職場之前就在真實場景中演練並學習營銷分析技巧的話,就來看看MarTechApe攜手來自Apple、Walmart、Airbnb、Verizon、Wayfair等知名公司的資深職場人開設的《營銷分析專項》課吧!
《營銷分析專項系列課》由MarTechApe聯合美國的一線營銷分析和營銷技術專家們共同研發推出,由以下美國名企管理層執教:蘋果公司硅谷總部(前Ebay資深數據分析師),營銷數據科學家美國最大家具電商平台Wayfair,營銷數據科學經理沃爾瑪Walmart電商(前GroupM營銷分析經理),數據科學經理這門專項系列課由5個模塊組成,涵蓋了5種應用最廣泛的營銷和商業分析方法:1. 什麼是追蹤?詳細介紹不同的追蹤方法:
URL Tracking
Pixel Tracking
Deep Linking
3. 什麼是營銷歸因?企業為什麼有必要做營銷歸因?
4. 單觸點歸因模型的不同種類與做法
5. 多點歸因模型的不同種類與做法
6. 用戶生命周期總價值(Customer Life Time Value)
7. 營銷歸因中涉及到的各類高階分析:
預測LTV
用戶細分(User Segmentation)
同類群組分析(Cohort Analysis)
增量測試(Lift Test)
跨設備追蹤(Cross Device Tracking)
全渠道分析(Full Funnel Analysis)
沃爾瑪電商Walmart Ecommerce
美國數據科學經理——《營銷組合模型》
1. 營銷組合模型(Marketing Mix Modeling)是什麼,它為什麼可以有效提高營銷績效?
2. 營銷組合模型可以解釋哪些業務指標?衡量哪些變量對業務指標的影響?
3. 如何評價一個營銷組合模型的好壞?
4. 如何通過模型判斷廣告效果和營銷收益?模型中的重要參數:Decay、Lag、Alpha都是什麼?
5. 如何通過模型結果計算與比較媒介渠道效果?
6. 模型結果的解讀:
模型分解
變量貢獻
媒介有效性和媒介效率
7. 通過模型結果進一步獲得商業洞察
8. 行業里流行的另一種解決方案——領先指標模型
9. 營銷組合模型的典型面試問題
10. 營銷分析師與營銷分析經理的技能要求和典型一天
1. 什麼是媒介測試與學習(Media Test & Learn)?為什麼我們需要在廣告營銷領域使用這種方法?
2. 在實際工作中會做哪些關於廣告的實驗?有哪些測試的對象?
3. 如何設計一個實驗,實驗設計的6個步驟,在A/B測試設計中的注意事項
4. 檢驗實驗數據的可靠性和完整性
5. 如何分析實驗結果
6. 如何根據樣本來估計整體均值或比例的置信區間
7. 如何針對某一指標/metrics來判斷實驗組和對照組的區別在統計上顯著
8. 如果想同時測試多個指標,應該注意哪些事項?
9. 什麼是PSA,為什麼我們需要PSA,PSA的劣勢
10. 什麼是Ghost Ads?PSA和Ghost Ads的區別
11. 營銷戰役的ROI與增量
12.選擇偏差
13. 因果影響分析
14. A/B測試的局限
15. A/B測試的延伸:Universal Control Group與Multi-Armed Bandit
美國最大家具電商Wayfair
波士頓營銷數據科學經理——《增量模型》
1.什麼是因果與因果推斷?
2.有哪些因果研究方法?
3.增量在營銷中指的是什麼?什麼是營銷產生的收入(Incremental Revenue)?
4.增量模型將用戶分成哪些類型?如何比較不同營銷策略的效果?
5.什麼是Heterogeneous Treatment Effects?
6.增量模型中的隨機實驗
7.增量模型與機器學習;增量模型要解決的挑戰
8.增量模型的進階技術
9.用一個案例來理解增量模型的完整流程
10.用Python來實現增量模型
美國電信巨頭Verizon
紐約營銷效果經理——《營銷中的隨機森林》
1. 什麼是決策樹?決策樹在營銷中的案例分析
2. 最常見的聚類分析:K-means與Hierarchical Clustering在營銷中的應用。在R語言中實踐兩種不同的聚類分析方法與結果解讀
3. 隨機森林算法原理
4. 如何解讀隨機森林的結果,如何判斷隨機森林模型的好壞
5. 用一個案例來理解隨機森林的完整流程
6. 在R語言環境中實現隨機森林模型
7. 隨機森林分類模型與隨機森林回歸模型
8. 其他機器學習算法在營銷中的應用
9. 機器學習在營銷分析崗位面試中的真題解析
每課備有精心設計的課後作業和練習,及時鞏固課程內容一門課程唯有通過作業才能完全掌握。《營銷分析專項系列課程》每周都有老師精心設計的作業和練習,類型包括:案例分析題
編程題
簡答題
思考題
精心設計的作業練習強調了課程重要知識點,在完成作業和練習的過程中,幫助學員鞏固對課程的掌握程度。沉浸式學習體驗,讓網絡課程更接近線下學習。防止課程囤積,助教督促完課助教團的助教老師們會nice地提醒大家課程進度,並進行線上答疑。每周一次作業,將課程所學進行鞏固。花費時間15-30分鐘。課件中附有數據和課外閱讀供學員練習和擴展知識。當所有課程全部完成後,學員進行期末測試,獲得70分(滿分100分)以上的學員,就可以拿到Marketing Analytics營銷分析這個專項的大證書:信用卡支付購買通道 微信支付購買通道

如果你曾購買過本專項中任意一門課程,請諮詢小助手獲得購買方式(如果你買的課程不在這五門之列,請勿擾)
小助手