close

導讀:生存分析(Survival analysis),是醫學領域常見的分析方法,直白點說,就是分析「因素」和「生存」是否相關,能夠直接將研究的因子和患者最終的預後表型關聯起來,其重要性可想而知。目前,生存分析已經廣泛應用於社會科學和商業領域,今天我們將從用戶流失的視角來談談它的應用。

1

前言

生存分析可以簡單概括為:研究特定事件的發生與時間的關係的回歸。這裡特定事件可以是:病人死亡、病人康復、用戶流失、商品下架等。

以用戶流失為例:

將用戶下首單日期當做「出生」時刻,用戶註銷(或長時間不下單)當做「死亡」時刻(用戶流失),兩者相減即為用戶的生存時間。

當研究用戶流失與時間的關係時我們往往會在意,什麼樣性別年齡的客戶、在什麼樣消費力水平下、面對什麼樣促銷力度誘惑、結合什麼樣的召回手段,會產生什麼樣的"生存時間"?帶着這些疑問,繼續看下去,生存分析能夠給我們答案。

介紹到這裡可能有同學會問:為什麼上述場景不能用普通的線性回歸呢?

仔細回顧這個場景,我們將2020年1月1日當做觀察開始時間,將2021年6月30日當做觀察截止時間,用戶在這期間下首單的日期為該用戶出生時時刻,註銷日期為該用戶死亡時刻。

有一類用戶,在這1年半期間完成了下首單(出生)到註銷(死亡)的流程,可以算出來他們準確的生存時間;但是還有另外一類用戶,在這期間下首單之後不斷購買,未註銷(未死亡),這部分用戶的生存時間還有多久?並不清楚!

生存分析中將這部分用戶的生存數據稱為刪失數據,結合刪失數據與完整數據來研究用戶的生存時間,這是普通的線性回歸難以實現的。

2

案例介紹

為了使大家有個直觀的感受,下面以一個特殊的案例簡要介紹該方法在用戶流失中的應用(本案例數據純屬模擬生成,僅用於本節生存分析案例的使用介紹)。

1. 定義

觀察起始時間:2020年1月1日-2021年6月30日

用戶出生時刻:用戶第一次下單時間

用戶死亡時刻:用戶註銷時間(或者用戶超X個月未下單),為了表述方便,這裡使用用戶註銷當做用戶流失

生存時間(Y):對於在觀察期間註銷用戶來說:生存時間=用戶註銷時間-用戶第一次下單時間;對於到觀察期截止,仍未註銷的用戶來說:生存時間=觀察截止日期-用戶第一次下單時間

是否死亡(N):觀察期截止,用戶是否註銷

影響因素(X):影響用戶生存時間長短的因素,比如性別、年齡、是否會員、最大消費金額、是否評論、最大購買間隔天數等

2. 數據格式化

需要的原始數據格式如下:

轉換後的數據格式如下:

3. 描述分析

結合生存時間(Y)、是否死亡(N)兩個變量,可以研究所有用戶在不同生存時間下,存活的概率(這裡需要用到K-M估計,本文主要講應用,相關理論方法可查閱文末的參考文獻)

由上圖可知:

(1)0-3個月的用戶處於對平台新鮮感保持的狀態,此階段用戶的流失速度不大(斜率小) ;

(2)3-12個月的用戶流失速度較大(斜率大),此時所有用戶都處於快速流失階段;

(3)12個月之後的用戶生存概率幾乎不變,流失速度幾乎未0(斜率幾乎未0),用戶高粘性,對平台已是忠實用戶。

根據上述表現可知:要特殊關注3-12個月用戶在平台的體驗,必要時刻採取特殊手段延續他們的生存時間,這部分用戶潛力很大,一旦成為12月+的留存用戶,用戶整體對平台的依賴度、忠實度會更高。

除了數據生存時間(Y)、是否死亡(N)2個變量外,還可以加入X變量(比如下圖:是否會員)觀測不同組別下,用戶的生存時間和存活概率的關係。

由上圖可知:會員的生存曲線在非會員生存曲線之上,非會員用戶更容易流失。從而可以針對不同類型用戶的生存曲線,做對應的干預動作,實現精細化運營。

4. 量化分析

到這裡可能大家會問:生存分析能否量化不同的影響因素(性別、年齡、是否會員、最大消費金額、最大購買間隔天數)對用戶生存時間的影響?

答案是可以!

(此時會用到COX回歸等,對理論感興趣的同學可查閱附錄中的參考文獻)

生存分析可以針對不同影響因素建立回歸方式,最後輸出如下結果:

影響因素影響因子會員_是1.8評論_是2.1最大購買間隔天數0.8最大消費金額1.3

(1)[會員_是]因素的影響因子為1.8,含義:會員的生存天數是非會員的1.8倍;

(2)[最大購買間隔天數]因素的影響因子是0.8,含義:最大購買間隔天數每增加1天,用戶的平均生存天數減少0.2天。

其中評論的影響因子(2.1)高於會員影響因子(1.8),是提升用戶生存時間ROI較高的因素。

3

總結

生存分析不僅可以應用於傳統的醫學領域,還能應用於研究用戶流失與時間的關係、用戶轉化與時間的關係分析、用戶點擊與時間的關係、商品衰退與時間的關係,只要有特定事件和時間,生存分析無處不在。

以用戶流失分析為例,生存分析方法能提供不同影響因子(性別、年齡、消費力水平、促銷力度等)下,不同時間截點下、用戶發生流失的概率。從而指導業務在不同時間階段、針對不同類型用戶、進行不同的干預動作,提升用戶生存時間,防止流失。

生存分析在用戶流失等場景的應用,筆者還在探索階段,大家如果有相關想法和建議,歡迎在評論區留言探討~~

參考文獻:

《Clinical Statistics》,https://book.douban.com/subject/4699839/


作者簡介

Kylin,網易嚴選數據分析師,喜歡用數據來探索世界。主要負責流量分發、商品分析相關工作。


分享,點讚,在看,安排一下?
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()