文字內容來自於張溪夢老師在CDAS數據分析師行業峰會的演講實錄,GrowingIO創始人兼CEO張溪夢,曾是LinkedIn(領英)美國商業分析部高級總監,也被美國DataScienceCentral評選為「世界前十位前沿數據科學家」。本次峰會現場張溪夢老師從數據的基本定義開始,深入淺出帶領大家一起了解了一個數據科學家的能力模型,以及相關的輔助性技能,同時為大家解構了數據分析如何驅動商業,小到運營,產品、營銷,大到商業決策,最後以企業如何利用數據價值變現結語。(PS:本文完整視頻版可掃描文末二維碼或點擊原文鏈接)
非常感謝有這次機會跟大家分享我在過去十年裡面的經驗,也非常感謝經管之家組織這次很好的活動。而且前面聽到了在座的各位行業專家的分享,其實我今天講的東西要重複前面幾位專家講的東西。在過去十二年我在美國工作的時間,學到最重要的東西就是數據決策,我們今天做的只是重複古代人的再次決策,使我們的規模變得更大化。
大家想一想最早的數據分析師在什麼時候,其實就是我們中國人,那時候姜子牙給周文王講天下大事,他講的就是數據分析,通過對很多微妙的信號衍生出來對於未來的判斷,然後產生了各種執行力,最後建立了國家。
今天我跟大家分享的題目是「如何將數據科學與商業結合結合起來」,我個人認為最核心的關聯就是一個人的創造力,一個團隊的創造力,一個公司的創造力,一個社會的創造力,這種創造力是關聯科學、商業、藝術、文化等最核心的方面。

大家可以看到他們以前的願景和遠見已經變成了事實價值,大家想一想到底什麼是數據,我們講數據、也決策、數據分析,什麼是數據。

其實數據是非常簡單而優美的過程。它關聯了四個事物,一是人物,二是地點,三是交互的方法,中間完全關聯再一個非常美妙的物理事實上就是時間。每一條數據,都是這種活動最基本的組合。

我們看看再過四年,這個世界會變成什麼樣的世界。在下面的四年,我們會有40億人進入到數據的網絡之中,這將是一個4萬億美元的市場。我們將產生2500萬的各種跟數據有關係的東西。還將有250億台設備,連接到通過數序構建的網絡裡面。大家注意到這不是互聯網連接的世界,而是通過數據來連接的世界,剛才幾位專家也分享了,工業4.0,很多機器真正連到互聯網上去,但是它們內部建造了各種複雜優美的網絡,最後就是數據量的問題。

2020年會產生50萬億GB的數據,這是什麼概念呢?我想用一些信息來跟大家分享,我之前所在的公司每天生成大約1TB的數據,它是世界上前12最大的網站和手機端。我們怎麼做呢?今天大家披露出來的數據,比如說百度,一個數據科學家應該具備什麼樣的素質。其實這個問題也是我在我原來的公司第一次面試的問題,什麼確定了一個好的數據科學家或者是數據分析師他最基本的素質。當時因為在餐館裡面沒有筆,也沒有紙,後來我們要了一張餐巾紙,拿個筆在餐巾紙上畫。

最早的時候,這就是當時在餐巾紙上畫的基本元素。首先是所有的環節沒有哪個重要,哪個不重要,它是關聯在一起的,是同等重要的,也是不可或缺的。比如說統計學,真正好的數據科學家需要很深刻的統計。第二是機器學習的能力。第三是工廠編程,一個好的數據科學家需要有能力用最直觀、簡單的辦法把數據天才展現出來。然後他必須要有商業、運營天然的直覺。他必須要有很深刻的行業知識,不過行業知識是可以跨界的,也是可以複製的。他必須要有很強的數據處理能力,這幾個詞描述了如何把非結構化、半結構化,甚至是結構化的信息變成我們真正需要的精煉的信息。
我們需要關注的是一個人或者一個組織他很強的溝通能力,因為好的數據科學家必須要有效率的跟公司的各個工程師進行溝通。最後一點就是運籌學,在美國這個學科已經發展了幾十年,包括剛才講的例子,實際上是在一戰、二戰發展起來的。包括今天舉行的例子像Uber和滴滴,他們用運籌學進行大範圍的優化,這個能力也是數據科學家基本的能力。
還有什麼能力數據科學家應該擁有?
我記得當時在餐巾紙上寫完這些以後,這裡面缺太多的東西了,什麼能力能讓一個好的數據科學家變成非常頂級的數據科學家。我們還缺乏什麼樣的能力。首先,一個好的數據科學家必須有勇氣能夠創造別人認為不可能的事情,這種東西是一個創造力最基本的核心。

它必須能夠把科學、商業、人文、技術、藝術等各個環節進行統和。因為當大家做數據分析的時候,你會發現上本質這個世界本身是非常高度關聯的,是有非常深刻統一性。任何事情都在改變,但是它的本源是關聯的,一個好的數據科學家,他必須把數據技術和藝術之間相結合。它必須從很深刻的人文觀,而不只是把它變成一種科學來對待。
我們必須通過實證的方法在商業上把它落地,在商業落地的過程中,證明我們各種的理論,我個人認為好的科學家必須有綜合的能力。

大家會想這是多麼有挑戰的事情,到底可不可能實現。如何用數據分析和業務緊密結合。大家看一看這五個環,首先是商業本身是一個非常有規律的過程,而不是一個完全隨機出現的。

我們看看這五個環,對品牌的認知、市場運營、產品互動、銷售線索、客戶忠誠和留存。大家想一想這五個環是不是一個商業生命周期從開始到結束,它不斷演化,不斷進步,最後結出果實。但是核心的是口碑獲取、體驗、轉化、留存這五個字樣,它背後缺乏一個東西是什麼,是客戶,我們要專注客戶的口碑,獲取更多的客戶,增加客戶的體驗。轉化更多的客戶為付費的客戶,存留更多的客戶。大家看一看所有的還是圍繞着人來展開的。

通過五個商業步驟,背後的數據分析如何支撐他們。SOV、CPM、CPC,這些非常古怪的縮寫可以透視出很多商業意義。你需要知道我們今天發布的信息被多少人知道,比如說PPC,我的朋友跟我說現在世界上最聰明的人都去搞點擊率了。最核心的基礎就是40%的業務運營,60%的工具使用。比如說註冊,CVC客戶獲取,我們再往下走是用戶要使用你的產品,最簡單的DAU、MAU每天有多少活躍用戶,每個月有多少活躍用戶。PPV、UV分析一個月有多少真正的訪客,這裡面用戶看了哪些文章。比如說有多少交易額,我們再看產品的單價,以及整個的銷售額,再看MRR,這是衡量SaaS企業最核心的東西。再看客戶本身的生命周期值多少錢。然後是用戶成功的指針,如何衡量流失,如何衡量客戶忠誠。
大家看到每一個商業環節的背後有大量的分析指針,不是從互聯網才開始的。在這之前幾十年,各種商業理念得到更多的呈現。

我今天跟大家分享幾個案例,就是說如何用數據分析的方法來增進各個業務環節的過程。比如說獲取用戶,就是用市場營銷的方法。產品互動,分享產品的體驗,用產品分析。付費的轉化,比如說把一個普通用戶變成付費用戶。再下面是業務拓展,如果把付費用戶變成忠誠用戶,而不讓他流失。

首先,如何增加信用度,我在領英工作的五年中,第一點,非常精確判斷用戶從哪個渠道來的,必須要進行衡量。第二個,我們每個渠道的效率是什麼樣的,我們需要衡量每個渠道的轉化率,資源投放率,還有最後的LY。特別社交網絡的話,這是一個非常複雜的過程,它也不是非常直接的就可以衡量的,而是非常間接的,有網際效應的迭代。最後下面我們要分析每個客戶,這些 客戶到底買沒買,轉化沒轉化,有沒有變成我們更有價值的客戶,這是大部分互聯網公司做的也許並沒有那麼成熟的一點,就是我們往往我們知道客戶從哪個渠道來的,但是是否真正轉化了,在哪個點轉化了,這方面還是比較模糊的。
再下面,就是客戶區隔,我們必須針對不同的人群,不同人自營銷方案,獲取最高的轉化率,用最少的成本。再下面就是我們衡量LY,我們再領英是怎麼做的呢?第一,我們幫助我們的企業衡量它在領英平台的廣告轉化率,或者僱傭人的轉化率,然後把LY提煉成一個指標,就是一個公司在領英上面或者在世界上面,它的品牌在僱傭上的指數,這件產品後來變成領英內部一個很好的產品賣給了客戶。因為客戶需要知道自己的企業在世界競爭格局下的位置。

再下面一點,像網站我們如何能夠迅速衡量用戶是否在網站有各種摩擦,他是否喜歡這個產品,他用的是否順暢?非常簡單,所有互聯網的分析或者APP分析,我們可以非常單純的理解為它是一個漏斗的轉化,我們必須強調在漏斗轉化中的無摩擦性,順暢性,流暢度,從而給用戶提供很好的用戶體驗。再下面一點,就是要完善用戶畫像,這個用戶畫像本身不止是地理位置,他的職位,他的收入,他的性別,還包括他的傾向性,他喜歡用什麼樣的老師,他喜歡讀什麼樣的文章等等,這樣我們就不斷完善用戶的畫像。
再下面,我們要理解這個用戶的傾向,之前做過一個研究,用戶的基礎畫像提供大約,從數據是15%個點的價值,用戶的使用行為提供25%-35%的價值。用戶傾向提供數據里剩餘的60%左右的價值。大家可以看到用戶的傾向性是我們增加轉化率的一個核心的分析點。最後一點,就是假設檢驗,其實這是一個很傳統的方式,就是我們要帶着問題去做,實際上在今天來說的話,這是我個人的感覺,作為十幾年的工作經驗,真正的現在來說的話,假設檢驗這個被大數據開始慢慢的顛覆,因為我們從數據里看到很多新的趨勢,是人從來沒有想到過的。舉個例子,像用領英各種資料圖做了一個公司的圖,發現公司的組織架構能夠通過在領英上人與人的關聯抽取出來。這點我個人認為以往是沒有想到過的。
另外,通過人的流動圖可以看一個公司是否IPO,這個信息也不是人們拍腦袋想出來的,而是從數據抽取出來的,看到的趨勢。所以說大數據顛覆我們的傳統的概念和分析概念。

再講講銷售,首先我覺得這五個步驟不僅僅適用於對企業的銷售,像包括建立網站和社區,我們都需要把用戶不斷的轉化。首先,最重要的一點,就是我們有他們多潛在的客戶,哪個客戶使最重要的,這點可以通過他在網站,APP上蛛絲馬跡的行為進行判斷。還有一個,以前在公司里需要派哪個客戶去跟雅虎或者亞馬遜接觸。下面還需要通過數據理解這個公司誰是決策人。再接着需要通過內部網絡社交關係,哪個人認識決策者,能讓他買我們的產品。最後是如何用數據講一個真實的故事讓客戶有更高的信息來採購我們的產品。這五個步驟全部可以用數據驅動,而且驅動的速度是以前別人認為可能需要兩個星期,三個星期的決策周期,今天我們可以用在一分鐘之內就可以實現,這就是數據科學,技術力給我們帶來的價值。

再下面講講如何促進用戶留存。實際上客戶的留存通過他的很多微妙的行為,跟我們講的很多的很好的故事。我們以前做了很多這樣的模型,後來發現真正流失的用戶在非常早期就已經釋放這種信號。因為用戶有幾個生命周期,整個流程有生命周期的,往往用戶在早期很微妙的行為的加權,就能知道這個客戶會在未來哪個時間點會流失。這是我們兩三年來做用戶的模型,慢慢的把留存的模型的時間線不斷的往前提前,最早預算用戶流失的時候,立刻發信息。後來發現用戶使用好的時候問他怎麼用,這樣留存率提高了10%。還有在教育的時候是不是要對客戶進行培訓,各種引導、輔助,後來發現客戶的留存度增加了非常非常多。因為這個是領英財報寫的,大概從50%流失率降到20%的流失率。這些都是數據和運營相結合的一個很好的過程。


再講講現實,一般來說,在一個企業內部,特別是互聯網企業,業務端:銷售、運營、產品等各種人提出各種需求,雪片般飛來。來到這些部門發現根本沒有數據,所以我們需要跟工程人員一起工作把這個數據搜集上來,這是反覆迭代,非常緩慢的過程。美國頂級研究機構做了一個調查,只有50%的公司能夠在4-5周之內能夠把數據搜集上來。注意,是數據搜集上來。只有1%公司能夠在一天把這個數據搜集上來,5%的公司能夠一周把數據搜集的工作做好,還有剩下50%公司需要花5個星期完成這個搜集循環。再下面我們有分析師,對這些數據進行抽取可視化。最後由科學家、統計學家,戰略分析師對數據進行進一步的提煉。這麼一個流程就像一個污水處理廠從池子裡過濾沉澱、再過濾沉澱,今天可以用比較成熟的新型大數據框架,我們走的還是這個流程。

我們看這張圖,這張圖反映了當今的互聯網企業3%-5%都不到的數據流程,大家想想這是多麼複雜,多麼昂貴的過程。我們怎麼改變它?

我只做過一個PPT,這個金字塔的下面大約會消耗人90%的時間。這是一個共識是一個研究機構分析的結果。我們數據工程師只有10%甚至少於10%的時間是真正產生非常大的市場價值。所以說一定要關注技術,爭取把決策推廣給很多很多人,這就是大數據帶給商業價值一個非常簡單的方法。
大家想想我們以前工作很長時間,只能產品10%的價值,90%的時間都浪費在數據清洗上面了。今天公司很多人能做到數據決策,能做到這點就需要我們用先進的工具技術,分析理念,結合先進的業務的方法論,把下面的時間儘量的做到全自動化。

大家想想我們節省了90%的時間,如果能把這部精力用在金字塔尖上的話,我們產出效益能達到將近10%。實際上在以前的工作經驗里看到,當我們用新興的技術把底部做小,或者用新型的工具、產品把底部的產品做消失,這會給企業提供價值。孫子兵法有一句話,叫廟算勝者,得算多也,廟算不勝者,得算少也,多算勝,少算不勝。就是不去做數據分析,不去做決策,是很難對這種高密度競爭環境下生存。所以我們今天在座的很多都是行業專家,一定要想辦法把數據分析做到全自動化。這就是我們今天的發展方向。

最後講一講創造力的問題,旁邊一個電影是《諜中諜》,旁邊另外一個電影是美國的《星球大戰》,旁邊是他的學生,當時這個場景是在什麼樣的環境下呢?你能不能把飛船抬起來,後來他抬起來了。大家可以想一想這是科幻電影裡面的故事,其實這是不是,這是現實。當我們認為它不可能的時候,這個事情就變成永久的不可能。
我用一個案例跟大家分享一下,有一個非常優秀的統計學家,他做了一個模型的,他進行了近似嘗試,下一個模型他通過互聯網模型掙了更多的錢,這就是最終的創造力是要基於信念。大家相信數據一定能給很多人帶來價值,我相信在座大家的智慧和領導力、創造力一定能把這個變成現實,謝謝大家。
