close

點擊上圖,查看教學大綱

來源:凹凸數據,僅做
全文共4671個字,建議閱讀8分鐘
本篇文章,我們來講講數據分析常用語
1、絕對數和相對數
絕對數:是反應客觀現象總體在一定時間、一定地點下的總規模、總水平的綜合性指標,也是數據分析中常用的指標。比如年GDP,總人口等等。
相對數:是指兩個有聯繫的指標計算而得出的數值,它是反應客觀現象之間的數量聯繫緊密程度的綜合指標。相對數一般以倍數、百分數等表示。相對數的計算公式:
相對數=比較值(比數)/基礎值(基數)
2、百分比和百分點
百分比:是相對數中的一種,它表示一個數是另一個數的百分之幾,也稱為百分率或百分數。百分比的分母是100,也就是用1%作為度量單位,因此便於比較。
百分點:是指不同時期以百分數的形式表示的相對指標的變動幅度,1%等於1個百分點。
3、頻數和頻率
頻數:一個數據在整體中出現的次數。
頻率:某一事件發生的次數與總的事件數之比。頻率通常用比例或百分數表示。
4、比例與比率
比例:是指在總體中各數據占總體的比重,通常反映總體的構成和比例,即部分與整體之間的關係。
比率:是樣本(或總體)中各不同類別數據之間的比值,由於比率不是部分與整體之間的對比關係,因而比值可能大於1。
5、倍數和番數
倍數:用一個數據除以另一個數據獲得,倍數一般用來表示上升、增長幅度,一般不表示減少幅度。
番數:指原來數量的2的n次方。
6、同比和環比
同比:指的是與歷史同時期的數據相比較而獲得的比值,反應事物發展的相對性。
環比:指與上一個統計時期的值進行對比獲得的值,主要反映事物的逐期發展的情況。
7、變量
變量來源於數學,是計算機語言中能儲存計算結果或能表示值抽象概念。變量可以通過變量名訪問。
8、連續變量
在統計學中,變量按變量值是否連續可分為連續變量與離散變量兩種。在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如:年齡、體重等變量。
9、離散變量
離散變量的各變量值之間都是以整數斷開的,如人數、工廠數、機器台數等,都只能按整數計算。離散變量的數值只能用計數的方法取得。
10、定性變量
又名分類變量:觀測的個體只能歸屬於幾種互不相容類別中的一種時,一般是用非數字來表達其類別,這樣的觀測數據稱為定性變量。可以理解成可以分類別的變量,如學歷、性別、婚否等。
11、均值
即平均值,平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。
12、中位數
對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。
13、缺失值
它指的是現有數據集中某個或某些屬性的值是不完全的。
14、異常值
指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。
15、方差
是衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有着重要意義。方差是衡量源數據和期望值相差的度量值。
16、標準差
又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。
17、皮爾森相關係數
皮爾森相關係數是用來反映兩個變量線性相關程度的統計量。相關係數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。
18、PV(Page View)頁面瀏覽量
指某段時間內訪問網站或某一頁面的用戶的總數量,通常用來衡量一篇文章或一次活動帶來的流量效果,也是評價網站日常流量數據的重要指標。PV可重複累計,以用戶訪問網站作為統計依據,用戶每刷新一次即重新計算一次。
19、UV(Unique Visitor)獨立訪客
指來到網站或頁面的用戶總數,這個用戶是獨立的,同一用戶不同時段訪問網站只算作一個獨立訪客,不會重複累計,通常以PC端的Cookie數量作為統計依據。
20、Visit 訪問
指用戶通過外部鏈接來到網站,從用戶來到網站到用戶在瀏覽器中關閉頁面,這一過程算作一次訪問。
21、Bounce Rate 跳出率
指用戶通過鏈接來到網站,在當前頁面沒有任何交互就離開網站的行為,這就算作此頁面增加了一個「跳出」,跳出率一般針對網站的某個頁面而言。
跳出率=在這個頁面跳出的用戶數/PV
22、退出率
一般針對某個頁面而言。指用戶訪問某網站的某個頁面之後,從瀏覽器中將與此網站相關的所有頁面全部關閉,就算此頁面增加了一個「退出「。
退出率=在這個頁面退出的用戶數/PV
23、Click 點擊
一般針對付費廣告而言,指用戶點擊某個鏈接、頁面、banner的次數,可重複累計。比如我在PC端看到一則新聞鏈接點進去看了一會就關了,過了一會又點進去看了一遍,這就算我為這篇新聞貢獻兩次點擊。
24、avr.time 平均停留時長
指某個頁面被用戶訪問,在頁面停留時長的平均值,通常用來衡量一個頁面內容的質量。
avr.time=訪客數量/用戶總停留時長
25、CTR 點擊率
指某個廣告、Banner、URL被點擊的次數和被瀏覽的總次數的比值。一般用來考核廣告投放的引流效果。
CTR=點擊數(click)/被用戶看到的次數
26、Conversion rate 轉化率
指用戶完成設定的轉化環節的次數和總會話人數的百分比,通常用來評價一個轉化環節的好壞,如果轉化率較低則需優化該轉化環節。轉化率=轉化會話數/總會話數
27、漏斗
通常指產生目標轉化前的明確流程,比如在淘寶購物,從點擊商品鏈接到查看詳情頁,再到查看顧客評價、領取商家優惠券,再到填寫地址、付款,每個環節都有可能流失用戶,這就要求商家必須做好每一個轉化環節,漏斗是評價轉化環節優劣的指標。
28、投資回報率(ROI:Return On Investment )
反映投入和產出的關係,衡量我這個投資值不值得,能給到我多少價值的東西(非單單的利潤),這個是站在投資的角度或長遠生意上看的。
其計算公式為:投資回報率(ROI)=年利潤或年均利潤/投資總額×100%,通常用於評估企業對於某項活動的價值,ROI高表示該項目價值高。
29、重複購買率
指消費者在網站中的重複購買次數
30、流失分析(Churn Analysis/Attrition Analysis)
描述哪些顧客可能停止使用公司的產品/業務,以及識別哪些顧客的流失會帶來最大損失。流失分析的結果用於為可能要流失的顧客準備新的優惠。
31、顧客細分&畫像(Customer Segmentation & Profiling)
根據現有的顧客數據,將特徵、行為相似的顧客歸類分組。描述和比較各組。
32、顧客的生命周期價值 (Lifetime Value, LTV)
顧客在他/她的一生中為一個公司產生的預期折算利潤。
33、購物籃分析(Market Basket Analysis)
識別在交易中經常同時出現的商品組合或服務組合,例如經常被一起購買的產品。此類分析的結果被用於推薦附加商品,為陳列商品的決策提供依據等。
34、實時決策(Real Time Decisioning, RTD)
幫助企業做出實時(近乎無延遲)的最優銷售/營銷決策。比如,實時決策系統(打分系統)可以通過多種商業規則或模型,在顧客與公司互動的瞬間,對顧客進行評分和排名。
35、留存/顧客留存(Retention / Customer Retention)
指建立後能夠長期維持的客戶關係的百分比。
36、相關性分析(Correlation analysis)
是一種數據分析方法,用於分析變量之間是否存在正相關,或者負相關。
37、生存分析(Survival Analysis)
估測一名顧客繼續使用某業務的時間,或在後續時段流失的可能性。此類信息能讓企業判斷所要預測時段的顧客留存,並引入合適的忠誠度政策。
38、算法(Algorithms)
可以完成某種數據分析的數學公式。
39、商業智能(Business Intelligence)
分析數據、展示信息以幫助企業的執行者、管理層、其他人員進行更有根據的商業決策的應用、設施、工具、過程。
40、分類分析(Classification analysis)
從數據中獲得重要的相關性信息的系統化過程;這類數據也被稱為元數據(meta data),是描述數據的數據。
41、聚類分析(Clustering analysis)
它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析數據間的差異和相似性。
42、對比分析(Comparative analysis)
在非常大的數據集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果。
43、數據分析(Data Analysis)
是指根據分析目的,用適當的分析方法及工具,對數據進行處理與分析,提取有價值的信息,形成有效結論的過程。
44、數據處理(Data Processing)
數據處理是指根據數據分析的目的,將收集到的數據進行加工、整理,形成適合數據分析的樣式,它是數據分析前必不可少的階段。
45、數據挖掘(Data mining)
數據挖掘是通過使用複雜的模式識別技術,從而找到有意義的模式,並得出大量數據的見解。
46、數據清洗(Data cleansing)
對數據進行重新審查和校驗的過程,目的在於刪除重複信息、糾正存在的錯誤,並提供數據一致性。
47、數據質量(Data Quality)
有關確保數據可靠性和實用價值的過程和技術。高質量的數據應該忠實體現其背後的事務進程,並能滿足在運營、決策、規劃中的預期用途。
48、數據建模(Data modelling)
使用數據建模技術來分析數據對象,以此洞悉數據的內在涵義。
49、數據集(Data set)
大量數據的集合。
50、判別分析(Discriminant analysis)
將數據分類,按不同的分類方式,可將數據分配到不同的群組,類別或者目錄。是一種統計分析法,可以對數據中某些群組或集群的已知信息進行分析,並從中獲取分類規則。
51、探索性分析(Exploratory analysis)
在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法。
52、機器學習(Machine learning)
人工智能的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現自我改進。
53、網絡分析(Network analysis)
分析網絡或圖論中節點間的關係,即分析網絡中節點間的連接和強度關係。
54、異常值檢測(Outlier detection)
異常值是指嚴重偏離一個數據集或一個數據組合總平均值的對象,該對象與數據集中的其他它相去甚遠,因此,異常值的出現意味着系統發生問題,需要對此另加分析。
55、模式識別(Pattern Recognition)
通過算法來識別數據中的模式,並對同一數據源中的新數據作出預測
56、預測分析(Predictive analysis)
大數據分析方法中最有價值的一種分析方法,這種方法有助於預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網站,做某些事情或者產生某種行為。通過使用各種不同的數據集,例如歷史數據,事務數據,社交數據,或者客戶的個人信息數據,來識別風險和機遇。
57、回歸分析(Regression analysis)
確定兩個變量間的依賴關係。這種方法假設兩個變量之間存在單向的因果關係(譯者註:自變量,因變量,二者不可互換)。
58、路徑分析(Routing analysis)
針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優路徑,以達到降低燃料費用,提高效率的目的。
59、情感分析(Sentiment Analysis)
通過算法分析出人們是如何看待某些話題。
60、SQL
在關係型數據庫中,用於檢索數據的一種編程語言。
61、時序分析(Time series analysis)
分析在重複測量時間裡獲得的定義良好的數據。分析的數據必須是良好定義的,並且要取自相同時間間隔的連續時間點。
62、文本挖掘(Text Mining)
對包含自然語言的數據的分析。對源數據中詞語和短語進行統計計算,以便用數學術語表達文本結構,之後用傳統數據挖掘技術分析文本結構。
63、可視化(Visualization)
只有正確的可視化,原始數據才可被投入使用。這裡的「可視化」並非普通的圖型或餅圖,可視化指是的複雜的圖表,圖表中包含大量的數據信息,但可以被很容易地理解和閱讀。
64、儀錶板(Dashboard)
使用算法分析數據,並將結果用圖表方式顯示於儀錶板中。

掃碼,限量優惠購書


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()