「一千個讀者心中有一千個哈姆雷特」,數據可視化亦是如此。在日常的工作中,我們經常會遇到這樣的情況:即使是完全相同的原始數據,不同的表達方式會讓讀者有完全不同的理解。本文將介紹數據可視化過程中常見的幾個陷阱和處理辦法,幫助大家更加準確、高效地展示數據,洞察數據背後的意義。
數據可視化,是將抽象的數據、指標、概念進行具象圖形可視的過程。其在幾個世紀前就是人們理解數據之間相互關聯的首選方法。舉個例子,最早的條形圖開發在1786年,由威廉·普萊費爾發布的《The Commercial and Political Atlas》,這是有史以來第一個線性圖和條形圖。
(史上第一張條形圖)
威廉·普萊費爾想比較蘇格蘭一年內(1780-1781)的進口總額和出口總額,並按照進出口的來源和目的地進行細分。為了繪製進出口總額,區分進出口的來源和目的地,他嘗試了許多方法,最後發現條形圖和標尺的組合可以達到他想要的效果。這就是世界上第一個有記錄的條形圖的來源,它最後的呈現結果如上所示。
數據在可視化之前,縱使作者闡述時巧舌如簧,效果也會大打折扣。原因很簡單,字不如表,表不如圖。數據本身是有溝通障礙的,尤其是當讀者或者上級對數據不敏感時,此時的可視化就相當於是一種「翻譯」,將數據以及數據背後的邏輯,準確又高效地傳遞給對方。
在日常的工作中,我們經常會遇到這樣的情況:即使是完全相同的原始數據,不同的表達方式會讓讀者有完全不同的理解。下面我們將會針對幾個常見可視化案例,來探討數據可視化過程中的陷阱和處理辦法。(以下數據已脫敏)
案例1:百變的坐標抽
背景說明:
11月下旬網易某產品更新了版本,對產品樣式進行了較大調整。圖1-1是某個模塊的曝光情況。通過以下折線圖數據,A同學得出結論:新版對該模塊的曝光沒有明顯影響。
事實上:
圖1-1是一個折線圖:橫軸展示了最近2個多月的樣本點;縱軸同時展示了4個指標,但每個軸的高度很有限。
如果我們改變橫軸的時間周期、調整縱軸的軸範圍,我們會發現一個更加符合實際的情況結論(如圖1-2):新版發布後,該模塊的曝光人數下降了10%以上,無論是周末的高峰還是周中的平峰;且隨着新版本的逐步覆蓋,下降仍在繼續。
一個簡單的折線圖,我們通過調整橫軸和縱軸的軸範圍,最終得到了問題的答案。
案例2:圖表樣式的選擇
背景說明:
圖2-1是某公司A-E這5款產品的月銷量數據。但領導看到這個圖以後仍然提出了幾個問題:每個商品的銷售趨勢如何?誰更有發展潛力?每個月的銷量排名是怎樣的?哪些產品高於平均水平?
事實上:
很顯然,圖2-1展示的條形圖樣式,沒有快速解答領導的疑惑。
如果我們改變圖表樣式,調整橫軸和顏色的維度,我們會發現領導提出的幾個關鍵問題都在圖上得到了答案(如圖2-2):商品銷量逐月上漲,其中商品B的增幅最快;每個月的銷量排名在圖中一目了然,其中AB商品的銷量大部分情況下都高於平均水平。
合理的圖表樣式和展示形式,能讓讀者快速理解數據,得到關鍵結論。
案例3:過度可視化
背景說明:
圖3-1是某公司各城市的利潤數據,每個城市對應一個條形圖的顏色。
事實上:
圖3-1的這種形式可能看起來像一個有趣的視覺效果,但它並沒有創造任何新的數據信息或使圖形更容易閱讀。
如果我們改變樣式,用顏色來標識各省對應的地區,我們會發現更多的信息(如圖3-2):華東和中南地區包攬了利潤前7的省份;但同時,負利潤的7個城市中,華東和中南地區也占了3個,說明兩大區內部的利潤表現極差較大,可以嘗試做一些內部優化。
顏色是增強數據可視化的一種非常有效的方法,但不恰當或者過多的顏色選擇也會破壞視覺效果、適得其反。顏色的使用必須是基於某一個目的的,而不是用來分散注意力的。
數據可視化是一個提問與回答的過程。問題通常不僅透露你想要知道的內容,還透露你實際知道的內容,更好的問題意味着更佳的理解。將問題分門別類,找到合適的圖表類型進行匹配,是一個需要長期實踐和探索的過程。
最後,希望大家都可以根據需求正確理解數據、合理表達,讓數據可視化幫助我們的大腦減負,替我們的數據說話。
豆彬,網易雲音樂資深數據分析師。曾參與過網易雲音樂、LOOK直播等產品的分析工作。
贈書福利
