close

CDA數據分析師 出品

今天,想用三組概念和三個故事來和大家來分享一下空間數據分析的簡要的過程。首先,無論大家來學習什麼東西,高效的學習至少要有三個要點。

要明確學習的一個目的,為什麼要學這門課;

要有一個正確的學習方法,這樣的話就是通過後面 10 次課的學習,可以掌握空間數據分析的一個能力;

數據分析是一個實踐性很強的一個學科,是需要一個有效的練習。

我們儘量的帶領大家避開一些無用功的一個輸出,把所有的練習時間都花在一個有效輸出的學習目標。

至於學習方法和如何練習,會在課程來體現,先跟大家分享三個概念。

第一個,學習空間分析的目的。

首先這門課的目標是要使大家來學會使用 Python 進行空間數據處理。Python 作為一個開源的腳本語言,考慮到學員里可能有很多這個文科背景的同學對於理科或者編程是有一些陌生的,所以會由淺入深地來分享給大家。分享兩個問題,開始之前第一個問題,空間數據處理的能力,為什麼在這樣一個時間節點上變得越來越重要了。

第二個問題,為什麼我們要做數據分析?數據分析本身它的價值是什麼?因為知道數據分析行業或者說整個數據行業,現在有一個驚人的利潤率。為什麼這樣的一個行業可以產生巨大的價值,這兩個問題跟大家穿插着來分享。

什麼是數據?

簡單來說,數據是一種信息的載體,是一種符號,可以看到我們的史記,是一種文本的數據。那卡農是一種音頻的數據,像韓系載頁面圖是一種圖片的數據,用通俗的話來講,數據就是一種信息的載體,完成的是一個信息保存,第二個是信息傳遞的作用。數據就是手機或者電腦里存的這些數字化的一些東西。但是從古往今來看,具備信息承載功能都可以成為數據。所以說廣義的數據就是從人類的文明知識開始,人類創造了符號開始,在山頂洞人在山洞裡刻下的第一幅壁畫來記錄第一個故事開始,數據已經產生了。

數據為什麼重要呢?

數據從人類的文明開始,就記載人類文明和歷史的載體。在出現數據之前有過什麼,是未知的。數據是始終伴隨着人類文明和歷史的進程之中,這就是數據為什麼是重要的。

第二個,空間數據是什麼?

它跟傳統的數據或者一般的數據有什麼區別?空間數據主要體現表示物體的位置、形態、大小、分布,四個維度是不同的。這四個維度可以來描述一個物體的現象或者定量。空間數據主要分為兩類,一個是圖形數據,另一個是圖像數據,這兩類數據各有各自的性質和優缺點,也是重點來處理的對象,我們會在後面展開分析。舉個例子,就是右邊的梅花衛星雲圖,看到了颱風正在我國東南沿海正在登陸的過程。如何來描述颱風的空間數據?它的位置是用颱風眼來表達的,它的大小就是用一個颱風的直徑。颱風的位置和分布就可以從地圖上來看出來。黃色的線是海岸線,綠色框是大概框出來,颱風影響的範圍就是整個波及到東南沿海,以及像浙江、江蘇南部、江西、福建、等實務一大片區域都是受它的影響。這是梅花颱風的空間數據可以告訴的一些故事。

第二個,這個圖形數據,現在看到微信雲圖,其實就是一個圖像的數據,後邊會來講它的圖形數據到底是什麼。到這裡,簡單的來思考一下,空間數據為什麼是重要的?相比於傳統的數據,多了這些描述物體特性的維度,就能使它變得重要嗎?

其實每個人的背景不一樣,尤其是咱們課程,不同的同學有不同的背景,答案是不同的。那麼從我來看,空間數據是可以在與其他類別的數據結合,幫助提煉出來未知的一些信息。空間數據分析就能夠定量的來回答之前提到的一些問題,以及今後將要遇到的空間相關的問題。我很崇拜的一個哲學家迪卡爾來借用他的一些理論來跟大家分享。為什麼認為空間數據是很重要的。首先,笛卡爾在第一哲學裡提出了物質的廣言這樣的概念。什麼意思?廣言是說所有的物質就是作為一個人類生活在一個三維空間裡。所有的人、物質都必然會有一個長寬高的空間屬性。這種屬性決定了任何的物質或者個體在三維世界裡都是必然存在一個空間信息的,會產生一個空間數據,決定了在這樣一個世界裡,任何的兩種物質不可能同時出現在同一個空間之中。對於人類社會來說,空間是唯一的且稀缺的一種資源,具有排它性的。

理解了空間的特性,可以知道為什麼北京的房子總永遠是不夠的,為什麼靠拓寬馬路,永遠無法解決交通擁堵,或者為什麼人類永遠無法兩次踏入同一條河流。空間數據分析就是基於空間的特性來回答這些問題。

接下來就用三個故事或者說三個三類比較常見的空間分析案例,向大家來分享空間分析的具體過程。

第一個故事,是疫情地圖的案例

一個非常經典的疫情地圖。如果是公共衛生學科、公共管理、城市規劃學科的專業,應該見過這個地圖。在 19 世紀的歐洲,尤其是在英國,是處在工業革命和城市化的進程里。那時候的城市,不像現在有豐富的地下管道或者是城市上層空間的建築。當時的城市是生活污水和垃圾是隨處的傾倒。整個街上就瀰漫着各種臭味,由於工業化帶來的空氣污染也是很嚴重的。倫敦在 19 世紀是出現過很嚴重的霧霾,由此導致的很多人患肺癌或者呼吸道的疾病並因此喪生。在 19 世紀的倫敦,如果不幸的染上了霍亂,就會出現嚴重上吐下瀉的症狀,會因為過度的脫水引發休克或者其他的併發症,最終導致死亡。當時除了英國,整個歐洲都是霍亂頻發的一個狀態,每次霍亂的爆發都會使得上萬人損失生命。

當時關於霍亂的病因的流行是什麼?很多人推測是因為瘴氣導致的,因為整個倫敦就是空氣質量特別差,認為是污穢的氣體擴散導致的。當時一旦出現了霍亂,人們採取的措施就是出門的時候就掩蓋了口鼻或者像今天戴上口罩一樣。在 1854 年 9 月份的時候,倫敦又爆發了一次霍亂。

當時政府按照呼吸道傳染疾病的方式來,採取的防控措施,讓大家來進行掩蓋口鼻,沒有對城市垃圾和排泄物做一個處理,把所有患霍亂病人的排泄物就連同其他的生活垃圾一起倒入了泰武士河。後來就出現了救世主就是中snow ,他是一名麻醉醫生,他在他的助理的協助下,就對看到的這張地圖,對於當時這個死亡病例特別多的地方,看到黑色的柱狀,其實是一條一條的短黑線來疊起來的。就像其他的地方,每一條黑線就代表一個死亡病例。這個地方死亡病例是最多的,因為都是這種疊起來好高,聚集在一起。他跟他的助理就是圍繞着蘇河區進行了一個死亡居民與城市設施之間關聯關係的一個調查,繪製了這樣一個疫情地圖。

從標記的地圖可以看到,在寬街周圍附近是有一個唯一的水泵,圍繞着水泵出現了大量的死亡案例,就是 pump 這個黑點就是那個水泵。但是一街之隔的北側,上邊這個是北側的話,就是死亡病例會明顯的減少很多。

相比於路南,為什麼?因為北方北邊是一個啤酒廠,路北邊的居民大多數是啤酒廠的工人,這些工人大多數是可以免費飲用啤酒廠的啤酒。所以患霍亂的病例就會少很多。通過一個疫情地圖, join snow 就推斷出,可能霍亂的傳染最終是跟水源有關的,其實是一種消化道的傳染疾病。最終發現推動了整個城市的供水和排水系統的發展。就像我們今天城市裡都是飲用水跟排生活廢水的排水是分離的。

這張圖也被視為是整個流行病學的地圖來進行疾病研究的一個開端。使用這種地圖的方法探尋到了傳染病的傳播與空間之間的關係,並且進一步的推動了後來干預霍亂的一種公共疾病的措施,起到了很重要的作用。這個案例一直到今天一直是公共衛生、地理學、城市規劃學科的一個經典的案例。像我們正在面對的這個新冠疫情,大家從 2020 年開始,像高德地圖,百度地圖都出了很多的疫情,相關的地圖大家也都會在地圖的應用里來用。所以對於今天的疫情地圖來說,應該是不陌生了,這是一個最經典的案例開始。

為什麼標題叫突破二次元,就要從二維的空間數據的分析來走向三維數據和四維數據。接下來看一個思維案例。在美國麻省理工大學的一個城市感知實驗室做的一個斯德格爾摩,在新冠疫情中,城市居民的行為數據發生變化的一個案例。這個案例是一個動態的。

首先,課題組是在新冠之後,對格爾摩,整個城市的居民采了兩種數據,一種是推數據,第二種是她做了一個問卷。在發推特的時候是可以標記你的位置信息的,這就為空間分析提供了一個空間數據的屬性。然後可以看到提供了兩種視覺的角度,一種是從上往下的這樣一個俯視的視角,直接直觀的來看到我們數據在空間二維的角度,在一個分布它的聚集過程。從一個三維的視角就可以看出來在這個點的數據強度。在這個界面,數據強度就是調查對象的活躍程度。這幅展示的就是在新冠病毒里,柱子越高,說明這個位置發推特的人就越多。藍色表示在疫情期間同樣的一組數據,說發推特的數據是什麼樣的?剛才紅色是疫情之前的數據,這樣就可以比較出來疫情對於同一個時空範圍內,人的行為模式發生了一個變化。

接下來看地理數據,最常見的用法把空間數據和其他的某一個維度的數據來結合起來。現在展示在底下的這一個折線,橫坐標是日期,縱坐標是在這一天新增的新冠病例的確診數。通過空間數據和新冠確診病例數據的聯合分析,課題組發現了就不同的群體,受新冠影響程度的不一樣體現在哪些地方?上邊的部分,通過數據的空間聚類得到了一個熱點圖,做法就是可以通過很多的點數據來做合密度分析,通過差分的算法來生成一種相對平滑的熱區域和冷區域,剛才的就是熱點區域來衡量城市居民到周邊生活服務設施的訪問頻次。比如說居住小區周邊的便利店或者超市必備的生活提供生活用品的場所。藍色的圖展示居民到周邊的公園,它的頻次。紅色介紹過了,是疫情之前大家經常聚集的地方,藍色就是疫情開始之後的一個維度數據。在下邊可以看到有四個關鍵點。第一個點是 risk increased ,是斯德厄爾摩出現了第二個確診病例之後,在歷史的節點,來比較了在疫情發生之前兩種數據的差異,可以看到疫情開始之前大家常去的地方,疫情開始之後幾乎就不去了,開始之後大家活動的半徑明顯的就是縮小了。

在第二個關鍵節點就是隨着新冠疫情的發展,斯特格爾摩出台了一個居家政策,所有工作場所也關掉了,大家都開始居家辦公,但是保留了公共圖書館開放,這樣一個數據反映出來 96% 的圖書館還是開放的。疫情前後的行為數據是比較明顯,而且強度也可以看出來是有一個差距的。像在下邊數據的右下角,大家也可以看到不同的指標,像這個是百分之二百二十九,然後圖書館開放了。第四個關鍵點是 gathering size restriction 就是政府出台了政策,禁止大家聚集。然後可以看到右下角維度是夜生活減少了89%的強度,像這個餐館減少了百分之四十三的強度。這是一個比較明顯的在疫情分析里常用的一種數據分析的模式。

第二個故事,數字孿生

可能大家聽得比較多,數字孿生是什麼?其實是相對於我們剛才看到數據的可視化,是把現實世界通過各種的手段採集到現實世界來虛擬出來一個世界。數字孿生體是一對一的建立物理世界對應的數字實體。比如對於北京長安街沿線,要建天安門、故宮、大劇院,然後沿着長安街往東走,建王府井所有的建築,這是物理世界到數字世界的映射。孿生的意義在於可以從數字世界反向的向物理世界來映射。同時物理世界是存在大量的傳感器和響應,可以具備響應動作的機械或者電子器件。

數字孿生現在用的最廣的場景就是城市和城市中的智慧園區。數字孿生城市是目前城市化過程中包括城市建設最主要的最熱的一個賽道。一個比較成熟的數字園區做得比較好的。因為在數字園區里,尤其是工廠,機械化程度比較高。對數字實體進行一個操作的話,可以直接映射到物理機械實體。比如中控關掉一個關掉或者打開某一個發動機,那麼對應的物理實體的發動機就會產生相應的動作,去關閉或者打開,像在北京京東和美團會有很發達的比較先進的配送機器人。在數字空間來操作機器人,來讓實體世界的機器人做出一些動作,就是一個數字孿生體的一個雙向映射。數字孿生體其實給數字或者空間數據分析帶來的一個契機,對於數據分析師來說,最頭疼的一個事兒被解決了,就是數據來源的一個問題。整個數字孿生體一旦建立起來,可以實時不斷地從物理世界獲取源源不斷的數據,尤其是空間數據,可以幫助分析師尤其是空間數據的分析師來做出想要的這個結果。

第三個故事,基於空間信息的 Python 空間地理數據分析

其實空間數據和地理數據是有一些不同的,也可以理解成是一個空間的數據。是說空間數據的範疇是更大的地理數據,因為現在是空間數據中體量最大的一類空間數據,所以會把地理數據作為一個主要分析的對象,來作為操作的一個實體。通過對地理數據的分析過程的練習,掌握了對地理數據分析之後,面對其他類別的空間數據,思路方法是一樣的。

大家知道 Apache 開發了很多項目,包括我們的 Java 或者做大數據分析,可以知道 MA mapreduce 或者 hadoop 都是他們來做的。

為什麼說人體圖也是一種空間數據?其實空間數據只要分析的對象實體有空間的屬性,就可以用空間分析的方法來進行分析。在案例里,當我們來把鼠標放上來,會來高亮鼠標所在的一個器官。右側的數據,可以在左側的代碼里去來決定我這個數據右側的柱狀圖代表的是什麼。現在讓它代表的不同臟器的體積,可以看到肝的體積,兩個肺的體積是最大的。然後是腎,它只畫出了一個腎,這個是胰腺的體積,是整個髒體裡最小的,這是小腸、大腸,這是心臟,這樣一個空間分析的過程。

其實有沒有過學中醫的,如果說中醫里是講究陰陽五行平衡,也是講究不同的臟器之間的相互作用。從西醫的角度來看,有的時候心臟的疾病會影響到兩肺或者肝臟。在 2016 年參加過互聯網醫療項目。當時整個互聯網醫療行業,都是嘗試使用大數據的方法來建模,把我們的西醫或者中醫做成一個模型,再進一步的用機器學習來修正我的模型,最後完成一個人工智能來診斷的系統。可以看到就是一個空間數據的分析,也是一個可以幫助診斷不同疾病或者臟器之間相互影響的方法。

第二個例子,就是很有意思的圖,就是可以常吃牛排或者有福建的同學喜歡吃牛肉火鍋,牛的不同部位的肉,味道和質感是不一樣的,肉的價格也是不一樣。這張圖展示不同位置牛肉的價格。在鼠標放在不同的位置上,會懸浮窗顯示的是頂值是100,小的是 5 ,做了一個相對的比較, 85 的位置。就是知道的費力牛排的位置,標深紅色的就是特別貴的,黃色的就是相對便宜的地方。同時,這個圖還有一個功能,就是可以篩選出來,比如想吃到 50 到 70 塊錢的牛肉,應該取哪一個位置?可以拖動底下位置的軸,把然後上限設為 70 如果是一個開牛肉館,那客人要吃價位的牛肉,就知道要去選這幾款牛肉來提供給客人。

我們怎麼來理解?在課上學了地理空間數據分析的方法,在面對宇宙的空間分析如何來用?地球其實是一個抽掉海水之後是左邊的一個形狀,十分不規則的,像一個土豆凹凸不平。現在看到的包括百度地圖、谷歌地圖,是用了一個橢圓的模型,來把地球給理想化成了一個規則的橢圓。橢圓的過程是把不是說在地球的最外圍放一個橢圓把它給包住了,其實是削平了一些高山,比如喜馬拉雅山肯定是削掉的,然後填平了很多溝壑,像馬里亞裏海溝,紅海附近的溝壑都是填掉的,得出了一個橢球體,世界上有多個的橢球體,為什麼會有多個呢?因為基於橢球體,下一步的要建立我們的坐標系。大家現在熟知的北緯 35 度,我們的溫度,我們的溫帶的區域東經 80 度,應該是國內的區域,區域 80 度帶到 125 度的一個帶時是北京時間。那麼以經緯度來標誌的這樣一個坐標,叫大地坐標系。就是一個坐標系,可以看到就是原點是地球的中心,它的原點從這兒發射出來一個 xyz 3軸,也就是熟知的笛卡爾坐標系。為什麼之前說要感謝迪卡爾,發明了廣言的概念,又發明了笛卡爾坐標系,來讓我們今天可以來做空間和地理數據的分析。

通過北緯和經度的這個方式,來度量在球體上一個物體空間的位置。當然在具體的分析過程中還會加入海拔高度,所以經度、緯度加海拔,就幾乎可以確認你在地球上的位置。無論是 GPS 還是北斗,都是使用大地坐標系來進行定位的。那麼到右邊可以看到就是使用所有所謂投影的過程,把三維的球體展開到二維的平面上,這是最常見的一個方式。

像谷歌地圖如果你不斷地縮小,會從平面的地圖變成三維的地球。它使用的是叫地理坐標系或者是大地坐標系。那像百度地圖和高德地圖,你縮到最小的話,它是一個在屏幕屏展開的一個二維的地圖。像它用的就是我們叫投影坐標系,就是用地理坐標系經過投影的算法,展開到平面。這是獲得地理和空間數據的過程。

如果要走出地球面向宇宙中的做一個分析的話,大家知道,像廣義相對論提出了一個觀點是重型天體周圍的空間是被扭曲的,像地球和太陽周圍的空間,不是平直的,會有一個形象化的向左邊這個圖來展示的,是有一凹陷的,這種平面就是一個非歐幾何。笛卡爾坐標系平值的坐標系是建立在歐式幾何的一個框架內。在非歐幾何一個框架下,歐式幾何就用不了。但是可以發現它之間的相似性。就是說其實大 地坐標系也是的非歐式幾何的一個模型。可以通過一個投影的算法,把它投影到一個平面的過程。對於任何的從三維向二維的轉化的過程,只要它是空間的數據,都可以認為是一個投影的過程。只不過投影是需要使用一些數學的算法來進行計算。像這個圖里來,可以看到上邊這個橢圓體,通過一些角的方法幾何的方法,然後有一些累加累成公式其實特別長,這就沒放通過一些方法是可以轉化過來的。那麼一旦轉化過來之後,就可以使用豐富的一種地理數據分析的方法來進行操作。

有沒有人這樣乾的,是有的在這個元宇宙之前,來展示一個有人這樣乾的一個案例。這個案例是什麼?背景是現在都面對這個全球變暖。除了改變能源使用方式之外,有沒有一種方法就是來減少太陽輻射到地球的熱量。這個團隊就想出了一種辦法,能不能在地球和太陽之間來放一些用這種氣泡組成的一個屏障來吸收一部分熱量,被稱為這個 go engineering 就是這個地理工程的一種方法。

經過這種理論的測算,其實用這個理論推導的話,這樣一個氣泡的陣列可以減少太陽到地球 1.8% 的一個熱量的輻射。怎麼來做呢?首先它來構建了是做出了一個可以在外太空來存在的穩定存在的這樣一種氣泡。其實在實驗室已經研製出來了。隨後使用空間數據的一個反向推導的方法,這個點就選在了地球和太陽之間第一拉格朗日平衡點的位置。在這個位置,氣泡的陣列受到地球和太陽的引力是相等的,它可以穩定地停在這。當把它放大之後,就可以看到構想出了這樣一個圓形的陣列,正好把地球擋在它的背後。就是這樣一個很簡單的創意,但是這個創意就完全跳出了地球,如何來從宇宙的角度,如何來改變我們的氣候變暖的問題。

最後元宇宙的概念。其實元宇宙現在無論是學界還是業界,其實是沒有一個取得大多數人共識的一個定義。我在取了中信證券研究部的一個比較便於理解的定義。就可以理解為元宇宙就是在數字孿生的基礎之上,把我們每一個人作為一個個體也做了一個數字孿生。每一個人在數字的虛擬空間裡都有對應的實體。如果看過頭號玩家的電影,會非常容易的來理解概念。

把人本身來數字孿生化了之後,如何面對元宇宙的數據體和現實世界的本身?那麼暢想就是元宇宙的部分,也就是我們所說的這個數字世界的部分。由於在樹的世界裡,我們沒有在現實世界裡的這個物體的光炎,也就是沒有長寬高這樣一個必須的空間體。所以我目前是看不到在元宇宙空間中,數字的建築,或者是人的孿生體,是不存在像物理世界裡的一個屍體的唯一性或者排他性的問題。

元宇宙里的空間數據分析會是什麼樣?這個現在也想不出來,希望大家可以在學習的過程中,能夠發現發散自己的思維。即使是在一個元宇宙的時代,無論是分析元宇宙中的數據還是現實世界的數據,最終都是為了來反推每個人他的行為或者進一步的去影響現實世界中人的行為。現實世界只要人類還是以一個三維實體物種的形式存在,那麼就必然會產生空間數據以及與之相關的問題。

最後簡單地提一下課程。用一分鐘補充一下,就是希望課程可以帶給大家的一個改變。第一個就是左下角的可以更深入地來理解空間,學完之後大家不會再覺得說空間是一個很虛無縹緲的,或者就看到看周圍是所謂的空的東西,可以更深的來理解空間的機理。第二點可能就是如果說在 10 次課的過程中能夠緊跟案例同時完成 10 次作業,使用 Python 如果從小白從 0 開始的話,使用 passing 來基本的編程能力是 OK 的。那麼第三個就是基於這兩種能力來進行分析,可以獲得一個通過空間數據來洞察信息的能力,希望能夠帶給大家的一些改變。回到最開始留下來的兩個問題。

第二個問題是比較重要的,希望仔細思考的這樣一個問題,就是學課程的目的是什麼以及數據分析對於我們每一個人,你自己的價值它到底是什麼?所以對於數據行業,尤其是數據分析行業,附加值特別高的這樣一個工種,說分析師和數據可視化設計師,現在的報酬都是挺高的,還是一個處於人才嚴重緊缺的形式下,排除各種人為的原因,我認為是像一種行業,能產生如此高的這個價值,一定有着某些不為人的意願而改變的一些價值點。

最後就期待大家到時候可以,帶着這個問題的答案,我們一起來探索數據之樂。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()