書圈 - 大數據智能平台的構建策略與步驟－鑽石舞台

Apr 30 Sat 2022 15:32
書圈 - 大數據智能平台的構建策略與步驟

大數據是社會數字化的產物，隨着業務成熟度的逐漸向上發展，面對的需求逐漸多樣化和個性化，對於創新的要求也越來越高，因此可以說智能數據是大數據發展的高級階段，是大數據在應用創新落地方向的核心要求。本章將介紹大數據智能平台的建設內容。建設的核心過程是採用什麼的策略，這包括系統、業務、平台三個方面的設計思路、建設體系和實施方式。本章分為三個部分，第一部分介紹數據業務的構建，第二部分介紹系統+平台如何構成數據智能的體系，第三部分結合目前最新的數據中台概念來陳述。

數據業務的構建過程

通用的開展大數據業務的過程總結起來如下圖所示。

■圖1 大數據業務構建過程

首先是數據系統的建設，數據系統是基礎。從確定要進行哪些方面的數據收集開始，需要把收集到的數據進行清洗、篩選、格式轉換、存入系統中，並且按照技術平台的要求，投入人力、設備等進行大數據系統的搭建。其次是數據業務建模。有了系統，就可以基於這個系統來觀察數據，可以由建模人員利用其專業知識進行基於機器學習方法理論的建模，在得到一個合適的模型之後，需要把此模型放置到大數據系統中進行運行。一般來說，這個大數據系統需要有大數據工程師一起參與，將模型轉換成適合在平台上運行的代碼，當然逐漸地會出現很多高效率的工具來幫助這種代碼化的轉換。最後是數據業務開展，需要把數據價值體現到業務上去，也就是數據業務的發展，通過分析人員對數據進行再整理、可視化呈現、洞察後來指導業務開展。而如果從中可以抽象出新的產品，那麼通過產品設計來形成創新，創造出新的商業價值。

●

數據系統建設

為了把這個事情說明白，特別是對裡面的要點、難點等有一個清晰的呈現，下面採用一個現實中的基礎建設的例子來說明。

假設我們目前需要在一個靠近大海的地方建設一個新型設備的工廠，這個設備可以用於我們日常生活，應該會大大提高我們的生活水平，但是目前市場的前景也不是特別明朗。而建造這個設備所需要的原材料很大一部分又需要從各個分散的城市或者城鎮中運送過來。

作為工廠進行生產製造的基礎，我們需要建造公路來連接原料產地和工廠所在的地方，也需要建造廠房來進行生產，也就是需要基礎設施的建設，那麼對於大數據技術層次來說，大數據系統建設就屬於基礎建設要求。

依據我們對於市場的認識以及資源（資金、能力等）的準備情況，建設基礎設施（以構造公路作為主要的工作為例），首先至少必須明確以下幾點：

● 造路的主要目的是什麼？

●連接哪裡到哪裡、中間多少出入口？

● 什麼時間滿足多少交通流量？（階段、造多寬的路、車輛類型、可以運載什麼貨物、允許最大數量等）

● 目前擁有的資源是什麼？（預算、團隊、時間等）

●階段的規劃是什麼？（資源、目標、實施）

這時候最主要的一點就是需要清晰造路的主要目的，也就是建設這個系統的近期、遠期目標是什麼？這個可以根據第7章7.5節內容【成熟度模型】部分來進行規劃。這個目的也是在圖8-1中最上面的部分決定的。這個目標的指導下，我們需要去盤點我們的哪些城市、城鎮裡面有哪些需要接入到這個公路系統上面去。這些城鎮就好比我們公司中不同的業務系統。對於有些公司來說，系統比較單一、異構程度不大，那麼應該還好處理；對於另外一些公司而言，業務系統比較多，異構程度也比較大，這個時候難點就在於梳理下面的幾個方面：

●哪些城市需要接入（也就是需要哪些原料、生產出來的設備會運往哪裡）

●這些城市到達各個入口的支路是否建設好

●建設這些支路對於原有系統的影響多大

●如果影響比較大的話，如何解決

●原料是否還需要再加工

●原料的量是多少

對應到大數據系統，這些也就是需要回答以下問題：

●是否確定了數據源頭對應的業務系統是哪些

●這些系統通過何種方式來準備數據

●數據如何被接入到大數據系統

●源數據是否已經被收集

●數據格式是否已標準化

●數據量是多少

在把城市通往廠房的路造好後，也並不是一勞永逸的事情，後續依然需要根據需要不斷去打造、維護、升級。同時，我們也還需要建造廠房、購置生產設備、建立流水線、建造倉庫用於存放原料和生產出來的設備等等。

對應到系統建設方面也就是大致下面幾個：

●數據收集系統：確定數據源，數據格式，數據傳輸方法，數據清洗工具等。

●搭建存儲集群：確定存儲規模、服務器配置和數量、網絡規劃及建設、安裝和調試集群、確定存儲方式等

●搭建計算集群：確定計算方式、計算規模、服務器配置和數量、網絡規劃及建設、安裝和調試集群、任務調度機制等

●數據安全策略設計（可以按階段進行）

●

數據業務建模

沿着上面的過程，我們來看看數據業務建模方面需要做什麼。

在我們把廠房、流水線等初步建設完成後，我們陸續把所需要的材料經過多種方式拉到工廠之後，接下去我們需要有一些專業的工程師進行以下活動：

●為了保證後續生產的效率，我們需要對原料進行分門別類，確定存放地點和存放順序，必要時還需要進行一定的搭配

●從這些材料中，挑選出一些進行化驗，來確定其成色和質量。最後確定哪些可以用，哪些不可以用。

●然後進行加工工藝的設計，哪些材料什麼時候通過什麼方式進入生產線。哪些零件先生產出來，哪些後生產出來，如何裝配。

●對生產出來的設備需要確定調試和驗證方法，確定其在質量要求範圍之內。

這個工作對應到大數據技術中，就是數據建模。數據建模就是建立數據存放模型和處理，把各個數據源過來的各種數據根據一定的業務規則或者應用需求對數據重新進行規劃、設計和整理。然後根據這個產品的要求，利用這些數據的樣本來進行模型的建立，確定輸入的數據要求，送入處理流水線，一直到產生最終的結果。

這個階段的難點和要點在於：

●需要有具有行業專業技能的人才，這類人才首要的能力是具有行業相關的業務知識和洞察，掌握行業內常用的建模經驗。

●特徵工程，確定哪些特徵可以用於業務模型。由於數據在收集過程中，數據輸送方由於各種原因，事先並不一定清楚或者預見到會服務於何種業務，而在實際使用時需要進行再處理（標準化）以滿足建模的需要。所以對於各種形式的數據，需要通過特徵工程來進行特徵篩選、特徵組合、特徵變換等，才能為後續的模型所使用。

●對數據確定高效的存取模型。經過特徵工程後的數據是可以作為模型的輸入進行建模了，為了保證在生產環境中的模型運行效率，需要確定數據的存取模型，還需要進行寬表、數據倉庫的設計和構造，否則會導致資源的浪費。

●模型架構的確定。採用流失處理還是批量處理，採用何種調度方式，需要多少運算資源，輸出結果如何存放等，也是一個難點和要點。

下面我們描述一下AI建模的方法論。

建模過程中使用 AI /機器學習技術是內核能力，所以我們來看一下這個方法論，包括其中的難點分別是什麼。如下圖所示：

■圖 AI建模一般方法論

業務理解

把業務問題理解透，理解項目目標和需求，將目標轉換成問題定義。

難點：在於需要對業務領域有比較深入的理解，而且不僅僅是業務專家，還需要具備數據和技術感覺

建立假設模型

設計出達到目標的一個初步計劃。根據直覺和知識提出合理假說，如類比相關性等。

難點：在於如何設計合理的目標函數，使得能夠達到業務初始設計要求。

數據收集

收集初步的數據，進行各種熟悉數據的活動。包括數據描述，數據探索和數據質量驗證等。要有數據，而且的確需要足夠多的數據。

難點：1、如何解決數據收集成本大的問題，或者說如何自動化收集數據。需要收集多少數據才夠，學術界尚未有固定的理論指導，一般從成功案例中提煉經驗公式。

數據準備

需要首先弄清楚數據來源，然後進行探索性數據分析 (Explore Data Analysis -EDA），去了解數據的大體情況，通過描述性統計方法，去提升數據質量，將最初的原始數據構造成最終適合建模工具處理的數據集。包括表、記錄和屬性的選擇，數據轉換（稀疏，異構）和數據清理（缺失，矛盾）等。

難點：對於優質數據的判斷標準等。

建模分析

選擇和應用各種建模技術，並對其參數進行優化。一般的，為了讓模型更好的達到效果，在偏差和方差方面得到最優結果，常常把數據集分為兩個部分，一部分用於開發訓練（訓練集、驗證集），一部分用於預測（測試集）。

難點：在於選用算法和參數如何選擇，目前看到選擇是根據類比的方法，尋找與待解決工程相似的已成功的工程，並使用相似的方法，但工程相似沒有統一標準。對於參數的選擇，目前常用方法還是儘可能多實驗，選擇測試結果最好的參數。

解釋和模型評估

對模型進行較為徹底的評價，並檢查構建模型的每個步驟，確認其是否真正實現了預定的目的。

難點：目前還沒有看到對於效果不好的原因定位方法，只能具體案例具體分析。

參考書籍

《雲計算和大數據服務——技術架構、運營管理與智能實踐》

ISBN：9787302586586

作者：陳赤榕、葉新江、李彥濤、劉國萍

定價：168元

近些年，雲計算技術在國內有了長足發展，但是從始至終一直奮戰在雲服務領域的領導者與從業者卻不多，《雲計算和大數據服務——技術架構、運營管理與智能實踐》一書的作者就是這樣一群紮根在雲服務與大數據領域各環節的領航者，他們既有硅谷第一批Saas服務的開創者，也有一直紮根在國內通信、金融、安全等領域的領航者。

本書不僅講述如何實現雲計算和大數據的服務，更高屋建瓴，跳出技術細節，從整體上講解一個公司在戰略上決定做雲計算和大數據服務後，如何將該戰略逐步分解，最終落地實施。這個戰略的落地過程包括技術構建、運營管理、組織能力建設等一系列活動。