close

實踐單位:清華大學核能與新能源技術研究院

項目名稱:核電廠關鍵敏感設備健康評估與壽命預測建模分析研究

小組成員:

張文濟(組長)核研院

李京人土木系

劉書呈機械系

羅儒維工物系

項拓宇工物系

范祥祺工物系

牛恆建築學院

指導老師:黃曉津 周樹橋 郭超

研究目標:核電廠運行工況複雜且設備測點有限,一旦發生故障,難以迅速準確的定位,且定位過程依賴專家判斷,故障診斷延誤可能給核電廠帶來安全風險和巨大的經濟損失。本項目依託清華-中國核電數字化研究中心,基於秦山、福清、三門等一線核電廠的實際運行數據,採用機理+數據的方法進行故障預測與診斷相關的建模分析研究。本項目為ASP-2智慧管理原型系統開發工作的一部分,旨在實現從設備數據到徵兆判斷再到失效推理的完整過程。

研究成果:本次課程為該項目的第二期。在第一期開展過程中,本項目已實現數據預處理和趨勢徵兆離散化判斷算法、基於專家知識的規則庫約簡、失效決策推理算法等。本期項目針對上述任務做出了3個方面的改進,同時完成了3項新增任務。

改進:

1. 數據預處理的濾波優化:優化數據預處理時使用的中值濾波為小波濾波,在此前中值濾波的窗口大小選擇會直接影響算法結果,該不確定參數在優化後消失。

2. 徵兆判斷算法的參數調整和完備性檢驗:利用實際和模擬數據,很好地完成了針對12種趨勢徵兆+6種閾值徵兆判斷的測試,證明當前徵兆判斷算法,在合理調節各類參數的情況下,支持對18種徵兆的判斷。

3. 專家知識驅動的規則庫優化:考慮專家知識的不完備性,計算粗糙集模型中的上下近似集;優化決策表的屬性約簡和值約簡算法,提高計算效率;採用python實現上述優化算法。

新增:

1. 解決趨勢徵兆判斷時輸入數據長度選擇問題:實際趨勢徵兆判斷時數據是隨時間推移的,輸入數據長度大小選擇不確定影響算法判斷的實時性和準確性性,在本期中研究設計分段擬合算法給出了針對測點的輸入數據長度合理參考值。

2. 開發獨立可調的趨勢徵兆判斷可視化工具:使用Django開源框架,開發了可視化調試工具,支持獲取數據趨勢徵兆判斷結果和數據輸入長度參考值。

3. 數據驅動的規則分類系統研究:採用Python實現了基於數據的模糊規則和信任規則提取方法,並採用UCI數據完成驗證。

典型成果及應用圖例:

使用分段擬合算法獲得數據輸入長度參考值,取最短分段間隔為該值。

可視化工具界面

同學們的收穫:

張文濟:作為該項目的組長,我在此期間收穫頗豐,從統籌大家的工作到最後的匯報演講,都是對於我能力全面的鍛煉。

李京人:通過本次大數據實踐項目,學到了很多新的知識,同時也在現實項目中,鍛煉了自己的大數據分析和可視化能力。

劉書呈:本次項目實踐使我了解到了數據驅動的方法,同時提升了調試代碼的能力。有幸遇到了一群靠譜的隊友和負責的老師,這對我來說也是一段非常寶貴的經歷。

項拓宇:一開始我是一個電腦里都沒有裝python的小白,項目過程中遇到了許多困難,但在老師的幫助與鼓勵下,我堅持到最後並實現了基於模糊規則庫的分類算法。

羅儒維:很感謝這次項目中給力的隊友和悉心指教的老師及助教們,對於數據處理以及算法實現有了一些基本的了解。

范祥祺:一開始覺得每周要做的東西好多好繁瑣,但在老師和隊友們的幫助和鼓勵下,我完成了自己負責的部分,收穫滿滿。

牛恆:通過本次大數據課程實踐任務,讓我將課堂所學與實際應用相結合,加深了對大數據概念的理解。在完成過程中,小組團結一心,共同克服了許多看上去令人生畏的難題,同時感謝項目導師為我們提供的鼓勵與幫助!

企業導師點評:

同學們從熟悉本項目一期工作着手,實現了對一期工作的優化改進,測試了原有徵兆判斷算法的完備性。並且分別對輸入數據長度選擇和數據驅動的規則分類系統進行了探索性研究,開展了趨勢徵兆判斷可視化工具的開發工作,均相應獲得了階段性的成果。

通過本項目,同學們已經初步掌握大數據分析的思路和相關工具,嘗試了將大數據課程中所學理論方法在重要領域的實際應用。相關探索性的工作很好地鍛煉了同學們的學術思維,相互配合的過程也體現了同學們良好的協作能力。

大數據課程設置本項實踐環節,為同學們學以致用、加深對大數據方法和應用途徑的理解、提高科研能力提供了良好的平台。

實踐單位:湖南智享未來生物科技有限公司

項目名稱:細胞和微生物形態識別與分類

小組成員:

郝宇飛(組長)工業工程

高明亮 工業工程

方浩宇 軟件學院

指導老師:許東(企業導師)鄧聖旺(項目協調)陳軼(醫學專家)楊雅文(助教)

研究目標:智享未來公司研製的顯微鏡主要用於臨床診斷,企業已完成顯微鏡硬件研製部分,並實現了樣品的自動拍照。但傳統的診斷方式需要人工對照片中的微生物個體進行分類和技術,這種方式工作量大、效率低下。企業希望研製一種能自動識別顯微照片中的微生物個體的顯微鏡系統,同時提供自動分類和計數的功能,從而提高用戶的工作效率。另一方面,企業希望其顯微鏡產品能在經濟欠發達地區進行推廣,用智能化的手段解決專業醫療工作者缺乏的問題。這就要求系統能在配置較低的計算機中運行。用戶希望通過項目研究,識別準確率達到92%以上,識別時間小於10秒。

研究成果:

本項目主要結合深度學習和計算機視覺技術,完全滿足了用戶提出的需求。在用臨床實際測數據試中,在包括人工識別難例樣本的情況下,識別準確率達到了96%,達到了業內領先水平。在性能方面,系統在Intel i7-8750無GPU加速的情況下識別時間小於2秒,在虛擬機中用純CPU計算識別時間小於6秒。在識別類型方面,我們不僅達到了現有樣本類別全覆蓋,還通過數據合成等數據增廣方法實現了更多微生物個體的識別。在業務流程改進方面,我們通過和臨床醫生溝通,改進了某些人工標識別難例樣本的傳統方法,採用了實時可調節置信度的設計,使得系統更符合信息化應用特點。我們在本項目研究實現的算法模塊,目前已和顯微鏡上位機系統的對接,並應用於企業實際產品中。

樣本識別效果示例

系統在顯微鏡上位機中的應用情況

系統在現場應用情況

同學們的收穫:

郝宇飛:通過大數據基礎課的項目實踐,一方面強化了我們用數據思維解決實際問題的方法,另一方面也幫助企業解決了實際問題。這種以任務為導向的教學方式,不僅使我們所學的知識更加牢固,也能避免理論和實際脫節的風險。我們的項目之所以能取得現在的成果,是大家共同努力的結果。儘管在項目實現中遇到不少困難,我們還是設法解決了。

高明亮:將企業生產製造過程中遇到的現實問題引入課堂激發團隊探尋解決方案的教學方式很贊!我們團隊選擇的課題是「細胞和微生物形態識別與分類」,屬於計算機視覺(CV)在醫學影像領域的落地應用。CV與醫學影像的結合對於我個人是一個全新的知識領域,團隊協作在項目的推進過程中發揮了重要的作用。由於編程技術是我的弱項,因此我承擔了更多的需求溝通與項目管理相關工作。項目干係人涉及在職學生、顯微鏡廠家、醫生、上位機開發人員等多類型角色,對需求的準確理解是項目成功的關鍵,因此項目前期團隊便與企業方建立了良好的例會溝通機制,每次例會均會形成正式的會議紀要並公布,以確保雙方對會議結論及下一步計劃時間節點理解上的一致性。帶着明確的目標學習相關技術,有的放矢,通過課程項目的訓練,個人對CV的技術原理、與醫學影像相結合的商業應用建立了初步認知。

方浩宇:通過細胞和微生物形態識別項目的研究工作,結合企業實踐應用經驗,將人工智能技術,尤其是深度學習技術與醫療等相關行業的具體應用場景相結合,可以有效解決行業一些典型痛點問題,把行業從業人員從低效重複的勞動中解放出來,顯著提升行業業務技術水平。在技術研究方面,圖像識別領域涉及的技術內容還是相對廣泛的。為了解決企業對圖像目標識別率低的問題,我們重點針對樣本標註、圖像增強、算法篩選及超參數調優等方面進行了相應的研究,深刻體會到人工智能技術在數據工程與數據科學技術領域的博大精深,值得研究的方向和內容也很多。同時,軟件實踐和參數調優的工作不簡單,對企業實踐的應用落地也很重要。我們團隊在隊長的帶領下,大家的共同努力幫助企業解決了關鍵痛點問題,完成了項目目標。團隊成員通過項目在相關領域增強了個人知識外,還收穫了團隊友誼,感謝學校設置這個課程給了我們這麼好的學習和實踐經歷。

企業導師點評:

「細胞和微生物形態識別與分類」是根據湖南智享未來生物科技有限公司真實需求而開展的產學研結合項目。項目結合企業自主研發的全動化生物光學顯微鏡,最終實現了產品的智能化,解決了產品推入市場關鍵環節。該項目符合國家大力支持和發展智能醫療政策,基本做到了更精準、更便捷、更低廉的方式實現病人快速篩查診斷,具有重要的經濟價值和良好的社會效應。實施過程中結合數據科學和醫學專業知識分析方法,極大提升了識別的準確程度,團隊成員不僅通過深度學習等方法研究解決了算法問題,還完成了與公司上位機軟件的對接,為最終實際應用提供了方便。與傳統的大數據算法必須藉助GPU、大數據平台不同,該系統在普通電腦上使用CPU計算即可快速運行,達到了同行領先的識別率,落實了臨床上有效檢測問題。在項目實施過程中,時間安排合理、團隊成員配合默契、與企業溝通及時高效。

實踐單位:網帥科技(北京)有限公司

項目名稱:態極時空知識圖譜城市交通分析

小組成員:

王榮鑫(組長)水利系

李妍慧航院

康佳霖醫學院

劉康水利系

張禹水利系

李舸水利系

王筱淳環境學院

企業導師:胡慶勇、王志永

研究目標:

(1)藉助網帥態極數據平台、廈門市路網數據、訂單數據和機動車GPS數據,實現廈門市交通數據的映射和導入,分析出租車/網約車的城市出行特徵。

(2)構建交通流時空知識圖譜,實現可視化檢索功能,方便用戶更好地感知交通數據並參與深度探索過程。

(3)基於已構建的可計算路網,用圖分析進行交通流預測,實現從點預測到網預測的突破,為用戶提供科學合理的交通預測數據。

研究成果:

項目系統性地梳理了包括數據關係分析、本體及屬性映射、數據導入及知識提取、圖數據庫導入等環節的數據分析映射流程,並應用於廈門市路網數據,實現了基於MDFS平台的城市出行特徵分析和數據導入。

在此基礎上,項目基於MDFS時空知識圖譜搭建了可視化檢索框架,設計實現了引導查詢、精細化組合等檢索功能,大大提升了用戶感知數據和參與數據探索的能力。

同時,項目基於MDFS進行交通流時空數據測算,搭建了交通流時空圖卷積神經網絡模型,針對廈門市部分交通流數據進行訓練預測,實現了接近90%準確率的交通流預測,全網路段單次預測未來12小時耗時僅2.324ms,實現了項目中交通流預測從點預測到網預測的突破,為用戶獲取更為合理的交通預測數據提供了可能。

圖 1實踐項目系統設計架構

圖 2可視化檢索界面設計及功能實現

圖 3交通流預測結果

同學們的收穫:

王榮鑫:熟悉了NEO4J 、GP等數據庫操作,切身感受大數據技術應用,嘗試挖掘大數據背後的語義,也體驗到了大數據系統的協作性。

李妍慧:有幸與老師探索智慧交通領域的前沿問題,在交通流預測模型搭建工作中對交通流預測領域有了近距離接觸,深入行業解決實際問題。

康佳霖:參與學習了知識圖譜大數據系統等前沿熱門領域,並應用於城市交通分析中,了解了技術發展趨勢及技術應用價值,體驗到前沿技術對社會的服務!

劉康:通過大數據實踐感受到了一個項目從理論到落地的艱辛,同時也對大數據技術應用有了切實的理解,不再是一行行代碼而具有了現實的承載物。

張禹:學習了一些高效的數據處理算法,提高了對交通大數據整理與歸納的能力。

李舸:學習了知識圖譜的基本原理,基於已有平台梳理知識圖譜的形成過程,同時初步了解了大數據的分析方式。

王筱淳:構建知識圖譜是之前沒有接觸過的知識,了解到構建檢索可視化界面的方法框架,加深了對大數據系統構建的理解。

企業導師點評:

本次實踐項目小組成員系統性地進行數據關係分析,並在MDFS上實現了本體及屬性映射、數據導入及知識提取、圖數據庫導入等知識存儲全流程,並應用於廈門市路網數據及特徵數據構建了廈門市路網城市特徵知識圖譜。基於MDFS時空知識圖譜搭建了可視化檢索框架,實現了引導查詢、精細化組合等檢索功能,提升了用戶知識獲取和參與知識探索的能力,為業務人員更方便直觀的查看所有知識。項目基於MDFS在上面知識圖譜構建後使用知識共享能力進行交通流時空數據測算,搭建了交通流時空圖卷積神經網絡模型,針對廈門市部分交通流數據進行訓練預測,實現了接近90%準確率的交通流預測,全網路段單次預測未來12小時耗時僅2.324ms,實現了項目中交通流預測從點預測到網預測的突破,並將結果回到MDFS系統中,為用戶獲取更為合理的交通預測數據提供了可能。小組實現了從業務建模-知識提取-知識服務-知識應用整體流程。

本次實踐項目為了是小組成員體驗到實際業務場景,我們以真項目、真研發、真數據、真場景出發,從項目端到端整體進行項目研發過層。整體項目在組長帶領下共分成了3個小組,分別是數據組、圖譜組、預測組,每個小組成員都劃分了自己的任務,在這樣細化任務後同學們做到了團隊合作,而不是單打獨鬥。每個成員認真的完成自己的任務並及時匯報。

每個同學出色的做到自己的任務是什麼這麼做、目標是什麼為什麼、時間線是何時。在項目期間同學們每個星期認真準備本周項目進度報告、下個星期階段目標。積極參與每次項目例會。遇到問題及時提出、及時討論解決。不僅僅發揮了業務技能水平,更很好的做到了團隊合作,共同努力的實現項目目標。

課程介紹:

《大數據系統基礎》分為《大數據系統基礎A》和《大數據系統基礎B》兩部分,是清華大學大數據能力提升項目的基礎模塊必修課,開設於秋季學期。內容是設計與實現一個數據分析系統架構,並基於這一系統架構完成數據分析任務。組織形式是學生根據項目具體需求,組建院系交叉融合的項目小組,在校內導師和企業導師的共同指導下完成項目任務。歡迎企業積極貢獻項目和數據,並指派特定的企業導師指導學生完成相應項目。

《大數據系統基礎A》注重大數據系統應用,重點講授大數據系統工具的概念、應用場景以及商業價值,通過對一系列與大數據相關的計算機系統知識的學習和動手實踐,讓學生理解大數據系統的軟硬件架構、目前可用的工具、技術上存在的挑戰,培養學生在工作中應用與選擇大數據工具的能力,同時也為有志於繼續深入學習大數據專業課程的學生創造基礎。課程的主要內容包括:大數據生命周期、大數據軟件棧、系統實踐DWF、數據存儲HDFS、時序數據IoTDB、數據質量分析過程與實戰、Python語言、內存計算Spark、結構化數據Spark SQL、流計算Flink、系統實踐FloK。

《大數據系統基礎B》注重大數據系統開發,重點介紹大數據管理的工具平台、開發環境、基本原理,使得學生熟悉典型大數據工具與平台的特性,掌握大數據處理的基本開發方式,鞏固和加深大數據分析的基礎知識。課程的主要內容包括:大數據生命周期、大數據軟件棧、數據導入Kafka、數據存儲HDFS、非結構化數據Cassandra、時序數據IoTDB、分布式計算MapReduce、內存計算Spark、結構化數據Spark SQL、流計算Flink。

課程自開設以來就深受學生歡迎,其最大特色是突破了傳統的教學方式,學生通過自行組隊,以小組的形式在實際的企業項目中運用所學知識動手完成實踐任務。今年,經過授課教師的嚴格把關和層層遴選,課程共引進了近20家來自業界的真實項目,行業數據多樣化,領域涉及工業、石油化工、保險、交通、健康醫療和智慧城市等。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()