
為了發揮清華大學多學科優勢,搭建跨學科交叉融合平台,創新跨學科交叉培養模式,培養具有大數據思維和應用創新的「π」型人才,由清華大學研究生院、清華大學大數據研究中心及相關院系共同設計組織的「清華大學大數據能力提升項目」開始實施並深受校內師生的認可。項目通過整合建設課程模塊,形成了大數據思維與技能、跨界學習、實操應用相結合的大數據課程體系和線上線下混合式教學模式,顯著提升了學生大數據分析能力和創新應用能力。
至今,已有來自全校45個院系的3055名同學參加大數據能力提升項目,其中556位同學通過課程學習和實踐獲得由清華大學研究生院頒發的「清華大學大數據能力提升項目證書」。
談起最大的收穫,同學們表示無論是自身的數據思維還是本專業與大數據技術相結合的科研能力以及實踐經驗等方面均得到了很大的提升。清華的數據科學人才培養究竟有什麼特別之處?讓我們一起通過他們的故事,揭秘各院系清華學子的大數據提升之路吧!
我在博士期間主要從事摩擦學的研究。摩擦學發展到今天,成為了一門與多學科交叉融合的學科,其中就包括方興未艾的數據科學。摩擦學的研究,從宏觀尺度對表面缺陷的自動檢測,到微觀尺度基於機器學習分子力場的構建,都能看到大數據科學的身影。2019年9月,我看到了「大數據提升項目」的介紹,看到這個項目鼓勵來自任何背景的同學參與,鼓勵跨界學習,我當時就覺得這是一個好機會,一方面提升大數據思維和技能,一方面也可以和我所研究的領域碰撞出火花。在一年級我選修了朱文武老師和崔鵬老師主講的《大數據分析(B)》。大數據分析課上,我了解到數據是一個金礦,但同時也是鮮活的。與技術同樣重要的,還有對於業務或是科學問題的理解。對於大數據,對它的採集,分析與理解也與人息息相關。除此之外讓我受益匪淺的一門課是張長水老師的模式識別課,這門課很硬核。我每周需要抽出很多時間去手推公式,手撕代碼。但是正是這樣的訓練讓我在今後的實踐應用中打下了紮實的基礎。紙上得來終覺淺,絕知此事要躬行。實踐是掌握和熟練數據科學技能,提升數據科學思維的必經之路。疫情期間我在線上聽了Albert模型的作者藍振忠的關於自然語言處理的講座,沒想到很快便派上了用場。在數據院的組織下,我們團隊前往百融雲創公司實習。百融雲創的智能文本對答系統中,在響應速度上卻不盡人意。所以,為壓縮模型以實現快速實時的響應,我們嘗試了學術界的最新成果,上手實驗。保證準確率的情況下,我們將響應速度大大提高。經過實踐,我接觸到了智能問答機器人行業的真實數據,用真實的數據解決實際的問題,這對於我來說是很難得的鍛煉機會。最後企業也給出我們這樣的評價:「項目成員從業界實際問題出發,選擇模型壓縮這個方向,研究成果能夠極大節省機器成本,提升用戶體驗。」此外,為了進一步地增加一些實踐和創新的機會。我參與了清華大學「SDG開放創新馬拉松挑戰賽」數據科學專場。除此之外,在首屆」神州數碼雲上數據開發」大賽,取得了全國三十強。在這個過程里,我體會到數據科學的威力,與其他院系富於創新精神的師生切磋互動的過程里,我也在思考數字中國的美好願景以及數據科學與我所研究學科的交叉點。

與SDG大賽小組成員進行頭腦風暴
說起數據科學在我科研中的第一次小試牛刀,源於一次偶然的機遇。有一天,我師姐在實驗室發現了一個違背直覺的實驗現象。在她的實驗體系里,她發現隨着法向壓力的增加,兩個表面之間的摩擦力反而減小了。這與傳統的摩擦學理論是不符的。但是為什麼會發生這樣的現象令我們感到困惑。為了探索所謂負微分摩擦係數背後的規律,我先通過建立構型,然後通過分子動力學模擬的方式進行模擬,隨後也發現了類似的變化趨勢,即摩擦力隨壓力增加而減小。那麼這個現象背後的規律到底是什麼?這個問題令我百思不得其解。我想起了在項目課程里,我曾經學過一系列統計學和機器學習等數據科學的知識。所以我決定就拿我的研究體系進行試驗。我先是分別對我的模型中得到形態學、能量學等數據的特徵進行統計。令我非常驚訝的是,摩擦力隨壓力線性增長的常見體系和我們出現負增長的體系在統計學量上出現了明顯差異,這為負摩擦係數的來源提供了一種潛在的可能解釋。在充分思考和理解這些特徵背後的物理意義後,我們構建了一個回歸模型,可以對該體系下的摩擦力進行有效預測,並且提出了一種有效減摩的方法。這個工作已經撰寫成論文並且已被接收。通過這個工作,我發現了數據科學的魅力,它將理論與科研完美地結合了起來,為我的專業注入了新鮮的血液!我與數據科學的結緣遠遠不止剛剛那一次的邂逅。我們的摩擦學研究中,總是流傳着這麼一句話,「上帝創造了固體,魔鬼卻發明了表面」。影響表面摩擦特性的一個重要特性就是缺陷,這裡就涉及一個重要的問題,如何對表面缺陷進行自動的檢測?傳統機器視覺強依賴於工程師的經驗與試錯,基於深度學習的方法由於其端到端自動提取特徵實現分割過程的特點而逐漸嶄露頭角。所以在今年的暑期實踐,我選擇去和我所研究方向相關的華為公司進行工業缺陷檢測算法方面的工作。有了之前《模式識別》等課程的基礎還有《大數據實踐》的實踐基礎,雖然面對一個全新的研究工作,我並沒有手足無措。在企業導師的指導下,針對目標細節難以分割,樣本不平衡,缺陷級別等問題,我充分調研了相關文獻,包括常見的語義分割網絡,小樣本學習方法和數據增強策略等。在這個基礎上,我完整地實現了工業缺陷檢測的全過程,通過一系列策略提高了原有的均像素精度。在這次實踐之後,我對摩擦學領域的研究有了進一步的認識,我深刻意識到了數據科學在我們研究領域的巨大潛力,同時也意識到了數據科學想運用到我們的學科也需要注意的一些特有的問題。比如,計算機視覺背景下的語義分割研究大多以自然場景為主,而摩擦學研究中的工業缺陷檢測相比於自然場景,類別更少,而且可以通過硬件(如打光)等方式去改良光照等條件以獲取更好的數據集,但是往往存在中類內方差大,類間方差小的問題。
在實踐之後,我將一些心得撰寫成了原創文章《與時代共振,AI助力工業缺陷檢測》,發表在數據派THU公眾號的「清華學子話數據」專欄。自從參加項目兩年多的時間,我看到了數據科學與我研究方向的緊密結合,看到了更具可能性的未來。我也從一名AI小白成為了數據派THU的一名志願者,自參加以來,我翻譯、校對、原創的文章超過5萬餘字。
最後衷心感謝為大數據能力提升的項目付出辛苦的老師們,希望項目讓更多同學受益!