(本文閱讀時間:12分鐘)
汪林望:在材料科學研究領域,理論計算方面多數使用的是量子力學(quantum mechanics),也就是第一性原理計算。如今,第一性原理計算已經滲透到了材料科學的方方面面,它與合成、表徵並稱為材料研究的三大基石。最近20年,中國在第一性原理計算領域的研究論文數量呈指數級增長。
尤其是,從頭算材料模擬(ab initiomaterial simulations)在學術界被廣泛使用,因為傳統的做法需要大量的經驗參數,而從頭算不依賴於經驗參數,只用電子、質子質量、原子的位置等少量數據作為輸入,就可以計算出材料性質。這是一種強大的工具,因為它所依賴的薛定諤方程是非常基礎的。可以說,有了這個方程,所有材料科學的問題都可以得到解決。

汪林望:目前工業界中廣泛使用的是CAD (Computer Aided Design,計算機輔助設計) 工業軟件,主要依靠牛頓力學,使用連續介質方法,比如有限元方法求解偏微分方程等。這類軟件通過一些參數來表徵材料的性質,並以這些材料為基礎去設計不同的工業器件;它們很大程度上解決了實驗成本過高的問題,比如可應用在飛機製造,代替風洞實驗等。但這種輔助設計方案並不設計材料本身,僅着眼於宏觀層面。
然而,在接下來的二、三十年,在後工業時代,除了關注材料宏觀結構的設計,我們將更聚焦於新材料本身的研發設計,例如關注研發耐高溫的航空材料、堅硬抗腐蝕的海洋材料、電池正負極材料等。而材料的性質決定於原子排布,這就需要藉助 Quantum Computer Aided Design ,形成一套新的方法,我們稱之為 Q-CAD。
但要想真正在工業界應用這些工具還有很多問題需要克服。在學術界一個大的材料項目幾乎有20%的工作花在計算上,但在工業界這個比例可能少於1%。當前學術界做的是幾百個原子量級的計算,但在工業界,比如模擬電池的正負極材料需要的則是百億原子的量級,其中的時間尺度很大。如何彌補這些差距?未來就需要人工智能的幫助。
在這個過程中我們要考慮幾點:首先是複雜性,比如材料研究求解催化過程常常會從幾十種情況演變成幾百種,需要高通量計算、遺傳算法的支持;其次是準確性,密度泛函理論也存在一些局限,比如 d 電子做催化時計算結果不夠準確;還有尺寸標度問題,當前我們只能計算幾百或幾千個原子,但我們更需要對上億的原子進行計算;另外還有時間標度,一般的分子動力學也就做到皮秒或者納秒,但是當我們真正要解決一個工藝問題時,則需要秒甚至小時級別的模擬。
目前,我所參與的 Q-CAD 解決方案是通過自主研發的 PWmat 算法與高性能計算 GPU 加速和人工智能機器學習力場三種技術相結合,力圖解決工業界計算所需要的大體系、長時間尺度的問題。當下和未來,人工智能等新技術不失為彌補材料科學研究與工業應用差距的一個好方法。
汪林望:在材料研發上,我認為有兩個方向可以應用機器學習技術。一是在數據挖掘上,比如基於數據庫,利用機器學習在海量數據中發現分子結構、屬性之間的相互關係,並找出映射(mapping),這是傳統材料科學研究最關心的問題。當前利用密度泛函理論、材料基因組、高通量計算都會產生海量數據,與以往實驗所得的數據相比更規整,非常適合計算機科學和機器學習使用。
二是機器學習可以用來開發經典力場,然後再用經典力場做分子動力學模擬。機器學習開發經典力場的思路是:當使用中小體系計算密度泛函理論時,會產生大量的數據,而在經典力場中只需要知道原子結構、映射出能量和原子受力,就可以利用機器學習不斷迭代、反覆學習映射,使之變得更好,這就是機器學習力場。從這個角度來看機器學習力場將會改變當前材料科學的研究現狀。目前經典力場模擬分子動力學的思路是:從物理學角度出發設定簡潔模型,比如給每個共價鍵一個能量表達式,然後再調整各影響變量的參數。這對於原子種類相對較少的經典力場較為有用,但材料領域涉及的大部分情況下沒有力場,或者已有的力場精度很低根本不能用。引入人工智能、機器學習技術,有可能改變這一現狀。
汪林望:在機器學習力場中還存在着很多懸而未決的問題。人工智能在材料領域的應用還處於初步探索階段,我們無法確定它在這個領域能發揮多大的作用。比如,要如何估計一個系統的內在「有效維度」或複雜性,如果維度增加很多,機器學習是否還會有效?現在的神經網絡越來越複雜,它的極限在哪裡?是否有辦法能應用更深的神經網絡,而又可以快捷的訓練?這些都需要進一步驗證。
再如,用於機器學習訓練的參數空間(parameter space landscape)隨着數據點(data points)是如何變化的?我們優化訓練時,其實它是一個空間切分(partition space)問題,那麼如果數據量變大,參數空間是怎麼改變的?經驗表示,應該是數據量越大運行越順暢,但目前沒有定量數據來證明這一點,還需要理論指導。還有,在擬合限制下,或更複雜的網絡下,如何平衡網絡的更大的表現功能和它的訓練可行性?
構建更複雜的網絡時,理論上它的能力也會越強,但網絡參數空間也會越複雜,訓練過程中更容易進入局部最小值(local minimum)。如何在沒有過度超參數調整下加速訓練?如何跳過局部最小值?如何選擇採樣點?這些都是值得研究的方向。另外,應該結合基於物理角度出發的模型與基於大數據的模型,而不只是偏於一邊。這樣的模型也許更有效。
汪林望:人工智能、機器學習等技術在材料科學領域的應用才剛剛起步,可以說還處於探索期,如何使用這些技術,我們目前還沒有明確的方法,更多的還需要參考一些其它的行業案例,從中借鑑經驗然後再不斷試錯。有人說,在所有方面都可以嘗試新技術,但其實並非如此,在嘗試前,我們要了解我們真正需要什麼、不需要什麼。材料科技領域中,在一些函數、經典力場的準確率上,在觀察更複雜的化學反應、物理反應等問題上,我們可以嘗試引入人工智能技術。事實上,任何一項新技術的結合所產生的結果都有正負兩面。
不論是在材料科學領域,還是其它領域,藉助人工智能技術都是一個大趨勢,它轉變了傳統領域的觀念,讓我們意識到大數據、機器學習等技術是可以與材料學的高通量計算相結合的。跨領域的結合也得益於計算機的發展,在產生海量數據後,用類似統一的方法建立模型,這是一種新方法,也將帶來新的成果。
以前的第一性原理計算可以讓我們計算幾百個原子,機器學習技術的引入可能讓我們達到一個新高度,實現百萬級別原子的模擬。雖然經典力場是材料科學的重要一支,但之前的應用很有限。在以後,它與從頭算(ab initio)方法的鴻溝將會變得沒有那麼難以逾越,從頭算與經典力場的結合也會更容易,從而可以解決更高級別的問題。
至於未來十年這些新技術能帶來哪些改變?比如只需兩天就能找到新的陽極材料?我認為不太可能。但不論到哪個階段,都需要行業專家利用領域經驗知識提煉問題、簡化問題、找出關鍵問題,再進行百萬原子模擬,並與工業界的工藝過程結合,我相信這可以推動相關工藝向前邁進一大步。
對話現場部分回顧
汪林望:對我個人而言,選擇材料科學領域是個偶然。我在美國留學時,神經網絡研究非常火熱,那是真正生物學意義上的神經網絡,我也花費了兩年時間來學習和研究諸如大腦六層神經網絡結構,以及人腦思維的模型等等。不過找博士導師的時候,我發現很多導師已經有博士生了,最後找到了比較務實的電子結構計算方向。那個時候第一性原理計算剛剛開始不久,所以我的學術生涯也正好見證了第一性原理計算的發展與起飛。在這同一時間段,計算機的運行速度增加了幾萬倍,它成為第一性原理計算背後的強有力的推動力。
我發現這兩者的結合開發是一件非常有意思的事。當你在一個方向中深入研究時,你會發現有越來越多的東西值得探索。當計算機速度加快之後,算法的相應改變和開發也變得十分重要。總的算力的提升有一半來自於計算機,另一半來自於算法的提升。這也能看出自然科學、材料科學與計算機發展結合是一個必然的趨勢。
總之,找到方向深入鑽研,然後再慢慢地拓寬範圍,這是成功的基石。重要的是,不要被外界浮躁的事物所打擾。
你也許還想看:


