微軟研究院AI頭條 - 對話 | AI、機器學習在材料科學研究中能發揮哪些作用？－鑽石舞台

（本文閱讀時間：12分鐘）

編者按：近年來，越來越多的實踐證明，AI 是一項可以用於發現規律的關鍵技術，除了工程技術領域，AI 也為自然科學提供了新的科學發現工具。科學家們利用 AI 技術、基於大量高通量數據分析，不僅能加速實驗進程，甚至還可以從數據中總結和發現尚未被人類知曉的科學規律。微軟亞洲研究院很早就看到了這一趨勢，並在過去幾年中，陸續開展了 AI+生物學、AI+環境科學、AI+物理學等方向的研究。

近日，微軟亞洲研究院邀請了中國科學院半導體研究所首席科學家、北京龍訊曠騰公司首席科學顧問汪林望教授，就「高性能大規模原子材料模擬的挑戰與機遇」等話題進行了分享，並與微軟亞洲研究院副院長、微軟研究院科學智能中心亞洲團隊負責人、微軟傑出首席科學家劉鐵岩博士展開了深入對話。汪林望教授在材料科學領域深耕近30年，對大規模電子結構計算、密度泛函理論（DFT）、第一性原理計算的研究有着深厚的經驗。此次對話中，汪教授深度解析了當前材料領域研究技術的發展現狀、面臨的挑戰、存在的問題，以及 AI 技術在材料科學中的應用方向和待解決的問題。希望這場與材料科學領域專家的精彩對話，可以為 AI 探索更多自然科學領域帶來新的靈感。

劉鐵岩：汪教授在材料學領域已深耕近三十年，包括對密度泛函理論 (DFT)、電子結構等問題都有深入的研究。先請您介紹一下當前材料科學領域的發展情況。

汪林望：在材料科學研究領域，理論計算方面多數使用的是量子力學（quantum mechanics），也就是第一性原理計算。如今，第一性原理計算已經滲透到了材料科學的方方面面，它與合成、表徵並稱為材料研究的三大基石。最近20年，中國在第一性原理計算領域的研究論文數量呈指數級增長。

尤其是，從頭算材料模擬（ab initiomaterial simulations）在學術界被廣泛使用，因為傳統的做法需要大量的經驗參數，而從頭算不依賴於經驗參數，只用電子、質子質量、原子的位置等少量數據作為輸入，就可以計算出材料性質。這是一種強大的工具，因為它所依賴的薛定諤方程是非常基礎的。可以說，有了這個方程，所有材料科學的問題都可以得到解決。

劉鐵岩：第一性原理計算主要被用於基礎科學研究，由於算力的提高和算法的更迭，當前產業界也對這個工具產生了濃厚的興趣，特別是我們注意到諸如鋰電池、化工、製藥公司紛紛開始加大對這一領域的投入。那麼，第一性原理計算與產業結合的前景如何？還有哪些挑戰？

汪林望：目前工業界中廣泛使用的是CAD (Computer Aided Design，計算機輔助設計) 工業軟件，主要依靠牛頓力學，使用連續介質方法，比如有限元方法求解偏微分方程等。這類軟件通過一些參數來表徵材料的性質，並以這些材料為基礎去設計不同的工業器件；它們很大程度上解決了實驗成本過高的問題，比如可應用在飛機製造，代替風洞實驗等。但這種輔助設計方案並不設計材料本身，僅着眼於宏觀層面。

然而，在接下來的二、三十年，在後工業時代，除了關注材料宏觀結構的設計，我們將更聚焦於新材料本身的研發設計，例如關注研發耐高溫的航空材料、堅硬抗腐蝕的海洋材料、電池正負極材料等。而材料的性質決定於原子排布，這就需要藉助 Quantum Computer Aided Design ，形成一套新的方法，我們稱之為 Q-CAD。

但要想真正在工業界應用這些工具還有很多問題需要克服。在學術界一個大的材料項目幾乎有20%的工作花在計算上，但在工業界這個比例可能少於1%。當前學術界做的是幾百個原子量級的計算，但在工業界，比如模擬電池的正負極材料需要的則是百億原子的量級，其中的時間尺度很大。如何彌補這些差距？未來就需要人工智能的幫助。

在這個過程中我們要考慮幾點：首先是複雜性，比如材料研究求解催化過程常常會從幾十種情況演變成幾百種，需要高通量計算、遺傳算法的支持；其次是準確性，密度泛函理論也存在一些局限，比如 d 電子做催化時計算結果不夠準確；還有尺寸標度問題，當前我們只能計算幾百或幾千個原子，但我們更需要對上億的原子進行計算；另外還有時間標度，一般的分子動力學也就做到皮秒或者納秒，但是當我們真正要解決一個工藝問題時，則需要秒甚至小時級別的模擬。

目前，我所參與的 Q-CAD 解決方案是通過自主研發的 PWmat 算法與高性能計算 GPU 加速和人工智能機器學習力場三種技術相結合，力圖解決工業界計算所需要的大體系、長時間尺度的問題。當下和未來，人工智能等新技術不失為彌補材料科學研究與工業應用差距的一個好方法。

劉鐵岩：當前很多科研人員開始聚焦機器學習和第一性原理計算的結合，例如利用各種機器學習模型去擬合 DFT 的勢能面，您是怎麼看待這個方向的？未來，人工智能可以在哪些方面幫助到材料科學研究？

汪林望：在材料研發上，我認為有兩個方向可以應用機器學習技術。一是在數據挖掘上，比如基於數據庫，利用機器學習在海量數據中發現分子結構、屬性之間的相互關係，並找出映射（mapping），這是傳統材料科學研究最關心的問題。當前利用密度泛函理論、材料基因組、高通量計算都會產生海量數據，與以往實驗所得的數據相比更規整，非常適合計算機科學和機器學習使用。

二是機器學習可以用來開發經典力場，然後再用經典力場做分子動力學模擬。機器學習開發經典力場的思路是：當使用中小體系計算密度泛函理論時，會產生大量的數據，而在經典力場中只需要知道原子結構、映射出能量和原子受力，就可以利用機器學習不斷迭代、反覆學習映射，使之變得更好，這就是機器學習力場。從這個角度來看機器學習力場將會改變當前材料科學的研究現狀。目前經典力場模擬分子動力學的思路是：從物理學角度出發設定簡潔模型，比如給每個共價鍵一個能量表達式，然後再調整各影響變量的參數。這對於原子種類相對較少的經典力場較為有用，但材料領域涉及的大部分情況下沒有力場，或者已有的力場精度很低根本不能用。引入人工智能、機器學習技術，有可能改變這一現狀。

汪林望教授（右）與劉鐵岩博士（左）在微軟亞洲研究院分享活動現場合影

劉鐵岩：在自然科學領域，AI、機器學習開始發揮作用，從事 AI 的學者也希望將自然科學作為一個重要的應用課題去研究，微軟近年來也在持續探索計算機科學與自然科學交叉研究的新範式，例如分子動力學模擬等等。在您看來，值得科技工作者投身研究的重大科學問題有哪些？

汪林望：在機器學習力場中還存在着很多懸而未決的問題。人工智能在材料領域的應用還處於初步探索階段，我們無法確定它在這個領域能發揮多大的作用。比如，要如何估計一個系統的內在「有效維度」或複雜性，如果維度增加很多，機器學習是否還會有效？現在的神經網絡越來越複雜，它的極限在哪裡？是否有辦法能應用更深的神經網絡，而又可以快捷的訓練？這些都需要進一步驗證。

再如，用於機器學習訓練的參數空間（parameter space landscape）隨着數據點（data points）是如何變化的？我們優化訓練時，其實它是一個空間切分（partition space）問題，那麼如果數據量變大，參數空間是怎麼改變的？經驗表示，應該是數據量越大運行越順暢，但目前沒有定量數據來證明這一點，還需要理論指導。還有，在擬合限制下，或更複雜的網絡下，如何平衡網絡的更大的表現功能和它的訓練可行性？

構建更複雜的網絡時，理論上它的能力也會越強，但網絡參數空間也會越複雜，訓練過程中更容易進入局部最小值（local minimum）。如何在沒有過度超參數調整下加速訓練？如何跳過局部最小值？如何選擇採樣點？這些都是值得研究的方向。另外，應該結合基於物理角度出發的模型與基於大數據的模型，而不只是偏於一邊。這樣的模型也許更有效。

劉鐵岩：確實我們需要對 AI 保持客觀的態度，AI 肯定不是萬能的。如果期望 AI 在材料科學，或者更大範圍的自然科學領域產生作用，我們一定要深入理解目標問題。比如汪教授之前提到的，在小體系中學了某種映射，我們也希望這個映射能夠應用在大體系中，但小體系到大體系的過渡，並不符合機器學習的獨立同分布假設，需要全新的數學工具來分析它的泛化能力。這些問題都需要AI學者與自然科學家一起深入思考，那麼對於跨學科合作您有哪些建議？

汪林望：人工智能、機器學習等技術在材料科學領域的應用才剛剛起步，可以說還處於探索期，如何使用這些技術，我們目前還沒有明確的方法，更多的還需要參考一些其它的行業案例，從中借鑑經驗然後再不斷試錯。有人說，在所有方面都可以嘗試新技術，但其實並非如此，在嘗試前，我們要了解我們真正需要什麼、不需要什麼。材料科技領域中，在一些函數、經典力場的準確率上，在觀察更複雜的化學反應、物理反應等問題上，我們可以嘗試引入人工智能技術。事實上，任何一項新技術的結合所產生的結果都有正負兩面。

不論是在材料科學領域，還是其它領域，藉助人工智能技術都是一個大趨勢，它轉變了傳統領域的觀念，讓我們意識到大數據、機器學習等技術是可以與材料學的高通量計算相結合的。跨領域的結合也得益於計算機的發展，在產生海量數據後，用類似統一的方法建立模型，這是一種新方法，也將帶來新的成果。

以前的第一性原理計算可以讓我們計算幾百個原子，機器學習技術的引入可能讓我們達到一個新高度，實現百萬級別原子的模擬。雖然經典力場是材料科學的重要一支，但之前的應用很有限。在以後，它與從頭算（ab initio）方法的鴻溝將會變得沒有那麼難以逾越，從頭算與經典力場的結合也會更容易，從而可以解決更高級別的問題。

至於未來十年這些新技術能帶來哪些改變？比如只需兩天就能找到新的陽極材料？我認為不太可能。但不論到哪個階段，都需要行業專家利用領域經驗知識提煉問題、簡化問題、找出關鍵問題，再進行百萬原子模擬，並與工業界的工藝過程結合，我相信這可以推動相關工藝向前邁進一大步。

對話現場部分回顧

劉鐵岩：最後想問汪教授，當時為什麼會選擇進入材料領域，並且三十年如一日地堅持下來？另外，作為一位成功的學者，您對從事學術研究的年輕人是否有一些建議可以幫助他們更好地管理自己的職業生涯？

汪林望：對我個人而言，選擇材料科學領域是個偶然。我在美國留學時，神經網絡研究非常火熱，那是真正生物學意義上的神經網絡，我也花費了兩年時間來學習和研究諸如大腦六層神經網絡結構，以及人腦思維的模型等等。不過找博士導師的時候，我發現很多導師已經有博士生了，最後找到了比較務實的電子結構計算方向。那個時候第一性原理計算剛剛開始不久，所以我的學術生涯也正好見證了第一性原理計算的發展與起飛。在這同一時間段，計算機的運行速度增加了幾萬倍，它成為第一性原理計算背後的強有力的推動力。

我發現這兩者的結合開發是一件非常有意思的事。當你在一個方向中深入研究時，你會發現有越來越多的東西值得探索。當計算機速度加快之後，算法的相應改變和開發也變得十分重要。總的算力的提升有一半來自於計算機，另一半來自於算法的提升。這也能看出自然科學、材料科學與計算機發展結合是一個必然的趨勢。

總之，找到方向深入鑽研，然後再慢慢地拓寬範圍，這是成功的基石。重要的是，不要被外界浮躁的事物所打擾。

你也許還想看：