close

MOE(Molecular Operating Environment)是加拿大化學計算集團公司Chemical Computing Group Inc.開發的一套計算機輔助藥物分子設計的平台。

做化學/生物這一類計算,場景很多,應用選擇範圍也相當大,甚至同一場景可能用到很多不同的應用。就拿分子對接舉例,相關軟件就有開源的和商業的不下數十種。

熟悉並習慣一種應用,已經需要不低的學習成本,何況這些應用往往還留了一些API接口給用戶,需要寫一些腳本才能運行。

而且很多時候,現成的應用是無法滿足用戶的研究需求的,需要用戶自己來編程。

另一個角度:

如果計算量突增,就會涉及到大規模計算資源的調用,可能涉及本地服務器、集群,甚至超算和公有雲。

或者計算量還好,但是不想再重複勞動,能不能一次操作完成所有需要手動一次次做的事,一百次就忍了,一千次,一萬次呢?

或者不需要團隊每個人重複一遍同樣的學習過程,做個模板它不香嗎?

工具的最大價值,是把人從機械性的重複勞動中解放出來,騰出時間來思考更重要的事。

今天我們就通過一個MOE實證來聊聊,我們怎麼幫你降低工作量(偷懶),節約時間,甚至預測未來。


用戶需求



某高校課題組使用MOE對數據庫中的約200000個分子進行模擬,希望在2天內完成計算。根據以往經驗,單核CPU模擬一個分子所需的時間約為4分鐘,該課題組當前可使用的機房CPU資源最多為64核,需要一周以上才能完成任務。
課題組老師希望藉助雲端獲取更多計算資源,而且由於課題組團隊有多名學生,所以需要一個既能快速啟用滿足需求,同時又操作簡單便於管理的解決方案。


實證目標




1、MOE任務是否能在雲端有效運行?

2、fastone平台能否將大規模MOE任務的運算時間縮短到2天以內?

3、fastone平台能否快速啟用,同時方便老師對整個團隊進行管理?

4、由於不是所有的學生的計算機基礎都非常強,fastone能否為其提供相對簡單可行的操作方式?




實證參數



平台:
fastone企業版產品

應用:
MOE

操作系統:
Linux CentOS 7.5

適用場景:
3D分子可視化、基於結構/片段的藥物設計、蛋白質/DNA/RNA建模、虛擬篩選、分子模擬、化學信息學

雲端硬件配置:
計算優化型實例
本任務屬於CPU密集型任務,對內存的需求不高,因此我們選擇了高性價比的雲端計算優化型實例(CPU/內存=1:2)。

技術架構圖:

第一步

我們先做一波應用優化


應用優化分成兩部分,自定義工作流和並行化改造。

1、自定義工作流模板
一次製作,反覆使用

正如我們開頭說的,很多時候,現成的應用往往無法滿足用戶的需求,需要根據自己的模型和研究目標,自定義設置一套獨有的工作流程。
在生命科學領域,可以說幾乎沒有一模一樣的工作流。

而用戶在進行了一次或多次複雜的設定之後,如果能把這些設定保存成固定模板,就不用重複手動去一步步重新設置。十次百次還能忍,一千次呢?
一次製作,反覆使用,省時省力,還不用擔心中間出錯。

我們fastone平台已經實現包括MOE在內多款應用的自定義工作流,可以根據用戶的實際使用場景自定義模板。
而且,這套自定義的設置是可以跨應用存在的,不一定局限在一個應用範圍內。
自己重複用,共享給團隊的其他人用,都可以。

我們這套自動化的原則,不僅存在於應用層面,同時也能在資源的調度和部署層面實現。
比如不用再一台台機器手動安裝配置,不用時刻盯着任務進程。

自動化部署相比手動模式究竟有哪些優勢?看這裡《EDA雲實證Vol.1:從30天到17小時,如何讓HSPICE仿真效率提升42倍?》

2、應用並行化改造

應用並行化改造,通俗地講,就是你在雲端弄到了1000核資源,怎麼把任務扔到雲端,讓其能夠在1000核資源上高效地跑起來,這就是應用並行化改造需要解決的問題。

像MOE這樣的應用,由於單分子計算時間短,分子計算獨立,子任務之間沒有通信開銷,輸入輸出數據量小,特別適合併行化運行。改造完成後,MOE任務可在雲端分為若干子任務獨立計算,節省大量時間。

如何從零開始進行應用並行化改造,可以看這篇《EDA雲實證Vol.7:揭秘20000個VCS任務背後的「搬桌子」系列故事》

這一波應用優化做完後,用戶可以省時省力地利用雲端資源,輕鬆提升應用運行效率。

第二步

我們開始大規模MOE任務上雲



雲端擴展性驗證

本地/雲端計算優化型實例

3000個分子



結論:
1、同等核數下,雲端計算優化型實例的表現與本地計算資源相差無幾;
2、對應用進行並行化改造後,隨着雲端核數的增加,運算時間呈線性下降。當CPU核數從64核增加到384核(6倍)之後,運算時間從188.9分鐘縮短為32.2分鐘(5.9倍)。

實證過程:
1、本地使用64核計算資源運算一組MOE任務(模擬約3000個分子),耗時190.4分鐘;
2、雲端調度64核計算優化型實例運算一組MOE任務(模擬約3000個分子),耗時188.9分鐘;
3、雲端調度128核計算優化型實例運算一組MOE任務(模擬約3000個分子),耗時94.7分鐘;
4、雲端調度256核計算優化型實例運算一組MOE任務(模擬約3000個分子),耗時47.4分鐘;
5、雲端調度384核計算優化型實例運算一組MOE任務(模擬約3000個分子),耗時32.2分鐘。


雲端大規模業務驗證

200000個分子



結論:
雲端調度384核計算資源,將一組MOE任務(模擬約200000個分子)的計算周期從本地預估的8.7天縮短為1.5天,符合「2天內完成」的任務目標。

實證過程:
1、雲端調度64核計算優化型實例運算一組MOE任務(模擬約200000個分子),耗時12576分鐘(與本地機房64核的預估時間相仿);
2、雲端調度128核計算優化型實例運算一組MOE任務(模擬約200000個分子),耗時6290分鐘;
3、雲端調度256核計算優化型實例運算一組MOE任務(模擬約200000個分子),耗時3146分鐘;
4、雲端調度384核計算優化型實例運算一組MOE任務(模擬約200000個分子),耗時2138分鐘。

在本實證中,無論是模擬3000個分子還是200000個分子,MOE的線性擴展都相對良好,當雲端資源增加到384核之後,運算時間已經成功縮短到了2天以內。

即便模擬的分子數量增加到百萬甚至千萬級別,經過應用並行化處理的MOE依舊可以很好地應對,同時fastone平台還支持使用對象存儲自動優化存儲效率和費用,以最大化地降本增效。

有些應用特性不一樣,如LS-DYNA和Fluent這兩個應用,隨着計算節點規模的增加,節點間通信開銷會指數級上升,性能的提升便隨之變緩。這種情況,我們也有經驗:
《怎麼把需要45天的突發性Fluent仿真計算縮短到4天之內?》
《LS-DYNA求解效率深度測評 │ 六種規模,本地VS雲端5種不同硬件配置》

第三步

智能預測成本,提前心裡有底


在期限內成功完成了200000個分子的模擬之後,課題組開始計劃下一步任務。
出於對課題總體預算的把控,老師希望能對幾個大規模MOE運算任務的花費進行預估,做到心中有數,以便及時調整計劃。

這時候,就輪到fastone平台的智能預測功能發揮了。

用戶在fastone平台的圖形化操作界面運算MOE任務,完成以下步驟:
1、用戶上傳數據文件(平台自動解析文件,判斷其中包含的分子數量)
2、用戶輸入期望的運算時間(平台推薦用戶適配機型或用戶自行選擇機型)
3、系統得出預測成本

根據不同用戶的需求,fastone平台還可以為用戶分別提供成本優先和時間優先的智能調度策略《生信雲實證Vol.3:提速2920倍!用AutoDock Vina對接2800萬個分子》

老師可以根據預測成本提前權衡,並在此基礎上進行預算管控。

而對於企業用戶,涉及到預算審批流程,這塊就顯得更為重要,項目負責人能夠非常方便地使用該功能預估項目費用,完成項目規劃和申請。

第四步

權限和角色管理,團隊必備


對於團隊來說,fastone平台的權限和角色管理功能,支持管理員角色對每一個用戶進行相關權限設定,包括預算使用上限和CPU核數使用上限。

這是很多團隊在上雲時都可能面臨的問題——團隊成員共用一個賬戶,共享一個資源池和總預算額度。團隊管理者——通常是課題組老師——對於項目整體消耗的總資源和總預算有一個清晰的概念,但往往很難對具體的操作人員進行計算資源和預算上限管控。

雲計算的靈活性和擴展性使得這種管理的重要性大大提升,這裡就有一個反面教材《2小時,賬單47萬!「Milkie Way公司破產未遂事件」復盤分析》

fastone平台的權限控制功能方便管理員從全局角度管控項目的資源消耗。該功能與智能預測配合使用,能夠從多個層面對預算和資源進行全方位規劃。


實證小結



1、MOE任務能夠在雲端有效運行;
2、fastone平台成功將大規模MOE任務的運算時間縮短到了2天以內;
3、fastone平台自定義工作流模板功能讓用戶一次製作,反覆使用,既適配生命科學領域應用特性,又大幅提升用戶和團隊工作效率;
4、fastone平台的智能預測、權限和角色管理功能讓課題組老師能夠更輕鬆進行團隊管理和項目規劃。

本次生命科學行業雲實證系列Vol.9就到這裡了。
下一期的生信雲實證,我們聊Schrödinger。
請保持關注哦!

關於fastone雲平台在其他應用上的表現,可以點擊以下應用名稱查看:
HSPICE│Bladed│Vina│OPC│Fluent│Amber│VCS│LS-DYNA│Virtuoso

-END-

我們有個生物/化學計算雲平台
集成多種生命科學領域應用,大量任務多節點並行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在雲端創建集群

掃碼免費試用,送300元體驗金,入股不虧~

更多電子書
歡迎掃碼關注小F(ID:imfastone)獲取

你也許想了解具體的落地場景:
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS雲端5種不同硬件配置
揭秘20000個VCS任務背後的「搬桌子」系列故事
155個GPU!多雲場景下的Amber自由能計算
怎麼把需要45天的突發性Fluent仿真計算縮短到4天之內?
5000核大規模OPC上雲,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子
從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?

關於為應用定義的雲平台:
創新藥研發九死一生,CADD/AIDD是答案嗎?
這一屆科研計算人趕DDL紅寶書:學生篇
【大白話】帶你一次搞懂速石科技三大產品:FCC、FCC-E、FCP
AI太笨了……暫時
速石科技成三星Foundry國內首家SAFE™雲合作夥伴
【2021版】全球44家頂尖藥企AI輔助藥物研發行動白皮書
EDA雲平台49問
國內超算發展近40年,終於遇到了一個像樣的對手
幫助CXO解惑上雲成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()