人類正在進入人工智能時代。化學也將被現代的深度學習方法所改變,這需要大量定性數據來進行神經網絡訓練。好消息是,化學數據「很好保存」。即使某種化合物最初是在 100 年前合成的,關於其結構、性質和合成方式的信息仍然與今天相關。壞消息是,沒有公認的標準方法來呈現化學公式。化學家通常使用許多技巧以簡寫符號的方式來表示熟悉的化學基團。但化學家的個人習慣不同,慣例也會改變。對於計算機算法來說,這項任務似乎是不可逾越的。來自 Skoltech 的初創公司 Syntelly 和莫斯科羅蒙諾索夫國立大學的研究人員開發了一種基於 Transformer 的人工神經網絡,可以將有機結構的圖像轉換為分子結構。為了訓練這個網絡,開發了一個綜合數據生成器,它可以隨機模擬各種繪圖樣式、官能團、官能團占位符(R 基)和視覺污染。該研究以「Image2SMILES: Transformer-Based Molecular Optical Recognition Engine」為題,於 2022 年 1 月 11 日發表在《Chemistry–Methods》上。化學結構識別面臨挑戰多年來,文獻中發表了大量化學數據。不幸的是,在計算機時代之前,這些有價值的數據僅在紙質資源中出現。當前的挑戰是從這些來源中提取和挖掘這些數據。深度神經網絡的廣泛發展顯著提高了光學識別任務的性能。然而,圖形或弱結構信息識別一直是一個具有挑戰性的問題。一個常見的例子是化學結構的識別。首先,化學化合物的繪圖風格(原子標籤字體、鍵描繪風格等)在出版商之間沒有完全標準化。其次,化合物通常被繪製為馬庫什(Markush)結構:可以描述許多化合物的支架,馬庫什結構沒有通用的指導方針,這導致了各種各樣的 Markush 表示。此外,在某些情況下,化學論文的作者使用使用藝術風格來代表化學結構。
以藝術風格描繪的分子示例。
總而言之,識別化學結構和分子模板是一個具有挑戰性的問題,我們相信只有基於人工智能的工具才能解決這個問題。Transformer 是谷歌團隊最初提出的用於神經翻譯的架構。然而,該架構及其修改在許多其他任務中表現出出色的性能,例如:在化學中,Transformer 被應用於有機反應結果的預測,SMILES 和 IUPAC 名稱之間的轉換。可以看出,基於 Transformer 的架構的性能通常高於基於 RNN 的方法。這一觀察促使研究人員實現了一個基於 Transformer 的引擎,用於光學識別化學結構。數據是機器學習的關鍵。然而,據我們所知,在化學文章上沒有帶有注釋對象的開放訪問數據集。獲得大型數據集的唯一方法是構建數據生成模型。該研究所提方法的新穎之處在於強烈關注數據生成方案,並且不僅可以處理有機結構,還可以處理分子模板,因此該方法可以用於實際數據。在這項工作中,為了訓練這個網絡,開發了一個綜合數據生成器,它可以隨機模擬各種繪圖樣式、官能團、官能團占位符(R 基)和視覺污染。PubChem 數據庫包含大約 1 億個分子。選擇 RDKit 作為自動繪圖工具。在大多數化學文獻中,作者繪製了帶有官能團和 R-基取代基的分子。為了生成具有此類取代基的分子,研究人員創建了 100 多個常見官能團的列表。將每個組描述為一個 SMARTS 模板。其增強算法隨機替換分子中的官能團以生成增強數據集。應該注意一些官能團是嵌套的。典型例子是:甲基 (-Me) 和甲氧基 (-OMe) 基團。研究人員設計了一種解析方法,以防止嵌套組重疊。生成的具有官能團和 R 基團的分子示例。
研究人員實現了一種方法來生成具有 R 基在環中可變位置的圖像。可變位置的 R 基示例。
如果環的取代基不超過兩個,則 R 基團(R、R1、R2、R'、R'')以 20% 的概率繪製在可變位置,但該算法對一個環進行一次替換,一個分子最多替換兩個。添加了一個虛擬鍵,使 RDKit 將基團放在環鍵的前面,然後使用 SVG 後處理將兩個鍵替換為單行。下面的例子給出了直觀的解釋。在可變位置呈現 R 基。
在標準的 SMILES 中無法表示分子模板,在此設計了一種修改後的語法,將其命名為 FG-SMILES。這是標準 SMILES 的擴展,其中取代基或 R 基團可以寫成單個偽原子。如果取代基是官能團,FG-SMILES 可以通過替換相應的假原子直接翻譯成 SMILES。一個例子:SMILES: Cc1cc(C)c(-c2ccccc2)c(-c2ccc([N+](=O)[O-])cc2)c1FG-SMILES: [Me]c1cc([Me])c(-[Ph])c(-c2ccc([NO2])cc2)c1此外,FG-SMILES 符號允許描述可變的 R 基位置。添加 v 符號來表示芳族系統內的變量 R 基團。當我們的模型在真實環境中運行時,它會從光學掃描中裁剪出一個區域作為輸入。然而,通常分子圖像會被其他細節污染,實驗表明,即使圖像中存在很小的污染也會破壞預測。為了解決這個問題,研究人員提出了一種模擬典型污染的污染增強算法。下圖給出了污染增強算法的一些結果示例。此外,研究人員還使用了在「albumentations」庫中實現的標準計算機視覺增強。Img2SMILES 模型的輸入形狀為 384x384。研究人員使用 ResNet-50 作為 CNN 塊。ResNet 模塊的輸出形狀為 2048x12x12。Transformer 解碼器的其他參數取自經典架構。Img2SMILES 模型架構圖。
研究人員證明了基於 Transformer 的架構可以從發生器中收集化學見解。這意味着,有了 Transformer,人們可以完全專注於數據模擬,來構建一個好的識別模型。該光學識別引擎的網絡演示可在 Syntelly 平台在線獲得,數據集生成的代碼可在 GitHub 上免費獲得。「我們的研究很好地證明了化學結構光學識別正在進行的範式轉變。雖然先前的研究主要集中在分子結構識別本身,但現在我們擁有 Transformer 和類似網絡的獨特能力,我們可以轉而致力於創建人工樣本生成器,模仿大多數現有類型的分子模板描述。我們的算法結合了分子、官能團、字體、樣式,甚至打印缺陷,它引入了一些額外的分子、抽象片段等。即使是化學家也有很難判斷該分子是直接來自真實的紙張還是來自發電機。」該研究的首席研究員,初創公司 Syntelly 的首席執行官 Sergey Sosnin 說。該研究的作者希望他們的方法將構成邁向人工智能系統的重要一步,該系統能夠「閱讀」和「理解」研究論文,達到高素質化學家的程度。數據生成器 GitHub 地址:https://github.com/syntelly/img2smiles
論文鏈接:https://chemistry-europe.onlinelibrary.wiley.com/doi/10.1002/cmtd.202100069
參考內容:
https://techxplore.com/news/2022-02-neural-network-chemical-formulas-papers.html
https://mp.weixin.qq.com/s/oljlC7k5ysGrTXNAAW62fg
公司官網:https://syntelly.com/
人工智能×[生物 神經科學數學 物理 材料 ]
「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。
歡迎關註標星,並點擊右下角點讚和在看。
點擊閱讀原文,加入專業從業者社區,以獲得更多交流合作機會及服務。