close

新智元報道

編輯:小鹹魚 好睏

【新智元導讀】近日,一位博士給樂高小車裝了個「大腦」,並且還讓它學會了走迷宮!研究成果已在《Science Advances》發表。

有一種經典的遊戲叫走迷宮。

迷宮,往往只有一個入口,一個出口,可是中間能選擇的走法卻是不勝枚舉。

而人類為什麼能快速找到走出迷宮的方法呢?

為研究大腦在走迷宮的任務中究竟是怎麼想的,科學家們必須先找一個簡單的案例,於是,他們把目光轉移到了小鼠身上。

2016年,浙江大學吳朝暉課題組的研究人員在Nature子刊《Scientific Reports》發表了一篇論文,描述了一種結合了小鼠和強化學習算法的混合腦機系統。

https://www.nature.com/articles/srep31746

實驗組小鼠的大腦都被植入了電極並連接上了計算機。

研究人員在小鼠大腦的內側前腦束(MFB)植入電極,小鼠背上的背包會接收MFB的刺激參數,並且往小鼠大腦輸入刺激脈衝。從迷宮上方鳥瞰的攝像頭會記錄下小鼠的運動和方位。

當小鼠走迷宮時,計算機上運行的學習算法(採用的是強化學習算法Q-Learning)會根據攝像頭傳來的視頻輸入計算MFB的刺激參數(電壓、頻率、占空比和脈衝數),從而對小鼠進行指導。

實驗裝置圖

每次走迷宮,小鼠都必須在全部6個決策點進行正確的決策,才能在終點獲得獎勵(水)。而在一次走迷宮試驗中,只要小鼠連續3次成功到達終點,就可以認為它學會了走這個迷宮。

實驗中,小鼠在迷宮中不斷行走,Q-Learning算法也生成了獎勵地圖。根據小鼠的位置和獎勵地圖,算法生成了實時的MFB刺激參數,指導着小鼠在迷宮中行走。

獎勵地圖更新

結果是,被「增強」後的小鼠在走迷宮任務中表現出了強大的學習能力,試了3次就走出了中途需要進行6次決策的迷宮,而沒有強化學習算法指導的對照組需要走6次才能走出迷宮。

這個實驗也說明了小鼠在迷宮中進行探索的時候,其大腦的學習過程類似於一個弱化版本的Q-Learning算法,本質也是在根據自己的位置和記憶中的地圖進行決策。

雖說只靠大腦慢是慢了些,但還是能完成任務,而且肯定比計算機節能環保啊。

那麼,如果把類似大腦的神經形態電路放到機器人身上,它們能學會在曲折的迷宮中穿梭嗎?

機器人用「大腦」走出迷宮


近日,來自埃因霍溫科技大學(TU/e)、馬克斯·普朗克聚合物研究所、斯坦福大學和劍橋大學的研究人員給出了證明,並將成果發表在了《Science Advances》上。

https://www.science.org/doi/10.1126/sciadv.abl5068

機器學習和神經網絡被應用於圖像識別、醫療診斷等領域。儘管如此,這種基於軟件的機器智能方法仍有其缺點,尤其是需要消耗大量的能源。

為了找到一個解決方案,研究人員開始在大腦中尋找靈感。

人腦可以將記憶和處理結合在一起,其中的神經元通過突觸相互溝通,每次信息流經它們時,突觸都會得到加強,而這種可塑性也確保了人類的記憶和學習。

於是,研究人員也把機器人的決策建立在人類用于思考和行動的系統之上:大腦。

具有機神經形態電路的路徑規劃機器人

機器人對目標任務的處理和學習是通過一個有機神經形態電路在本地實現的,經過不斷地學習,最終走出迷宮。

機器人系統的詳細示意圖

機器人感知運動系統的靜態、低級控制是由數字領域的中央單元進行的。感知運動系統和有機神經形態電路在模擬域運行,控制單元(數字)和感知運動系統/神經形態電路(模擬)之間建立了一個實時的感知運動迴路。

神經形態電路由有機突觸晶體管組成:一個易失性(OECT)和一個非易失性(MEM)裝置。

運行時,神經形態電路接收光機械感覺信號(在GOECT和GMEM器件的門上)以感知(適應)環境刺激,並向機器人的執行器發送運動指令(VM)以進行運動。

最終,神經形態電路通過訓練形成了完成目標任務所需的感覺運動關聯。

「正如小鼠大腦中的突觸每次在迷宮中正確轉彎時都會得到加強一樣,我們通過施加一定量的電刺激來對機器人的『大腦』進行微調。」TU/e機械工程系的博士生、論文的主要作者Imke Krauhausen解釋道。

第16次成功走出迷宮

工作原理


機器人基於樂高的Mindstorms EV3平台打造,除了有2個輪子和傳統的引導軟件來確保它能沿着線走以外,還有一些反射和觸覺傳感器。

實驗場地是一個由黑色的六邊形組成的蜂窩狀迷宮,面積為2平方米。

機器人配備了一個有機神經形態的大腦

最初,機器人的視覺-運動關聯尚未建立,默認只會向右轉。每當它到達死胡同或偏離了指定的路徑時,電刺激就會強化這種關聯,告訴機器人要麼返回要麼向左轉。

然後,通過將這種糾正性刺激儲存在神經形態的「大腦」當中,機器人對導航線索的敏感性也進一步增強,並在之後的嘗試中能夠做出更加準確的決策。

前期的失敗

最後,機器人在第16次嘗試的時候終於找到了出口。

此時,視覺運動關聯已經形成,視覺線索觸發行為結果:沒有視覺線索,右轉;有視覺線索,左轉。

更重要的是,機器人一旦學會了某條特定的路線(目標路徑1),就能在任何其他給定的路線中(目標路徑2)一次性地走到終點。

因此,機器人學到的知識是可以進行遷移和推廣的。


Krauhausen表示,「這種感知和運動的相互加強,在很大程度上也是自然界的運作方式,所以這也是我們試圖在機器人中模仿的東西」。

經過訓練,機器人學會了將導航線索與轉向運動聯繫起來

其中,D中展示了導航線索(#1至#9),標記處代表左轉,否則為右轉。

有機聚合物


在研究中,神經形態機器人所使用的是有機材料,不是硅基的哦。

這種聚合物「p(g2T-TT)」不僅穩定,而且能夠保留大部分在迷宮中「學習」到的特定狀態。

有機神經形態電路的布局

就像人腦中的神經元和突觸能記住事件或行動一樣,「p(g2T-TT)」能讓學到的行為能一直保持下去。


這種在神經形態計算領域使用聚合物是由馬克斯·普朗克聚合物研究所的Paschalis Gkoupidenis和TU/e的Yoeri van de Burgt開創的。

經過研究(可追溯到2015年和2017年),他們證明了這種材料可以在比無機材料大得多的傳導範圍內進行調整,而且它能夠「記住」或長時間存儲所學的狀態。

從那時起,有機設備就成為了基於硬件的人工神經網絡領域的一個熱門話題。


由於聚合物材料的有機性質,這些智能設備原則上可以與實際的神經細胞集成,也就是說可以廣泛地應用於生物醫學領域。

假設你在一次意外中失去了胳膊,那麼基於智能聚合物的設備就能將你的身體與仿生的手臂聯繫起來。


那麼,是不是在將來的某一天,神經形態機器人也能學會踢足球呢?

Krauhausen說,「原則上,這當然是可能的。但我們還有很長的路要走。我們的機器人仍然依賴一部分傳統的軟件來移動。而為了讓神經形態機器人執行真正複雜的任務,我們需要建立神經形態網絡,其中許多設備在一個網格中一起工作。這是我在博士研究的下一階段要做的事情。」

參考資料:

https://www.science.org/doi/10.1126/sciadv.abl5068

https://www.nature.com/articles/srep31746

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()