close

點擊下方卡片,關注「新機器視覺」公眾號

重磅乾貨,第一時間送達


作者 |ljc_coder@CSDN

鏈接 | https://blog.csdn.net/m0_52785249/article/details/121478779

0

導讀

抓取綜合方法是機器人抓取問題的核心,本文從抓取檢測、視覺伺服和動態抓取等角度進行討論,提出了多種抓取方法。各位對機器人識別抓取感興趣的小夥伴,一定要來看一看!千萬別錯過~


/ contents




1. 引言

1.1抓取綜合方法

1.2 基於視覺的機器人抓取系統

2. 抓取檢測、視覺伺服和動態抓取

2.1抓取檢測

2.2 視覺伺服控制

2.3動態抓取

3. 本文實現的方法

3.1網絡體系結構

3.2 Cornell 抓取數據集

3.3 結果評估

3.4視覺伺服網絡體系結構

3.5VS數據集



1

引言

找到理想抓取配置的抓取假設的子集包括:機器人將執行的任務類型、目標物體的特徵、關於物體的先驗知識類型、機械爪類型,以及最後的抓取合成。

註:從本文中可以學習到視覺伺服的相關內容,用於對動態目標的跟蹤抓取或自動調整觀察姿態。因為觀察的角度不同,預測的抓取框位置也不同:抓取物品離相機位置越近,抓取預測越准。

1.1

抓取綜合方法

抓取綜合方法是機器人抓取問題的核心,因為它涉及到在物體中尋找最佳抓取點的任務。這些是夾持器必須與物體接觸的點,以確保外力的作用不會導致物體不穩定,並滿足一組抓取任務的相關標準。

抓取綜合方法通常可分為分析法和基於數據的方法。

分析法是指使用具有特定動力學行為的靈巧且穩定的多指手構造力閉合

基於數據的方法指建立在按某種標準的條件下,對抓取候選對象的搜索和對象分類的基礎上。(這一過程往往需要一些先驗經驗)

1.2

基於視覺的機器人抓取系統

基於視覺的機器人抓取系統一般由四個主要步驟組成,即目標物體定位、物體姿態估計、抓取檢測(合成)和抓取規劃。

一個基於卷積神經網絡的系統,一般可以同時執行前三個步驟,該系統接收對象的圖像作為輸入,並預測抓取矩形作為輸出。

而抓取規劃階段,即機械手找到目標的最佳路徑。它應該能夠適應工作空間的變化,並考慮動態對象,使用視覺反饋。

目前大多數機器人抓取任務的方法執行一次性抓取檢測,無法響應環境的變化。因此,在抓取系統中插入視覺反饋是可取的,因為它使抓取系統對感知噪聲、物體運動和運動學誤差具有魯棒性。

2

抓取檢測、視覺伺服和動態抓取

抓取計劃分兩步執行:

首先作為一個視覺伺服控制器,以反應性地適應對象姿勢的變化。

其次,作為機器人逆運動學的一個內部問題,除了與奇異性相關的限制外,機器人對物體的運動沒有任何限制。

2.1

抓取檢測

早期的抓取檢測方法一般為分析法,依賴於被抓取物體的幾何結構,在執行時間和力估計方面存在許多問題。

此外,它們在許多方面都不同於基於數據的方法。

基於數據的方法:Jiang、Moseson和Saxena等人僅使用圖像,從五個維度提出了機器人抓取器閉合前的位置和方向表示。

如下圖,該五維表示足以對抓取姿勢的七維表示進行編碼[16],因為假定圖像平面的法線近似。因此,三維方向僅由給出。

本文的工作重點是開發一種簡單高效的CNN,用於預測抓取矩形。

在訓練和測試步驟中,所提出的網絡足夠輕,可以聯合應用第二個CNN,解決視覺伺服控制任務。因此,整個系統可以在機器人應用中實時執行,而不會降低兩項任務的精度。

2.2

視覺伺服控制

經典的視覺伺服(VS)策略要求提取視覺特徵作為控制律的輸入。我們必須正確選擇這些特徵,因為控制的魯棒性與此選擇直接相關。

最新的VS技術探索了深度學習算法,以同時克服特徵提取和跟蹤、泛化、系統的先驗知識以及在某些情況下處理時間等問題。

Zhang等人開發了第一項工作,證明了在沒有任何配置先驗知識的情況下,從原始像素圖像生成控制器的可能性。作者使用Deep Q-Network ,通過深度視覺運動策略控制機器人的3個關節,執行到達目標的任務。訓練是在模擬中進行的,沒有遇到真實的圖像。

遵循強化學習方法的工作使用確定性策略梯度設計新的基於圖像的VS或Fuzzy Q-Learning,依靠特徵提取,控制多轉子空中機器人。

在另一種方法中,一些研究視覺伺服深度學習的工作是通過卷積神經網絡進行的。CNN的泛化能力優於RL,因為RL學習的參數是特定於環境和任務的。

本文設計了四種卷積神經網絡模型作為端到端視覺伺服控制器的潛在候選。網絡不使用參考圖像和當前圖像以外的任何類型的附加信息來回歸控制信號。

因此,所提出的網絡作為實際上的控制器工作,預測速度信號,而不是相對姿態。

2.3

動態抓取

學習感知行為的視覺表徵,遵循反應範式,直接從感覺輸入生成控制信號,無需高級推理,有助於動態抓取。

強化學習方法適用於特定類型的對象,並且仍然依賴於某種先驗知識,因此,最近大量研究探索了將深度學習作為解決閉環抓取問題的方法。

Levine等人提出了一種基於兩個組件的抓取系統。第一部分是預測CNN,其接收圖像和運動命令作為輸入,並輸出通過執行這樣的命令,所產生的抓取將是令人滿意的概率。第二個部分是視覺伺服功能。這將使用預測CNN來選擇將持續控制機器人成功抓取的命令。這稱為是深度強化學習,需要很久的訓練時間。

2019年,Morrison, Corke 和 Leitner 開發了一種閉環抓取系統,在這種系統中,抓取檢測和視覺伺服不是同時學習的。作者使用完全CNN獲取抓取點,並應用基於位置的視覺伺服,使抓取器的姿勢與預測的抓取姿勢相匹配。

3

本文實現的方法

VS的目的是通過將相機連續獲得的圖像與參考圖像進行比較,引導操縱器到達機器人能夠完全看到物體的位置,從而滿足抓取檢測條件。因此,該方法的應用涵蓋了所有情況,其中機器人操作器(相機安裝在手眼模式下)必須跟蹤和抓取對象。

該系統包括三個階段:設計階段、測試階段和運行階段。第一個是基於CNN架構的設計和訓練,以及數據集的收集和處理。在第二階段,使用驗證集獲得離線結果,並根據其準確性、速度和應用領域進行評估。第三階段涉及在機器人上測試經過訓練的網絡,以評估其在實時和現實應用中的充分性。

在運行階段,系統運行的要求是事先獲得目標對象的圖像,該圖像將被VS用作設定點。只要控制信號的L1範數大於某個閾值,則執行控制迴路。

單個參考圖像作為視覺伺服CNN的輸入之一呈現給系統。相機當前獲取的圖像作為該網絡的第二個輸入,並作為抓取CNN的輸入。這兩個網絡都連續運行,因為抓取CNN實時預測矩形以進行監控,VS網絡執行機器人姿勢的實時控制。

VS CNN預測一個速度信號,該信號乘以比例增益,以應用於相機中。機器人的內部控制器尋找保證相機中預測速度的關節速度。在每次循環執行時,根據機器人的當前位置更新當前圖像,只要控制信號不收斂,該循環就會重複。

當滿足停止條件時,抓取網絡的預測映射到世界坐標系。機器人通過逆運動學得到併到達預測點,然後關閉夾持器。

3.1

網絡體系結構

該卷積網絡架構被用於抓取檢測。網絡接收224×224×3的RGB圖像作為輸入,無深度信息。

layer 1 由32個3×3卷積組成,layer 2 包含164個卷積。在這兩種情況下,卷積運算都是通過步長2和零填充(zero-padding)執行的,然後是批標準化(batch normalization)和2×2最大池化。layer 3 包含96個卷積,其中卷積使用步長1和零填充執行,然後僅執行批標準化。layer 4 ,也是最後一層,卷積層由128個卷積組成,以步長1執行,然後是2×2最大池化。

在最後一層卷積之後,生成的特徵映射在包含4608個元素的一維向量中被展開,進一步傳遞到兩個全連接(FC)層,每個層有256個神經元。在這些層次之間,訓練期間考慮50%的dropout rate。

最後,輸出層由5個神經元組成,對應於編碼抓取矩形的**值。在所有層中,使用的激活函數都是ReLU**,但在輸出層中使用線性函數的情況除外。

3.2

Cornell 抓取數據集

為了對數據集真值進行編碼,使用四個頂點的和坐標編譯抓取矩形。

和參數分別表示矩形中心點的和坐標,可從以下公式獲得:

計算夾持器開口和高度,同樣根據四個頂點計算:

最後,表示夾持器相對於水平軸方向的由下式給出:


3.3

結果評估

預測矩形()和真值矩形()之間的角度差必須在30度以內。

雅卡爾指數(交並比)需要大於0.25,而不是像一般那樣「達到0.25即可」。

3.4

視覺伺服網絡體系結構

與抓取不同,設計用於執行機械手視覺伺服控制的網絡接收兩個圖像作為輸入,並且必須回歸六個值,考慮到線性和角度相機速度。

這些值也可以分為兩個輸出,共有四個模型處理VS任務。

模型1-直接回歸(最終實驗效果最佳)。它基本上與抓取網絡相同,除了在第三卷積層中包含最大池化和不同的輸入維度,這導致特徵圖上的比例差異相同。

模型2-任務特定回歸。網絡輸入被串聯,第三組特徵圖由兩個獨立的層序列處理(多任務網絡)。因此,網絡以兩個3D矢量的形式預測6D速度矢量。具體來說,該結構由一個共享編碼器和兩個特定解碼器組成 - 一個用於線速度,另一個用於角速度。

模型3-串聯特徵的直接回歸和模型4-相關特徵的直接回歸,兩個模型的結構類似,通過關聯運算符()區分。

模型3簡單連接;模型4使用相關層。

模型3簡單地由第三個卷積層產生的特徵映射連接,因此第四個層的輸入深度是原來的兩倍。而模型4有一個相關層,幫助網絡找到每個圖像的特徵表示之間的對應關係。原始相關層是flow network FlowNet的結構單元。

3.5

VS數據集

該數據集能夠有效地捕獲機器人操作環境的屬性,具有足夠的多樣性,以確保泛化。

機器人以參考姿態為中心的高斯分布的不同姿態,具有不同的標準偏差(SD)。

下表為參考姿勢(分布的平均值)和機器人假設的標準偏差集(SD)。

SD選擇考慮了機器人在VS期間必須執行的預期位移值。

從高SD獲得的圖像有助於網絡了解機器人產生大位移時圖像空間中產生的變化。

當參考圖像和當前圖像非常接近時,從低SD獲得的實例能夠減少參考圖像和當前圖像之間的誤差,從而在穩態下獲得良好的精度。

平均SD值有助於網絡在大部分VS執行期間進行預測。

獲得數據後,數據集以**的形式構造,其中圖像為I**,****是拍攝該圖像時對應的相機姿態。

為泰特-布萊恩角內旋(按照變換)

已處理數據集的每個實例都採用()表示。是選擇作為所需圖像的隨機實例;選擇另一個實例作為當前圖像;是二者的變換。

通過齊次變換矩陣形式表示每個姿勢(由平移和歐拉角表示)來實現(和),然後獲得

最後,對於實際上是控制器的網絡,其目的是其預測相機的速度信號,即:E控制信號。 被轉化為

是比例相機速度。由於在確定標記比例速度時不考慮增益,因此使用了周期性項,並且在控制執行期間必須對增益進行後驗調整。

速度由表示:

其中,是旋轉矩陣;****同一矩陣第i行和第j列的元素;是與當前相機位置到期望相機位置的平移向量;是比例增益(初始設置為1)。

版權聲明:本文為作者授權轉載,僅做學術分享,未經授權請勿二次傳播,版權歸原作者所有。

本文僅做學術分享,如有侵權,請聯繫刪文。

—THE END—
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()