深度學習在2維圖像等結構化數據處理中表現出了優越性能,對非結構化的點雲數據分析處理 的潛力已經成為計算機圖形學的重要研究方向,並在機器人、自動駕駛、虛擬及增強現實等領域取得一 定進展.通過回顧近年來3維點雲處理任務的主要研究問題,圍繞深度學習在3維點雲形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法.介紹了點雲拓撲結構的提取方法,然後對比分析 了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展.最後,總結常 用的3維點雲公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,並從不同角度 對基於深度學習的方法處理點雲數據所面臨的挑戰與發展方向進行了討論.
隨着3維傳感器的迅速發展,3維數據變得無 處不在,利用深度學習方法對這類數據進行語義理 解和分析變得越來越重要. 不同3維數據(體素、網格等)表示下,深度學習 的方法不盡相同,但這些方法應用於點雲中都有一 定的局限性,具體表現為:體素化方法會受到分辨率 的限制;轉換為2維圖像的方法在形狀分類和檢索 任務上取得了優越性能,但將其擴展到場景理解或 其他3維任務(如姿態估計)有一定的困難;光譜卷 積神經網絡限制在流形網格;基於特徵的深度神經 網絡會受到所提取特徵表示能力的限制[1].
點雲本身具有的無序性與不規則性為利用深度 學習方法直接處理該類數據帶來一定挑戰性:1)規 模局限性.現有研究方法一般針對小規模點雲,而能 處理大型點雲的方法也需要切割處理,即將其分為 小塊後再處理.但切割可能會造成點雲整體信息的 丟失.2)遮擋.當被掃描對象被遮擋時,將直接導致 信息的丟失,這為後續任務的處理帶來嚴重影響.3) 噪聲.由於點雲數據本身就是3維空間內的點集,噪 聲的存在直接影響點雲模型的正確表示,在形狀識 別等任務中會造成精度的降低.4)旋轉不變.對於同 一模型,旋轉不同角度仍表示同一對象,網絡識別結 果不應由於角度不同而產生差異. 隨着近年來激光雷達等傳感設備及相關技術的 發展,3維點雲的掃描與獲取更為便捷,其處理技術 在機器人、自動駕駛及其他領域的實際應用中已取 得一定進展.基於深度學習的蓬勃發展,研究者提出 了許多方法來解決相關領域的不同問題.
本文對基 於深度學習的點雲處理任務進行詳細闡述. 本文的主要貢獻有4個方面:
1)從機器人、自動駕駛、虛擬和增強現實以及 醫學4個領域介紹點雲處理技術的應用情況;
2)探討點雲拓撲結構與形狀分析在應用於點 雲處理任務中的必要性,並總結對比多種算法;
3)歸納基於點雲數據處理相關任務的方法,主 要包括模型重建與變換、分類分割、檢測跟蹤與姿態 估計,着重討論基於深度學習的方法,並給出各種方 法的優劣比較;
4)總結多個公開點雲數據集,並分析各數據集 中不同方法能處理的不同任務.
1 基本概念及應用情況
1.1 深度學習
機器學習推動現代科技手段的進步.網絡的內 容過濾及推薦、語音文本的轉換及醫學影像分析等 應用程序越來越多地使用深度學習技術.
1) 基礎概念
深度學習善於發現高維數據中的複雜結構,因 此可應用於科學、商業和醫學等諸多領域. 深度學習利用多處理層組成的計算模型學習具 有抽象層次的數據表示,關鍵在於其目標特徵不是 人類指定的,而是從大量數據中學習獲取的,深度神 經網絡已經成為人工智能的基礎.多層感知機或全 連接網絡堆疊線性層和非線性激活層,是神經網絡 的經典類型.卷積網絡引入卷積層和池化層,在處理 圖像、視頻和音頻方面取得了突破性進展.遞歸網絡 可有效處理文本語音等具有連續性的數據.TransG former利用selfGattention機制提取特徵,最早用於 處理自然語言[2G3].
2) 框架平台
為了實現更複雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生.本節介紹 常用的深度學習框架,並將其匯總於表1中. 目前常用於點雲處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用於 處理點雲,但應用較少.
1.2 點雲處理任務
3維幾何模型中,點雲已經成為主要表達方式 之一,其應用於深度學習中的處理技術已取得一定成果.在不同任務驅動下,本文以構建神經網絡為主 要方法,通過分類與整理相關文獻,將點雲處理任務 分為模型重建與變換、分類分割、檢測跟蹤與姿態估 計幾大類.本節總結其基本概念.
模型重建與變換包括形狀修復、模型補全與變 形.掃描獲取到的數據並不能完美表徵原物體的特 性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其儘可能貼合原物 體模型或目標模型,處理手段即為重建與變換. 分類分割主要包括分類、部件分割、語義分割與 實例分割.在諸如機器人抓取等需求中,必須明確所 抓取對象的分類,即需要判斷其信息,判斷即為對場 景中對象語義信息標記與分類. 檢測跟蹤主要包括3維對象檢測、場景流估計 與目標跟蹤.在諸如自動駕駛等應用中,需要明確路 徑與方向,確定追蹤對象,並能依據當前狀態自動調 節或人為干預使其後續運動符合預期目標. 姿態估計主要包括位姿估計與手部姿態估計. 前者需要確定對象的位置與方向,如工廠噴漆中,噴 槍需要依據目標不斷改變其位置與指向.後者則是 為了理解人類肢體語言,如在體感遊戲中,根據肢體 變換執行相應遊戲操作.
1.3 應用情況
3維點雲處理目前在實際應用中已經取得了一 定的進展.本節以應用為導向,從機器人領域、自動 駕駛領域及虛擬、增強現實領域及醫學領域4個角 度介紹點雲處理技術的應用情況.
1.3.1 機器人領域
機器人抓取技術的核心在於目標識別和定位. 2019年 Lin等人[4]利用深度神經網絡學習物體外 在形狀,並訓練網絡在獲取物體局部表面時也能成 功抓取目標. 在機器人 室 內 定 位 及 導 航 技 術 方 面,2020 年 Khanh等人[5]設計了新的雲端導航系統.雲端導航 下機器人能更準確地移動到目標位置.該技術可應 用於位置服務需求,如盲人導航. 針對噴漆機器人的自動化操作,2019年 Lin等 人[6]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,並重 新調整機器人的方向,以完成所需的噴漆任務.2020 年 Parra等人[7]設計了能夠在地板下的空隙中進行 隔熱噴塗以提高建築的強度及使用年限的機器人. 他們針對地形不均勻等情況,提出定位模塊.機器人 依據傳感器獲取連續點雲的信息.Yang等人[8]基於 點雲模型表示的家具表面路徑規劃和邊緣提取技術 提出邊緣噴塗,獲取噴塗槍路徑點序列和對應姿態. 在家具等工件的生產流程中,該方法能夠根據噴塗 系統坐標系與家具姿態的不同,自適應地調整二者 的坐標關係,以實現正確噴塗的目的.
1.3.2 自動駕駛領域
自動駕駛系統的性能受環境感知的影響.車輛 對其環境的感知為系統的自動響應提供了基礎.2017 年 Hanke等人[9]提出採用光線追蹤的汽車激光雷 達傳感器實現實時模型測量方法.使用由真實世界場 景的測量構建的虛擬環境,能夠在真實世界和虛擬世 界傳感器數據之間建立直接聯繫.2019年Josyula等 人[10]提出了利用機器人操作系統(robotoperating system,ROS)和點雲庫(pointcloudlibrary,PCL) 對點雲進行分割的方法.它是為自動駕駛車輛和無 人機的避障而開發的,具體涉及障礙物檢測與跟蹤.激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L4GL5)飛行員成功自動避障 的關鍵因素.為了對大量數據進行點雲標記,2020 年 Li等人[11]提出針對3維點雲的標註工具,實現 了點雲3維包圍盒坐標信息到相機與 LIDAR 聯合 標定後獲得的2維圖像包圍盒的轉換. 基於圖的同步定位與建圖(simultaneouslocaliG zationandmapping,SLAM)在自動駕駛中應用廣 泛.實際駕駛環境中包含大量的運動目標,降低了掃 描匹配性能.2020年 Lee等人[12]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具 有魯棒性.
1.3.3 虛擬、增強現實領域
為了更好地了解室內空間信息,2015年 Tredinnick 等人[13] 創 建 了 能 夠 在 沉 浸 式 虛 擬 現 實 (virtual reality,VR)顯示系統中以較快的交互速率可視化 大規模 LIDAR 點雲的應用程序,能夠產生準確的 室內環境渲染效果.2016年 Bonatto等人[14]探討了 在頭戴式顯示設備中渲染自然場景的可能性.實時 渲染是使用優化的子採樣等技術來降低場景的複雜 度實現的,這些技術為虛擬現實帶來了良好的沉浸 感.2018年 Feichter等人[15]提出了在真實室內點雲 場景中抽取冗餘信息的算法.其核心思想是從點雲 中識別出平面線段,並通過對邊界進行三角剖分來 獲取內點,從而描述形狀. 生成可用於訓練新模型的標註已成為機器學習 中獨立的研究領域,它的目標是高效和高精度.標註 3維點雲的方法包括可視化,但這種方法是十分耗 時的.2019年 Wirth等人[16]提出了新的虛擬現實標 注技術,它大大加快了數據標註的過程. LTDAR為增強現實(augmentedreality,AR) 提供了基本的3維信息支持.2020年 Liu等人[17]提 出學習圖像和 LIDAR 點雲的局部特徵表示,並進 行匹配以建立2維與3維空間的關係. 使用手勢自然用戶界面(naturaluserinterface, NUI)對於頭戴式顯示器和增強及虛擬現實等可穿 戴設備中虛擬對象的交互至關重要.然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應.2020年Im 等人[18]提出基於點雲的神經網絡處理器.該 處理器採用異構內核結構以加速卷積層和採樣層, 實現了使用 NUI所必需的低延遲.
1.3.4 醫學領域
醫學原位可視化能夠顯示患者特定位置的成像 數據,其目的是將特定病人的數據與3維模型相結 合,如將手術模擬過程直接投影到患者的身體上,從 而在實際位置顯示解剖結構.2011年Placitelli等人[19] 採用 采 樣 一 致 性 初 始 配 准 算 法 (sampleconsensus initialalignment,SACGIA),通過快速配准三元組 計算相應的匹配變換,實現點雲快速配准. 模擬醫學圖像如 X 射線是物理學和放射學的 重要研究領域.2020年 Haiderbhai等人[20]提出 基 於 條 件 生 成 式 對 抗 網 絡 (conditionalgenerative adversarialnetwork,CGAN)的點雲 X射線圖像估 計法.通過訓練 CGAN 結構並利用合成數據生成器 中創建的數據集,可將點雲轉換成 X射線圖像.
2 模型形狀結構
了解並確定高層形狀結構及其關係能夠使得模 型感知局部和全局的結構,並能通過部件之間的排 列和關係描繪形狀,這是研究形狀結構分析的核心 課題.隨着真實世界的掃描和信息的挖掘,以及設計 模型規模的增大,在大量信息中進行3維幾何模型 的識別和分析變得越來越重要。
3 模型重建與變換
由於遮擋等多種因素的限制,利用激光雷達等 點雲獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據 的質量問題.為後續任務的處理帶來極大挑戰.
4 形狀分類與分割
基於檢索或劃分的目的,對具有相似特徵或相 同屬性的點雲數據進行區域的分割或屬性的分類是 極其重要的.
5 目標檢測與跟蹤
自動駕駛、機器人設計等領域中,3維目標檢測 與跟蹤至關重要.自動駕駛車輛和無人機的避障等 實際應用中,涉及障礙物檢測與跟蹤.
5.1 3維目標跟蹤
目標跟蹤是推測幀的屬性並預測變化,即推斷 對象的運動情況,可以利用預測對象的運動信息進 行干預使之實際運動符合預期目標或用戶要求. 為了從點雲中推斷出目標對象的可移動部件以 及移動信息,2019年 Yan等人[67]提出 RPMGNet.其 特定的體系結構夠預測對象多個運動部件在後續幀 中的運動,同時自主決定運動何時停止. 2020年 Wang等人[68]提出 PointTrackNet.網 絡中提出了新的數據關聯模塊,用於合併2幀的點 特徵,並關聯同一對象的相應特徵.首次使用 3 維 Siamese跟蹤器並應用於點雲的是 Giancola等人[69]. 基於 Achlioptas等人[70]提出的形狀完成網絡,2019 年 Giancola等人[69]通過使用給定對象的語義幾何 信息豐富重編碼後的表示來提高跟蹤性能. 2019年Burnett等人[71]提出aUToTrack,使用 貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度.Simon 等人[72]融合2維語義信息及 LIDAR 數據,還引入 了縮放旋轉平移分數(scaleGrotationGtranslationscore, SRTs),該方法可更好地利用時間信息並提高多目 標跟蹤的精度. 文獻[67]可以從開始幀和結束幀的移動部分導 出變化範圍,故參數中不含變換範圍,減少了參數個 數.文獻[68]提供的跟蹤關聯信息有助於減少目標 短期消失的影響,其性能比較穩定,但是當汽車被嚴 重遮擋時,結果會出現問題.文獻[69]解決了相似性 度量、模型更新以及遮擋處理3方面的問題,但該方 法直接利用對稱性來完善汽車整體形狀會導致更多 噪聲.文獻[71]實際需要計算被檢測物體的質心,這 種方法能有效檢測行人,但對於汽車來說,其結果並 不準確.文獻[72]提出的 SRTs可用於快速檢測目 標,提高了準確性和魯棒性.
5.2 3維場景流估計
機器人和人機交互中的應用可以從了解動態環 境中點的3維運動,即場景流中受益.以往對場景流 的研究方法主要集中於立體圖像和 RGBGD 圖像作 為輸入,很少有人嘗試從點雲中直接估計. 2019年 Behl等人[73]提出 PointFlowNet,網絡 聯合預測3維場景流以及物體的3維包圍盒和剛體 運動.Gu等人[74]提出 HPLFlowNet,可以有效地處 理非結構化數據,也可以從點雲中恢復結構化信息. 能在不犧牲性能的前提下節省計算成本.Liu等人[75] 提出 FlowNet3D.由於每個點都不是「獨立」的,相鄰點會形成有意義的信息,故而 FlowNet3D 網絡嵌入 層會學習點的幾何相似性和空間關係. 文獻[73]先檢測出object並計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從 非結構化點雲中直接估計3維場景流.文獻[74G75] 的整體結構類似,都是下採樣 融合 上採樣,直接擬 合出sceneflow.
5.3 3維目標檢測與識別
在城市環境中部署自動型車輛是一項艱巨的技 術挑戰,需要實時檢測移動物體,如車輛和行人.為 了在大規模點雲中實現實時檢測,研究者針對不同 需求提出多種方法. 2019年 Shi等人[76]提出 PointRCNN,將場景 中的點雲基於包圍盒生成真實分割掩模,分割前景 點的同時生成少量高質量的包圍盒預選結果.在標 准坐標中優化預選結果來獲得最終檢測結果. 2019年 Lang等人[77]提出編碼器 PointPillars. 它學 習 在 pillars 中 組 織 的 點 雲 表 示,通 過 操 作 pillar,無需手動調整垂直方向的組合.由於所有的 關鍵操作都可以表示為2維卷積,所以僅使用2維 卷積就能實現端到端的3維點雲學習. 考慮到模型的通用性,2019年 Yang等人[78]提 出STD,利用球形錨生成精確的預測,保留足夠的 上下文信息.PointPool生成的規範化坐標使模型在 幾何變化下具有魯棒性.box預測網絡模塊消除定 位精度與分類得分之間的差異,有效提高性能. 2019年 Liu等人[79]提出大規模場景描述網絡 (largeGscaleplacedescriptionnetwork,LPDGNet). 該網絡採用自適應局部特徵提取方法得到點雲的局 部特徵.此外,特徵空間和笛卡兒空間的融合能夠進 一步揭示局部特徵的空間分布,歸納學習整個點雲 的結構信息. 為了克服一般網絡中點雲規模較小的局限性, 2019年Paigwar等人[80]提出 AttentionalPointNet. 利用 Attentional機制進行檢測能夠在大規模且雜 亂無章的環境下重點關注感興趣的對象. 2020年 Shi等人[81]提出 PVGRCNN.它執行 2 步策略:第1步採用體素 CNN 進行體素特徵學習 和精確的位置生成,以節省後續計算並對具有代表 性的場景特徵進行編碼;第2步提取特徵,聚集特徵 可以聯合用於後續的置信度預測和進一步細化. 文獻[76]生成的預選結果數量少且質量高.文 獻[77]能夠利用點雲的全部信息,其計算速度較快. 文獻[78]能夠將點特徵從稀疏表示轉換為緊湊表 示,且用時較短.文獻[79]充分考慮點雲的局部結 構,自適應地將局部特徵作為輸入,在不同天氣條件 下仍能體現出健壯性.文獻[80]不必處理全部點雲, 但預處理步驟使得計算成本較大.文獻[81]結合基 於體素的與基於 PointNet的優勢,能夠學習更具鑒 別力的點雲特徵.
5.4 算法性能對比分析
跟蹤算法中,文獻[67]主要關注的是物體部件 的跟蹤,文獻[68]與文獻[69]則主要檢測同一物體 在不同時間的狀態.文獻[67]的優勢在於可以同時 預測多個運動部件及其各自的運動信息,進而產生 基於運動的分割.該方法實現高精度的前提是輸入 對象的幾何結構明確,否則很有可能會生成不完美 的運動序列.文獻[68]在快速變化的情況下,如突然 剎車或轉彎,其結果仍可靠.但是當目標被嚴重遮擋 時,其結果並不可靠.由於大多數模型(如汽車模型) 只能從單側看到,文獻[69]利用對稱性完善汽車形 狀的方法未必是有效的.文獻[71]的處理方法較簡 單且用時較短,在 CPU 上運行時間不超過75ms.它 能在檢測行人時達到較高性能.但用於擁擠道路的 自動駕駛時,其採用的質心估計對於汽車並不準確. 文獻[72]同時利用2維信息與3維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間. 場景流估計算法中,文獻[73]聯合3維場景流 和剛性運動進行預測,其效率較高且處理不同運動 時具有魯棒性.文獻[74]與文獻[75]都以端到端的 方式從點雲中學習場景流.前者從非結構化的點雲 中恢復結構化,在生成的網格上進行計算,後者則是 在點雲的連續幀中計算. 檢測算法中,文獻[76]不會在量化過程中丟失 信息,也不需要依賴2維檢測來估計3維包圍盒,故 而可以充分利用3維信息.文獻[77]的處理速度較 快,計算效率較高.文獻[78]具有較高的計算效率和 較少的計算量,能夠同時集成基於點和基於體素的 優點.文獻[79]引入局部特徵作為網絡輸入,有助於 充分了解輸入點雲的局部結構.文獻[80]能夠有效 地獲取數據的3維幾何信息.但是,將點雲裁剪成較 小區域等預處理步驟增加了計算成本.文獻[81]結 合了基於體素與基於 PointNet的優點,不僅保留了 精確的位置,而且編碼了豐富的場景上下文信息.
表4給出 KITTI數據集下不同算法處理跟蹤 任務的性能對比.指標為多目標跟蹤準確度(multiG objecttrackingaccurancy,MOTA)、多 目 標 跟 蹤 精確度(multiGobjecttrackingprecision,MOTP)、 目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目 標 大 部 分 跟 丟 的 軌 跡 占 比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程 中被打斷的次數(fragmentation,FRAG)及每秒幀 數(framespersecond,FPS).
表 5 給出在 KITTI數據集下 3 維檢測框(3G dimensionaldetectionbenchmark,3D)、BEV 視圖下 檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果.其中,評估指 標為AP,IoU 閾值為:汽車0.7,行人和自行車0.5.
6 姿態估計
3維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用.
6.1 位姿估計
解決3維可視化問題的中間步驟一般是確定 3維局部特徵,位姿估計是其中最突出的問題. 2017年 Elbaz等人[82]提出的 LORAX 採用了 可以處理不同大小點雲的設置,並設計了對大規模 掃描數據有效的算法.2019年 Speciale等人[83]將原 始3維點提升到隨機方向的3維線上,僅存儲3維 線和3維 點 的 關 聯 特 征 描 述 符,這 類 映 射 被 稱 為 3維線雲.2019年 Zhang等人[84]從目標點雲中自動 提取關鍵點,生成對剛性變換不變的逐點特徵,利用 層次式神經網絡預測參考姿態對應的關鍵點坐標. 最後計算出當前姿態與參考姿態之間的相對變換. 2018年 Deng等人[85]提出了 PPFGFoldNet,通 過點對特徵(pointpairfeature,PPF)對局部3維幾 何編碼,建立了理論上的旋轉不變性,同時兼顧點的 稀疏性和置換不變性,能很好地處理密度變化. 考慮到成對配准描述符也應該為局部旋轉的計 算提供線索,2019年 Deng等人[86]提出端到端的配 准方法.這種算法在 PPFGFoldNet [85]的工作基礎上, 通過學習位姿變換將3維結構與6自由度運動解耦.該方法基於數據驅動來解決2點雲配准問題. 2020年 Kurobe等人[87]提出 CorsNet,連接局 部特徵與全局特徵,不直接聚集特徵,而是回歸點雲 之間的對應關係,比傳統方法集成更多信息. 文獻[82]解決了2點雲之間點數相差數倍的問 題,它簡單、快速,並且具備擴展性,但在極端情況 下,其結果會出錯.文獻[83]只使用了一個幾何約 束,其準確性與召回率可以與傳統方法媲美,但這種 方法的速度較慢.文獻[84]需要較少的訓練數據,因 此對於沒有紋理的對象,它更快、更精確.文獻[85] 繼承了多個網絡框架的優點,且充分利用點雲稀疏 性,能夠快速提取描述符.文獻[86]提高了成對配准 的技術水平且減少了運行時間.文獻[87]結合了局 部與全局特徵,從平移和旋轉的角度而言準確性較 高.表6上半部分給出位姿估計算法的核心方法及 優勢對比分析.
6.2 手部姿態估計
點雲作為更簡單有效的數據表示方法,其輸入 的點集和輸出的手部姿態共享相同表示域,有利於 學習如何將輸入數據映射到輸出姿態上. 為了直接從點雲中估計手部姿態,同樣以手部 3維點云為輸入,2018年 Chen等人[88]提出語義手 部姿 態 回 歸 網 絡 (semantichandposeregression network,SHPRGNet),通過學習輸入數據的變換矩 陣和輸出姿態的逆矩陣應對幾何變換的挑戰.Ge等 人[89]提出的方法輸出反映手部關節的每點貼近度 和方向的 heatGmaps和單位向量場,並利用加權融 合從估計的heatGmaps和單位向量場中推斷出手部 關節位置.2019年 Li等人[90]提出的方法以置換等 變層(permutationequivariantlayer,PEL)為基本 單元,構建了基於 PEL 的殘差網絡模型.且手部姿 態是利用點對姿勢的投票方案來獲得的,這避免了 使用最大池化層提取特徵而導致的信息丟失. 現有的手部姿態估計方法大多依賴於訓練集, 而在訓練數據上標註手部3維姿態費時費力.2019 年 Chen等人[91]提出的 SOGHandNet旨在利用未 註記數據以半監督的方式獲得精確的3維手部姿態 估計.通過自組織映射(selfGorganizingmap,SOM) 模擬點的空間分布,然後對單個點和 SOM 節點進 行層次化特徵提取,最終生成輸入點雲的判別特徵. 2018年 Ge等人[92]提出 HandPointNet,提出 的精細化網絡可以進一步挖掘原始點雲中更精細的 細節,能夠回歸出更精確的指尖位置.Huang等人[93] 認為學習算法不僅要研究數據的內在相關性,而且 要充分利用手部關節之間的結構相關性及其與輸入 數據的相關性.基於此,2020年他們提出非自回歸手 部transformer(nonGautoregressivehandtransformer, NARHT),以關節特徵的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態. 文獻[88]對點雲的幾何變換具有魯棒性.文獻 [89]能夠很好地捕捉空間中點雲的結構信息.文獻 [90]較利用體素的方法占用內存更少,但其效率不 如基於深度圖像的方法.文獻[91]的特徵編碼器能 夠揭示輸入點雲的空間分布.文獻[92]能夠捕捉復 雜的手部結構,並精確地回歸出手部姿態的低維表 示.文獻[93]採用新的nonGautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過 程中提供必要的姿態信息.表6下半部分給出手部 姿態估計算法的核心方法及優勢對比分析.
6.3 算法性能對比分析
位姿估計方法中,核心問題是找到旋轉矩陣與 平移矩陣.文獻[83,85G86]都利用了 RANSAC迭代 算法.其中,文獻[83]實現了魯棒、準確的6自由度 姿態估計.文獻[85]是無監督、高精度、6自由度變 換不變的網絡.文獻[86]在挑戰成對配準的真實數 據集方面優於現有技術,具有更好的泛化能力且速 度更快.文獻[82]的 LORAX能夠並行實現,效率較 高,適合實時應用.它對隨機噪聲、密度變化不敏感, 並且其魯棒性僅在極端水平下才會惡化.文獻[84] 使用較少 的 訓 練 圖 像 實 現 了 較 高 的 准 確 性.文 獻 [87]提出的 CorsNet回歸的是對應關係,而不是直 接姿態變化. 手部姿態估計方法中,文獻[88]可獲得更具代 表性的特徵.SHPRGNet可以在不改變網絡結構的前 提下擴展到多視點的手部姿態估計,這需要將多視 點的深度數據融合到點雲上.然而,融合後的點雲也 會受到噪聲的影響.文獻[89]可以更好地利用深度 圖像中的3維空間信息,捕捉3維點雲的局部結構, 並且能夠集中學習手部點雲的有效特徵,從而進行 精確的3維手部姿態估計.文獻[90]與基於體素化的 方法相比,需要更少的內存.但與基於深度圖像的方 法相比,需要更多的計算時間和內存.文獻[91]使用 半監督的方式對網絡進行訓練,其性能可與全監督 的方法相媲美.文獻[92]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,並 準確地估計其3維姿態.文獻[93]首次結合結構化 手部姿勢估計與基於transformer的自然語言處理 領域的轉換框架.引入參考手部姿勢為輸出關節提 供等效依賴關係.文獻[89]的模型大小為17.2MB.其 中11.1MB用於點對點回歸網絡,它是分層PointNet; 6.1MB用於附加的回歸模塊,它由3個全連層組成. 文獻[90]有2種版本,回歸版本為38MB,檢測版本 為44MB.文獻[91]中,手部特徵編碼器(handfeature encoder,HFE)、手部特徵解碼器(handfeaturedecoder, HFD)和 手 部 特 征 估 計 器 (handposeestimator, HPE)的大小分別為8.1MB,74MB,8.5MB.由於只 在測試階段使用 HFE 和 HPE,所以其網絡模型大 小為16.6MB.文獻[92]的模型大小為10.3MB,其 中回歸網絡為9.2MB,指尖精細網絡為1.1MB.不 同方法在3個數據集上的性能對比分析如圖1所示:
7 總 結
本文總結了近年來多種點雲處理任務的方法, 特別側重於基於深度學習的工作,為讀者提供了最 新的研究進展. 大多數關於點雲的綜述類文章都集中於討論點 雲分類分割處理任務.如文獻[94G95]只討論了語義 分割任務;文獻[96G97]增加了目標檢測和分類任務 的研究分析.其中,文獻[97]只用1節內容簡要介紹 分類、分割及目標檢測三大任務,更關注於處理點雲數據的深度學習方法,而不依據處理任務對其進行 劃分討論.本文則考慮多種點雲處理任務,包括模型 重建與變換、分類分割、檢測跟蹤與姿態估計等.在 模型分割分類中,由於大部分算法有用於實現點雲 分類與分割的功能,不同於文獻[96G97]將分類與分 割作為2種類別分開討論,本文將它們統一考慮,並 根據基於體素、基於視圖與基於點三大主流方法對 其劃分並展開討論,明確給出各算法可處理的任務. 目前,已經有大量學者對點雲處理任務進行研 究並依據任務的不同提出多種方法,但這些方法或 多或少都有一定的局限性.本文基於這些算法的不 足總結點雲處理任務所面臨的挑戰與發展趨勢.
1) 數據方面
大部分方法只在現有的數據集上進行實驗,而 對於新獲取的數據並不適用.這很大程度上是由於 新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平台獲得的數據難以融合,無法達到統一 的標準.對於融合後的點雲,具有魯棒性和區分性特 征的提取有一定的難度,未來的研究可以從特徵提 取方面入手. 數據集尺度不均衡是由於真實複雜場景中檢測 及識別小目標較為困難.未來研究工作可人工生成 小目標樣本,增大數據集中小目標所占比例,進而在 網絡訓練中提高其識別檢測能力. 數據質量對網絡(如transformers)的泛化性和 魯棒性的影響較大[2].點雲的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正.當使用激 光掃描獲取數據時,除了考慮掃描距離和入射角度 的問題,還可以進行強度矯正,通過不同方法改善點 雲的質量. 隨着3維掃描技術的發展,大規模點雲的獲取 已不是難點,挑戰性在於如何對其進行處理.此外, 算法精度依賴大批量的數據集[98],目前還沒有比較 好的解決手段.
2) 性質方面
點雲是3維空間內點的集合,它沒有提供鄰域 信息,故而大部分方法需要依據不同的鄰域查詢方 法確定點的鄰域,這將導致算法增加額外的計算成 本.點雲不能顯式地表達目標結構以及空間拓撲關 系.此外,當目標被遮擋或重疊時,不能依據幾何關 系確定拓撲結構,給後續處理任務帶來一定難度. 針對點雲的不規則性及無序性,將其應用於深 度神經網絡中進行相關任務的處理需要做數據形式 的轉換,如體素化[40].但這些轉換操作不但增加了 計算量,而且很可能在轉換的過程中丟失信息,所以 直接的點雲處理方法是重要的研究方向.
3)網絡結構方面
① 基於快速和輕量級的模型.為了達到理想效 果,目前的算法傾向於使用含大量參數的較大的神 經網絡結構,導致計算複雜度高、內存占用大、速度 慢等問題.因此,設計快速且輕量級的網絡架構具有 較大的應用價值[99G100]. ② 網絡結構的改良.優化網絡結構可使同一網 絡處理多種任務,能夠很大程度地降低複雜度[2].還 可以考慮與其他網絡結構結合[45]來實現優化目的.
4) 應用方面
室外場景信息較多、結構複雜,所以目前大多數 方法着重於相對簡單的室內場景的分析.然而自動 駕駛[12]等技術的研究無法在室內場景中完成,所以 未來的研究方向可側重於構建適用於室外場景的網 絡模型. 現有分割方法大都用於單個物體的部件分割[1] 或場景中同類對象的語義分割[25].而真實場景中目 標類別眾多、結構複雜,對同類對象的不同個體分割 是3維形態檢測(文物、古建監測)的重要手段. 現有的大多數算法主要利用靜態場景中獲取的 數據,在地震檢測等實際應用中,設計能夠應對變化 場景的算法具有重要應用價值.利用時序上下文信 息可作為其研究方向[99]. 計算機視覺中的有效性通常與效率相關,它決 定模型是否可用於實際應用中[100],因此在二者之 間實現更好的平衡是未來研究中有意義的課題.
專知便捷查看
便捷下載,請關注專知公眾號(點擊上方藍色專知關注)
後台回復「3DL」 就可以獲取《「深度學習3D點雲處理」最新2022進展綜述》專知下載鏈接


