專知 - 「深度學習3D點雲處理」最新2022進展綜述－鑽石舞台

深度學習在２維圖像等結構化數據處理中表現出了優越性能,對非結構化的點雲數據分析處理的潛力已經成為計算機圖形學的重要研究方向,並在機器人、自動駕駛、虛擬及增強現實等領域取得一定進展．通過回顧近年來３維點雲處理任務的主要研究問題,圍繞深度學習在３維點雲形狀分析、結構提取、檢測和修復等方向的應用,總結整理了典型算法．介紹了點雲拓撲結構的提取方法,然後對比分析了變換、分類分割、檢測跟蹤、姿態估計等方向的以構建神經網絡為主要研究方法的進展．最後,總結常用的３維點雲公開數據集,分析對比了各類方法的特點與評價指標,指出其優勢與不足,並從不同角度對基於深度學習的方法處理點雲數據所面臨的挑戰與發展方向進行了討論．

隨着３維傳感器的迅速發展,３維數據變得無處不在,利用深度學習方法對這類數據進行語義理解和分析變得越來越重要．不同３維數據(體素、網格等)表示下,深度學習的方法不盡相同,但這些方法應用於點雲中都有一定的局限性,具體表現為:體素化方法會受到分辨率的限制;轉換為２維圖像的方法在形狀分類和檢索任務上取得了優越性能,但將其擴展到場景理解或其他３維任務(如姿態估計)有一定的困難;光譜卷積神經網絡限制在流形網格;基於特徵的深度神經網絡會受到所提取特徵表示能力的限制[１]．

點雲本身具有的無序性與不規則性為利用深度學習方法直接處理該類數據帶來一定挑戰性:１)規模局限性．現有研究方法一般針對小規模點雲,而能處理大型點雲的方法也需要切割處理,即將其分為小塊後再處理．但切割可能會造成點雲整體信息的丟失．２)遮擋．當被掃描對象被遮擋時,將直接導致信息的丟失,這為後續任務的處理帶來嚴重影響．３) 噪聲．由於點雲數據本身就是３維空間內的點集,噪聲的存在直接影響點雲模型的正確表示,在形狀識別等任務中會造成精度的降低．４)旋轉不變．對於同一模型,旋轉不同角度仍表示同一對象,網絡識別結果不應由於角度不同而產生差異．隨着近年來激光雷達等傳感設備及相關技術的發展,３維點雲的掃描與獲取更為便捷,其處理技術在機器人、自動駕駛及其他領域的實際應用中已取得一定進展．基於深度學習的蓬勃發展,研究者提出了許多方法來解決相關領域的不同問題．

本文對基於深度學習的點雲處理任務進行詳細闡述．本文的主要貢獻有４個方面:

１)從機器人、自動駕駛、虛擬和增強現實以及醫學４個領域介紹點雲處理技術的應用情況;

２)探討點雲拓撲結構與形狀分析在應用於點雲處理任務中的必要性,並總結對比多種算法;

３)歸納基於點雲數據處理相關任務的方法,主要包括模型重建與變換、分類分割、檢測跟蹤與姿態估計,着重討論基於深度學習的方法,並給出各種方法的優劣比較;

４)總結多個公開點雲數據集,並分析各數據集中不同方法能處理的不同任務．

１基本概念及應用情況

1.1 深度學習

機器學習推動現代科技手段的進步．網絡的內容過濾及推薦、語音文本的轉換及醫學影像分析等應用程序越來越多地使用深度學習技術．

１) 基礎概念

深度學習善於發現高維數據中的複雜結構,因此可應用於科學、商業和醫學等諸多領域．深度學習利用多處理層組成的計算模型學習具有抽象層次的數據表示,關鍵在於其目標特徵不是人類指定的,而是從大量數據中學習獲取的,深度神經網絡已經成為人工智能的基礎．多層感知機或全連接網絡堆疊線性層和非線性激活層,是神經網絡的經典類型．卷積網絡引入卷積層和池化層,在處理圖像、視頻和音頻方面取得了突破性進展．遞歸網絡可有效處理文本語音等具有連續性的數據．TransＧ former利用selfＧattention機制提取特徵,最早用於處理自然語言[２Ｇ３]．

２) 框架平台

為了實現更複雜的模型,若從頭開始編寫代碼, 效率非常低,因此深度學習框架應運而生．本節介紹常用的深度學習框架,並將其匯總於表１中．目前常用於點雲處理的框架更多為 TensorFlow 與 PyTorch,其他框架如 Caffe與Jittor等也可用於處理點雲,但應用較少．

1.2 點雲處理任務

３維幾何模型中,點雲已經成為主要表達方式之一,其應用於深度學習中的處理技術已取得一定成果．在不同任務驅動下,本文以構建神經網絡為主要方法,通過分類與整理相關文獻,將點雲處理任務分為模型重建與變換、分類分割、檢測跟蹤與姿態估計幾大類．本節總結其基本概念．

模型重建與變換包括形狀修復、模型補全與變形．掃描獲取到的數據並不能完美表徵原物體的特性,很可能存在缺漏或誤差,造成模型不完整、扭曲, 故而需要對該模型進行處理,使其儘可能貼合原物體模型或目標模型,處理手段即為重建與變換．分類分割主要包括分類、部件分割、語義分割與實例分割．在諸如機器人抓取等需求中,必須明確所抓取對象的分類,即需要判斷其信息,判斷即為對場景中對象語義信息標記與分類．檢測跟蹤主要包括３維對象檢測、場景流估計與目標跟蹤．在諸如自動駕駛等應用中,需要明確路徑與方向,確定追蹤對象,並能依據當前狀態自動調節或人為干預使其後續運動符合預期目標．姿態估計主要包括位姿估計與手部姿態估計．前者需要確定對象的位置與方向,如工廠噴漆中,噴槍需要依據目標不斷改變其位置與指向．後者則是為了理解人類肢體語言,如在體感遊戲中,根據肢體變換執行相應遊戲操作．

1.3 應用情況

３維點雲處理目前在實際應用中已經取得了一定的進展．本節以應用為導向,從機器人領域、自動駕駛領域及虛擬、增強現實領域及醫學領域４個角度介紹點雲處理技術的應用情況．

1.3.1 機器人領域

機器人抓取技術的核心在於目標識別和定位．２０１９年 Lin等人[４]利用深度神經網絡學習物體外在形狀,並訓練網絡在獲取物體局部表面時也能成功抓取目標．在機器人室內定位及導航技術方面,２０２０年 Khanh等人[５]設計了新的雲端導航系統．雲端導航下機器人能更準確地移動到目標位置．該技術可應用於位置服務需求,如盲人導航．針對噴漆機器人的自動化操作,２０１９年 Lin等人[６]利用迭代最近點(iterativeclosestpoint,ICP) 算法進行姿態估計,計算物體部件的位置誤差,並重新調整機器人的方向,以完成所需的噴漆任務．２０２０年 Parra等人[７]設計了能夠在地板下的空隙中進行隔熱噴塗以提高建築的強度及使用年限的機器人．他們針對地形不均勻等情況,提出定位模塊．機器人依據傳感器獲取連續點雲的信息．Yang等人[８]基於點雲模型表示的家具表面路徑規劃和邊緣提取技術提出邊緣噴塗,獲取噴塗槍路徑點序列和對應姿態．在家具等工件的生產流程中,該方法能夠根據噴塗系統坐標系與家具姿態的不同,自適應地調整二者的坐標關係,以實現正確噴塗的目的．

1.3.2 自動駕駛領域

自動駕駛系統的性能受環境感知的影響．車輛對其環境的感知為系統的自動響應提供了基礎．２０１７年 Hanke等人[９]提出採用光線追蹤的汽車激光雷達傳感器實現實時模型測量方法．使用由真實世界場景的測量構建的虛擬環境,能夠在真實世界和虛擬世界傳感器數據之間建立直接聯繫．２０１９年Josyula等人[１０]提出了利用機器人操作系統(robotoperating system,ROS)和點雲庫(pointcloudlibrary,PCL) 對點雲進行分割的方法．它是為自動駕駛車輛和無人機的避障而開發的,具體涉及障礙物檢測與跟蹤．激光雷達(lightdetectionandranging,LIDAR) 和視覺感知是高水平(L４ＧL５)飛行員成功自動避障的關鍵因素．為了對大量數據進行點雲標記,２０２０年 Li等人[１１]提出針對３維點雲的標註工具,實現了點雲３維包圍盒坐標信息到相機與 LIDAR 聯合標定後獲得的２維圖像包圍盒的轉換．基於圖的同步定位與建圖(simultaneouslocaliＧ zationandmapping,SLAM)在自動駕駛中應用廣泛．實際駕駛環境中包含大量的運動目標,降低了掃描匹配性能．２０２０年 Lee等人[１２]利用加權無損檢測 (掃描匹配算法)進行圖的構造,在動態環境下也具有魯棒性．

1.3.3 虛擬、增強現實領域

為了更好地了解室內空間信息,２０１５年 Tredinnick 等人[１３] 創建了能夠在沉浸式虛擬現實 (virtual reality,VR)顯示系統中以較快的交互速率可視化大規模 LIDAR 點雲的應用程序,能夠產生準確的室內環境渲染效果．２０１６年 Bonatto等人[１４]探討了在頭戴式顯示設備中渲染自然場景的可能性．實時渲染是使用優化的子採樣等技術來降低場景的複雜度實現的,這些技術為虛擬現實帶來了良好的沉浸感．２０１８年 Feichter等人[１５]提出了在真實室內點雲場景中抽取冗餘信息的算法．其核心思想是從點雲中識別出平面線段,並通過對邊界進行三角剖分來獲取內點,從而描述形狀．生成可用於訓練新模型的標註已成為機器學習中獨立的研究領域,它的目標是高效和高精度．標註３維點雲的方法包括可視化,但這種方法是十分耗時的．2019年 Wirth等人[１６]提出了新的虛擬現實標注技術,它大大加快了數據標註的過程． LTDAR為增強現實(augmentedreality,AR) 提供了基本的３維信息支持．2020年 Liu等人[１７]提出學習圖像和 LIDAR 點雲的局部特徵表示,並進行匹配以建立２維與３維空間的關係．使用手勢自然用戶界面(naturaluserinterface, NUI)對於頭戴式顯示器和增強及虛擬現實等可穿戴設備中虛擬對象的交互至關重要．然而,它在 GPU 上的實現存在高延遲,會造成不自然的響應．2020年Im 等人[１８]提出基於點雲的神經網絡處理器．該處理器採用異構內核結構以加速卷積層和採樣層, 實現了使用 NUI所必需的低延遲．

1.3.4 醫學領域

醫學原位可視化能夠顯示患者特定位置的成像數據,其目的是將特定病人的數據與３維模型相結合,如將手術模擬過程直接投影到患者的身體上,從而在實際位置顯示解剖結構．2011年Placitelli等人[１９] 採用采樣一致性初始配准算法 (sampleconsensus initialalignment,SACＧIA),通過快速配准三元組計算相應的匹配變換,實現點雲快速配准．模擬醫學圖像如 X 射線是物理學和放射學的重要研究領域．2020年 Haiderbhai等人[２０]提出基於條件生成式對抗網絡 (conditionalgenerative adversarialnetwork,CGAN)的點雲 X射線圖像估計法．通過訓練 CGAN 結構並利用合成數據生成器中創建的數據集,可將點雲轉換成 X射線圖像．

２模型形狀結構

了解並確定高層形狀結構及其關係能夠使得模型感知局部和全局的結構,並能通過部件之間的排列和關係描繪形狀,這是研究形狀結構分析的核心課題．隨着真實世界的掃描和信息的挖掘,以及設計模型規模的增大,在大量信息中進行３維幾何模型的識別和分析變得越來越重要。

３模型重建與變換

由於遮擋等多種因素的限制,利用激光雷達等點雲獲取設備得到的數據存在幾何信息和語義信息的丟失以及拓撲結構的不確定,這直接導致了數據的質量問題．為後續任務的處理帶來極大挑戰．

４形狀分類與分割

基於檢索或劃分的目的,對具有相似特徵或相同屬性的點雲數據進行區域的分割或屬性的分類是極其重要的．

５目標檢測與跟蹤

自動駕駛、機器人設計等領域中,３維目標檢測與跟蹤至關重要．自動駕駛車輛和無人機的避障等實際應用中,涉及障礙物檢測與跟蹤．

5.1 ３維目標跟蹤

目標跟蹤是推測幀的屬性並預測變化,即推斷對象的運動情況,可以利用預測對象的運動信息進行干預使之實際運動符合預期目標或用戶要求．為了從點雲中推斷出目標對象的可移動部件以及移動信息,２０１９年 Yan等人[６７]提出 RPMＧNet．其特定的體系結構夠預測對象多個運動部件在後續幀中的運動,同時自主決定運動何時停止．２０２０年 Wang等人[６８]提出 PointTrackNet．網絡中提出了新的數據關聯模塊,用於合併２幀的點特徵,並關聯同一對象的相應特徵．首次使用３維 Siamese跟蹤器並應用於點雲的是 Giancola等人[６９]．基於 Achlioptas等人[７０]提出的形狀完成網絡,２０１９年 Giancola等人[６９]通過使用給定對象的語義幾何信息豐富重編碼後的表示來提高跟蹤性能．２０１９年Burnett等人[７１]提出aUToTrack,使用貪婪算法進行數據關聯和擴展卡爾曼濾波(extended Kalmanfilter,EKF)跟蹤目標的位置和速度．Simon 等人[７２]融合２維語義信息及 LIDAR 數據,還引入了縮放旋轉平移分數(scaleＧrotationＧtranslationscore, SRTs),該方法可更好地利用時間信息並提高多目標跟蹤的精度．文獻[６７]可以從開始幀和結束幀的移動部分導出變化範圍,故參數中不含變換範圍,減少了參數個數．文獻[６８]提供的跟蹤關聯信息有助於減少目標短期消失的影響,其性能比較穩定,但是當汽車被嚴重遮擋時,結果會出現問題．文獻[６９]解決了相似性度量、模型更新以及遮擋處理３方面的問題,但該方法直接利用對稱性來完善汽車整體形狀會導致更多噪聲．文獻[７１]實際需要計算被檢測物體的質心,這種方法能有效檢測行人,但對於汽車來說,其結果並不準確．文獻[７２]提出的 SRTs可用於快速檢測目標,提高了準確性和魯棒性．

5.2 ３維場景流估計

機器人和人機交互中的應用可以從了解動態環境中點的３維運動,即場景流中受益．以往對場景流的研究方法主要集中於立體圖像和 RGBＧD 圖像作為輸入,很少有人嘗試從點雲中直接估計．２０１９年 Behl等人[７３]提出 PointFlowNet,網絡聯合預測３維場景流以及物體的３維包圍盒和剛體運動．Gu等人[７４]提出 HPLFlowNet,可以有效地處理非結構化數據,也可以從點雲中恢復結構化信息．能在不犧牲性能的前提下節省計算成本．Liu等人[７５] 提出 FlowNet３D．由於每個點都不是「獨立」的,相鄰點會形成有意義的信息,故而 FlowNet３D 網絡嵌入層會學習點的幾何相似性和空間關係．文獻[７３]先檢測出object並計算出egomotion 和sceneflow,再去回歸各個object的 motion,它從非結構化點雲中直接估計３維場景流．文獻[７４Ｇ７５] 的整體結構類似,都是下採樣融合上採樣,直接擬合出sceneflow．

5.3 ３維目標檢測與識別

在城市環境中部署自動型車輛是一項艱巨的技術挑戰,需要實時檢測移動物體,如車輛和行人．為了在大規模點雲中實現實時檢測,研究者針對不同需求提出多種方法．２０１９年 Shi等人[７６]提出 PointRCNN,將場景中的點雲基於包圍盒生成真實分割掩模,分割前景點的同時生成少量高質量的包圍盒預選結果．在標准坐標中優化預選結果來獲得最終檢測結果．２０１９年 Lang等人[７７]提出編碼器 PointPillars．它學習在 pillars 中組織的點雲表示,通過操作 pillar,無需手動調整垂直方向的組合．由於所有的關鍵操作都可以表示為２維卷積,所以僅使用２維卷積就能實現端到端的３維點雲學習．考慮到模型的通用性,２０１９年 Yang等人[７８]提出STD,利用球形錨生成精確的預測,保留足夠的上下文信息．PointPool生成的規範化坐標使模型在幾何變化下具有魯棒性．box預測網絡模塊消除定位精度與分類得分之間的差異,有效提高性能．２０１９年 Liu等人[７９]提出大規模場景描述網絡 (largeＧscaleplacedescriptionnetwork,LPDＧNet)．該網絡採用自適應局部特徵提取方法得到點雲的局部特徵．此外,特徵空間和笛卡兒空間的融合能夠進一步揭示局部特徵的空間分布,歸納學習整個點雲的結構信息．為了克服一般網絡中點雲規模較小的局限性, ２０１９年Paigwar等人[８０]提出 AttentionalPointNet．利用 Attentional機制進行檢測能夠在大規模且雜亂無章的環境下重點關注感興趣的對象．２０２０年 Shi等人[８１]提出 PVＧRCNN．它執行２步策略:第１步採用體素 CNN 進行體素特徵學習和精確的位置生成,以節省後續計算並對具有代表性的場景特徵進行編碼;第２步提取特徵,聚集特徵可以聯合用於後續的置信度預測和進一步細化．文獻[７６]生成的預選結果數量少且質量高．文獻[７７]能夠利用點雲的全部信息,其計算速度較快．文獻[７８]能夠將點特徵從稀疏表示轉換為緊湊表示,且用時較短．文獻[７９]充分考慮點雲的局部結構,自適應地將局部特徵作為輸入,在不同天氣條件下仍能體現出健壯性．文獻[８０]不必處理全部點雲, 但預處理步驟使得計算成本較大．文獻[８１]結合基於體素的與基於 PointNet的優勢,能夠學習更具鑒別力的點雲特徵．

5.4 算法性能對比分析

跟蹤算法中,文獻[６７]主要關注的是物體部件的跟蹤,文獻[６８]與文獻[６９]則主要檢測同一物體在不同時間的狀態．文獻[６７]的優勢在於可以同時預測多個運動部件及其各自的運動信息,進而產生基於運動的分割．該方法實現高精度的前提是輸入對象的幾何結構明確,否則很有可能會生成不完美的運動序列．文獻[６８]在快速變化的情況下,如突然剎車或轉彎,其結果仍可靠．但是當目標被嚴重遮擋時,其結果並不可靠．由於大多數模型(如汽車模型) 只能從單側看到,文獻[６９]利用對稱性完善汽車形狀的方法未必是有效的．文獻[７１]的處理方法較簡單且用時較短,在 CPU 上運行時間不超過７５ms．它能在檢測行人時達到較高性能．但用於擁擠道路的自動駕駛時,其採用的質心估計對於汽車並不準確．文獻[７２]同時利用２維信息與３維 LIDAR 數據, 且使用的SRTs指標可縮短訓練時間．場景流估計算法中,文獻[７３]聯合３維場景流和剛性運動進行預測,其效率較高且處理不同運動時具有魯棒性．文獻[７４]與文獻[７５]都以端到端的方式從點雲中學習場景流．前者從非結構化的點雲中恢復結構化,在生成的網格上進行計算,後者則是在點雲的連續幀中計算．檢測算法中,文獻[７６]不會在量化過程中丟失信息,也不需要依賴２維檢測來估計３維包圍盒,故而可以充分利用３維信息．文獻[７７]的處理速度較快,計算效率較高．文獻[７８]具有較高的計算效率和較少的計算量,能夠同時集成基於點和基於體素的優點．文獻[７９]引入局部特徵作為網絡輸入,有助於充分了解輸入點雲的局部結構．文獻[８０]能夠有效地獲取數據的３維幾何信息．但是,將點雲裁剪成較小區域等預處理步驟增加了計算成本．文獻[８１]結合了基於體素與基於 PointNet的優點,不僅保留了精確的位置,而且編碼了豐富的場景上下文信息．

表４給出 KITTI數據集下不同算法處理跟蹤任務的性能對比．指標為多目標跟蹤準確度(multiＧ objecttrackingaccurancy,MOTA)、多目標跟蹤精確度(multiＧobjecttrackingprecision,MOTP)、目標大部分被跟蹤到的軌跡占比(mostlytracked,MT)、目標大部分跟丟的軌跡占比 (mostlylost, ML)、ID改變總數量(IDswitches,IDS)、跟蹤過程中被打斷的次數(fragmentation,FRAG)及每秒幀數(framespersecond,FPS)．

表５給出在 KITTI數據集下３維檢測框(３Ｇ dimensionaldetectionbenchmark,３D)、BEV 視圖下檢測框(birdeyeviewdetectionbenchmark,BEV) 與檢測目標旋轉角度(averageorientationsimilarity detectionbenchmark,AOS)的檢測結果．其中,評估指標為AP,IoU 閾值為:汽車０.７,行人和自行車０.５．

６姿態估計

３維姿態估計即確定目標物體的方位指向問題, 在機器人、動作跟蹤和相機定標等領域都有應用．

6.1 位姿估計

解決３維可視化問題的中間步驟一般是確定３維局部特徵,位姿估計是其中最突出的問題．２０１７年 Elbaz等人[８２]提出的 LORAX 採用了可以處理不同大小點雲的設置,並設計了對大規模掃描數據有效的算法．２０１９年 Speciale等人[８３]將原始３維點提升到隨機方向的３維線上,僅存儲３維線和３維點的關聯特征描述符,這類映射被稱為３維線雲．２０１９年 Zhang等人[８４]從目標點雲中自動提取關鍵點,生成對剛性變換不變的逐點特徵,利用層次式神經網絡預測參考姿態對應的關鍵點坐標．最後計算出當前姿態與參考姿態之間的相對變換．２０１８年 Deng等人[８５]提出了 PPFＧFoldNet,通過點對特徵(pointpairfeature,PPF)對局部３維幾何編碼,建立了理論上的旋轉不變性,同時兼顧點的稀疏性和置換不變性,能很好地處理密度變化．考慮到成對配准描述符也應該為局部旋轉的計算提供線索,２０１９年 Deng等人[８６]提出端到端的配准方法．這種算法在 PPFＧFoldNet [８５]的工作基礎上, 通過學習位姿變換將３維結構與６自由度運動解耦．該方法基於數據驅動來解決２點雲配准問題．２０２０年 Kurobe等人[８７]提出 CorsNet,連接局部特徵與全局特徵,不直接聚集特徵,而是回歸點雲之間的對應關係,比傳統方法集成更多信息．文獻[８２]解決了２點雲之間點數相差數倍的問題,它簡單、快速,並且具備擴展性,但在極端情況下,其結果會出錯．文獻[８３]只使用了一個幾何約束,其準確性與召回率可以與傳統方法媲美,但這種方法的速度較慢．文獻[８４]需要較少的訓練數據,因此對於沒有紋理的對象,它更快、更精確．文獻[８５] 繼承了多個網絡框架的優點,且充分利用點雲稀疏性,能夠快速提取描述符．文獻[８６]提高了成對配准的技術水平且減少了運行時間．文獻[８７]結合了局部與全局特徵,從平移和旋轉的角度而言準確性較高．表６上半部分給出位姿估計算法的核心方法及優勢對比分析．

6.2 手部姿態估計

點雲作為更簡單有效的數據表示方法,其輸入的點集和輸出的手部姿態共享相同表示域,有利於學習如何將輸入數據映射到輸出姿態上．為了直接從點雲中估計手部姿態,同樣以手部３維點云為輸入,２０１８年 Chen等人[８８]提出語義手部姿態回歸網絡 (semantichandposeregression network,SHPRＧNet),通過學習輸入數據的變換矩陣和輸出姿態的逆矩陣應對幾何變換的挑戰．Ge等人[８９]提出的方法輸出反映手部關節的每點貼近度和方向的 heatＧmaps和單位向量場,並利用加權融合從估計的heatＧmaps和單位向量場中推斷出手部關節位置．２０１９年 Li等人[９０]提出的方法以置換等變層(permutationequivariantlayer,PEL)為基本單元,構建了基於 PEL 的殘差網絡模型．且手部姿態是利用點對姿勢的投票方案來獲得的,這避免了使用最大池化層提取特徵而導致的信息丟失．現有的手部姿態估計方法大多依賴於訓練集, 而在訓練數據上標註手部３維姿態費時費力．２０１９年 Chen等人[９１]提出的 SOＧHandNet旨在利用未註記數據以半監督的方式獲得精確的３維手部姿態估計．通過自組織映射(selfＧorganizingmap,SOM) 模擬點的空間分布,然後對單個點和 SOM 節點進行層次化特徵提取,最終生成輸入點雲的判別特徵．２０１８年 Ge等人[９２]提出 HandPointNet,提出的精細化網絡可以進一步挖掘原始點雲中更精細的細節,能夠回歸出更精確的指尖位置．Huang等人[９３] 認為學習算法不僅要研究數據的內在相關性,而且要充分利用手部關節之間的結構相關性及其與輸入數據的相關性．基於此,２０２０年他們提出非自回歸手部transformer(nonＧautoregressivehandtransformer, NARHT),以關節特徵的形式提供參考手部姿態, 利用其固有的相關性來逼近輸出姿態．文獻[８８]對點雲的幾何變換具有魯棒性．文獻 [８９]能夠很好地捕捉空間中點雲的結構信息．文獻 [９０]較利用體素的方法占用內存更少,但其效率不如基於深度圖像的方法．文獻[９１]的特徵編碼器能夠揭示輸入點雲的空間分布．文獻[９２]能夠捕捉復雜的手部結構,並精確地回歸出手部姿態的低維表示．文獻[９３]採用新的nonＧautoregressive結構學習機制來代替transformer的自回歸分解,在解碼過程中提供必要的姿態信息．表６下半部分給出手部姿態估計算法的核心方法及優勢對比分析．

6.3 算法性能對比分析

位姿估計方法中,核心問題是找到旋轉矩陣與平移矩陣．文獻[８３,８５Ｇ８６]都利用了 RANSAC迭代算法．其中,文獻[８３]實現了魯棒、準確的６自由度姿態估計．文獻[８５]是無監督、高精度、６自由度變換不變的網絡．文獻[８６]在挑戰成對配準的真實數據集方面優於現有技術,具有更好的泛化能力且速度更快．文獻[８２]的 LORAX能夠並行實現,效率較高,適合實時應用．它對隨機噪聲、密度變化不敏感, 並且其魯棒性僅在極端水平下才會惡化．文獻[８４] 使用較少的訓練圖像實現了較高的准確性．文獻 [８７]提出的 CorsNet回歸的是對應關係,而不是直接姿態變化．手部姿態估計方法中,文獻[８８]可獲得更具代表性的特徵．SHPRＧNet可以在不改變網絡結構的前提下擴展到多視點的手部姿態估計,這需要將多視點的深度數據融合到點雲上．然而,融合後的點雲也會受到噪聲的影響．文獻[８９]可以更好地利用深度圖像中的３維空間信息,捕捉３維點雲的局部結構, 並且能夠集中學習手部點雲的有效特徵,從而進行精確的３維手部姿態估計．文獻[９０]與基於體素化的方法相比,需要更少的內存．但與基於深度圖像的方法相比,需要更多的計算時間和內存．文獻[９１]使用半監督的方式對網絡進行訓練,其性能可與全監督的方法相媲美．文獻[９２]有效利用深度圖中的信息, 以較少的網絡參數捕獲更多的手部細節及結構,並準確地估計其３維姿態．文獻[９３]首次結合結構化手部姿勢估計與基於transformer的自然語言處理領域的轉換框架．引入參考手部姿勢為輸出關節提供等效依賴關係．文獻[８９]的模型大小為１７．２MB．其中１１．１MB用於點對點回歸網絡,它是分層PointNet; ６．１MB用於附加的回歸模塊,它由３個全連層組成．文獻[９０]有２種版本,回歸版本為３８MB,檢測版本為４４MB．文獻[９１]中,手部特徵編碼器(handfeature encoder,HFE)、手部特徵解碼器(handfeaturedecoder, HFD)和手部特征估計器 (handposeestimator, HPE)的大小分別為８．１MB,７４MB,８．５MB．由於只在測試階段使用 HFE 和 HPE,所以其網絡模型大小為１６．６MB．文獻[９２]的模型大小為１０．３MB,其中回歸網絡為９．２MB,指尖精細網絡為１．１MB．不同方法在３個數據集上的性能對比分析如圖１所示:

７總結

本文總結了近年來多種點雲處理任務的方法, 特別側重於基於深度學習的工作,為讀者提供了最新的研究進展．大多數關於點雲的綜述類文章都集中於討論點雲分類分割處理任務．如文獻[９４Ｇ９５]只討論了語義分割任務;文獻[９６Ｇ９７]增加了目標檢測和分類任務的研究分析．其中,文獻[９７]只用１節內容簡要介紹分類、分割及目標檢測三大任務,更關注於處理點雲數據的深度學習方法,而不依據處理任務對其進行劃分討論．本文則考慮多種點雲處理任務,包括模型重建與變換、分類分割、檢測跟蹤與姿態估計等．在模型分割分類中,由於大部分算法有用於實現點雲分類與分割的功能,不同於文獻[９６Ｇ９７]將分類與分割作為２種類別分開討論,本文將它們統一考慮,並根據基於體素、基於視圖與基於點三大主流方法對其劃分並展開討論,明確給出各算法可處理的任務．目前,已經有大量學者對點雲處理任務進行研究並依據任務的不同提出多種方法,但這些方法或多或少都有一定的局限性．本文基於這些算法的不足總結點雲處理任務所面臨的挑戰與發展趨勢．

１) 數據方面

大部分方法只在現有的數據集上進行實驗,而對於新獲取的數據並不適用．這很大程度上是由於新獲取的數據無法實現多角度、全方位的完美匹配, 而且不同平台獲得的數據難以融合,無法達到統一的標準．對於融合後的點雲,具有魯棒性和區分性特征的提取有一定的難度,未來的研究可以從特徵提取方面入手．數據集尺度不均衡是由於真實複雜場景中檢測及識別小目標較為困難．未來研究工作可人工生成小目標樣本,增大數據集中小目標所占比例,進而在網絡訓練中提高其識別檢測能力．數據質量對網絡(如transformers)的泛化性和魯棒性的影響較大[２]．點雲的幾何位置存在誤差時, 可以通過已知控制點對其進行幾何矯正．當使用激光掃描獲取數據時,除了考慮掃描距離和入射角度的問題,還可以進行強度矯正,通過不同方法改善點雲的質量．隨着３維掃描技術的發展,大規模點雲的獲取已不是難點,挑戰性在於如何對其進行處理．此外, 算法精度依賴大批量的數據集[９８],目前還沒有比較好的解決手段．

２) 性質方面

點雲是３維空間內點的集合,它沒有提供鄰域信息,故而大部分方法需要依據不同的鄰域查詢方法確定點的鄰域,這將導致算法增加額外的計算成本．點雲不能顯式地表達目標結構以及空間拓撲關系．此外,當目標被遮擋或重疊時,不能依據幾何關系確定拓撲結構,給後續處理任務帶來一定難度．針對點雲的不規則性及無序性,將其應用於深度神經網絡中進行相關任務的處理需要做數據形式的轉換,如體素化[４０]．但這些轉換操作不但增加了計算量,而且很可能在轉換的過程中丟失信息,所以直接的點雲處理方法是重要的研究方向．

３)網絡結構方面

① 基於快速和輕量級的模型．為了達到理想效果,目前的算法傾向於使用含大量參數的較大的神經網絡結構,導致計算複雜度高、內存占用大、速度慢等問題．因此,設計快速且輕量級的網絡架構具有較大的應用價值[９９Ｇ１００]． ② 網絡結構的改良．優化網絡結構可使同一網絡處理多種任務,能夠很大程度地降低複雜度[２]．還可以考慮與其他網絡結構結合[４５]來實現優化目的．

４) 應用方面

室外場景信息較多、結構複雜,所以目前大多數方法着重於相對簡單的室內場景的分析．然而自動駕駛[１２]等技術的研究無法在室內場景中完成,所以未來的研究方向可側重於構建適用於室外場景的網絡模型．現有分割方法大都用於單個物體的部件分割[１] 或場景中同類對象的語義分割[２５]．而真實場景中目標類別眾多、結構複雜,對同類對象的不同個體分割是３維形態檢測(文物、古建監測)的重要手段．現有的大多數算法主要利用靜態場景中獲取的數據,在地震檢測等實際應用中,設計能夠應對變化場景的算法具有重要應用價值．利用時序上下文信息可作為其研究方向[９９]．計算機視覺中的有效性通常與效率相關,它決定模型是否可用於實際應用中[１００],因此在二者之間實現更好的平衡是未來研究中有意義的課題．

專知便捷查看

便捷下載，請關注專知公眾號（點擊上方藍色專知關注）

後台回復「3DL」就可以獲取《「深度學習3D點雲處理」最新2022進展綜述》專知下載鏈接