谷歌研究分享：從RGB圖像準(zhǔn)確估計(jì)透明對(duì)象的三維姿態(tài)

VR/AR

2020

09/06

19:27

映維網(wǎng)

評(píng)論

來源：映維網(wǎng) 作者顏昳華

三維對(duì)象的位置和方向估計(jì)是計(jì)算機(jī)視覺應(yīng)用的核心問題之一。對(duì)于涉及到增強(qiáng)現(xiàn)實(shí)和機(jī)器人操作等對(duì)象級(jí)感知的計(jì)算機(jī)視覺用例中，其需要知曉對(duì)象在世界中的三維位置，從而直接影響它們或者正確地將模擬對(duì)象放置在它們周圍。盡管業(yè)界已經(jīng)利用機(jī)器學(xué)習(xí)技術(shù)（特別是Deep Nets）來對(duì)這一主題進(jìn)行了大量研究，但大多數(shù)依賴于深度傳感設(shè)備的使用，如可以直接測(cè)量對(duì)象距離的Kinect。對(duì)于具有光澤或透明的對(duì)象，直接深度感測(cè)效果不佳。如下圖所示，深度設(shè)備難以為透明的星星膜具確定合適的深度值，并且實(shí)際的3D點(diǎn)重建效果非常糟糕（右）。

解決所述問題的一個(gè)方法是，使用一個(gè)深度神經(jīng)網(wǎng)絡(luò)來修復(fù)透明對(duì)象的損壞深度圖。例如，給定透明對(duì)象的單個(gè)RGB-D圖像，ClearGrap可以使用深卷積網(wǎng)絡(luò)來推斷表面法線、透明表面的掩膜，以及遮擋邊界，并用來優(yōu)化場(chǎng)景中所有透明表面的初始深度估計(jì)（上圖最右側(cè)）。這種方法非常具有前景，它允許通過基于深度的姿態(tài)估計(jì)方法來處理具有透明對(duì)象的場(chǎng)景。但涉及修復(fù)可能相當(dāng)棘手，尤其是在完全使用合成圖像進(jìn)行訓(xùn)練時(shí)，而且依然可能導(dǎo)致深度錯(cuò)誤。

在谷歌與斯坦福人工智能實(shí)驗(yàn)室（Stanford AI Lab）合作撰寫的CVPR 2020論文《KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects》中，團(tuán)隊(duì)描述了一個(gè)通過直接預(yù)測(cè)3D關(guān)鍵點(diǎn)來估計(jì)透明對(duì)象深度的機(jī)器學(xué)習(xí)系統(tǒng)。為了訓(xùn)練系統(tǒng)，團(tuán)隊(duì)以半自動(dòng)化的方式收集一個(gè)透明對(duì)象真實(shí)世界數(shù)據(jù)集，并使用手動(dòng)選擇的三維關(guān)鍵點(diǎn)來有效地標(biāo)記它們的姿態(tài)。然后，谷歌訓(xùn)練了名為KeyPose的深度模型，使其能夠根據(jù)單目圖像或立體圖像端到端地估計(jì)3D關(guān)鍵點(diǎn)，不需要顯式計(jì)算深度。在訓(xùn)練過程中，模型可以處理可見對(duì)象和不可見對(duì)象，包括單個(gè)對(duì)象和對(duì)象類別。盡管KeyPose可以處理單目圖像，但立體圖像提供的額外信息使其能夠在單目圖像輸入的基礎(chǔ)上將結(jié)果優(yōu)化兩倍。根據(jù)對(duì)象的不同，典型誤差僅為5毫米到10毫米不等。在對(duì)象的姿態(tài)估計(jì)方面，它比最先進(jìn)的方法有了實(shí)質(zhì)性的改進(jìn)。谷歌正已經(jīng)公開相關(guān)的數(shù)據(jù)集。

相關(guān)論文：KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects

具有3D關(guān)鍵點(diǎn)標(biāo)簽的真實(shí)世界透明對(duì)象數(shù)據(jù)集

為了加速收集大量真實(shí)世界圖像，谷歌建立了一個(gè)機(jī)器人數(shù)據(jù)采集系統(tǒng)。在這個(gè)系統(tǒng)中，一個(gè)機(jī)器人手臂通過軌跡移動(dòng)，并同時(shí)使用兩個(gè)設(shè)備（一個(gè)立體攝像頭和一個(gè)Kinect Azure深度攝影頭）拍攝視頻。

位于目標(biāo)的AprilTags可以精確追蹤攝像頭的姿態(tài)。通過在每個(gè)視頻中用2D關(guān)鍵點(diǎn)手工標(biāo)記少數(shù)圖像，團(tuán)隊(duì)可以使用多視圖幾何體為視頻的所有幀提取3D關(guān)鍵點(diǎn)，從而將標(biāo)記效率提高100倍。

團(tuán)隊(duì)拍攝了15種不同透明對(duì)象的圖像，并使用了10種不同的背景紋理，其中每個(gè)對(duì)象4種不同的姿態(tài)，而這總共產(chǎn)生了600個(gè)視頻序列，包括48K立體圖像和深度圖像。研究人員同時(shí)對(duì)不透明對(duì)象拍攝了相同的圖像，從而提供精確的地ground truth圖像。所有的圖像都用3D關(guān)鍵點(diǎn)標(biāo)記。谷歌將公開這個(gè)真實(shí)世界圖像數(shù)據(jù)集，并作為合成的ClearGrap數(shù)據(jù)集的補(bǔ)充。

基于早期融合的KeyPose算法

直接使用立體圖像進(jìn)行關(guān)鍵點(diǎn)估計(jì)的想法是為這個(gè)項(xiàng)目獨(dú)立構(gòu)思，而它最近同樣出現(xiàn)在手部追蹤的情景之中。下圖是基本的思想：圍繞對(duì)象裁剪立體攝像頭的兩幅圖像，并輸入到KeyPose網(wǎng)絡(luò)中，然后KeyPose網(wǎng)絡(luò)預(yù)測(cè)一組代表對(duì)象3D姿態(tài)的稀疏3D關(guān)鍵點(diǎn)。接下來，使用標(biāo)記的3D關(guān)鍵點(diǎn)對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練。

KeyPose的一個(gè)關(guān)鍵方面是，使用早期融合來混合立體圖像，并允許網(wǎng)絡(luò)隱式計(jì)算視差。作為說明，后期融合則是分別預(yù)測(cè)每個(gè)圖像的關(guān)鍵點(diǎn)，然后進(jìn)行組合。如下圖所示，KeyPose的輸出是圖像平面中的2D關(guān)鍵點(diǎn)熱圖，以及每個(gè)關(guān)鍵點(diǎn)的視差（即逆深度）熱圖。這兩個(gè)熱圖的組合生成每個(gè)關(guān)鍵點(diǎn)的3D坐標(biāo)。

與后期融合或單目輸入相比，早期融合立體圖像的精度通?？梢蕴嵘齼杀?。

結(jié)果

下圖說明了KeyPose對(duì)單個(gè)對(duì)象的定性結(jié)果。左邊是原始立體圖像之一；中間是投影到圖像的3D關(guān)鍵點(diǎn)。在右邊，團(tuán)隊(duì)將瓶子三維模型中的點(diǎn)可視化，并放置在由預(yù)測(cè)的3D關(guān)鍵點(diǎn)所確定的姿態(tài)中。這一網(wǎng)絡(luò)十分高效和準(zhǔn)確。對(duì)于標(biāo)準(zhǔn)的GPU，只需5毫秒即可完成對(duì)關(guān)鍵點(diǎn)的預(yù)測(cè)。

下表說明了KeyPose在類別級(jí)別估計(jì)的結(jié)果。測(cè)試集使用了訓(xùn)練集中不存在的背景紋理。請(qǐng)留意MAE在5.8 mm到9.9 mm之間變化。

有關(guān)定量結(jié)果的完整說明，以及相關(guān)研究，請(qǐng)參閱論文和補(bǔ)充材料，以及KeyPose官網(wǎng)。

總結(jié)

這項(xiàng)研究表明，在不依賴深度圖像的情況下，我們可以從RGB圖像中準(zhǔn)確地估計(jì)出透明對(duì)象的三維姿態(tài)。它驗(yàn)證了使用立體圖像作為早期融合深網(wǎng)的輸入（在這個(gè)網(wǎng)絡(luò)中，網(wǎng)絡(luò)可以直接從立體對(duì)中提取稀疏的3D關(guān)鍵點(diǎn)）。谷歌表示：“我們希望，一個(gè)廣泛的、帶標(biāo)簽的透明對(duì)象數(shù)據(jù)集將有助于這一領(lǐng)域的發(fā)展。最后，盡管我們是使用半自動(dòng)的方法來有效地標(biāo)記數(shù)據(jù)集，但我們希望在未來的研究中使用自我監(jiān)督的方法來消除手動(dòng)標(biāo)記。”

原文鏈接：https://yivian.com/news/77585.html

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

快手領(lǐng)投，紅衫高瓴參投，Nreal完成4000萬美元融資

混合現(xiàn)實(shí)科技公司Nreal今天宣布已完成4000萬美元的B1輪融資。本次融資由快手領(lǐng)投，紅杉資本中國基金、金浦科技基金、高瓴創(chuàng)投、以及中金資本旗下中電中金基金跟投，并且由勢(shì)能資本擔(dān)任獨(dú)家財(cái)務(wù)顧問。

創(chuàng)維VR宣布將采用高通驍龍VR移動(dòng)平臺(tái)開發(fā)XR終端

9月5日，高通 XR生態(tài)合作伙伴大會(huì)暨第二屆高通XR創(chuàng)新應(yīng)用挑戰(zhàn)賽頒獎(jiǎng)典禮在江西南昌國際博覽城綠地鉑瑞酒店舉行。創(chuàng)維VR總經(jīng)理李文權(quán)受邀出席本次大會(huì)并參與高層對(duì)談會(huì)，在對(duì)談會(huì)上表示創(chuàng)維VR已與高通在XR...

《巫師3》增強(qiáng)版將同時(shí)登陸PS5、XBOX、PC平臺(tái)

CDPR 的全球社區(qū)領(lǐng)導(dǎo)，Marcin Momot 已經(jīng)宣布，一個(gè)增強(qiáng)版本的巫師 3 將來到下一代控制臺(tái)和 PC 與光線跟蹤和廣泛的視覺和技術(shù)改進(jìn)。幸運(yùn)的是，在任何平臺(tái)上擁有游戲的玩家將免費(fèi)升級(jí)到新版本。

iPhone 12s曝光：定位取代經(jīng)典XR、僅支持4G網(wǎng)絡(luò)

目前蘋果官網(wǎng)在售的手機(jī)包括iPhone 11全系、iPhone XR、iPhone SE（2020）等。眼瞅著iPhone 12系列即將發(fā)布，商店的在售列表預(yù)計(jì)很快要做出調(diào)整。

AMD品牌的自行車開賣價(jià)格不到2400元人民幣

與友商相比，AMD不論處理器還是顯卡的性價(jià)比都很高，相對(duì)來說便宜不少，這點(diǎn)錢了還要啥自行車。沒想到這個(gè)梗成真了，AMD品牌的自行車真的來了，售價(jià)299美元。

国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

谷歌研究分享：從RGB圖像準(zhǔn)確估計(jì)透明對(duì)象的三維姿態(tài)

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

谷歌研究分享：從RGB圖像準(zhǔn)確估計(jì)透明對(duì)象的三維姿態(tài)

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！