來源:映維網(wǎng) 作者 顏昳華
新加坡南洋理工大學(xué)和澳大利亞悉尼理工大學(xué)最近開發(fā)了一種旨在以高精度識別手勢的機(jī)器學(xué)習(xí)架構(gòu),而方式是通過分析可伸縮應(yīng)變傳感器捕捉到的圖像。研究人員已經(jīng)將論文發(fā)表在《Nature Electronics(自然電子)》中,并表示新架構(gòu)的靈感來自人類大腦。
南陽理工大學(xué)的陳曉東教授表示:“我們的項目概念源于人腦處理信息的方式。在人腦中,思維、計劃、靈感等高感性活動不僅依賴于特定的感官信息,其同時屬于不同感官的多種感官信息的綜合整合。這啟發(fā)了我們結(jié)合視覺信息和體感信息來實現(xiàn)高精度的手勢識別。”
在解決實際任務(wù)時,人類通常會整合從周圍環(huán)境收集的視覺信息和體感信息。這兩種類型的信息彼此互補(bǔ),而可以更好地幫助人類理解問題涉及的所有要素。
所以在開發(fā)手勢識別技術(shù)時,陳曉東教授及同事確保它能夠整合由多個傳感器收集的不同類型信息。最終,團(tuán)隊的目標(biāo)是建立一個能夠以高精度識別人類手勢的架構(gòu)。
陳曉東教授解釋道:“為了達(dá)到我們的目標(biāo),我們通過設(shè)計和制造可伸展的舒適傳感器來改進(jìn)傳感器的數(shù)據(jù)質(zhì)量。與現(xiàn)有的可穿戴傳感器相比,這種傳感器可以收集更精確的手勢體感數(shù)據(jù)。另外,我們開發(fā)了一種生物啟發(fā)式的體感視覺(Bioinspired Somatosensory-Visual;BSV)學(xué)習(xí)架構(gòu),它可以合理地融合視覺信息和體感信息,這類似于大腦中的體感-視覺融合結(jié)構(gòu)。”
所述的BSV學(xué)習(xí)架構(gòu)復(fù)刻了人腦是如何以多種方式融合體感信息和視覺信息,但方式是通過一個仿生生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
另外,機(jī)器學(xué)習(xí)架構(gòu)中的一些分段網(wǎng)絡(luò)將如同大腦神經(jīng)網(wǎng)絡(luò)一樣處理相同的模態(tài)感覺數(shù)據(jù)。例如,分段卷積神經(jīng)網(wǎng)絡(luò)(CNN)專門執(zhí)行卷積運算,復(fù)制生物神經(jīng)系統(tǒng)內(nèi)局部感受場的功能,從而模擬人腦視覺處理部分發(fā)生的初始視覺信息處理。
最后,研究人員設(shè)計的架構(gòu)使用了新開發(fā)的稀疏神經(jīng)網(wǎng)絡(luò)來融合特征。這個網(wǎng)絡(luò)復(fù)刻了大腦多傳感神經(jīng)元是如何表示視覺信息和體感信息之間高效初始交互。
陳曉東教授表示:“我們開發(fā)的技術(shù)有三個獨特的特點。首先,它可以處理視覺和體感信息的早期交互。其次,CNN的卷積運算類似于生物神經(jīng)系統(tǒng)中的局部感受場的功能,它可以自動學(xué)習(xí)層次化的深空特征,并從原始圖像中提取平移不變特征。最后,我們提出了一種基于弗羅貝尼烏斯定理條件數(shù)的疏剪策略來實現(xiàn)高效的稀疏神經(jīng)網(wǎng)絡(luò)。”
在一系列的初步評估中,這種BSV學(xué)習(xí)架構(gòu)的結(jié)果優(yōu)于單模態(tài)識別方法(即只單獨處理視覺或體感數(shù)據(jù),而不是同時考慮兩者)。值得注意的是,與過去開發(fā)的三種多模式識別技術(shù)(加權(quán)平均融合(SV-V)、加權(quán)注意力融合(SV-T)和加權(quán)乘法融合(SV-M)架構(gòu)相比,它能夠更準(zhǔn)確地識別人類手勢。
相關(guān)論文:Gesture recognition using a bioinspired learning architecture that integrates visual data with somatosensory data from stretchable sensors
陳曉東教授說道:“與單模態(tài)識別方法和常見的多模態(tài)識別方法(SV-V、SV-T和SV-M)相比,我們的仿生學(xué)習(xí)架構(gòu)可以達(dá)到最佳的識別精度。在圖像噪點大、曝光不足或曝光過多的非理想情況下,它依然能夠保持較高的識別精度。”
所述的大腦啟發(fā)式架構(gòu)最終可以支持一系列的用例,如能夠讀懂病人肢體語言的醫(yī)療機(jī)器人,幫助創(chuàng)造更先進(jìn)的虛擬現(xiàn)實和增強(qiáng)現(xiàn)實系統(tǒng)等等。
他表示:“它獨特的仿生特性使得我們的架構(gòu)優(yōu)于大多數(shù)現(xiàn)有的方法,我們的實驗結(jié)果已經(jīng)證實了這一點。我們的下一步計劃是根據(jù)視覺數(shù)據(jù)和傳感器數(shù)據(jù)的仿生融合構(gòu)建一個VR和AR系統(tǒng)。”
原文鏈接:https://yivian.com/news/77347.html