來源:映維網(wǎng) 作者 顏昳華
對(duì)于自然用戶界面,游戲,虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí),以及普適計(jì)算(ubiquitous computing)而言,獲取正確的聲音是一個(gè)關(guān)鍵因素。音頻在盲人或低視力人群的輔助技術(shù)中同樣扮演著重要的角色。盡管過去數(shù)十年間的計(jì)算機(jī)已經(jīng)能夠播放和處理高保真音頻,但語言或沉浸式聲場(chǎng)的計(jì)算識(shí)別、分析和渲染方面依然存在一系列有待探索的前言。
自微軟研究院于1991年成立以來,音頻一直是團(tuán)隊(duì)重要的研究領(lǐng)域。在成立的第一年里,研究人員就利用音頻數(shù)據(jù)和其他線索探索視聽演示文稿的自動(dòng)摘要。
多年來,微軟研究院在語音識(shí)別、自然用戶界面、捕捉和再現(xiàn)聲音、空間音頻、聲學(xué)模擬和音頻分析等方面都取得了穩(wěn)定而顯著的進(jìn)展,而且大部分都有應(yīng)用于諸如Windows10、Kinect、HoloLens和Teams的微軟產(chǎn)品和服務(wù),以及福特的同步車載信息娛樂系統(tǒng),Polycom的視頻會(huì)議設(shè)備,諸如《戰(zhàn)爭(zhēng)機(jī)器》和《盜賊之?!返扔螒颉?/p>
在下面的時(shí)間線里,微軟將與我們回顧團(tuán)隊(duì)在音頻和聲學(xué)研究方面的歷史進(jìn)程:
1. 語言識(shí)別和自然用戶界面
2002年:微軟的研究人員建立了“Sound Capture and Speech Enhancement/聲音捕捉和語音增強(qiáng)”項(xiàng)目,并開始始探索諸如減少回聲、麥克風(fēng)陣列處理和降噪等領(lǐng)域。
相關(guān)論文:Gain Self-Calibration Procedure for Microphone Arrays
相關(guān)論文:A New Beamformer Design Algorithm for Microphone Arrays
相關(guān)論文:Reverberation Reduction for Better Speech Recognition
相關(guān)論文:Microphone Array Post-Processor Using Instantaneous Direction of Arrival
2007年:福特發(fā)布了第一個(gè)版本的車內(nèi)信息娛樂系統(tǒng)SYNC,其中語音增強(qiáng)音頻管道最初是由微軟的研究人員設(shè)計(jì)。
相關(guān)視頻:Natural Language Moves In-Car Infotainment Forward
相關(guān)論文:Unified Framework for Single Channel Speech Enhancement
2007年:Windows增加對(duì)麥克風(fēng)陣列的支持。微軟發(fā)布了WindowsVista,包括對(duì)四種預(yù)選麥克風(fēng)陣列幾何結(jié)構(gòu)的支持,以及對(duì)USB麥克風(fēng)陣列的標(biāo)準(zhǔn)化支持。之后,Windows 10已經(jīng)能夠支持任意幾何形狀的麥克風(fēng)陣列。
相關(guān)論文:Sound Capture and Processing: Practical Approaches
2010年:微軟為Xbox360發(fā)布了Kinect,其中包括首個(gè)免手操作開放式麥克風(fēng)命令和帶有環(huán)繞聲回音消除功能的控制產(chǎn)品。
相關(guān)論文:Beamformer Design Using Measured Microphone Directivity Patterns: Robustness to Modelling Error
相關(guān)論文:Optimal 3D Beamforming Using Measured Microphone Directivity Patterns
相關(guān)論文:Data Driven Suppression Rule for Speech Enhancement
相關(guān)論文:Kinect Development Kit: A Toolkit for Gesture- and Speech-Based Human-Machine Interaction
2016年:微軟在這一年發(fā)布了HoloLens,它包含一個(gè)四元麥克風(fēng)陣列和一個(gè)復(fù)雜的聲音捕捉和語音增強(qiáng)系統(tǒng),可用于捕捉用戶的聲音和周圍的環(huán)境聲音。
2017年:研究人員開始探索用于語音增強(qiáng)的神經(jīng)網(wǎng)絡(luò)。微軟在這一年建立了“Neural Networks-Based Speech Enhancement/基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)”項(xiàng)目,并旨在實(shí)現(xiàn)更精確、更可靠的語音處理,尤其是在移動(dòng)設(shè)備、可穿戴設(shè)備、智能家居和物聯(lián)網(wǎng)設(shè)備。與以前的設(shè)備不同,所述設(shè)備帶來了全新的挑戰(zhàn),如噪音更大的背景環(huán)境,更大的揚(yáng)聲器與麥克風(fēng)距離,以及有限的邊緣處理能力。
相關(guān)論文:A Causal Speech Enhancement Approach Combining Data-driven Learning and Suppression Rule Estimation
相關(guān)論文:A Hybrid Approach to Combining Conventional and Deep Learning Techniques for Single-channel Speech Enhancement and Recognition
相關(guān)論文:Convolutional-Recurrent Neural Networks for Speech Enhancement
相關(guān)論文:Constrained Convolutional-recurrent Networks to Improve Speech Quality with Low Impact on Recognition Accuracy
相關(guān)論文:Limiting Numerical Precision of Neural Networks to Achieve Real-time Voice Activity Detection
2019年:微軟發(fā)布HoloLens 2。這款設(shè)備包含一個(gè)五元麥克風(fēng)陣列和復(fù)雜的聲音捕捉和語音增強(qiáng)系統(tǒng)。同時(shí),研究人員在2020年初開始探索其語音增強(qiáng)技術(shù)的關(guān)鍵組件。
相關(guān)論文:Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement
相關(guān)論文:Acoustic Localization using Spatial Probability in Noisy and Reverberant Environments
2020年:Microfoft Teams的語音增強(qiáng)。微軟首席執(zhí)行官薩蒂亞·納德拉(Satya Nadell)在這一年宣布,Microfoft Teams的優(yōu)化將包括基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法。
2. 支持協(xié)作和生產(chǎn)力的音頻
1991年:微軟的研究人員發(fā)表了第一篇與音頻相關(guān)的論文,其主要是關(guān)于多媒體演示文稿的自動(dòng)摘要。
相關(guān)論文:Auto-Summarization of Audio-Video Presentations
1996年:微軟的研究人員探索了在交互式環(huán)境中使用視覺數(shù)據(jù)捕捉和渲染聲音的方法。
相關(guān)論文:Vision-Steered Audio for Interactive Environments
1999年:在這一年里,微軟團(tuán)隊(duì)在音頻檢測(cè)和分類方面取得了長(zhǎng)足的進(jìn)步。
相關(guān)論文:Detection of target speakers in audio databases
相關(guān)論文:A Robust Audio Classification and Segmentation Method
2001年:微軟在這一年建立了RingCam項(xiàng)目,并旨在探索360度視頻會(huì)議。
相關(guān)論文:Distributed Meetings: A Meeting Capture and Broadcasting System
2007年:微軟RoundTable在這一年提供了揚(yáng)聲器檢測(cè)技術(shù),由微軟研究人員開發(fā)的言語檢測(cè)技術(shù)成為了微軟RoundTable系統(tǒng)的一部分。這項(xiàng)技術(shù)后來賣給了Polycom,并作為Polycom CX5000的一部分發(fā)布。
3. 捕捉和再現(xiàn)聲音
1998年:微軟研究人員開始試驗(yàn)麥克風(fēng)陣列,他們建造了第一個(gè)麥克風(fēng)陣列。
2005年:微軟的研究人員建立了“Audio Devices /音頻設(shè)備”項(xiàng)目,并構(gòu)建和評(píng)估了兩個(gè)USB麥克風(fēng)陣列原型:一個(gè)四元線性陣列和一個(gè)八元圓形陣列。
2007年:微軟雷德蒙德研究中心搬進(jìn)了Building 99的新家。這個(gè)建筑包括公司的第一個(gè)消聲室。
相關(guān)論文:Robust Design of Wideband Loudspeaker Arrays
相關(guān)論文:Sound Capture System and Spatial Filter for Small Devices
2009年:團(tuán)隊(duì)對(duì)Building 99的消聲室進(jìn)行了改造,使其可以自動(dòng)測(cè)量3D方向性和輻射模式,包括人類的空間聽覺。它使用亞毫米精度的三維掃描儀測(cè)量頭部和軀干。除此之外,這使得能夠?qū)崿F(xiàn)更逼真空間音頻的頭相關(guān)傳遞函數(shù)(HRTFs)的開發(fā)成為可能。
2012年:為了使用球形和圓柱形函數(shù)來研究聲場(chǎng),微軟研究人員建立了一個(gè)16通道球形麥克風(fēng)陣列和一個(gè)16通道圓柱形麥克風(fēng)陣列。值得一提的是,團(tuán)隊(duì)在2016年構(gòu)建了一個(gè)64通道球形麥克風(fēng)陣列。
2017年:微軟研究人員提出了一種使用超聲波來進(jìn)行手勢(shì)識(shí)別的新方法。這種方法的功耗顯著低于光學(xué)系統(tǒng)。
相關(guān)論文:Ultrasound-based Gesture Recognition
相關(guān)論文:Hardware and Algorithms for Ultrasonic Depth Imaging
相關(guān)論文:Multimodal Gesture Recognition
2018年:微軟研究人員開始探索實(shí)況360度音頻和視頻流式傳輸。
相關(guān)視頻:Live 360 audio and video streaming
2019年:微軟的研究人員建立了Denmark項(xiàng)目,其旨在利用由諸如智能手機(jī)和筆記本電腦等普通消費(fèi)者設(shè)備成的虛擬麥克風(fēng)陣列來實(shí)現(xiàn)會(huì)議對(duì)話的高質(zhì)量捕捉。
4. 空間音頻
2012年:微軟的研究人員開始探索空間音頻的新方向,開始研究與頭相關(guān)傳遞函數(shù)(HRTFs)的新方法。這項(xiàng)工作的一個(gè)潛在成果是實(shí)現(xiàn)更為真實(shí)的空間音頻。
相關(guān)論文:HRTF Magnitude Modeling Using a Non-Regularized Least-Squares Fit of Spherical Harmonics Coefficients on Incomplete Data
相關(guān)論文:HRTF Magnitude Synthesis via Sparse Representation of Anthropometric Features
相關(guān)論文:HRTF Phase Synthesis via Sparse Representation of Anthropometric Features
相關(guān)博文:Microsoft 3D audio tech makes virtual sounds sound real
相關(guān)視頻:3-D Audio Demo
2015年:微軟發(fā)布了支持虛擬環(huán)繞聲的Windows 10:Windows Sonic。這個(gè)空間音頻渲染系統(tǒng)后來集成到HoloLens之中。
相關(guān)論文:Estimation of Multipath Propagation Delays and Interaural Time Differences from 3-D Head Scans
相關(guān)論文:Applications of 3D Spherical Transforms To Personalization Of Head-Related Transfer Functions
2016年:微軟發(fā)布了HoloLens。這個(gè)設(shè)備配備了一個(gè)音頻渲染系統(tǒng),可對(duì)用戶的空間聽覺進(jìn)行動(dòng)態(tài)個(gè)性化設(shè)置。
2016年:微軟發(fā)布Windows Mixed Reality平臺(tái)。Windows10支持其他公司生產(chǎn)的虛擬現(xiàn)實(shí)頭顯和混合現(xiàn)實(shí)頭顯。這個(gè)平臺(tái)包含空間音頻引擎的擴(kuò)展和改進(jìn)版本。
相關(guān)論文:Head-related transfer function personalization for the needs of spatial audio in mixed and virtual reality
2017年:微軟發(fā)布了Soundscape(與Guide Dogs U合作),這是一個(gè)針對(duì)視力受損人群的輔助應(yīng)用程序,其包括一個(gè)空間音頻渲染系統(tǒng)。
相關(guān)論文:Blind reverberation time estimation using a convolutional neural network
相關(guān)項(xiàng)目:Project Soundscape
相關(guān)視頻:Microsoft Soundscape: A Map Delivered in 3D Sound
2018年:Ivan Tashev博士通過播客概述了對(duì)更好的聲音處理和語音增強(qiáng)技術(shù)的追求,并描述了3D音頻的最新創(chuàng)新。他同時(shí)解釋了為什么由于人類感知能力的變化,音頻處理技術(shù)背后的研究是科學(xué)、藝術(shù)和工藝的平衡整合。
相關(guān)播客:Podcast: Hearing in 3D with Dr. Ivan Tashev
2018年:微軟研究團(tuán)隊(duì)在這一年發(fā)布了一系列的重要論文。
相關(guān)論文:A Sparsity Measure for Echo Density Growth in General Environments
相關(guān)論文:Blind Room Volume Estimation from Single-channel Noisy Speech
相關(guān)論文:Capture, representation, and rendering of 3D audio for virtual and augmented reality
相關(guān)論文:Improving Binaural Ambisonics Decoding by Spherical Harmonics Domain Tapering and Coloration Compensation
相關(guān)論文:Spectral manipulation improves elevation perception with non-individualized head-related transfer functions
5. 聲學(xué)模擬
2010年:在2010年之前,交互式音頻的一個(gè)關(guān)鍵挑戰(zhàn)是在復(fù)雜的游戲場(chǎng)景中快速建模波浪效果。在2010年,微軟的研究人員提出了預(yù)先計(jì)算物理精確的波形模擬的概念,并證明這是交互式音頻和游戲的可行途徑。
Triton項(xiàng)目探索了一種基于物理的虛擬環(huán)境建模方法,其旨在實(shí)現(xiàn)更為真實(shí)的游戲內(nèi)音頻。
相關(guān)論文:Precomputed Wave Simulation for Real-Time Sound Propagation of Dynamic Sources in Complex Scenes
相關(guān)項(xiàng)目:Project Triton
2012年:微軟研究人員開始與游戲工作室合作。如與The Coalition Studio 合作,并將上述的聲學(xué)模擬研究納入《戰(zhàn)爭(zhēng)機(jī)器》。通過這樣的方式,團(tuán)隊(duì)開始從探索性研究過渡到注重性能和靈活性的重新設(shè)計(jì)。
2013年:Project Triton的首個(gè)工作原型在內(nèi)部演示。
2014年:團(tuán)隊(duì)發(fā)布了一份描述了Triton項(xiàng)目的核心設(shè)計(jì)的論文,以及如何將感知編碼、空間壓縮和參數(shù)化繪制相結(jié)合。所述設(shè)計(jì)解決了系統(tǒng)資源的使用問題,并能方便地集成到現(xiàn)有的音頻工具中。后來的研究正是建立在這個(gè)核心設(shè)計(jì)之上,并進(jìn)行了各種改進(jìn)。
相關(guān)論文:Parametric Wave Field Coding for Precomputed Sound Propagation
2015年:微軟研究院的暑期實(shí)習(xí)生研究了一種新的自適應(yīng)采樣方法,并旨在解決Triton項(xiàng)目中的一個(gè)關(guān)鍵魯棒性問題。
相關(guān)論文:Adaptive Sampling For Sound Propagation
2016年:Project Triton成為《戰(zhàn)爭(zhēng)機(jī)器4》的一部分。這是由精確基物模擬提供的首個(gè)游戲聲學(xué)實(shí)例。
相關(guān)視頻:GDC 2017 talk on Gears of War integration
2017年:Project Triton開始支持混合現(xiàn)實(shí)體驗(yàn),并作為Windows10 Fall Creator更新的一部分。它在“懸崖屋”空間中提供了一種自然的聲學(xué)體驗(yàn),包含新的定向聲學(xué)特性。這一體驗(yàn)同時(shí)結(jié)合了前面所述的HRTFs進(jìn)步。
2018年,Project Triton成為《盜賊之海》的一部分,這是第二款采用這項(xiàng)技術(shù)的游戲。
相關(guān)論文:Parametric Directional Coding for Precomputed Sound Propagation
2019年:Nikunj Raghuvanshi博士通過播客介紹了聲音是如何傳播,以及Project Triton的相關(guān)事項(xiàng)。
相關(guān)播客:Podcast: Project Triton and the Physics of Sound with Dr. Nikunj Raghuvanshi
2019年:Project Triton作為Project Acoustics向所有開發(fā)者開放,其包括Unity和Unreal插件,以便開發(fā)者輕松將其集成到游戲和研究原型中。
相關(guān)視頻:Project Acoustics: Making Waves with Triton
相關(guān)視頻:Project Acoustics | Game Developers Conference 2019
2019年:《無主之地 3》發(fā)行。這是微軟之外第一家使用Project Triton的游戲工作室。
2020年:Project Triton集成到HoloLens。這一里程碑標(biāo)志著物理聲學(xué)在增強(qiáng)現(xiàn)實(shí)中的首次演示。
相關(guān)視頻:Using Project Acoustics with HoloLens 2
相關(guān)論文:Cloud-Enabled Interactive Sound Propagation for Untethered Mixed Reality
2020年:微軟首席研究員Nikunj Raghuvanshi博士在網(wǎng)絡(luò)研討會(huì)中介紹了創(chuàng)建實(shí)用、高質(zhì)量聲音模擬的來龍去脈。它包括聲音模擬的三個(gè)組成部分:合成、傳播和空間化。對(duì)于每一個(gè)問題,他將回顧基礎(chǔ)物理,研究技術(shù),實(shí)際考慮,和開放的研究問題。
相關(guān)視頻:Interactive Sound Simulation:Rendering immersive soundscapes in games and virtual reality
6. 音頻分析
2010年:微軟研究人員建立了“Audio Analytics/音頻分析”項(xiàng)目,并旨在探索從人類語音中提取非語言線索,檢測(cè)特定的音頻事件和背景噪聲,以及音頻搜索和檢索等主題。這項(xiàng)技術(shù)的潛在應(yīng)用包括客服電話的客戶滿意度分析、媒體內(nèi)容分析和檢索、醫(yī)療診斷輔助設(shè)備和患者監(jiān)控、聽力障礙患者輔助技術(shù)以及公共安全音頻分析等等。
相關(guān)論文:A New Speaker Identification Algorithm for Gaming Scenarios
相關(guān)論文:Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine
相關(guān)論文:High-level Feature Representation using Recurrent Neural Network for Speech Emotion Recognition
2015年:“Hey, Cortana”支持人話識(shí)別。微軟發(fā)布了包含揚(yáng)聲器識(shí)別功能的Windows10,并將其作為“Hey, Cortana”喚醒功能的一部分。
相關(guān)論文:Learning Utterance-level Representations for Speech Emotion and Age/Gender Recognition Using Deep Neural Networks
相關(guān)論文:A Cross-modal Audio Search Engine based on Joint Audio-Text Embeddings
相關(guān)論文:Supervised Deep Hashing for Efficient Audio Event Retrieval
原文鏈接:https://yivian.com/news/77116.html