回顧微軟30年沉浸式3D音頻、聲學(xué)領(lǐng)域的研究歷程

VR/AR

2020

08/19

21:11

映維網(wǎng)

評(píng)論

來源：映維網(wǎng) 作者顏昳華

對(duì)于自然用戶界面，游戲，虛擬現(xiàn)實(shí)和混合現(xiàn)實(shí)，以及普適計(jì)算（ubiquitous computing）而言，獲取正確的聲音是一個(gè)關(guān)鍵因素。音頻在盲人或低視力人群的輔助技術(shù)中同樣扮演著重要的角色。盡管過去數(shù)十年間的計(jì)算機(jī)已經(jīng)能夠播放和處理高保真音頻，但語言或沉浸式聲場(chǎng)的計(jì)算識(shí)別、分析和渲染方面依然存在一系列有待探索的前言。

自微軟研究院于1991年成立以來，音頻一直是團(tuán)隊(duì)重要的研究領(lǐng)域。在成立的第一年里，研究人員就利用音頻數(shù)據(jù)和其他線索探索視聽演示文稿的自動(dòng)摘要。

多年來，微軟研究院在語音識(shí)別、自然用戶界面、捕捉和再現(xiàn)聲音、空間音頻、聲學(xué)模擬和音頻分析等方面都取得了穩(wěn)定而顯著的進(jìn)展，而且大部分都有應(yīng)用于諸如Windows10、Kinect、HoloLens和Teams的微軟產(chǎn)品和服務(wù)，以及福特的同步車載信息娛樂系統(tǒng)，Polycom的視頻會(huì)議設(shè)備，諸如《戰(zhàn)爭(zhēng)機(jī)器》和《盜賊之?！返扔螒颉?/p>

在下面的時(shí)間線里，微軟將與我們回顧團(tuán)隊(duì)在音頻和聲學(xué)研究方面的歷史進(jìn)程：

1. 語言識(shí)別和自然用戶界面

2002年：微軟的研究人員建立了“Sound Capture and Speech Enhancement/聲音捕捉和語音增強(qiáng)”項(xiàng)目，并開始始探索諸如減少回聲、麥克風(fēng)陣列處理和降噪等領(lǐng)域。

相關(guān)論文：Gain Self-Calibration Procedure for Microphone Arrays

相關(guān)論文：A New Beamformer Design Algorithm for Microphone Arrays

相關(guān)論文：Reverberation Reduction for Better Speech Recognition

相關(guān)論文：Microphone Array Post-Processor Using Instantaneous Direction of Arrival

2007年：福特發(fā)布了第一個(gè)版本的車內(nèi)信息娛樂系統(tǒng)SYNC，其中語音增強(qiáng)音頻管道最初是由微軟的研究人員設(shè)計(jì)。

相關(guān)視頻：Natural Language Moves In-Car Infotainment Forward

相關(guān)論文：Unified Framework for Single Channel Speech Enhancement

2007年：Windows增加對(duì)麥克風(fēng)陣列的支持。微軟發(fā)布了WindowsVista，包括對(duì)四種預(yù)選麥克風(fēng)陣列幾何結(jié)構(gòu)的支持，以及對(duì)USB麥克風(fēng)陣列的標(biāo)準(zhǔn)化支持。之后，Windows 10已經(jīng)能夠支持任意幾何形狀的麥克風(fēng)陣列。

相關(guān)論文：Sound Capture and Processing: Practical Approaches

2010年：微軟為Xbox360發(fā)布了Kinect，其中包括首個(gè)免手操作開放式麥克風(fēng)命令和帶有環(huán)繞聲回音消除功能的控制產(chǎn)品。

相關(guān)論文：Beamformer Design Using Measured Microphone Directivity Patterns: Robustness to Modelling Error

相關(guān)論文：Optimal 3D Beamforming Using Measured Microphone Directivity Patterns

相關(guān)論文：Data Driven Suppression Rule for Speech Enhancement

相關(guān)論文：Kinect Development Kit: A Toolkit for Gesture- and Speech-Based Human-Machine Interaction

2016年：微軟在這一年發(fā)布了HoloLens，它包含一個(gè)四元麥克風(fēng)陣列和一個(gè)復(fù)雜的聲音捕捉和語音增強(qiáng)系統(tǒng)，可用于捕捉用戶的聲音和周圍的環(huán)境聲音。

2017年：研究人員開始探索用于語音增強(qiáng)的神經(jīng)網(wǎng)絡(luò)。微軟在這一年建立了“Neural Networks-Based Speech Enhancement/基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)”項(xiàng)目，并旨在實(shí)現(xiàn)更精確、更可靠的語音處理，尤其是在移動(dòng)設(shè)備、可穿戴設(shè)備、智能家居和物聯(lián)網(wǎng)設(shè)備。與以前的設(shè)備不同，所述設(shè)備帶來了全新的挑戰(zhàn)，如噪音更大的背景環(huán)境，更大的揚(yáng)聲器與麥克風(fēng)距離，以及有限的邊緣處理能力。

相關(guān)論文：A Causal Speech Enhancement Approach Combining Data-driven Learning and Suppression Rule Estimation

相關(guān)論文：A Hybrid Approach to Combining Conventional and Deep Learning Techniques for Single-channel Speech Enhancement and Recognition

相關(guān)論文：Convolutional-Recurrent Neural Networks for Speech Enhancement

相關(guān)論文：Constrained Convolutional-recurrent Networks to Improve Speech Quality with Low Impact on Recognition Accuracy

相關(guān)論文：Limiting Numerical Precision of Neural Networks to Achieve Real-time Voice Activity Detection

2019年：微軟發(fā)布HoloLens 2。這款設(shè)備包含一個(gè)五元麥克風(fēng)陣列和復(fù)雜的聲音捕捉和語音增強(qiáng)系統(tǒng)。同時(shí)，研究人員在2020年初開始探索其語音增強(qiáng)技術(shù)的關(guān)鍵組件。

相關(guān)論文：Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement

相關(guān)論文：Acoustic Localization using Spatial Probability in Noisy and Reverberant Environments

2020年：Microfoft Teams的語音增強(qiáng)。微軟首席執(zhí)行官薩蒂亞·納德拉（Satya Nadell）在這一年宣布，Microfoft Teams的優(yōu)化將包括基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法。

2. 支持協(xié)作和生產(chǎn)力的音頻

1991年：微軟的研究人員發(fā)表了第一篇與音頻相關(guān)的論文，其主要是關(guān)于多媒體演示文稿的自動(dòng)摘要。

相關(guān)論文：Auto-Summarization of Audio-Video Presentations

1996年：微軟的研究人員探索了在交互式環(huán)境中使用視覺數(shù)據(jù)捕捉和渲染聲音的方法。

相關(guān)論文：Vision-Steered Audio for Interactive Environments

1999年：在這一年里，微軟團(tuán)隊(duì)在音頻檢測(cè)和分類方面取得了長(zhǎng)足的進(jìn)步。

相關(guān)論文：Detection of target speakers in audio databases

相關(guān)論文：A Robust Audio Classification and Segmentation Method

2001年：微軟在這一年建立了RingCam項(xiàng)目，并旨在探索360度視頻會(huì)議。

相關(guān)論文：Distributed Meetings: A Meeting Capture and Broadcasting System

2007年：微軟RoundTable在這一年提供了揚(yáng)聲器檢測(cè)技術(shù)，由微軟研究人員開發(fā)的言語檢測(cè)技術(shù)成為了微軟RoundTable系統(tǒng)的一部分。這項(xiàng)技術(shù)后來賣給了Polycom，并作為Polycom CX5000的一部分發(fā)布。

3. 捕捉和再現(xiàn)聲音

1998年：微軟研究人員開始試驗(yàn)麥克風(fēng)陣列，他們建造了第一個(gè)麥克風(fēng)陣列。

2005年：微軟的研究人員建立了“Audio Devices /音頻設(shè)備”項(xiàng)目，并構(gòu)建和評(píng)估了兩個(gè)USB麥克風(fēng)陣列原型：一個(gè)四元線性陣列和一個(gè)八元圓形陣列。

2007年：微軟雷德蒙德研究中心搬進(jìn)了Building 99的新家。這個(gè)建筑包括公司的第一個(gè)消聲室。

相關(guān)論文：Robust Design of Wideband Loudspeaker Arrays

相關(guān)論文：Sound Capture System and Spatial Filter for Small Devices

2009年：團(tuán)隊(duì)對(duì)Building 99的消聲室進(jìn)行了改造，使其可以自動(dòng)測(cè)量3D方向性和輻射模式，包括人類的空間聽覺。它使用亞毫米精度的三維掃描儀測(cè)量頭部和軀干。除此之外，這使得能夠?qū)崿F(xiàn)更逼真空間音頻的頭相關(guān)傳遞函數(shù)（HRTFs）的開發(fā)成為可能。

2012年：為了使用球形和圓柱形函數(shù)來研究聲場(chǎng)，微軟研究人員建立了一個(gè)16通道球形麥克風(fēng)陣列和一個(gè)16通道圓柱形麥克風(fēng)陣列。值得一提的是，團(tuán)隊(duì)在2016年構(gòu)建了一個(gè)64通道球形麥克風(fēng)陣列。

2017年：微軟研究人員提出了一種使用超聲波來進(jìn)行手勢(shì)識(shí)別的新方法。這種方法的功耗顯著低于光學(xué)系統(tǒng)。

相關(guān)論文：Ultrasound-based Gesture Recognition

相關(guān)論文：Hardware and Algorithms for Ultrasonic Depth Imaging

相關(guān)論文：Multimodal Gesture Recognition

2018年：微軟研究人員開始探索實(shí)況360度音頻和視頻流式傳輸。

相關(guān)視頻：Live 360 audio and video streaming

2019年：微軟的研究人員建立了Denmark項(xiàng)目，其旨在利用由諸如智能手機(jī)和筆記本電腦等普通消費(fèi)者設(shè)備成的虛擬麥克風(fēng)陣列來實(shí)現(xiàn)會(huì)議對(duì)話的高質(zhì)量捕捉。

4. 空間音頻

2012年：微軟的研究人員開始探索空間音頻的新方向，開始研究與頭相關(guān)傳遞函數(shù)（HRTFs）的新方法。這項(xiàng)工作的一個(gè)潛在成果是實(shí)現(xiàn)更為真實(shí)的空間音頻。

相關(guān)論文：HRTF Magnitude Modeling Using a Non-Regularized Least-Squares Fit of Spherical Harmonics Coefficients on Incomplete Data

相關(guān)論文：HRTF Magnitude Synthesis via Sparse Representation of Anthropometric Features

相關(guān)論文：HRTF Phase Synthesis via Sparse Representation of Anthropometric Features

相關(guān)博文：Microsoft 3D audio tech makes virtual sounds sound real

相關(guān)視頻：3-D Audio Demo

2015年：微軟發(fā)布了支持虛擬環(huán)繞聲的Windows 10：Windows Sonic。這個(gè)空間音頻渲染系統(tǒng)后來集成到HoloLens之中。

相關(guān)論文：Estimation of Multipath Propagation Delays and Interaural Time Differences from 3-D Head Scans

相關(guān)論文：Applications of 3D Spherical Transforms To Personalization Of Head-Related Transfer Functions

2016年：微軟發(fā)布了HoloLens。這個(gè)設(shè)備配備了一個(gè)音頻渲染系統(tǒng)，可對(duì)用戶的空間聽覺進(jìn)行動(dòng)態(tài)個(gè)性化設(shè)置。

2016年：微軟發(fā)布Windows Mixed Reality平臺(tái)。Windows10支持其他公司生產(chǎn)的虛擬現(xiàn)實(shí)頭顯和混合現(xiàn)實(shí)頭顯。這個(gè)平臺(tái)包含空間音頻引擎的擴(kuò)展和改進(jìn)版本。

相關(guān)論文：Head-related transfer function personalization for the needs of spatial audio in mixed and virtual reality

2017年：微軟發(fā)布了Soundscape（與Guide Dogs U合作），這是一個(gè)針對(duì)視力受損人群的輔助應(yīng)用程序，其包括一個(gè)空間音頻渲染系統(tǒng)。

相關(guān)論文：Blind reverberation time estimation using a convolutional neural network

相關(guān)項(xiàng)目：Project Soundscape

相關(guān)視頻：Microsoft Soundscape: A Map Delivered in 3D Sound

2018年：Ivan Tashev博士通過播客概述了對(duì)更好的聲音處理和語音增強(qiáng)技術(shù)的追求，并描述了3D音頻的最新創(chuàng)新。他同時(shí)解釋了為什么由于人類感知能力的變化，音頻處理技術(shù)背后的研究是科學(xué)、藝術(shù)和工藝的平衡整合。

相關(guān)播客：Podcast: Hearing in 3D with Dr. Ivan Tashev

2018年：微軟研究團(tuán)隊(duì)在這一年發(fā)布了一系列的重要論文。

相關(guān)論文：A Sparsity Measure for Echo Density Growth in General Environments

相關(guān)論文：Blind Room Volume Estimation from Single-channel Noisy Speech

相關(guān)論文：Capture, representation, and rendering of 3D audio for virtual and augmented reality

相關(guān)論文：Improving Binaural Ambisonics Decoding by Spherical Harmonics Domain Tapering and Coloration Compensation

相關(guān)論文：Spectral manipulation improves elevation perception with non-individualized head-related transfer functions

5. 聲學(xué)模擬

2010年：在2010年之前，交互式音頻的一個(gè)關(guān)鍵挑戰(zhàn)是在復(fù)雜的游戲場(chǎng)景中快速建模波浪效果。在2010年，微軟的研究人員提出了預(yù)先計(jì)算物理精確的波形模擬的概念，并證明這是交互式音頻和游戲的可行途徑。

Triton項(xiàng)目探索了一種基于物理的虛擬環(huán)境建模方法，其旨在實(shí)現(xiàn)更為真實(shí)的游戲內(nèi)音頻。

相關(guān)論文：Precomputed Wave Simulation for Real-Time Sound Propagation of Dynamic Sources in Complex Scenes

相關(guān)項(xiàng)目：Project Triton

2012年：微軟研究人員開始與游戲工作室合作。如與The Coalition Studio 合作，并將上述的聲學(xué)模擬研究納入《戰(zhàn)爭(zhēng)機(jī)器》。通過這樣的方式，團(tuán)隊(duì)開始從探索性研究過渡到注重性能和靈活性的重新設(shè)計(jì)。

2013年：Project Triton的首個(gè)工作原型在內(nèi)部演示。

2014年：團(tuán)隊(duì)發(fā)布了一份描述了Triton項(xiàng)目的核心設(shè)計(jì)的論文，以及如何將感知編碼、空間壓縮和參數(shù)化繪制相結(jié)合。所述設(shè)計(jì)解決了系統(tǒng)資源的使用問題，并能方便地集成到現(xiàn)有的音頻工具中。后來的研究正是建立在這個(gè)核心設(shè)計(jì)之上，并進(jìn)行了各種改進(jìn)。

相關(guān)論文：Parametric Wave Field Coding for Precomputed Sound Propagation

2015年：微軟研究院的暑期實(shí)習(xí)生研究了一種新的自適應(yīng)采樣方法，并旨在解決Triton項(xiàng)目中的一個(gè)關(guān)鍵魯棒性問題。

相關(guān)論文：Adaptive Sampling For Sound Propagation

2016年：Project Triton成為《戰(zhàn)爭(zhēng)機(jī)器4》的一部分。這是由精確基物模擬提供的首個(gè)游戲聲學(xué)實(shí)例。

相關(guān)視頻：GDC 2017 talk on Gears of War integration

2017年：Project Triton開始支持混合現(xiàn)實(shí)體驗(yàn)，并作為Windows10 Fall Creator更新的一部分。它在“懸崖屋”空間中提供了一種自然的聲學(xué)體驗(yàn)，包含新的定向聲學(xué)特性。這一體驗(yàn)同時(shí)結(jié)合了前面所述的HRTFs進(jìn)步。

2018年，Project Triton成為《盜賊之海》的一部分，這是第二款采用這項(xiàng)技術(shù)的游戲。

相關(guān)論文：Parametric Directional Coding for Precomputed Sound Propagation

2019年：Nikunj Raghuvanshi博士通過播客介紹了聲音是如何傳播，以及Project Triton的相關(guān)事項(xiàng)。

相關(guān)播客：Podcast: Project Triton and the Physics of Sound with Dr. Nikunj Raghuvanshi

2019年：Project Triton作為Project Acoustics向所有開發(fā)者開放，其包括Unity和Unreal插件，以便開發(fā)者輕松將其集成到游戲和研究原型中。

相關(guān)視頻：Project Acoustics: Making Waves with Triton

相關(guān)視頻：Project Acoustics | Game Developers Conference 2019

2019年：《無主之地 3》發(fā)行。這是微軟之外第一家使用Project Triton的游戲工作室。

2020年：Project Triton集成到HoloLens。這一里程碑標(biāo)志著物理聲學(xué)在增強(qiáng)現(xiàn)實(shí)中的首次演示。

相關(guān)視頻：Using Project Acoustics with HoloLens 2

相關(guān)論文：Cloud-Enabled Interactive Sound Propagation for Untethered Mixed Reality

2020年：微軟首席研究員Nikunj Raghuvanshi博士在網(wǎng)絡(luò)研討會(huì)中介紹了創(chuàng)建實(shí)用、高質(zhì)量聲音模擬的來龍去脈。它包括聲音模擬的三個(gè)組成部分：合成、傳播和空間化。對(duì)于每一個(gè)問題，他將回顧基礎(chǔ)物理，研究技術(shù)，實(shí)際考慮，和開放的研究問題。

相關(guān)視頻：Interactive Sound Simulation：Rendering immersive soundscapes in games and virtual reality

6. 音頻分析

2010年：微軟研究人員建立了“Audio Analytics/音頻分析”項(xiàng)目，并旨在探索從人類語音中提取非語言線索，檢測(cè)特定的音頻事件和背景噪聲，以及音頻搜索和檢索等主題。這項(xiàng)技術(shù)的潛在應(yīng)用包括客服電話的客戶滿意度分析、媒體內(nèi)容分析和檢索、醫(yī)療診斷輔助設(shè)備和患者監(jiān)控、聽力障礙患者輔助技術(shù)以及公共安全音頻分析等等。

相關(guān)論文：A New Speaker Identification Algorithm for Gaming Scenarios

相關(guān)論文：Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine

相關(guān)論文：High-level Feature Representation using Recurrent Neural Network for Speech Emotion Recognition

2015年：“Hey, Cortana”支持人話識(shí)別。微軟發(fā)布了包含揚(yáng)聲器識(shí)別功能的Windows10，并將其作為“Hey, Cortana”喚醒功能的一部分。

相關(guān)論文：Learning Utterance-level Representations for Speech Emotion and Age/Gender Recognition Using Deep Neural Networks

相關(guān)論文：A Cross-modal Audio Search Engine based on Joint Audio-Text Embeddings

相關(guān)論文：Supervised Deep Hashing for Efficient Audio Event Retrieval

原文鏈接：https://yivian.com/news/77116.html

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

研發(fā)實(shí)戰(zhàn)：用Unity MARS快速迭代情景可適應(yīng)的AR體驗(yàn)

Unity MARS的Simulation（模擬）系統(tǒng)減少了AR應(yīng)用程序開發(fā)的測(cè)試時(shí)間，因?yàn)樗軌蛑苯油ㄟ^Unity Editor的Play Mode和Edit Mode提供諸如平面和圖像標(biāo)記檢測(cè)等世界理解能力。

Valve Index跌出Steam暢銷榜TOP10，銷量或不足1000

Steam每周都會(huì)公布一個(gè)TOP10暢銷榜，而這個(gè)暢銷榜TOP10是根據(jù)銷售總收入排名，這也使得Valve的VR頭顯Valve Index能屢屢擠入這個(gè)暢銷榜內(nèi)。但在上周的名單中，Valve Index跌出Steam每周暢銷榜TOP10，這是Va...

如何為AR/VR設(shè)計(jì)創(chuàng)作3D人物全息圖

對(duì)于沉浸式內(nèi)容，在AR和VR中創(chuàng)建數(shù)字化身是一個(gè)需求，但同時(shí)是一個(gè)技術(shù)挑戰(zhàn)。對(duì)于初學(xué)者來說，這或許比在3D中創(chuàng)建對(duì)象和環(huán)境要困難得多。

GodView眼鏡新品亮相AWE Asia 2020 ，驚艷全場(chǎng)

盛夏8月，一場(chǎng)屬于AR/VR行業(yè)的盛會(huì)——AWE（Augmented World Expo）增強(qiáng)現(xiàn)實(shí)世界博覽會(huì)在深圳成功舉行。AWE聚焦全球最前沿的AR/VR技術(shù)、匯集AR/VR行業(yè)最高端人才，與會(huì)的行業(yè)內(nèi)佼佼者們紛紛展示各家研發(fā)新...

懟戰(zhàn)升級(jí)！蘋果警告不讓Unreal Engine支持ARKit、新

上周8月14日，因?yàn)镋pic Games在游戲《堡壘之夜》增加了一種可繞開蘋果和谷歌支付系統(tǒng)以規(guī)避30%抽成的新內(nèi)購機(jī)制，蘋果和谷歌相繼下架《堡壘之夜》。Epic Games于是就壟斷問題起訴了這家平臺(tái)巨頭，并且發(fā)起...

国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

回顧微軟30年沉浸式3D音頻、聲學(xué)領(lǐng)域的研究歷程

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

国产高清女同学巨大乳在线观看,18禁男女无遮挡啪啪网站,欧美裸体XXXXBBBB极品,色婷婷亚洲婷婷7月

回顧微軟30年沉浸式3D音頻、聲學(xué)領(lǐng)域的研究歷程

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

回顧微軟30年沉浸式3D音頻、聲學(xué)領(lǐng)域的研究歷程

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！