0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何評估3D音頻解決方案 總結(jié)頭部跟蹤中的關(guān)鍵因素

CEVA ? 來源:CEVA ? 作者:CEVA ? 2022-05-27 16:14 ? 次閱讀

作者:CEVA 高級營銷專員 Charles Pao

Charles Pao 畢業(yè)于約翰霍普金斯大學(xué),獲得電氣工程學(xué)碩士學(xué)位后,他開始在 CEVA Hillcrest 實驗室工作。他從事軟件開發(fā)工作,研發(fā)了一個黑盒系統(tǒng)用來評估運動特征。Charles 十分熱愛媒體和通信領(lǐng)域,開始為 Hillcrest Labs 制作演示和產(chǎn)品視頻。出于熱愛,他正式轉(zhuǎn)崗到市場營銷部門。目前,他是 Hillcrest 信息與支持部的第一聯(lián)系人,并負責(zé)管理營銷工作。同時,他還擔(dān)任多種職責(zé)和項目管理角色。Charles 還獲得了約翰霍普金斯大學(xué)電氣工程和計算機工程理學(xué)學(xué)士學(xué)位。

沉浸式 3D/空間音頻 ,與 XR/360 視頻相結(jié)合,給您帶來宛若置身于茂密深林的視聽體驗——飄落的細枝在腳下嘎吱作響,一頭鹿向東原跑去,當您的目光追著一只紅衣鳳頭鳥而遠去時,您能聽見它扇動翅膀的聲音。

精準的頭部跟蹤有助于提供逼真的用戶體驗 (UX),了解評估解決方案的關(guān)鍵因素,可以幫助您在不斷發(fā)展的行業(yè)中找到方向。

頭部跟蹤的關(guān)鍵因素

為了便于理解,本文內(nèi)容總結(jié)了頭部跟蹤中的關(guān)鍵因素。

延遲:它指視聽信號從視聽源發(fā)出到被用戶感知之間的時間差。依據(jù)本文的目的,我們將其分為兩部分。 —音頻輸入延遲:它指音頻信號從音頻源發(fā)出到被用戶感知之間的時間差。 —頭部跟蹤延遲:它指當您的頭部移動時,3D 音頻處理變化以適應(yīng)新的頭部方向的時間差。

頭部跟蹤準確度:在本文中,我們討論的是僅跟蹤方向的 3-DOF 頭部跟蹤,而不是跟蹤位置和方向的 6-DOF 頭部跟蹤。準確度指實際運動與其在擴展現(xiàn)實 (XR) 環(huán)境中對應(yīng)位置之間的測定差。如果傳感器(及其算法)不準確,您可能能夠?qū)崟r跟蹤頭部運動,但在虛擬環(huán)境中的運動與現(xiàn)實中的運動會存在差異。

頭部跟蹤平滑度:它指頭部轉(zhuǎn)變方向時,3D 音頻轉(zhuǎn)換的清晰和可察覺程度。您希望創(chuàng)造一種不受跳躍影響的 XR 體驗。突然改變的輸出會破壞沉浸式的體驗感,在游戲過程中,甚至?xí)?dǎo)致死機。

測試因素

頭部跟蹤延遲

在沒有合適的測量設(shè)備的情況下,對延遲進行測試并不簡單,但可以用主觀的方法進行測試。柏林工業(yè)大學(xué) (TU Berlin) 音頻通信團隊的一項研究表明,人類受試者的平均檢測水平為 108 毫秒,單聲源的絕對檢測閾值為 52 至 73 毫秒。這里需要澄清的是,該團隊研究的是“總系統(tǒng)延遲”,它指說話者的音頻輸出和設(shè)備輸出之間的時間差。研究得出的結(jié)論是,人類平均需要經(jīng)過 108 毫秒才能注意到運動的變化。當從單個來源播放聲音時,聲音會更加明顯。

收聽預(yù)錄制的音樂或其他受限音頻的內(nèi)容時,此延遲不會有任何影響。但是,對于錄制的視頻而言,如果顯示器沒有延遲圖像解決音頻輸入延遲的問題,則可能會出現(xiàn)口型同步問題。對于視頻游戲而言,您不希望出現(xiàn)畫面延遲的狀況,因為畫面延遲會影響到玩家的游戲表現(xiàn),因此低音頻延遲對保持聲音與游戲畫面同步來說非常重要。延遲在一定程度上會一直存在,但關(guān)鍵是要盡量減少延遲,這樣用戶就不會察覺到延遲的影響。

在空間音頻系統(tǒng)中,通常應(yīng)用頭相關(guān)變換函數(shù) (HRTF),混響或其他室內(nèi)模擬技術(shù),通過空間處理過的空間音頻輸入來映射頭部跟蹤數(shù)據(jù)。完成此處理后,有幾種常用方法可以實現(xiàn)空間音頻系統(tǒng)。

bc71c52a-dd8e-11ec-ba43-dac502259ad0.png

如果您在音頻設(shè)備本機上運行空間處理算法,由于無線通信技術(shù)的影響,僅會增加音頻的輸入延遲。由于頭部跟蹤路徑中沒有無線鏈路,頭部跟蹤的延遲仍然很低。這是在同一設(shè)備上同時執(zhí)行空間處理和頭部跟蹤的一個關(guān)鍵優(yōu)勢。

bcbb974a-dd8e-11ec-ba43-dac502259ad0.png

另一種方法是在手機等移動設(shè)備上執(zhí)行空間音頻處理。頭部跟蹤信息從可聽設(shè)備發(fā)送至移動設(shè)備,移動設(shè)備會對其進行處理,然后將其推回給用戶。由于存在額外的通信鏈路,與前一種方法相比,此方法會加大頭部跟蹤的延遲。通過藍牙技術(shù)可將音頻從電話傳輸?shù)蕉鷻C,藍牙延遲取決于使用的音頻編解碼器。較快的編解碼器的延遲可低至 50-80 毫秒,但較常見的編解碼器的延遲可達 170-270 毫秒。頭部跟蹤數(shù)據(jù)通常會增加 50-100 毫秒的延遲。

bcf34078-dd8e-11ec-ba43-dac502259ad0.png

通過對空間音頻系統(tǒng)的理解和人類延遲檢測的研究,我們可以大致了解空間音頻系統(tǒng)延遲的優(yōu)劣情況。試著使用更高頻的聲音來測試延遲。低頻噪聲的方向性不顯著(這就是為什么立體聲系統(tǒng)通常只有一個低音炮)。

用于測試延遲的優(yōu)質(zhì)聲源是一種連續(xù)的聲音,可以很好地定位。理想情況下,此聲源需混合多個頻率的聲音,但為了便于測試的說明,請考慮用不斷播放的高頻音頻測試延遲。較高的頻率更易于識別,而恒定音調(diào)可以讓您注意到音頻圖像中的不同變化。

假設(shè)您的耳機的頭部跟蹤延遲為 200 毫秒。若要獲得良好的音頻渲染效果,我們希望音頻圖像的移動范圍不超過 5 度。這意味著用戶需要始終以低于 25 度/秒的速度移動。為了幫助您更好地想象,這意味著在 3.6 秒內(nèi)將您的頭部旋轉(zhuǎn) 90 度。這種移速相當緩慢,您在正常情況下的移動速度比這快得多。

在測試中,如果您在大約 1/4 秒內(nèi)將頭部旋轉(zhuǎn) 90 度,您將以 360 度/秒的速度移動。200 毫秒的延遲意味著聲源將移動 72 度,但是它僅在 200 毫秒的時間內(nèi)處于錯誤的位置。在測試中,以連續(xù)的聲音作為參考,可以輕易辨別延遲情況。

準確度、精確度和平滑度

準確度與運動與真實世界/真實答案的差距有關(guān)。精確度與您獲得相同答案的一致性有關(guān)。只有使用帶有磁力計的完整 9 軸解決方案,才能測量出真正的準確度。但是,由于音頻技術(shù)使用了磁性驅(qū)動器,以及不斷變化的用戶環(huán)境,使用完整的 9 軸頭部跟蹤解決方案并不切實際。這就是為什么大多數(shù)空間音頻硬件只使用加速計陀螺儀的原因。

測試精確度和平滑度有點棘手,但使用您的空間音頻軟件,應(yīng)該能夠測試它們的運行效果。清晰的語音音頻(如播客)可能是測試這些標準的最佳工具。在播客中,說話者處于固定位置,所以無論您把頭轉(zhuǎn)至哪個方向,說話者的聲音都應(yīng)該來自同一個位置。當您移動頭部時,3D 音頻應(yīng)該會發(fā)生從一個位置到另一個位置的變化,而音量或音質(zhì)不會出現(xiàn)明顯的落差或變化。

3D/空間音頻耳機中的陀螺儀傳感器容易發(fā)生偏移,這會降低耳機的整體精度。軟件將為您提供多個選項:手動復(fù)位,慢速穩(wěn)定或快速穩(wěn)定。

如果您未調(diào)整偏移,會發(fā)現(xiàn)隨著時間的推移,人們在房間里移動的速度很慢。也許他們一開始在您的正前方,但現(xiàn)在位于中心偏左的位置。這種效果是不理想的。您可以通過點擊(設(shè)備物或軟件上)指定的按鈕來手動復(fù)位設(shè)備,說出“我再次直視前方”,并重新設(shè)置偏移度。但是,隨著時間的推移,偏移度仍然會逐漸增加。緩慢復(fù)位方法利用了您的頭部朝向視線對象這一事實。通過作出此假設(shè),它可以在幾分鐘內(nèi)重置陀螺儀偏移。快速復(fù)位方法利用了同樣的思路,但是相比而言,可以在幾秒鐘之內(nèi)立即實現(xiàn)移動。

您需根據(jù)具體的使用情形,選擇理想的自動復(fù)位方法。如果您看向屏幕的同一方向,快速復(fù)位則是理想的選擇,因為偶爾看向屏幕以外的位置不會影響復(fù)位,并讓您的視線落點保持在中心位置。在活動開始時,重置“正前”方向可以指引復(fù)位,讓您不必花費幾分鐘的時間等待算法調(diào)整。但是,如果您在家中的多個屏幕上玩游戲,在手機上玩動作游戲,或者在公園里散步,您的方向就會頻繁變化。快速復(fù)位能夠更好地跟上以上場景的方向變化。

當您轉(zhuǎn)著頭聽播客時,試著注意聲音在空間里的追蹤效果,以及當聲音移動時,聲音位置變化的平滑程度(或者您是否注意到移動)??臻g音頻的流暢性主要體現(xiàn)在聲音在位置轉(zhuǎn)換過程中的清晰度。無論是緩慢還是快速轉(zhuǎn)動頭部,您能察覺到的音頻位置的清晰變化都是平滑算法的標志。如果您在頭部移動時注意到音頻跳躍或明顯量化的現(xiàn)象,這可能是跳轉(zhuǎn)校正的跡象,或者傳感器/系統(tǒng)無法平滑轉(zhuǎn)換運動。

隨著大型科技公司創(chuàng)造出各種 3D/空間音頻的集成產(chǎn)品,3D/空間音頻正成為世界的主流。產(chǎn)品越多,您就越需要了解如何挑選最佳產(chǎn)品。盡管以上評估在很大程度上代表了本人的主觀看法,但我希望通過解釋評估與測試背后的想法與邏輯,為您在 3D/空間音頻的世界里暢游提供一些指引。如果您需要以可視化方式了解頭部跟蹤延遲的重要性,或者獲取有關(guān) HRTF 的更多信息,請查看網(wǎng)絡(luò)研討會視頻。如果本文或網(wǎng)絡(luò)研討會的內(nèi)容讓您產(chǎn)生了興趣,請向我們發(fā)送消息,以了解哪些 CEVA 產(chǎn)品能為您的項目提供最佳支持。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2843

    瀏覽量

    107178
  • 音頻
    +關(guān)注

    關(guān)注

    29

    文章

    2811

    瀏覽量

    81081
  • CEVA
    +關(guān)注

    關(guān)注

    1

    文章

    177

    瀏覽量

    75816

原文標題:如何評估 3D 音頻解決方案

文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    虹科rooom元宇宙解決方案 #VR技術(shù) #AR #3D視覺

    解決方案vr3D視覺
    虹科ARVR
    發(fā)布于 :2022年10月11日 16:22:29

    設(shè)計 PCB 時有許多關(guān)鍵因素應(yīng)該考慮

    `設(shè)計 PCB 時有許多關(guān)鍵因素應(yīng)該考慮`
    發(fā)表于 06-07 18:25

    AMEYA360設(shè)計方案丨混合 3D 顯示儀表板解決方案

    2.0 和 Open GL ES3.0 等常用 3D 圖形 API,打造豐富的用戶體驗,是汽車儀表板應(yīng)用實現(xiàn)逼真視覺呈現(xiàn)的理想解決方案。這些處理器還有一個廣泛的開發(fā)工具生態(tài)合作體系作支持,優(yōu)化的
    發(fā)表于 09-28 13:34

    使用開源IP的關(guān)鍵因素和指導(dǎo)方針

    開源及其優(yōu)勢,但是沒有決策的權(quán)力;另一邊是管理層和法律部門,他們可以作出決策,但卻可能沒有足夠的背景信息。我們?nèi)绾螐浐线@一差距呢?工程設(shè)計團隊怎樣才能說服管理層大膽使用開源方案呢?本文將闡述在產(chǎn)品工程設(shè)計階段使用開源方案時需要考慮的一些
    發(fā)表于 05-16 10:44

    拉絲張力是決定光纖性質(zhì)的關(guān)鍵因素是什么?

    拉絲張力是決定光纖性質(zhì)的關(guān)鍵因素是什么?
    發(fā)表于 05-27 06:33

    請問影響固態(tài)硬盤壽命的的關(guān)鍵因素是什么?

    請問影響固態(tài)硬盤壽命的的關(guān)鍵因素是什么?
    發(fā)表于 06-18 08:03

    音頻巨頭Dirac公司為VR/AR發(fā)布動態(tài)3D音頻解決方案

    Dirac Research是音頻保真技術(shù)的全球領(lǐng)導(dǎo)者,該瑞典公司于今天發(fā)布了“Dynamic 3D Audio”(動態(tài)3D音頻)AR/VR平臺,可清除真正沉浸式AR/VR體驗的主要障
    發(fā)表于 12-13 14:50 ?1108次閱讀

    三種3D眼鏡解決方案

    介紹了三種3D眼鏡解決方案,MSP430方案,TPS65835方案,射頻穿梭3D電視眼鏡。
    發(fā)表于 09-14 10:23 ?35次下載
    三種<b class='flag-5'>3D</b>眼鏡<b class='flag-5'>解決方案</b>

    能量采集是物聯(lián)網(wǎng)解決方案實現(xiàn)完全自主的關(guān)鍵因素

    能量采集是物聯(lián)網(wǎng)解決方案實現(xiàn)完全自主的關(guān)鍵因素。ADP509x提供最高效的能量采集PMU并集成多電源路徑設(shè)計,具有更快的啟動速度以及更平滑的操作性能。
    的頭像 發(fā)表于 06-01 14:54 ?3870次閱讀

    3D集成技術(shù)解決方案在傳感器應(yīng)用的主要挑戰(zhàn)

    從低密度的后通孔TSV 硅3D集成技術(shù),到高密度的引線混合鍵合或3D VSLI CoolCubeTM解決方案,研究人員發(fā)現(xiàn)許多開發(fā)新產(chǎn)品的機會。本文概述了當前新興的硅3D集成技術(shù),討論
    發(fā)表于 01-16 09:53 ?954次閱讀

    基于3D ToF傳感器的DMS,增強頭部和視線追蹤的可靠性

    統(tǒng)計顯示,大多數(shù)交通事故都是由于駕駛員注意力不集中而造成的,比如玩手機、閑聊或是突發(fā)疾病等。日前,瑞士3D眼球追蹤技術(shù)公司Eyeware和比利時微電子半導(dǎo)體解決方案供應(yīng)商Melexis合作開發(fā)
    的頭像 發(fā)表于 03-26 14:24 ?4779次閱讀

    CEVA和共同開發(fā)全面3D空間音頻解決方案

    通過結(jié)合VisiSonics的RealSpace3D音頻軟件與CEVA的低功耗音頻和傳感器中樞DSP及MotionEngine頭部跟蹤算法,
    的頭像 發(fā)表于 10-21 11:24 ?2016次閱讀

    三家企業(yè)帶來完整的3D空間音頻硬件和軟件解決方案

    三家企業(yè)共同為消費電子 OEM 和 ODM 廠商帶來完整的3D 空間音頻硬件和軟件解決方案 CEVA,全球領(lǐng)先的無線連接和智能傳感技術(shù)的授權(quán)許可廠商(NASDAQ:CEVA) 與無線通信解決方
    的頭像 發(fā)表于 10-25 10:28 ?2857次閱讀

    影響電源模塊功率密度的關(guān)鍵因素

    依靠簡單的經(jīng)驗法則來評估電源模塊密度的關(guān)鍵因素是遠遠不夠的,例如電源解決方案開關(guān)頻率與整體尺寸和密度成反比;與驅(qū)動系統(tǒng)密度的負載相比,功率密度往往以不同的速率變化;因此合理的做法是將子系統(tǒng)和相關(guān)器
    發(fā)表于 08-18 11:36 ?509次閱讀

    提供3D打印材料與解決方案,助力3D打印產(chǎn)業(yè)發(fā)展

    提供3D打印材料與解決方案,助力3D打印產(chǎn)業(yè)發(fā)展
    的頭像 發(fā)表于 12-12 11:12 ?458次閱讀