26

Dec . 2024

白皮書下載 | 英飛凌高訊噪比MEMS麥克風驅動人工智慧交互

分享至

  本文作者  

作者 Gunar Lorenz博士

英飛凌科技公司 技術市場高級總監

&

校對 丁越

英飛凌消費、計算與通訊業務大中華區 首席工程師

圖1 聽力閾值。根據ISO226:2023,人在重複試驗中做出50%正確檢測反應的聲級。

| 導言


在英飛凌,我們一直堅信卓越的音訊解決方案對於提升消費性設備的用戶體驗至關重要。我們堅定不移地致力於創新,在主動降噪、語音透傳、錄音室錄音、音訊變焦和其他相關技術方面取得了顯著進步,對此我們深感自豪。作為MEMS麥克風的領先供應商,英飛凌集中資源改善MEMS麥克風的音頻品質,為TWS和耳罩式耳機、筆記型電腦、平板電腦、會議系統、智能手機、智能音箱、助聽器甚至汽車等各種消費設備帶來卓越體驗。


今天,我們生活在一個令人興奮的時代,人工智慧正在徹底改變日常生活,而ChatGPT等工具正在通過直覺的文字和語音互動重新定義工作效率。隨著人工智慧系統的不斷進步,傳統的商業模式、信念和假設正在受到挑戰。語音在新興的人工智慧生態系統中扮演什麼角色?身為企業領導者,我們是否需要重新思考我們的信念?生成式人工智慧的興起是否會降低高品質語音輸入的重要性,或者高品質語音輸入會成為廣泛採用人工智慧服務和個人助理的必要條件?


| 人工智慧,從得力助手到最好的朋友


人類不僅會根據問題的內容,也會根據提問的形式來調整自己的回答,這是很自然的事。人類的聲音提供了各種線索,可用來判斷提問者的年齡、性別、社會和文化背景以及情緒狀態。此外,識別所處的環境(如機場、辦公室、交通或跑步等體育活動)也有助於確定提問者的意圖,並相應地調整答案並更好的對話。


儘管人工智慧的能力有了長足的進步,但人們仍然認為,基於人工智慧的輔助工具缺乏正確預測人類提問意圖或特定資訊將如何被解讀的能力。為了改善人機交互,人工智慧在做出修辭選擇時應考慮三個關鍵因素:對聽者的了解、聽者的情緒狀態和環境背景。


在許多情況下,僅憑接收到的音訊訊號就足以提取有用的信息並做出適當的反應。例如,考慮一下與素未謀面的人進行電話或音訊會議的情況。更重要的是,考慮一下在沒有機會當面交流的情況下,一個人在反覆交談後對另一個人的感知是如何發展和變化的。


最近的研究表明,即使人工智慧的語言反應風格發生微小的變化,也會導致人工智慧的社交能力和個性發生明顯變化。我們有理由假設,在適當的聲音輸入水平下,未來的人工智慧系統將能夠作為有效的伙伴發揮作用,表現出人類朋友的行為,例如詢問並真正傾聽答案,或者只是傾聽並在適當的時候保留判斷。


| 人類如何體驗音訊訊號?


與任何語言交流一樣,音訊訊息也使用語言和文字來傳達思想、情感和觀點。此外,其他交流元素如音調、速度、音量和背景噪音也會影響對訊息的整體感知。


從科學的角度來看,人耳基於兩個關鍵因素來感知音頻訊號:頻率和聲壓級。聲壓級 (SPL) 以分貝 (dBSPL) 為單位,表示圍繞環境大氣壓力振盪的聲壓幅度。 100dBSPL的聲壓級相當於割草機或直升機發出的巨大噪音。聲壓級範圍內的最低點 (0dB) 等效於20µPa的聲壓振盪,這代表具有最佳聽力的健康年輕人在1kHz頻率下的聽力閾值。所有與語言有關的人類聲音都屬於100Hz至8kHz的頻段。根據ISO226:2023標準,對應的人類聽力閾值如圖1所示。



如圖1所示人耳對500Hz至6kHz範圍內的頻率特別敏感。這些頻率上的任何頻率平衡問題都會對聲音和樂器的感知品質產生重大影響。 500Hz至4kHz之間的頻率包含了人類語音中影響語音清晰度的大部分資訊。具體來說,2kHz左右的頻率尤其重要。 5kHz至10kHz的頻率對音樂非常重要。這些頻率為聲音增添了“活力”和“亮度”。然而,這些頻率所包含的語音訊息相對較少,只有噝聲,即「zhi」、「chi」和「shi」等字詞開頭的嘶嘶聲。降低6-8kHz左右的噝聲會對語音清晰度產生不利影響。

圖2 此圖顯示了不同年齡層本體正常的男性在單聲道耳機聆聽條件下的聽閾衰減情況。請注意,女性也有類似的圖表,其聽力衰減程度隨年齡增加而略有降低(ISO7029:2017)。

我們大多數人都知道,人類的聽力閾值會隨著年齡的增長而下降,如圖2所示。


值得注意的是,即使是輕度聽力損失(大多數人的聽力損失發生在40至50歲之間)也會對個人生活產生重大影響。例如,患有輕度聽力損失的人在嘈雜的環境中跟不上集體談話可能會遇到困難。此外,他們還可能錯過重要的聽覺提示,例如警告信號或警報。

圖3 中端與高階MEMS麥克風的1/3倍頻程等效雜訊級ENL與典型男性聽力閾值的比較。

| 目前的音訊硬體是否足以滿足未來人工智慧的需求?


既然我們已經對人類如何感知音訊訊號有了更好的了解,那麼讓我們重新審視一下最初的問題,即當前和未來的人工智慧需要什麼樣的音訊輸入質量,才能達到與人類無異的水平。


目前市面上大多數的消費性設備都使用MEMS麥克風錄製音訊訊號。 MEMS麥克風是人工智慧個人助理的主要音訊捕捉技術,使用人工智慧助理技術的設備目前已開始在市場上銷售。


MEMS麥克風的錄音品質取決於其動態範圍 (dynamic range) 。動態範圍的上限由聲學過載點 (AOP) 確定,它定義了麥克風在高聲壓級時的失真性能。麥克風的自噪聲確定了其動態範圍的下限。衡量麥克風自噪音的方法是訊噪比 (SNR),它定義了麥克風的自噪聲音與其捕獲的訊號 (靈敏度) 之間的比率。不過,就我們的討論而言,訊噪比有些不合適,因為訊噪比的自噪聲使用了A計權(A-weighting),而A計權其實是基於人類感知音頻信號的能力來定義的。


如果音訊訊號的預期接收者是人工智慧,則相關的麥克風的等效噪音等級ENL(equivalent noise level)是衡量性能的更合適參數,因為它忽略了錄製聲音的人類感知因素。等效噪音等級ENL指的是沒有外部聲源的情況下麥克風產生的訊號。等效噪音級ENL以分貝(dBSPL)為單位,表示與麥克風自噪音相同電壓的聲壓級。


值得注意的是,無論後期採用何種聲音處理方法,低於等效噪聲級ENL的任何聲音訊息基本上都會遺失,無法恢復。因此,如果音訊鏈路中沒有其他元件在訊號到達人工智慧演算法之前引入噪音,麥克風ENL可以被視為人工智慧演算法的聽覺閾值。應該注意的是,這是一個高度簡化的假設,因為音頻鏈中通常還有許多其他組件,包括聲道、防水保護膜和音訊處理鏈路。


請參考圖3兩種MEMS麥克風等效噪音等級ENL曲線與人類聽力閾值的直觀對比。


紅色線條的是訊噪比為65dB(A)的麥克風的等效噪音級ENL曲線,麥克風整合了防塵設計。對應的MEMS麥克風目前已用於多家供應商生產的多款高端智能手機。


下方的紫色線條表示英飛凌最新高端數位麥克風的等效雜訊級ENL曲線,該麥克風具有創新的防護設計,可實現防塵防水效果。這款麥克風代表了當前的技術水平,今年才在高端平板電腦上發布。我們預計,到今年年底,性能相當的麥克風將出現在高端智能手機上。值得注意的是,將麥克風的自噪音降低5-10dB是一項重大成就,特別是考慮到聲壓是使用對數刻度來表示的。


雖然英飛凌在降低高階MEMS麥克風的自噪音方面取得了顯著進展,但與人耳相比,麥克風在辨別低聲壓級的能力方面仍有很大差距。尤其是2kHz附近,對於確保人類聽眾獲得高水準的聲音清晰度至關重要。年輕人的聽覺能力與英飛凌最先進的麥克風之間的差距超過12dBSPL。與目前高階手機使用的麥克風相比,差距明顯更大,達到17dBSPL。需要再次指出的是,這項評估僅考慮了MEMS麥克風的自噪聲,並未考慮到音訊鏈中會進一步降低整體性能的額外噪音源。


目前MEMS麥克風技術的限制在包含大部分人類語音訊息的頻率範圍(500Hz - 4kHz)內最為明顯。即使是市面上最先進的MEMS麥克風,其聲音理解能力也只能達到60歲老人的等級。根據現有數據,可以合理地預計,使用最新MEMS麥克風技術的人工智慧虛擬助理將出現與老年人類似的聽力障礙,特別是在需要在嘈雜環境中或遠距離跟讀對話的情況下。

總結與展望

人工智慧的快速發展不僅不會減緩,反而會加速MEMS麥克風朝向更高訊噪比發展的趨勢。雖然最新的MEMS麥克風還無法與人耳的音訊品質相媲美,但英飛凌在降低麥克風自噪音方面取得的進展有利於現有和未來的人工智慧。進一步改進音訊鏈路將是增強人工智慧能力的關鍵,例如周圍環境分辨、語境理解、情感意識、說話者識別和多人對話記錄。有了更好的音訊輸入,人工智慧與人類的互動方式將能與人類之間的互動相匹配,甚至不相上下。


此外,人機互動程度的提高將促成新的基於人工智慧的用例和服務。例如,想像未來的微軟Copilot,它不僅能總結團隊會議內容,還能提供對交談氛圍的整體評估。未來的人工智慧輔助功能或許可以基於人類的語音和音頻,突出重點或按照重要性進行排序。此外,還可以添加輔導功能,為使用者提供有用的建議,幫助他們更好地將未來的對話引向所需的方向。


試想一下,人工智慧可以對新的求職者進行第一輪面試,或者僅憑音訊就能識別說話者,其安全等級足以滿足線上購物的需要。


所有這些可能只是未來人工智慧的一小部分,未來人工智慧的聽力能力將達到或超過人類。憑藉我們的增強型MEMS麥克風解決方案,英飛凌很榮幸能夠參與這趟令人興奮的旅程。

半導體元件詢問單
Inquiry Form
如您對本公司產品有任何的問題(產品報價、技術諮詢、產品文件、樣品索取、合作代理…等),都可以透過諮詢表單跟我們聯絡,我們將有專人回覆。
隱私權暨個人資料保護聲明

STEP

01
!

有標示 欄位為必填,請確實填寫謝謝。

諮詢需求
市場應用

↑若無法選擇適當的產業類別,請直接在此欄輸入您的所屬產業

↑請直接在此欄輸入您的所屬市場應用

諮詢商品

↑若無法搜尋到您要諮詢的品牌,請直接在此欄輸入品牌名稱

↑若無法搜尋到您要諮詢的料號,請直接在此欄輸入料號

備註內容

下一步,聯繫資料填寫

STEP

02
!

有標示 欄位為必填,請確實填寫謝謝。

公司名稱
所屬部門
聯絡人
職稱
聯絡電話
電子信箱
聯絡地址
交貨地址
是否為貿易商
驗證碼
訂閱電子報
Subscribe to Newsletter
!

有標示 * 欄位為必填,請確實填寫謝謝。

公司名稱
所屬部門
姓名
職稱
聯絡電話
選擇電子報語系
電子信箱
驗證碼