欧美日韩午夜精品不卡综合-欧美日韩系列-欧美日韩小视频-欧美日韩性-成人五月网-成人五级毛片免费播放

二維碼
企資網

掃一掃關注

當前位置: 首頁 » 企資頭條 » 產業 » 正文

蘋果發布論文,揭示 Siri 的秘密

放大字體  縮小字體 發布日期:2020-02-04 08:07:19    瀏覽次數:59
導讀

原標題:蘋果發布論文,揭示 Siri 的秘密 來源:雷鋒網原標題:蘋果發布論文,揭示 Siri 的秘密蘋果公司的跨平臺 Siri 虛擬助手在全球有著超過 5 億用戶,顯然,語音識別是蘋果感興趣的重要領

原標題:蘋果發布論文,揭示 Siri 的秘密 來源:雷鋒網

原標題:蘋果發布論文,揭示 Siri 的秘密

蘋果公司的跨平臺 Siri 虛擬助手在全球有著超過 5 億用戶,顯然,語音識別是蘋果感興趣的重要領域之一。

上周,蘋果公司發表了一系列預印本研究論文,就如何改進語音觸發檢測和說話人驗證,以及多說話人的語言識別技術進行了研究。

揚聲器驗證和語音觸發檢測

在第一篇論文中,一組蘋果研究人員提出了一個訓練過的人工智能模型,這個模型既能執行自動語音識別任務,也能執行說話人識別任務。

正如他們在摘要中所解釋的,語音助手識別的命令通常以觸發短語(例如,“嘿,Siri”)為前綴,檢測這個觸發短語涉及兩個步驟。

首先,人工智能必須判斷輸入音頻中的語音內容是否與觸發短語的語音內容相匹配(語音觸發檢測);其次,人工智能必須判斷說話者的語音是否與注冊用戶或用戶的語音相匹配(語音驗證)。

通常情況下,這兩項任務都是被獨立考慮的。但有合著者假設,對語音發起者的了解可能有助于推斷出聲音信號中的語音內容,反之亦然,這將有助于對這兩種屬性進行評估。

對此,研究人員設計了三套能夠學習語音和說話人信息的模型,并對一組數據進行訓練,這些數據包含超過 16000 小時的帶注釋的樣本,其中 5000 小時的音頻有語音標簽(其余的為說話人標簽)。

不僅如此,還有超過 100 名受試者使用智能揚聲器設備在一系列聲學設置中為語料庫做出貢獻,包括安靜的房間、來自房間內電視或廚房設備的外部噪音,以及錄音機以大音量播放音樂。

值得一提的是,來自電視、廣播和播客的 2000 小時不包含觸發短語的連續音頻記錄也被添加進來,以此來測量“誤報”率。

這些模型顯示出了學習語音和說話人信息的能力,同時在相同數量的參數下(雷鋒網按,控制訓練過程某些屬性的變量),每個任務的準確性至少與基線模型相同。

事實上,在提出的三種模型中,有一種在“多重”設置下的表現優于說話者驗證基線,在文本無關的任務中相對于基線提高了 7.6%。

研究人員認為,這樣的實驗結果是十分有趣的,因為這些模型是使用不相關的數據集訓練的,也就是說,每個音頻樣本要么有語音標簽,要么有說話人標簽,從來沒有兩者都有。

通過對結果的觀察,研究人員提出了一種靈活的設計,通過連接不同的任務的訓練數據,而不是為每個訓練示例獲取多個標簽,從而在多個相關任務上訓練模型。從實用的角度來看,這樣能夠在兩個任務之間共享計算可以節省設備內存、計算時間或延遲,以及消耗的電量/電池。

錯誤觸發緩解

在研究中,有一項補充研究減少了錯誤觸發的發生,也就是說,語音助手有意地忽略了像 Siri 這樣的語音助手的語音。

研究人員表示,他們使用了圖形神經網絡(GNN),這是一種操作在圖形結構上的人工智能模型,其中每個節點都與一個標簽相關聯,目標是在沒有基礎事實的情況下預測節點的標簽。

在論文中,研究人員寫道:

語音觸發的智能助手通常在開始監聽用戶請求之前就會檢測到一個觸發短語……錯誤的觸發通常來自于背景噪音或聽起來類似于觸發短語的語音。因此,減少誤觸發是構建以隱私為中心的非侵入性智能助手的一個重要方面。

在未來的工作中,該團隊計劃將基于GNN 的處理擴展到其他任務,例如用戶意圖分類。

多語種說話人識別

在另一篇論文中,蘋果研究人員探索了一種針對多語言使用者量身定制的說話人語言識別系統。

他們表示,語音識別系統對大多數語言都有很高的準確性。但是,當有多重語言出現時,這個語言識別系統的表現就不盡如人意了。因此,基于這樣的實施情況,研究人員決定開展說話人語言識別系統的工作。

值得注意的是,《華盛頓郵報》近期委托進行的一項研究顯示,谷歌和亞馬遜生產的受歡迎的智能音箱聽懂本土用戶的語音比聽懂非美式口音的概率高出了 30%。

同時,像 Switchboard 這樣的語料庫也已經被證明對來自國內特定地區的使用者存在可測量的傾斜,這個語料庫還是被 IBM 和微軟等公司用來衡量語音模型錯誤率的數據集。

針對這種情況,合著者將有關使用模式的知識整合到一個聽寫系統中,該系統能夠為來自 60 多個地區的演講者做出決策。

其中,聲學子模型將根據語音信號所傳遞的證據進行預測,而上下文感知預測組件則考慮了各種交互上下文信號,通過這兩方面的預測,來選擇最優的單語自動語音識別系統。

據了解,上下文信號包含了有關發出聽寫請求的條件的信息,包括有關已安裝的聽寫區域、當前選擇的聽寫區域以及用戶在發出請求之前是否切換了聽寫區域的信息。

重要的是,它們有助于在語音信號太短的情況下,依靠聲學模型產生一個可靠的預測。比如說,如果用戶同時安裝了英語和德語,像“naIn ”這樣的短而模糊的語句,在德語中可能是否定的“nein”,在英語中則是數字“nine”。

另外,為了評估該系統,研究人員還開發了一種自定義指標,稱為“平均用戶準確度”(雷鋒網按,AUA,Average User Accuracy),他們認為這種指標能更好地反映模型中的“人口水平”使用模式。

通過對多語言使用者的 128,000 個具有相應交互上下文信息的聽寫話語的內部語料庫進行嚴格訓練,它在所有語言組合中實現了平均 87% 的準確性,同時將最差情況下的準確性相對于基線提高了 60% 以上。

此外,在團隊調整參數以平衡準確性和延遲與在設備上運行模型的計算負載之后,平均延遲從 2 秒減少到 1.2 秒,而對 AUA 的影響不超過 0.05%。

雷鋒網(公眾號:雷鋒網)注:本文編譯自 venturebeat

 
(文/小編)
打賞
免責聲明
本文為小編推薦作品?作者: 小編。歡迎轉載,轉載請注明原文出處:http://www.syqk.com.cn/news/show-69018.html 。本文僅代表作者個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,作者需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2023 - 企資網 48903.COM All Rights Reserved 粵公網安備 44030702000589號

粵ICP備16078936號

微信

關注
微信

微信二維碼

WAP二維碼

客服

聯系
客服

聯系客服:

在線QQ: 303377504

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號: weishitui

客服001 客服002 客服003

工作時間:

周一至周五: 09:00 - 18:00

反饋

用戶
反饋

主站蜘蛛池模板: 日韩高清不卡在线 | 欧美专区一区 | 99精品视频在线观看免费 | 3级黄色 | 国产精品黄在线观看观看 | 国产乱码精品一区二区三区卡 | 高清一区二区在线观看 | 亚洲人成影院在线高清 | 91久久国产露脸精品免费 | 免费一区区三区四区 | 久久精品国产第一区二区 | 日韩国产欧美成人一区二区影院 | 欧美一级二级三级视频 | 久久精品在 | 日韩加勒比在线 | 国产精品视频久久 | 成人免费一级在线播放 | 久久综合亚洲一区二区三区 | 一区二区三区欧美 | 久久草网站 | 麻豆日韩 | 亚洲专区一 | 国产精品黄在线观看观看 | 国产成人午夜片在线观看 | 国产亚洲网站 | 欧洲一级毛片免费 | 亚洲一区二区三区视频 | 青青影院一区二区免费视频 | 91免费看片 | 国产成人高清亚洲一区久久 | 午夜精品尤物福利视频在线 | 日韩国产免费一区二区三区 | 国产精品一区二区资源 | 成年女人看片免费视频频 | 国语自产拍天天在线 | 日本三级香港三级人妇99 | 日本强不卡在线观看 | 玖玖精品在线 | 国内精品一区二区三区最新 | 欧美中文字幕一区二区三区 | 久久久久久久岛国免费观看 |