隨著智能設(shè)備的興起,如手機語音助手、智能揚聲器、車載語音助手和陪伴機器人,語音交互技術(shù)正惠及我們生活的越來越多的方面。人工智能和機器學(xué)習(xí)也為家庭生活提供了更多的可能性。在可預(yù)見的未來,人們將逐漸習(xí)慣于解放他們的雙手,并且可以通過一些語音命令遠(yuǎn)程控制揚聲器、電視、空調(diào)和其他設(shè)備。近年來,許多公司開始規(guī)劃與智能家居相關(guān)的業(yè)務(wù),這極大地促進了家庭場景中語音識別技術(shù)的研究。相關(guān)領(lǐng)域的一些比賽也吸引了越來越多的關(guān)注。近日,北京致遠(yuǎn)人工智能研究所和艾數(shù)字智慧聯(lián)合舉辦了首屆“致遠(yuǎn)-魔法科技網(wǎng)中文語音數(shù)據(jù)集挑戰(zhàn)賽”。本次比賽由biendata人工智能競賽平臺主辦。致遠(yuǎn)-Magicspeechnet家庭場景中文語音數(shù)據(jù)集挑戰(zhàn)賽的原創(chuàng)設(shè)計源于智能家居中的語音交互場景。由于噪聲、混響、多說話人混疊等復(fù)雜因素的影響,這種場景下的語音識別一直是識別領(lǐng)域的一大難點,也是語音識別技術(shù)產(chǎn)品化過程中亟待解決的問題。多虧了kaldi、espnet、OpenTransformer和其他開源工具,對語音識別領(lǐng)域不熟悉的學(xué)生可以找到解決這場競爭的辦法。然而,如果我們想在數(shù)據(jù)處理、系統(tǒng)框架選擇、模型選擇和優(yōu)化方面找到更好的解決方案,即使是在這一領(lǐng)域有一定經(jīng)驗的研究人員和工程師也需要花費一些時間和精力。本次比賽使用的“致遠(yuǎn)MagicSpeechNet家庭場景中文語音數(shù)據(jù)集”是由艾數(shù)碼智慧提供的,其中包括兩個人在真實環(huán)境中的數(shù)十次對話,每次對話都是基于不同的平臺進行錄制的,比如不同的手機和錄音機。這些數(shù)據(jù)模擬了真實的家庭對話場景,說話者以一種輕松、無腳本的方式圍繞選定的話題自由交談。因此,語音中會存在一些非平穩(wěn)噪聲和多說話人混疊。為了確保豐富而均衡的聲音特征,錄制該數(shù)據(jù)集的揚聲器來自中國大陸的不同地區(qū),同時保持揚聲器年齡和性別的平衡。參與者需要利用比賽提供的數(shù)據(jù)對模型進行訓(xùn)練和優(yōu)化,從而提高模型在家庭場景中的語音識別準(zhǔn)確率。家庭場景中的語音識別會受到復(fù)雜環(huán)境因素的影響:語音中可能存在多種噪聲干擾,如電視聲、音樂聲、水流聲等;遠(yuǎn)場空間混響的影響;當(dāng)有許多家庭成員時,多說話人的影響會使聲音走樣;用戶個性化差異的影響,其中比較明顯的問題是口音或廣場
電商動態(tài)
致遠(yuǎn)魔術(shù)家庭場景中文語音數(shù)據(jù)集挑戰(zhàn)
瀏覽:280 時間:2022-12-4