機(jī)器人能否“說(shuō)人話”?
往往在放下手機(jī)之后你才會(huì)意識(shí)到,電話那頭的客服其實(shí)是個(gè)機(jī)器人;或者準(zhǔn)確地說(shuō),是“一位”智能客服。
沒(méi)錯(cuò),今天越來(lái)越多的工作正在被交給人工智能技術(shù)去完成,文本轉(zhuǎn)語(yǔ)音(TTS,Text To Speech)就是其中非常成熟的一部分。它的發(fā)展,決定了今天我們聽(tīng)到的許多“人聲”,是如此地逼真,以至于和真人發(fā)聲無(wú)異。
除了我們接觸最多的智能客服,智能家居中的語(yǔ)音助手、可以服務(wù)聽(tīng)障人士的無(wú)障礙播報(bào),甚至是新聞播報(bào)和有聲朗讀等服務(wù),事實(shí)上都基于TTS這項(xiàng)技術(shù)。它是人機(jī)對(duì)話的一部分——簡(jiǎn)單地說(shuō),就是讓機(jī)器說(shuō)人話。
它被稱(chēng)為同時(shí)運(yùn)用語(yǔ)言學(xué)和心理學(xué)的杰出之作。不過(guò)在今天,當(dāng)我們稱(chēng)贊它的杰出時(shí),更多的是因?yàn)樗谠诰語(yǔ)音生成中表現(xiàn)出的高效。
要提升語(yǔ)音合成效率當(dāng)然不是一件容易的事。這里的關(guān)鍵是如何讓神經(jīng)聲碼器高效地用于序列到序列聲學(xué)模型,來(lái)提高TTS質(zhì)量。
科學(xué)家已經(jīng)開(kāi)發(fā)出了很多這樣的神經(jīng)網(wǎng)絡(luò)聲碼器,例如WaveNet、Parallel WaveNet、WaveRNN、LPCNet 和 Multiband WaveRNN等,它們各有千秋。
WaveNet聲碼器可以生成高保真音頻,但在計(jì)算上它那巨大的復(fù)雜性,限制了它在實(shí)時(shí)服務(wù)中的部署;
LPCNet聲碼器利用WaveRNN架構(gòu)中語(yǔ)音信號(hào)處理的線性預(yù)測(cè)特性,可在單個(gè)處理器內(nèi)核上生成超實(shí)時(shí)的高質(zhì)量語(yǔ)音;但可惜,這對(duì)在線語(yǔ)音生成任務(wù)而言仍不夠高效。
科學(xué)家們希望TTS能夠在和人的“交流”中,達(dá)到讓人無(wú)感的順暢——不僅是語(yǔ)調(diào)上的熱情、親切,或冷靜;更要“毫無(wú)”延遲。
新的突破出現(xiàn)在騰訊。騰訊 AI Lab(人工智能實(shí)驗(yàn)室)和云小微目前已經(jīng)率先開(kāi)發(fā)出了一款基于WaveRNN多頻帶線性預(yù)測(cè)的全新神經(jīng)聲碼器FeatherWave。經(jīng)過(guò)測(cè)試,這款高效高保真神經(jīng)聲碼器可以幫助用戶顯著提高語(yǔ)音合成效率。
英特爾的工程團(tuán)隊(duì)也參與到了這項(xiàng)開(kāi)發(fā)工作中。他們把面向第三代英特爾至強(qiáng)可擴(kuò)展處理器所做的優(yōu)化進(jìn)行了全面整合,并采用了英特爾深度學(xué)習(xí)加速技術(shù)(英特爾 DL Boost)中全新集成的 16 位 Brain Floating Point (bfloat16) 功能。
bfloat16是一個(gè)精簡(jiǎn)的數(shù)據(jù)格式,與如今的32位浮點(diǎn)數(shù)(FP32)相比,bfloat16只通過(guò)一半的比特?cái)?shù)且僅需對(duì)軟件做出很小程度的修改,就可達(dá)到與FP32同等水平的模型精度;與半浮點(diǎn)精度 (FP16) 相比,它可為深度學(xué)習(xí)工作負(fù)載提供更大的動(dòng)態(tài)范圍;與此同時(shí),它無(wú)需使用校準(zhǔn)數(shù)據(jù)進(jìn)行量化/去量化操作,因此比 INT8 更方便。這些優(yōu)勢(shì)不僅讓它進(jìn)一步提升了模型推理能力,還讓它能為模型訓(xùn)練提供支持。
事實(shí)上,英特爾至強(qiáng)可擴(kuò)展處理器本就是專(zhuān)為運(yùn)行復(fù)雜的人工智能工作負(fù)載而設(shè)計(jì)的。借助英特爾深度學(xué)習(xí)加速技術(shù),英特爾志強(qiáng)可擴(kuò)展處理器將嵌入式 AI 性能提升至新的高度。目前,此種處理器現(xiàn)已支持英特爾高級(jí)矢量擴(kuò)展 512 技術(shù)(英特爾AVX-512 技術(shù))和矢量神經(jīng)網(wǎng)絡(luò)指令 (VNNI)。
在騰訊推出的全新神經(jīng)聲碼器FeatherWave 聲碼器中,就應(yīng)用了這些優(yōu)化技術(shù)。
FeatherWave 聲碼器框圖

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋(píng)果把身家押在Siri上:一場(chǎng)輸不起的自我革命
- 10 共探合作新機(jī)遇!江門(mén)市新會(huì)區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對(duì)接會(huì)成功舉辦