伯克利提出超輕量級聲碼器SqueezeWave: Mini身材, Maxi速率
自動語音合成對于眾多智能應(yīng)用十分重要,其中聲學(xué)特征轉(zhuǎn)換為音頻輸出的聲碼器在語音合成過程中具有十分重要的作用。雖然WaveGlow可以實(shí)現(xiàn)并行化的語音合成,但其龐大的計(jì)算量使得本地和邊緣設(shè)備無法承受,基于云計(jì)算的語音合成使得網(wǎng)絡(luò)延時和用戶隱私問題無法有效解決。
為了解決語音合成中計(jì)算效率的問題,來自加州大學(xué)伯克利分校的研究人員提出了一種超輕量級的聲碼器模型SqueezeWave,通過對WaveGlow的結(jié)構(gòu)和計(jì)算方法進(jìn)行優(yōu)化大幅提升了模型計(jì)算效率,相較于WaveGlow減小了61-214倍的計(jì)算量,在眾多邊緣設(shè)備上——甚至是樹莓派上——都能有效部署實(shí)現(xiàn)高效的實(shí)時語音合成。
一、TTS從云端向邊緣
從車載地圖應(yīng)用到語音助手,眾多設(shè)備都開始采用了豐富的語音交互技術(shù)來處理各種任務(wù)。但想要得到高質(zhì)量的文本到語音轉(zhuǎn)換,需要復(fù)雜的機(jī)器學(xué)習(xí)模型和龐大的云計(jì)算資源支撐。但隨著硬件的發(fā)展,邊緣設(shè)備的計(jì)算能力大幅提升使得語音合成模型在本地運(yùn)行成為可能。其次消費(fèi)者對于隱私的擔(dān)憂與日俱增,在移動端運(yùn)行機(jī)器學(xué)習(xí)模型消除用戶數(shù)據(jù)向云端泄漏的威脅。此外隨著消費(fèi)者對于語音助手的依賴逐漸加深,對于用戶體驗(yàn)的關(guān)注也逐漸增加。為了提供低延時的語音服務(wù),降低網(wǎng)絡(luò)連接質(zhì)量帶來的影響,本地運(yùn)行的語音合成模型比云端模型更有優(yōu)勢。
典型的現(xiàn)代語音合成模型主要包含兩個部分:合成器和聲碼器。其中合成器用于從文字輸入生成聲學(xué)特征,而后利用聲碼器從聲學(xué)特征生成波形輸出,F(xiàn)存的高質(zhì)量語音合成器都需要消耗十分可觀的計(jì)算資源,SqueezeWave的主要目的在于提升合成器的效率。例如WaveNet及其變體基于自回歸的方法,意味著每一個生成的樣本都依賴于先前的樣本,這種串行的處理方式阻礙了硬件的并行加速;而基于流的WaveGlow可以在每一次前傳中生成許多樣本,雖然這一方法具有并行優(yōu)勢但卻需要消耗十分巨大的計(jì)算量。例如生成1s22kHz的語音需要消耗229G MACs的計(jì)算量,遠(yuǎn)遠(yuǎn)超過了移動端處理器所能承受的范圍。盡管WaveFlow可以在最新的V100顯卡上達(dá)到超過實(shí)時的性能,但卻不適合在邊緣設(shè)備部署。
在這篇論文中研究人員提出了一種輕量級的基于流的聲碼器SqueezeWave用于邊緣設(shè)備的語音合成。研究人員重新設(shè)計(jì)了WaveGlow的架構(gòu),通過重整音頻張量、采用深度可分離卷積以及相關(guān)優(yōu)化使其比WaveGlow少消耗61-214倍的計(jì)算量,可在筆記本端實(shí)現(xiàn)每秒123-303K樣本的生成,在樹莓派上3B+上也能實(shí)現(xiàn)15.6K的實(shí)時水平。
二、重新審視WaveGlow的計(jì)算復(fù)雜度
與直接進(jìn)行卷積操作不同,WaveGlow首先將鄰近的樣本聚類構(gòu)建多通道的輸入,其中L為時域維度的長度,Cg為每個時間步上的聚類組合的樣本數(shù)量。波形中的樣本總數(shù)量為.波形隨后被一系列雙邊映射進(jìn)行轉(zhuǎn)換,其中每一個都會利用的輸入得到輸出。在每個雙邊映射中,輸入信號首先被可逆的逐點(diǎn)卷積處理,而后將結(jié)果沿通道拆分為和。其中被用于計(jì)算仿射耦合系數(shù)。其中將被應(yīng)用于的后續(xù)計(jì)算。而則為類似wavenet的函數(shù),為編碼音頻的梅爾譜Lm為梅爾譜的時間長度,Cm為頻率分量的數(shù)目。隨后仿射變換層將通過下式計(jì)算:其中代表逐元素相乘。最終將在通道方向上組合得到最后的輸出。
WaveGlow最主要的計(jì)算量來自于WN函數(shù),其計(jì)算流程如上圖所示。輸入首先通過逐點(diǎn)卷積進(jìn)行處理(圖中start),卷積使得的通道數(shù)從增加到非常大的數(shù)目,在WaveGlow中start的輸出維度為256維。隨后核為3的一維膨脹卷積將繼續(xù)對上述結(jié)果進(jìn)行處理(圖中in_layer所示)同時梅爾譜也被饋入到網(wǎng)絡(luò)中。由于梅爾譜的時域長度遠(yuǎn)小于波形長度,所以需要對其進(jìn)行上采樣來進(jìn)行維度匹配。
而后in_layer和cond_layer輸出按照WaveNet的方式通過門函數(shù)進(jìn)行合并,隨后傳輸?shù)絩es_skip_layer。其輸出長度為L=2000,通道數(shù)為512.隨后將按照通道拆分為兩部分。這一結(jié)構(gòu)將重復(fù)八次,并在最后的res_skip_layer輸出與end進(jìn)行逐點(diǎn)卷積,計(jì)算出轉(zhuǎn)換因子
并將通道從512壓縮到8。在WaveGlow的源碼中,每秒的計(jì)算量為229G MACs,其中in_layer占據(jù)了47%,cond_layer占據(jù)了39%, res_skip_layer則為14%。這對這樣的情況,研究人員將對原始的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)以減少計(jì)算量提高計(jì)算效率。

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
精彩回顧立即查看>> 【在線研討會】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 【在線會議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
-
精彩回顧立即查看>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 傳魏建軍與賈躍亭合作,長城汽車出海美國
- 2 黃仁勛:與雷軍長期合作,共探AI智駕
- 3 阿里首位程序員,“掃地僧”多隆已離職
- 4 DeepSeek R2加持,中國AI與芯片產(chǎn)業(yè)迎來新一輪協(xié)同進(jìn)化
- 5 六大國產(chǎn)大模型,誰是最強(qiáng)“金融分析師”?|錦緞評測
- 6 2025年第一支10倍股,來了!
- 7 募資39.85億元!寒武紀(jì)押注大模型芯片與軟件平臺
- 8 國內(nèi)免費(fèi)版Deep Research上線,秘塔AI深度研究嘗試重塑知識工作范式
- 9 清庫存?曝英偉達(dá)H20供應(yīng)有限,且沒有復(fù)產(chǎn)計(jì)劃
- 10 具身智能機(jī)器人量產(chǎn)前夜,標(biāo)準(zhǔn)機(jī)腦正在成型