AI同傳PK人類(lèi)同傳,這或許是兩個(gè)職業(yè)
圖片來(lái)自“123rf.com.cn”
人工智能又又又摔了個(gè)跟頭。
今年的博鰲亞洲論壇上,第一次出現(xiàn)了AI同傳。值得注意的是,這是博鰲論壇創(chuàng)辦17年首次采用人工智能同傳技術(shù)。然而,在如此重要的場(chǎng)合,現(xiàn)場(chǎng)配備的騰訊AI同傳卻掉了鏈子。詞匯翻譯不準(zhǔn)確、重復(fù)、短語(yǔ)誤用等“烏龍”引來(lái)各方“嘲笑”。
人們總是把AI跟人類(lèi)職位對(duì)立起來(lái),各種“取代論”層出不窮。博鰲論壇會(huì)議前,就出現(xiàn)了許許多多的“取代論新聞”引起了各界關(guān)注。最終,AI同傳“翻車(chē)”,引來(lái)外界一片唏噓。
然而,就目前來(lái)看,AI同傳前路未明,太早將其與人類(lèi)同傳對(duì)立起來(lái)實(shí)在是“杞人憂天”。除了取代,AI同傳其實(shí)有更好的路。
圖為AI同傳內(nèi)容
AI同傳進(jìn)階之路:變智能問(wèn)題為數(shù)據(jù)問(wèn)題
很多人都覺(jué)得人工智能如果要處理自然語(yǔ)言,就必須理解自然語(yǔ)言。實(shí)質(zhì)上,AI翻譯靠的是數(shù)字,更準(zhǔn)確地來(lái)說(shuō),是統(tǒng)計(jì)。AI同傳出錯(cuò),并不是“智能”不夠,實(shí)質(zhì)上,是數(shù)據(jù)和模型出了問(wèn)題。
AI同傳還需要理解力
首先,AI同傳要去理解場(chǎng)景。在博鰲論壇上,會(huì)議現(xiàn)場(chǎng)專(zhuān)業(yè)度高、覆蓋度廣,AI對(duì)特殊場(chǎng)景的理解還不夠。場(chǎng)景對(duì)于語(yǔ)義具有至關(guān)重要的影響,相同的一句話在不同的場(chǎng)景里有不同的意思。舉個(gè)例子,“好”這個(gè)字在百度漢語(yǔ)顯示有多種語(yǔ)義,既可以表示稱(chēng)贊,也可以表示狀態(tài),還可以表達(dá)問(wèn)好……諸如此類(lèi),語(yǔ)義的表達(dá)和理解都要結(jié)合具體的場(chǎng)景。在具體的句子中,這種語(yǔ)義與情景的結(jié)合就更為緊密,更需要機(jī)器理解學(xué)習(xí)。
其次,AI要理解口語(yǔ)的模糊邏輯。口語(yǔ)翻譯是不會(huì)百分百傳譯的,根據(jù)AIIC(國(guó)際會(huì)議口譯員協(xié)會(huì))的規(guī)定,同傳譯員只要翻譯出演講者內(nèi)容的80%就已經(jīng)算是合格了(90%~100%的“同傳”幾乎是不可能的)。這意味著AI工作量減少嗎?當(dāng)然不,正是這種模糊的東西使得AI同傳更加困難,除此之外,口語(yǔ)沒(méi)有標(biāo)點(diǎn)符號(hào)來(lái)標(biāo)志句子,缺少了必要的聲調(diào)和停頓,就很容易造成句子的歧義。而模糊的指令極有可能出現(xiàn)的是滿屏的錯(cuò)碼。
隱馬爾可夫模型(HMM)解決統(tǒng)計(jì)數(shù)據(jù)之外的語(yǔ)言問(wèn)題
然而,在參考騰訊AI同傳的失誤后,我們發(fā)現(xiàn),僅僅增加數(shù)據(jù)量還是不夠的,在現(xiàn)實(shí)生活中,我們也會(huì)遇到零概率或者統(tǒng)計(jì)量不足的問(wèn)題。
比如一個(gè)漢語(yǔ)的語(yǔ)言模型,就足足達(dá)到20萬(wàn)這個(gè)量級(jí)。曾有人做過(guò)這樣一個(gè)假設(shè),如果刨掉互聯(lián)網(wǎng)上的垃圾數(shù)據(jù),互聯(lián)網(wǎng)中將會(huì)有100億個(gè)有意義的中文網(wǎng)頁(yè),這還是相當(dāng)高估的一個(gè)數(shù)據(jù),每個(gè)網(wǎng)頁(yè)平均1000詞,那么,即使將互聯(lián)網(wǎng)上上所有中文內(nèi)容用作訓(xùn)練,依然只有1013。
為了解決數(shù)據(jù)量的問(wèn)題,我們提出了隱馬爾可夫模型(HMM)。實(shí)際應(yīng)用中,我們可以把HMM看作一個(gè)黑箱子,這個(gè)黑箱子可以利用比較簡(jiǎn)潔的數(shù)據(jù),處理后得出:
1.每個(gè)時(shí)刻對(duì)應(yīng)的狀態(tài)序列;
2.混合分布的均值和方差矩陣;
3.混合分布的權(quán)重矩陣;
4.狀態(tài)間轉(zhuǎn)移概率矩陣。
看起來(lái)可能比較復(fù)雜,簡(jiǎn)單點(diǎn)說(shuō),這個(gè)模型可以通過(guò)可觀察的數(shù)據(jù)而發(fā)現(xiàn)這個(gè)數(shù)據(jù)域外的狀態(tài),即隱含狀態(tài)。也就是說(shuō),我們可以憑借一句話,來(lái)探索出這句話后的隱含的意思,從而解決一些微妙的語(yǔ)義問(wèn)題。
如上圖所示,這個(gè)模型能夠通過(guò)你提供的可以明顯觀察的句子,推斷出一個(gè)人隱含的心情狀態(tài)(開(kāi)心OR難過(guò)),并得到最后的行為判斷(宅、購(gòu)物、社交),即通過(guò)已知推斷出未知。
而如何優(yōu)化這個(gè)模型,得到最優(yōu)隱含狀態(tài)?人們提出了許多解決問(wèn)題的算法,包括前向算法、Viterbi算法和Baum-Welch算法。此中奧妙,難以盡述。但不能否認(rèn)的是,在深度學(xué)習(xí)的基礎(chǔ)上,數(shù)據(jù)+模型就能很好地打造出一款A(yù)I同傳翻譯,數(shù)據(jù)越大,神經(jīng)網(wǎng)絡(luò)更好。即使翻譯結(jié)果不盡如人意,但只要建設(shè)足夠大的數(shù)據(jù)庫(kù),建立更好的模型,打磨算法,AI同傳很快就會(huì)有更大的提升。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋(píng)果把身家押在Siri上:一場(chǎng)輸不起的自我革命
- 10 共探合作新機(jī)遇!江門(mén)市新會(huì)區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對(duì)接會(huì)成功舉辦