什么是文本摘要?為什么要有注意力機(jī)制?
推理部分
下圖是整個(gè)Encoder-Decode的結(jié)構(gòu)。通過(guò)上面的理解,我覺(jué)得這個(gè)圖非常清晰。
Encoder整個(gè)輸入序列,并且用Encoder最后一個(gè)狀態(tài)結(jié)果來(lái)初始化Decoder。
將[start]作為輸入傳遞給解碼器Decoder。
使用通過(guò)Encoder初始化過(guò)的Decoder運(yùn)行一個(gè)time stpe。
輸出將是下一個(gè)單詞的概率,將選擇概率最大的單詞。
這個(gè)預(yù)測(cè)的單詞將會(huì)在下一時(shí)間Step中作為輸入。并且通過(guò)當(dāng)前狀態(tài)更新內(nèi)部參數(shù)。
重復(fù)步驟3-5,直到生成[end]或達(dá)到目標(biāo)序列的最大長(zhǎng)度。
Encoder-Decoder結(jié)構(gòu)的局限性
Encoder將整個(gè)輸入序列轉(zhuǎn)為固定的長(zhǎng)度,但是當(dāng)序列很長(zhǎng)的時(shí)候,Encoder將會(huì)很難記住整個(gè)序列的內(nèi)容,無(wú)法將所有必要信息準(zhǔn)確的編碼到固定長(zhǎng)度。但是,我們需要關(guān)注序列中所有的內(nèi)容么,不需要。
注意力機(jī)制
為了解決長(zhǎng)句子的問(wèn)題,注意力機(jī)制出現(xiàn)在人們的視野。注意力機(jī)制為對(duì)結(jié)果重要的部分添加高的權(quán)重,以保留主要信息。舉個(gè)例子:
需要編碼的序列[x1,x2,x3,x4,x5,x6,x7] Source sequence: “Which sport do you like the most?
需要解碼的序列[y1,y2,y3] Target sequence: I love cricket. 我們可以判斷,y1[I]與x4[you]有關(guān),而y2[love]則與x5[like]有關(guān)。所以,相比記住序列中的所有單詞,不如增加對(duì)目標(biāo)序列重要部分的權(quán)重,忽視低權(quán)重的部分。
Global Attention and Local Attention
全局注意力機(jī)制 編碼器的隱藏層中,所有部分都參與attention的計(jì)算上下文。
局部注意力機(jī)制 編碼器的隱藏層中,僅有部分參與attention的計(jì)算上下文。
本文最終采用全局注意力機(jī)制。(只是添加了注意力機(jī)制,編碼的固定長(zhǎng)度依然需要固定。所以實(shí)戰(zhàn)中需要通過(guò)數(shù)據(jù)確定一個(gè)合適的長(zhǎng)度數(shù)值。短了無(wú)法表達(dá)文本內(nèi)容,長(zhǎng)了會(huì)造成計(jì)算資源浪費(fèi)。)
實(shí)戰(zhàn)
我們的目標(biāo)是為亞馬遜美食評(píng)論生成文本摘要。(這里我只提取了我覺(jué)得有用的部分)
數(shù)據(jù)表述
這些評(píng)論通常很長(zhǎng)而且具有可描述性。數(shù)據(jù)集下載:kaggleData。 數(shù)據(jù)涵蓋了超過(guò)10年的時(shí)間,包括截至2012年10月的所有?500,000條評(píng)論。這些評(píng)論包括產(chǎn)品,用戶信息,評(píng)級(jí),純文本評(píng)論和摘要。它還包括來(lái)自所有其他亞馬遜類別的評(píng)論。
數(shù)據(jù)處理
由于評(píng)論文本和摘要中涉及的預(yù)處理步驟略有不同,因此我們需要定義兩個(gè)不同的函數(shù)來(lái)預(yù)處理評(píng)論和摘要。
評(píng)論文本處理
將所有字母小寫;
移除HTML標(biāo)簽;
Contraction mapping;
移除(‘s);
刪除括號(hào)內(nèi)的內(nèi)容(覺(jué)得括號(hào)里面的內(nèi)容解釋說(shuō)明不重要);
消除標(biāo)點(diǎn)符號(hào)和特殊字符;
刪除停用詞;
刪除低頻詞;
摘要文本處理
為摘要文本添加[start]和[end]。
數(shù)據(jù)分布
通過(guò)數(shù)據(jù)統(tǒng)計(jì),可以看到摘要與文本數(shù)據(jù)的長(zhǎng)度分布。通過(guò)數(shù)據(jù)可視化,我們可以將評(píng)論文本的長(zhǎng)度限定在80,而摘要的長(zhǎng)度限定在10。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 6 特朗普要求英特爾首位華人 CEO 辭職
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 9 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 10 蘋果把身家押在Siri上:一場(chǎng)輸不起的自我革命