刷新中文命名實(shí)體識(shí)別SOTA,華為云論文入選國(guó)際頂會(huì)NAACL 2022
4月7日,自然語(yǔ)言處理領(lǐng)域國(guó)際頂級(jí)學(xué)術(shù)會(huì)議NAACL 2022(The North American Chapter of the Association for Computational Linguistics)公布論文入選名單,由華為云語(yǔ)音語(yǔ)義創(chuàng)新Lab多名研究者撰寫(xiě)的信息抽取論文《Delving Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition》被NAACL 2022 Findings接收,這代表著中文命名實(shí)體識(shí)別的最優(yōu)結(jié)果 (SOTA) 被進(jìn)一步刷新,更準(zhǔn)確有效的實(shí)體識(shí)別將推動(dòng)下游自然語(yǔ)言處理任務(wù)的進(jìn)一步發(fā)展。
NAACL由國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(ACL)主辦,與ACL、EMNLP并稱NLP領(lǐng)域的三大頂會(huì),是人工智能的重要研究陣地。NAACL的錄用十分嚴(yán)格,根據(jù)往年評(píng)選結(jié)果,只有不到30%的論文被接收。
作為自然語(yǔ)言處理中最經(jīng)典、最基礎(chǔ)的任務(wù),命名實(shí)體識(shí)別一直受到廣泛的關(guān)注與研究。近年來(lái),中文命名實(shí)體識(shí)別任務(wù)上取得了明顯進(jìn)展,很多新的方法和框架被陸續(xù)提出,但往往忽略了實(shí)體詞的內(nèi)部組成。
對(duì)于中文命名實(shí)體而言,很多類別的實(shí)體都具有很強(qiáng)的命名規(guī)律性。比如說(shuō),以“公司”或者“銀行”結(jié)尾的實(shí)體詞,通常屬于組織機(jī)構(gòu)這一實(shí)體類別。因此,在《Delving Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition》中,華為云語(yǔ)音語(yǔ)義創(chuàng)新Lab的研究者提出用簡(jiǎn)單有效、規(guī)律性引導(dǎo)的識(shí)別網(wǎng)絡(luò)來(lái)探究中文實(shí)體詞中的規(guī)律性。
圖1 規(guī)律性引導(dǎo)的識(shí)別網(wǎng)絡(luò)
如圖1,華為云研究者首先利用注意力機(jī)制顯著地提取每個(gè)文本段的規(guī)律性,進(jìn)而將這種表征文本內(nèi)部的規(guī)律性的特征和通過(guò)Biaffine Attention提取的文本段特征結(jié)合起來(lái),進(jìn)行后續(xù)的實(shí)體識(shí)別。為了避免由于過(guò)度關(guān)注實(shí)體內(nèi)部規(guī)律性導(dǎo)致的實(shí)體邊界識(shí)別偏差,研究者們另外設(shè)計(jì)了一個(gè)與規(guī)則無(wú)關(guān)的模塊來(lái)幫助模型更準(zhǔn)確地識(shí)別實(shí)體的邊界。
圖2 中文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
華為云研究者提出的規(guī)律性引導(dǎo)的識(shí)別網(wǎng)絡(luò),如圖2,在MSRA, Ontonotes4.0, 和Ontonotes5.0三個(gè)大規(guī)模中文實(shí)體識(shí)別數(shù)據(jù)集上都取得了SOTA的結(jié)果。同時(shí),本文提出的方法不依賴于外部詞典信息,并且F1值超過(guò)了目前所有使用詞典信息的方法的結(jié)果。這充分說(shuō)明通過(guò)研究實(shí)體詞的內(nèi)部規(guī)律性,研究者們提出了一個(gè)非常有效的網(wǎng)絡(luò)結(jié)構(gòu)。
不止在信息抽取方面,華為云語(yǔ)音語(yǔ)義創(chuàng)新Lab秉承開(kāi)放創(chuàng)新、勇于探索、持續(xù)突破關(guān)鍵技術(shù)的精神,面向行業(yè)客戶提供領(lǐng)先的語(yǔ)音語(yǔ)義AI能力,結(jié)合大量行業(yè)知識(shí),推出知識(shí)計(jì)算等行業(yè)解決方案,打造業(yè)界一流的知識(shí)計(jì)算競(jìng)爭(zhēng)力。截至目前,已在政務(wù)、金融、石油等多個(gè)行業(yè)進(jìn)行了落地和實(shí)踐,幫助客戶實(shí)現(xiàn)AI落地與智能升級(jí)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋(píng)果把身家押在Siri上:一場(chǎng)輸不起的自我革命
- 10 共探合作新機(jī)遇!江門市新會(huì)區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對(duì)接會(huì)成功舉辦