2020 年 10 篇必讀的 NLP 突破論文 LIST
7、全新的 NLP 模型測試方法 “CheckList”
開發(fā)諸如 GLUE(General Language Understanding Evaluation)和 SuperGLUE 之類的基準(zhǔn),可以用來評估經(jīng)過微調(diào)的 NLP 模型執(zhí)行自然語言理解任務(wù)的能力。通常,將 NLP 模型的性能與驗(yàn)證準(zhǔn)確性的結(jié)果進(jìn)行比較。需要注意,使用驗(yàn)證準(zhǔn)確性存在固有的局限性,例如過擬合,驗(yàn)證集的數(shù)據(jù)分布不同等均可能干擾正確的判斷。
而在 ACL 2020 年的 Best Paper 論文 “Beyond Accuracy: Behavioral Testing of NLP Models with CheckList” 中,作者提出了一個框架,一種新的 NLP 模型評測方法:CHECKLIST。CHECKLIST 借鑒了傳統(tǒng)軟件工程的測試準(zhǔn)則,通過模板快速生成大量樣例,全面測試模型的各種能力,可以用于幾乎所有 NLP 任務(wù)。
CHECKLIST 建議使用三種不同的測試方法:
?最小功能測試(MFT, Minimum Functionality Tests),其中使用預(yù)期的金標(biāo)生成示例;
?不變性測試(INV, INVariance Tests),其中從給定的示例中,創(chuàng)建新示例,其中金標(biāo)被翻轉(zhuǎn);
?方向預(yù)期測試(DIR, Directional Expectation Tests)對原始句子進(jìn)行修改,金標(biāo)往期望的方向(正向 / 負(fù)向)變化。
作者建議對于 NLP 模型的每一種能力,都盡量采用這三種測試方法測試一遍。
一句話總結(jié)現(xiàn)實(shí)影響:CheckList 可用于為各種 NLP 任務(wù)創(chuàng)建更詳盡的測試,有助于識別更多的錯誤的,帶來更強(qiáng)大的 NLP 系統(tǒng)。
該論文在 ACL 2020 上獲得了最佳論文獎(Best Paper)。
8、重新評估自動機(jī)器翻譯評估指標(biāo)
自動化指標(biāo)是開發(fā)和評估機(jī)器翻譯系統(tǒng)的基礎(chǔ)。判斷自動化度量標(biāo)準(zhǔn)是否與人類評估的黃金標(biāo)準(zhǔn)相一致,并非易事。
墨爾本大學(xué)計(jì)算與信息系統(tǒng)學(xué)院 的這項(xiàng)研究表明,當(dāng)前的指標(biāo)評估方法對用于評估的翻譯系統(tǒng)非常敏感,尤其是存在異常值時,這通常會導(dǎo)致對評價效果產(chǎn)生錯誤的自信判斷。例如,如果使用大量翻譯系統(tǒng)來計(jì)算領(lǐng)先指標(biāo)和人工評估之間的相關(guān)性,則該相關(guān)性通常很高(即 0.9)。但是,如果僅考慮幾個最佳系統(tǒng),則相關(guān)性會顯著降低,在某些情況下甚至可能為負(fù)相關(guān)。
因此,他們提出了一種在自動度量標(biāo)準(zhǔn)下以人為判斷為閾值提高性能的方法,可以量化所引起的 I 型錯誤與 II 型錯誤,即可以接受的人類評判質(zhì)量差異,以及不能接受的人類評判差異。與 BLEU 和 TER 相比,優(yōu)先考慮 chrF,YiSi-1 和 ESIM 等評估指標(biāo)。
一句話總結(jié)現(xiàn)實(shí)影響:這些發(fā)現(xiàn)對機(jī)器翻譯中的度量評估和系統(tǒng)性能評估的協(xié)議進(jìn)行了改進(jìn)。
這項(xiàng)研究在 ACL 2020 上入圍榮譽(yù)提名論文獎(Honorable Mention Papers)。

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月8日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 4 “支付+”時代,支付即生態(tài) | 2025中國跨境支付十大趨勢
- 5 中國最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 7 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 深圳跑出40億超級隱形冠軍:賣機(jī)器人年入6.1億,港股上市