99久久老熟妇仑乱一区二区三区,亚洲日本一线产区二线区,毛片在线播放a

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

卡內(nèi)基梅隆大學(xué)開發(fā)AI屆的“歐亨利”，能斬獲普利策獎嗎？

2019-07-25 09:09

來源：獵云網(wǎng)

高級的自然語言處理系統(tǒng)，比如OpenAI的GPT－2，可以寫出人性化的語言，這一點令人印象深刻。然而，這樣的人工智能的語言往往缺乏說服力和連貫性。其最顯著的特點就是他們難以寫出令人信服的作品——人工智能生成的故事往往是通用的，缺乏上下文。

為解決這一問題，卡內(nèi)基梅隆大學(xué)計算機科學(xué)學(xué)院的科學(xué)家們設(shè)計出一種方法，即為一個給定的故事創(chuàng)造更多“多樣化”的結(jié)尾。他們表示，研究的關(guān)鍵是訓(xùn)練人工模型把注意力集中在故事的重要短語上，促進非通用詞的生成。

“故事情境由連接人物和事件的一系列句子構(gòu)成。這項任務(wù)具有挑戰(zhàn)性，因為它需要對上下文中的角色，事件和對象進行建模，然后根據(jù)它們生成連貫且合理的結(jié)尾。概括事件和實體的語義以及它們在不同故事中的關(guān)系是一項非常重要的任務(wù)，”合著者寫道，“我們的研究表明，兩者的結(jié)合會帶來更多樣、更有趣的結(jié)局�！�

團隊利用seq2seq模型（一種長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)，能夠?qū)W習(xí)依賴關(guān)系），并創(chuàng)建符合目標(biāo)故事情境的文字的數(shù)學(xué)表示，學(xué)習(xí)這些文字之間的關(guān)系，將他們轉(zhuǎn)化為人類可讀的文本。為了整合故事上下文中的關(guān)鍵短語，研究人員使用了一種名為RAKE的算法，該算法根據(jù)單詞的出現(xiàn)頻率和共現(xiàn)度為短語分配分?jǐn)?shù)，然后根據(jù)相應(yīng)的分?jǐn)?shù)對短語進行手動排序，并將低于一定閾值的短語丟棄。

為了使模型能夠生成更豐富的結(jié)尾，科學(xué)家們通過ROCStories數(shù)據(jù)集升級了他們的模型，該數(shù)據(jù)集包含超過50，000個五句話的故事。為了評估該模型，他們使用DIST算法計算得出不重復(fù)的一元模型（來自給定文本或語音樣本的n個項目的連續(xù)序列）、二元模型（一對連續(xù)寫單位如字母、音節(jié)，或文字）和三元模型（三個連續(xù)寫單位）的數(shù)量，并將它們與一元、二元和三元模型的總數(shù)量相除。

在另一項測試中，他們訓(xùn)練谷歌的BERT完成開源故事填空任務(wù)，讓BERT在給定兩個選項的情況下選擇正確的故事結(jié)尾，從而將模型與基線進行比較。

那么人工智能的表現(xiàn)如何呢？顯然想拿到普利策獎是不可能了。雖然它在DIST測試中名列前茅，且故事完形填空的正確率達到了72％，但它偶爾也會給出一些荒謬的結(jié)尾，比如“凱蒂被自己搞得崩潰了，甩了男友”，或者不正確的代詞（“凱蒂”、“他自己”）。

研究人員承認(rèn)，需要進一步的研究來確保輸出“語義和象征層面上的上下文”，并且它們在邏輯上是合理和一致的。盡管如此，他們聲稱他們已經(jīng)“定量地”和“定性地”表明他們的模型能夠超越基線，實現(xiàn)“有意義的”改進。