訂閱
糾錯
加入自媒體

AI學(xué)習(xí)筆記|大語言模型為什么會說謊?

我指的大語言模型的說謊問題,還不是傳統(tǒng)分析式AI的結(jié)果不準確那么簡單。而是它會一本正經(jīng)的瞎編。

當(dāng)你在使用大語言模型試圖完成一個長文本輸出的過程中,會發(fā)現(xiàn)大語言模型在完成創(chuàng)作時所引入的很多案例、數(shù)據(jù),看似合理嚴謹,但其實壓根就不存在,全部都是它自己瞎編。

在本周我與一位同行的交流中,我的這個觀點也得到了印證。

據(jù)她說,如今很多人在被委托寫商業(yè)稿時,為了圖省事已經(jīng)由AI完全代筆來交稿。這類文章自然流暢,所以欺騙性很高,一般人還真的不容易發(fā)覺哪里是錯的,往往都是當(dāng)事企業(yè)的資深親歷者(基本就是甲方負責(zé)人)會提出質(zhì)疑:「我怎么不知道有過這回事?」一篇AI稿,直接把負責(zé)人、媒體、作者都裝進去了。

這就很尷尬了。

同行管這種現(xiàn)象叫「AI幻覺」。典型表現(xiàn)就是:1、數(shù)據(jù)幻覺,根據(jù)邏輯編數(shù)據(jù);2、關(guān)鍵信息編造;3、企業(yè)發(fā)展故事亂編;4、語言表達套話多、模板多。

所以在她的收稿要求里,AI創(chuàng)作已經(jīng)是三令五申的絕對禁止了。

甚至最后,她還說了一句和我在「AI紀」第一期同樣的話:「堅決呼喚真人創(chuàng)作,商業(yè)寫作要有人味!——嗯,這個結(jié)論要算是我本周聽到過最鼓舞人心的一句話了。

但問題是,大語言模型為什么要說謊呢?

 

01 琢磨不透的涌現(xiàn)能力

1950年,計算機之父圖靈在它的論文《計算機器與智能》中提出了一個觀點:「學(xué)習(xí)機器有一個重要的特征,即它的老師往往對機器內(nèi)部運行情況一無所知!

這句話,成了如今的人們對大語言模型所展現(xiàn)出的恐怖「涌現(xiàn)能力」的最佳概括。

人們琢磨不透,為什么訓(xùn)練提供的數(shù)據(jù)(預(yù)訓(xùn)練語言模型)是可控的,所使用的架構(gòu)(transformer架構(gòu))也是可控的,偏偏數(shù)據(jù)在架構(gòu)上跑了一遍之后,所呈現(xiàn)出的結(jié)果與能力就徹底不可控了。

典型的「大語言模型涌現(xiàn)能力」有這么幾種:

上下文學(xué)習(xí):GPT-3首次引入了這種能力,大語言模型不再需要額外的訓(xùn)練或參數(shù)更新,而是可以通過對自然語言指令的上下文理解來執(zhí)行任務(wù);指令遵循:在A任務(wù)上經(jīng)過指令微調(diào)后的大模型,在被要求去執(zhí)行完全不同的、未曾出現(xiàn)過的B任務(wù)時,也能照A任務(wù)畫瓢,且完成得很好。逐步推理:采用「思維鏈」推理策略的大模型,相比小語言模型擁有對某一復(fù)雜問題的逐步解決能力。

這些能力不是單純靠數(shù)據(jù)投喂出來的,也不是序列到序列的transformer架構(gòu)所提供的,大語言模型為什么能做到這些?沒人知道。目前對涌現(xiàn)能力,我們只能表述觀察到的奇特現(xiàn)象,卻完全無法理解它為什么會發(fā)生。

類似的問題還有,涌現(xiàn)是在多大參數(shù)規(guī)模出現(xiàn)的?哪些調(diào)整會影響能力的涌現(xiàn)?會涌現(xiàn)出哪些方向的能力?我們能控制它嗎?……

這些問題統(tǒng)統(tǒng)沒有答案。

因為搞不懂這一切究竟是如何發(fā)生的,所以我們管transformer架構(gòu)下的大語言模型的運行模式,叫「黑盒模式」。

甚至變現(xiàn)優(yōu)秀的大語言模型,還會展現(xiàn)出很好的多模態(tài)能力。比如,當(dāng)有人給GPT-4看了一張由雞塊拼成的類世界地圖的照片時,GPT-4不僅準確理解了圖片所指,它甚至還理解到了圖片背后作者的幽默感。

獨立學(xué)習(xí),甚至能理解人類情感,是不是意味著AI可以有情感了?

它是不是有自我意識了?

我們是不是離AGI更進一步了?

一些人眼里,這畫面有點美。但是在另一些人眼里,這一點都不美。畢竟,開頭我們就說了,它是會故意說謊的。

而LLM之所以會說謊,就是因為這個沒人能解釋的涌現(xiàn)能力。

 

02 為什么會說謊

2018年圖靈獎得主、在深度學(xué)習(xí)領(lǐng)域的三位前沿巨頭之一的、「卷積神經(jīng)網(wǎng)絡(luò)之父」、Yann LeCun(楊立昆),在2023年的一次演講中,為我們簡要描述了大語言模型說謊的底層邏輯。

本質(zhì)上來說,今天所看到的LLM等生成式AI的學(xué)習(xí)能力,與人類、動物的學(xué)習(xí)能力是有差距的。注意,不是差別,而是差距。

上節(jié)提到過,基于指令微調(diào)+transformer架構(gòu),對于如今的AI訓(xùn)練來說,數(shù)據(jù)投喂是第一步,針對數(shù)據(jù)的調(diào)理是第二步,為了讓海量的數(shù)據(jù)得到高效、精準的處理,我們有了transformer架構(gòu),這個架構(gòu)的特點之一,是會捕捉指令中的依賴關(guān)系。

但,當(dāng)捕捉不到所需內(nèi)容時,transformer架構(gòu)會用「預(yù)測」的方式,來補全缺失的部分。且,系統(tǒng)在進行預(yù)測時,并不是預(yù)測所有缺失單詞,而是僅預(yù)測最后一個標記。系統(tǒng)不斷預(yù)測下一個標記(token),然后將標記移入輸入,再預(yù)測下一個標記,再移入,再標記,不斷重復(fù)。

這種預(yù)測方式有一個專門的稱謂,「概率生成」,「token by token」。

當(dāng)不必推理、預(yù)測,每一步都有事實可依時,結(jié)論無疑會精準且自然;但當(dāng)每一步都有缺失、都需要預(yù)測時,它的最終結(jié)論,反而很可能在一個錯誤結(jié)論的基礎(chǔ)上,不斷錯上加錯。

所呈現(xiàn)的效果就是,大語言模型在一本正經(jīng)的胡說八道、在說謊。

按照Yann LeCun的說法,「如果你將這些模型訓(xùn)練在一萬億個 Token 或兩萬億個 Token 的數(shù)據(jù)上,它們的性能是驚人的。但最終,它們會犯很愚蠢的錯誤。它們會犯事實錯誤、邏輯錯誤、不一致性,它們的推理能力有限,會產(chǎn)生有害內(nèi)容!

這個錯誤,無關(guān)乎大語言模型的產(chǎn)品力,而是其運行邏輯所決定的,它只要運行,必然有概率說謊。因為這一切都是基于transformer架構(gòu)下的自回歸、自監(jiān)督、自學(xué)習(xí),所以你甚至都無法得知,它會在哪個部分說謊。

說謊,是transformer架構(gòu)下無法解決的問題。

所以,在很多人將transformer架構(gòu)認為是AGI的實現(xiàn)路徑時,以Yann LeCun為首的一派,對此持否定態(tài)度。

我傾向于此判斷。我們無法把核心問題、關(guān)鍵領(lǐng)域,去放心交給一個會有概率自欺欺人的AI,尤其是你還不知道它到底在哪一節(jié)在說謊。

而倘若核心問題上無法被依仗,它就無法被視作AGI。

所以實現(xiàn)AGI,可能還得繼續(xù)換路線。

除非它不再說謊。

 

03 不說謊的大模型

針對基于transformer架構(gòu)下大模型說謊的問題,Yann LeCun等人的解決辦法是,直接換路線。

他提出的方向,是旨在讓大模型能夠具備人類一樣的學(xué)習(xí)、推理、規(guī)劃能力。

舉例來說,人類在嬰兒時期,會先掌握非常多世界運作方式的基礎(chǔ)概念,比如物體永恒、世界是三維的、有機與無機的區(qū)別、穩(wěn)定的概念、重力的概念,有研究指出,嬰兒在9個月左右就會具備這些能力。

根據(jù)Yann LeCun團隊的研究,如果向 5 個月大的嬰兒展示下面左下角的場景,其中一個小汽車在平臺上,你將小汽車從平臺上推下來,它似乎漂浮在空中,5 個月大嬰兒不會感到驚訝。但是 10 個月大的嬰兒會非常驚訝,因為這個階段的嬰兒已經(jīng)知道了物體不應(yīng)該停留在空中,它們應(yīng)該在重力下下落。

Yann LeCun認為,「我們應(yīng)該用機器復(fù)制這種通過觀察世界或體驗世界學(xué)習(xí)世界運作方式的能力!够诖耍2022年的論文《A Path Towards Autonomous Machine Intelligence》中,提出了「世界模型」(World Model)的概念。

世界模型下,大模型可以想象一個場景,并基于此場景的框定,去預(yù)測行動的結(jié)果。且這種場景框定和現(xiàn)今大模型的角色扮演還不一樣。讓大模型不再是基于數(shù)據(jù)進行概率預(yù)測,而是要讓其能理解現(xiàn)實空間、物理規(guī)律等世界運行的基礎(chǔ)概念。

最關(guān)鍵的,是其推理必須基于現(xiàn)實,而不是黑盒,必須可視、可預(yù)測,而不能無法解釋。從這個角度來講,大語言模型令人驚嘆的涌現(xiàn)能力,反倒可能是LLM誤入歧途?

應(yīng)當(dāng)指出的是,世界模型聽上去很美好,但這是一個很有遠見、同時也是極具難度的事情。一旦完成了從LLM到世界模型的跨越,或許我們在有生之年,就真的要見證AGI了。

同時,相比世界模型這種徹底換路線的方案,也有一些人在嘗試用基于LLM縫縫補補、想辦法讓它不說謊的方法解決問題。

比如最近,我國上海交大趙海教授團隊發(fā)布了首個宏觀模擬人類大腦全局機制的大語言模型,「BriLLM」,它強調(diào)以腦科學(xué)神經(jīng)系統(tǒng)為靈感,用受大腦啟發(fā)的動態(tài)信號傳播,替代自注意力機制,旨在擺脫傳統(tǒng)transformer架構(gòu)的某些限制。

「人類大腦無需擴容就能處理終身記憶,這才是 AGI 該有的樣子!」論文一作趙海教授指出。目前,該項目已入選上海交大「交大2030」計劃2025年度重點項目資助。

而這個BriLLM 模型與世界模型相似之處是,他們都強調(diào)模型中所有節(jié)點都具備100%可解釋性。

而無論最終結(jié)果如何,無論是「BriLLM」還是「世界模型」,他們的觀點似乎都意味著,針對LLM說謊的問題,前沿的解決方案都渴望先擺脫其涌現(xiàn)能力。

 

參考

[1]機器之心Pro.告別Transformer,重塑范式:上海交大首個「類人腦」大模型誕生.今日頭條.2025

[2]凌梓郡、Li Yuan.深度學(xué)習(xí)三巨頭之一 Yann LeCun:大語言模型帶不來 AGI.極客公園.2023

[3]珊瑚.大語言模型火爆的今天,我們?yōu)槭裁催要擁抱世界模型?.腦極體.2025

[4]大語言模型、楊立昆等.百度百科.2025

‍‍

-原創(chuàng)不易 歡迎分享 未經(jīng)授權(quán) 禁止轉(zhuǎn)載-

       原文標題 : AI學(xué)習(xí)筆記|大語言模型為什么會說謊?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號