訂閱
糾錯(cuò)
加入自媒體

AI到頂了?OpenAI首席科學(xué)家否認(rèn),行業(yè)從堆算力轉(zhuǎn)向追求智能密度

人工智能是不是到頂了?“AI進(jìn)展減速論”在過去一年頻繁出現(xiàn)。

Lukasz Kaiser——Transformer 論文共同作者、OpenAI 首席研究科學(xué)家、推理模型核心奠基者之一,近日在《Mad》播客中給出了截然相反的觀點(diǎn)。

他提到,AI發(fā)展不僅沒有放緩,反而仍沿著穩(wěn)定而持續(xù)的指數(shù)級(jí)曲線加速前進(jìn)。外界感受到的“停滯”,其實(shí)源于突破形態(tài)的改變。行業(yè)從一味做“大模型”,轉(zhuǎn)向構(gòu)建更聰明、更能思考的模型。

在他看來,預(yù)訓(xùn)練依然關(guān)鍵,但已不再是唯一引擎。推理模型的出現(xiàn)像是給基礎(chǔ)模型加了一層“第二大腦”,讓它們學(xué)會(huì)推導(dǎo)、驗(yàn)證與自我糾錯(cuò),而不僅是預(yù)測(cè)下一個(gè)詞。這意味著在相同成本下,模型能力躍升更明顯、答案可靠性更高。

但AI的“智能地形圖”仍極不均勻。Lukasz坦言,最強(qiáng)模型能攻克奧數(shù)難題,卻可能在兒童拼圖里數(shù)不清物體;能寫出超越專業(yè)程序員的代碼,卻仍會(huì)誤判一張照片的空間關(guān)系。

同時(shí),新范式也帶來了新的商業(yè)現(xiàn)實(shí)。面對(duì)上億級(jí)用戶,成本效率已壓過算力堆疊,模型蒸餾從“可選項(xiàng)”變?yōu)?ldquo;必需品”。能否讓小模型復(fù)現(xiàn)大模型的智慧,決定了AI能否真正普及。

在這場(chǎng)訪談中,Lukasz不僅否定了“AI減速論”,也描述了一個(gè)更加精細(xì)、聰明、多層推進(jìn)的未來:基礎(chǔ)模型仍在擴(kuò)展、推理層持續(xù)演化、多模態(tài)等待突破,而產(chǎn)品端的效率戰(zhàn)才剛剛開始。

以下是整理后的訪談全文,enjoy~

/ 01 /

AI沒減速,是你沒看懂

主持人:今年以來,一直有觀點(diǎn)認(rèn)為AI發(fā)展正在放緩,預(yù)訓(xùn)練已觸及天花板,擴(kuò)展法則似乎也走到了盡頭。

但就在我們錄制本期節(jié)目時(shí),圈里迎來了一輪密集的重大發(fā)布,GPT-5.1、Codex Max、GPT-5.1 Pro、Gemini Nano Pro以及Grok-4.1等模型幾乎同時(shí)亮相,這似乎打破了“AI停滯”的論調(diào)。而你們這些身處前沿AI實(shí)驗(yàn)室的專家,看到了哪些外界無法捕捉的進(jìn)展信號(hào)?

LukaszAI技術(shù)的進(jìn)步一直是非常平穩(wěn)的指數(shù)級(jí)能力提升,這是總體趨勢(shì)。新技術(shù)層出不窮,進(jìn)步來自于新發(fā)現(xiàn)、算力提升和更好的工程實(shí)現(xiàn)。

語言模型方面,Transformer的出現(xiàn)與推理模型是兩大轉(zhuǎn)折點(diǎn),它的發(fā)展呈S型曲線。預(yù)訓(xùn)練處于S曲線上段,只是擴(kuò)展定律并未失效,損失會(huì)隨算力呈對(duì)數(shù)線性下降,這一點(diǎn)Google和其他實(shí)驗(yàn)室都已經(jīng)驗(yàn)證了。問問題在于,你需要投入多少錢,相對(duì)于收益是否值得。

新的推理范式處于S曲線下部,同樣成本能獲得更多收益,因?yàn)檫有大量發(fā)現(xiàn)待釋放。

從ChatGPT 3.5到當(dāng)下,核心變化在于模型不再僅依賴記憶權(quán)重輸出答案,而是能查網(wǎng)頁、推理分析后給出正確答案。

舉個(gè)例子,舊版對(duì)“動(dòng)物園明天幾點(diǎn)開門”這類問題會(huì)從記憶里瞎編,可能讀到過動(dòng)物園網(wǎng)站五年前寫的時(shí)間,編造過時(shí)信息。新版則能實(shí)時(shí)訪問動(dòng)物園網(wǎng)站并交叉驗(yàn)證。

ChatGPT或Gemini本身就已具備許多未被充分認(rèn)識(shí)的能力。你可以拍損壞的東西問怎么修,它會(huì)告訴你;給它大學(xué)水平的作業(yè),它也能完成。

主持人:我確實(shí)同意這個(gè)說法。目前確實(shí)存在不少顯而易見的改進(jìn)空間,就像“低垂的果實(shí)”,很容易被看到和解決。比如說,模型有時(shí)會(huì)在邏輯上出現(xiàn)前言不搭后語,或者調(diào)用工具時(shí)出錯(cuò),再就是記不住太長的對(duì)話內(nèi)容。這些都是行業(yè)已經(jīng)意識(shí)到,并且正在著力解決的問題。

Lukasz:是的,有大量極其明顯需要改進(jìn)的地方。大部分屬于工程層面問題:實(shí)驗(yàn)室基礎(chǔ)設(shè)施和代碼優(yōu)化。Python代碼通常能運(yùn)行,但效率低下會(huì)影響結(jié)果質(zhì)量;訓(xùn)練方法上,強(qiáng)化學(xué)習(xí)(RL)比預(yù)訓(xùn)練更棘手、更難做好;此外,數(shù)據(jù)質(zhì)量也是瓶頸。

過去我們使用Common Crawl這類互聯(lián)網(wǎng)原始數(shù)據(jù)倉庫,需要投入大量工作對(duì)原始網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行清洗和提煉。如今大公司都設(shè)有專門團(tuán)隊(duì)來提升數(shù)據(jù)質(zhì)量,但真正提取出優(yōu)質(zhì)數(shù)據(jù)仍然非常耗時(shí)費(fèi)力。合成數(shù)據(jù)正在興起,但如何生成、選用什么模型、以及具體的工程實(shí)現(xiàn),每一步的實(shí)現(xiàn)細(xì)節(jié)都非常重要。

另一方面,多模態(tài)能力的發(fā)展也面臨挑戰(zhàn)。目前模型在處理圖像和聲音方面,遠(yuǎn)不如處理文本那樣成熟。雖然改進(jìn)方向很明確,但要取得實(shí)質(zhì)突破,可能需要從頭開始訓(xùn)練新一代基礎(chǔ)模型,這意味著數(shù)月時(shí)間和巨額資源的投入。

我常在想,這些進(jìn)步究竟能讓模型變得多強(qiáng)大?這或許是個(gè)被低估的問題。

/ 02 /

AI學(xué)會(huì)“自我懷疑”,GPT開始提前糾正自己的錯(cuò)誤

主持人:我想再聊聊推理模型,因?yàn)樗_實(shí)太新了。很多人其實(shí)還沒完全搞明白它和基礎(chǔ)模型到底有什么區(qū)別。你能用最通俗的話講講,它倆到底不一樣在哪嗎?

Lukasz:推理模型在給出最終答案前,會(huì)自己先在心里琢磨一番,形成一個(gè)“思考鏈條”,并且還能借助像搜索這樣的外部工具來幫自己理清思路。這樣一來,它就能在思考過程中主動(dòng)查找信息,為你提供更靠譜的答案。這算是它表面上看得到的能力。

它更厲害的地方在于,模型學(xué)習(xí)的重點(diǎn)就是“如何思考”本身,目標(biāo)是找到更優(yōu)的推理路徑。以前的模型主要靠預(yù)測(cè)下一個(gè)詞來訓(xùn)練,但這種方法對(duì)“推理”這件事不太奏效,因?yàn)橥评聿襟E沒法直接用來計(jì)算梯度。

所以,我們現(xiàn)在改用強(qiáng)化學(xué)習(xí)來訓(xùn)練它。這就像是設(shè)定一個(gè)獎(jiǎng)勵(lì)目標(biāo),讓模型自己反復(fù)嘗試,摸索出哪些思考方式更容易得到好結(jié)果。這種訓(xùn)練方式可比以前那種費(fèi)勁多了。

傳統(tǒng)的訓(xùn)練對(duì)數(shù)據(jù)質(zhì)量不那么挑剔,大體上都能運(yùn)行,但強(qiáng)化學(xué)習(xí)就得格外小心,需要精心調(diào)整參數(shù)和準(zhǔn)備數(shù)據(jù)。目前一個(gè)基礎(chǔ)的方法是使用那些能明確判斷對(duì)錯(cuò)的數(shù)據(jù),比如解數(shù)學(xué)題或?qū)懘a,所以它在這些領(lǐng)域表現(xiàn)特別亮眼。在其他領(lǐng)域雖然也有進(jìn)步,但還沒達(dá)到同樣驚艷的程度。

如何在多模態(tài)上做推理?我認(rèn)為這剛開始,Gemini能在推理過程中生成圖像,這很令人興奮,但還非常初級(jí)。

主持人:當(dāng)前存在一種普遍看法:預(yù)訓(xùn)練和后訓(xùn)練是割裂的,后訓(xùn)練幾乎就等于強(qiáng)化學(xué)習(xí)。但事實(shí)上,強(qiáng)化學(xué)習(xí)在預(yù)訓(xùn)練階段就已參與,只是我們過去的理解并未認(rèn)識(shí)到這一點(diǎn)。

Lukasz:在ChatGPT出現(xiàn)之前,預(yù)訓(xùn)練模型已經(jīng)存在,但無法實(shí)現(xiàn)真正對(duì)話。ChatGPT的關(guān)鍵突破在于將RLHF應(yīng)用于預(yù)訓(xùn)練模型。RLHF是一種基于人類偏好的強(qiáng)化學(xué)習(xí),通過讓模型比較不同回答并學(xué)習(xí)人類更傾向的選項(xiàng)來進(jìn)行訓(xùn)練。

然而,RLHF若訓(xùn)練過度,模型可能過度“討好”,導(dǎo)致它的內(nèi)核顯得很脆弱。盡管如此,它仍是實(shí)現(xiàn)對(duì)話能力的核心。

當(dāng)前趨勢(shì)轉(zhuǎn)向更大規(guī)模的強(qiáng)化學(xué)習(xí),雖數(shù)據(jù)規(guī)模仍不及預(yù)訓(xùn)練,但能構(gòu)建具備判斷正確性或偏好的模型。該方法目前適用于可明確評(píng)估的領(lǐng)域,并可結(jié)合人類偏好進(jìn)行更穩(wěn)定的長期訓(xùn)練,避免評(píng)分系統(tǒng)失效。

未來,強(qiáng)化學(xué)習(xí)有望擴(kuò)展到更通用數(shù)據(jù)與更廣泛領(lǐng)域。問題是:做某些事真的需要很多思考嗎?也許需要,也許我們需要比現(xiàn)在更多的思考和推理。

主持人:要提升強(qiáng)化學(xué)習(xí)的泛化能力,是不是關(guān)鍵在于有更好的評(píng)估方式?比如你們之前推出的跨經(jīng)濟(jì)領(lǐng)域評(píng)估,測(cè)試它在不同場(chǎng)景的表現(xiàn),這種系統(tǒng)性的衡量是不是真的必要?

Lukasz:人們?cè)趯懽髑巴ǔ?huì)有所思考,雖然不像解數(shù)學(xué)題那樣嚴(yán)謹(jǐn),但總會(huì)有一個(gè)大致的思路。目前模型難以完全模擬這種過程,不過它們已經(jīng)開始嘗試了。推理能力可以遷移,比如學(xué)會(huì)查閱網(wǎng)頁獲取信息后,這個(gè)策略也能用在其他任務(wù)上。但在視覺思考方面,模型的訓(xùn)練還遠(yuǎn)遠(yuǎn)不夠充分。

主持人:思維鏈具體是怎么運(yùn)作的?模型是怎么決定要生成這些思考步驟的?我們?cè)谄聊簧峡吹降哪切┲虚g推理,是模型真實(shí)的完整思考過程嗎?還是說背后其實(shí)隱藏著更復(fù)雜、更長的推理鏈條?

Lukasz:在ChatGPT里你看到的思維鏈總結(jié),其實(shí)是另一個(gè)模型對(duì)完整思考過程的提煉。原始的思考鏈條通常比較啰嗦。如果僅僅讓模型在預(yù)訓(xùn)練后嘗試逐步思考,它確實(shí)能產(chǎn)生一些推理步驟,但關(guān)鍵不止于此。

我們可以這樣訓(xùn)練:先讓模型嘗試多種思考方式,有些得到正確結(jié)果,有些會(huì)出錯(cuò)。然后我們選出那些導(dǎo)向正確答案的思考路徑,告訴模型“這才是你應(yīng)該學(xué)習(xí)的思考方式”。這就是強(qiáng)化學(xué)習(xí)發(fā)揮的作用。

這種訓(xùn)練真正改變了模型的思考模式,在數(shù)學(xué)和編程領(lǐng)域已經(jīng)看到效果。更大的希望是它能擴(kuò)展到其他領(lǐng)域。甚至在數(shù)學(xué)解題中,模型開始學(xué)會(huì)提前自我糾正錯(cuò)誤,這種自我驗(yàn)證的能力是從強(qiáng)化學(xué)習(xí)中自然涌現(xiàn)的。本質(zhì)上,模型學(xué)會(huì)了質(zhì)疑自己的輸出,覺得可能出錯(cuò)時(shí)就會(huì)重新思考

/ 03 /

預(yù)訓(xùn)練仍是耗電巨獸,RL和視頻模型正瘋狂搶GPU資源

主持人:談?wù)剰腉oogle到OpenAI的轉(zhuǎn)變,以及兩種文化的差異。

Lukasz:Ilya Sutskever 以前在 Google Brain 時(shí)是我的經(jīng)理,后來他離職創(chuàng)立了 OpenAI。那幾年他問過我好幾次要不要加入。之后 Transformer 發(fā)布了,接著又趕上了疫情。Google 完全關(guān)閉,重啟也非常慢。

Google Brain 作為大公司里的小團(tuán)隊(duì),工作氛圍和創(chuàng)業(yè)公司很不一樣。

Ilya 跟我說,OpenAI 雖然還在早期階段,但正在做語言模型,可能和我的方向很契合。我當(dāng)時(shí)想:“好吧,那就試試看。”之前除了 Google 和大學(xué),我沒在別的公司工作過。所以加入一個(gè)小型創(chuàng)業(yè)公司確實(shí)是個(gè)很大的轉(zhuǎn)變。

總的來說,我覺得不同科技實(shí)驗(yàn)室之間的相似之處,比人們想象得要多。它們之間當(dāng)然有差異,但就像從法國大學(xué)的視角來看,大學(xué)和任何一個(gè)科技實(shí)驗(yàn)室的差別,其實(shí)遠(yuǎn)大于實(shí)驗(yàn)室彼此之間的差別。大公司也好,創(chuàng)業(yè)公司也罷,在“必須交付”這一點(diǎn)上更像彼此。

主持人:OpenAI內(nèi)部研究團(tuán)隊(duì)是怎么組織的?

Lukasz:大多數(shù)實(shí)驗(yàn)室都在做類似的工作,比如改進(jìn)多模態(tài)模型、提升推理能力、優(yōu)化預(yù)訓(xùn)練或者基礎(chǔ)設(shè)施。通常會(huì)有專門團(tuán)隊(duì)負(fù)責(zé)這些方向,人員有時(shí)會(huì)流動(dòng),新項(xiàng)目也會(huì)啟動(dòng),比如擴(kuò)散模型。有些探索項(xiàng)目規(guī)模會(huì)擴(kuò)大,像視頻模型就需要更多人手參與。

GPU的分配主要基于技術(shù)需求。目前預(yù)訓(xùn)練消耗的GPU最多,所以資源會(huì)優(yōu)先分配給它。強(qiáng)化學(xué)習(xí)和視頻模型對(duì)GPU的需求也在快速增長。

主持人:未來一兩年預(yù)訓(xùn)練會(huì)怎樣?

Lukasz:我認(rèn)為預(yù)訓(xùn)練在技術(shù)上已經(jīng)進(jìn)入平穩(wěn)發(fā)展期,投入更多算力仍能提升效果,這很有價(jià)值。雖然回報(bào)不如推理技術(shù)顯著,但確實(shí)能增強(qiáng)模型能力,值得持續(xù)投入。

很多人忽略了一個(gè)現(xiàn)實(shí)轉(zhuǎn)變:幾年前OpenAI還只是研究實(shí)驗(yàn)室,所有算力都集中在訓(xùn)練上,可以毫不猶豫地打造GPT-4。但現(xiàn)在情況不同了,ChatGPT擁有十億用戶,每天產(chǎn)生海量對(duì)話需求,需要大量GPU資源支撐。用戶不愿意為每次對(duì)話支付過高費(fèi)用,迫使我們開發(fā)更經(jīng)濟(jì)的小模型。

這個(gè)轉(zhuǎn)變影響了所有實(shí)驗(yàn)室。一旦技術(shù)產(chǎn)品化,就必須考慮成本。現(xiàn)在我們不再只追求最大模型,而是努力用更小更便宜的模型提供同等質(zhì)量。這種降本增效的壓力非,F(xiàn)實(shí)

這也讓蒸餾技術(shù)重新受到重視。通過將大模型的知識(shí)提煉到小模型中,既能保證質(zhì)量又能控制成本。雖然這個(gè)方法很早就有,但直到面臨實(shí)際的經(jīng)濟(jì)壓力,我們才真正認(rèn)識(shí)到它的價(jià)值。

當(dāng)然,訓(xùn)練超大模型仍然重要,因?yàn)樗钦麴s優(yōu)質(zhì)小模型的基礎(chǔ)。隨著行業(yè)對(duì)GPU的持續(xù)投入,預(yù)計(jì)將迎來新一輪的預(yù)訓(xùn)練發(fā)展。但本質(zhì)上,這些變化都是在同一條技術(shù)演進(jìn)路徑上的調(diào)整,取決于不同階段的資源與需求。

最重要的是要看到:預(yù)訓(xùn)練始終有效,而且能與強(qiáng)化學(xué)習(xí)形成互補(bǔ)。在更強(qiáng)大的基礎(chǔ)模型上運(yùn)行推理,效果自然會(huì)更出色。

主持人:現(xiàn)代AI系統(tǒng)的演進(jìn),結(jié)合了實(shí)驗(yàn)室、RL和很多技術(shù)。深度學(xué)習(xí)時(shí)代人們常說自己從微觀層面理解AI,比如矩陣乘法,但不完全理解組合在一起后最終發(fā)生什么。過去幾年在可解釋性方面做了很多工作,特別是對(duì)復(fù)雜系統(tǒng)。模型的行為是越來越清晰了,還是仍有黑盒成分?

Lukasz:我覺得兩方面都有道理。從根本上說,我們對(duì)模型的理解確實(shí)取得了巨大進(jìn)步。像ChatGPT這樣的模型,它和無數(shù)人對(duì)話,知識(shí)來自整個(gè)互聯(lián)網(wǎng),顯然,我們無法完全理解它內(nèi)部發(fā)生的一切,就像沒人能了解整個(gè)互聯(lián)網(wǎng)。

但我們的確有了新發(fā)現(xiàn)。比如OpenAI最近一篇論文表明,如果讓模型的很多連接變得稀疏、不重要,就能更清晰地追蹤它在處理任務(wù)時(shí)的具體活動(dòng)。

所以,如果聚焦在模型內(nèi)部進(jìn)行研究,我們確實(shí)能獲得不少理解,F(xiàn)在已經(jīng)有很多研究在探索模型內(nèi)部的工作機(jī)制,我們對(duì)模型高級(jí)行為的認(rèn)知進(jìn)步很大。不過,這些理解大多來自較小的模型。不是說這些規(guī)律不適用于大模型,但大模型同時(shí)處理太多信息,我們的理解能力終究有限。

/ 04 /

為什么GPT-5能解奧賽題,卻敗給5歲孩子的數(shù)學(xué)題?

主持人:我想聊聊GPT-5.1。從GPT-4到5到5.1,實(shí)際改變了什么?

Lukasz:這個(gè)問題很難。從GPT-4到5,最重要的變化是加入了推理能力和合成數(shù)據(jù),同時(shí)預(yù)訓(xùn)練讓成本大幅下降。到了GPT-5,它已經(jīng)成為十億人使用的產(chǎn)品,團(tuán)隊(duì)在安全與友好度之間不斷調(diào)整,讓模型在面對(duì)各類問題時(shí)反應(yīng)更合理,既不過度敏感也不隨意拒絕;糜X問題雖然還存在,但通過工具驗(yàn)證和訓(xùn)練優(yōu)化,已經(jīng)比之前改善很多。

主持人:GPT-5.1主要是后訓(xùn)練的改進(jìn),比如加入了不同語氣風(fēng)格,從書呆子氣到專業(yè)范兒,這大概是回應(yīng)有些人懷念早期模型那種討好人的特性。加入更多語氣變化屬于后訓(xùn)練范疇。你們是給模型看示例教它回應(yīng)方式,這更像監(jiān)督學(xué)習(xí),還是像強(qiáng)化學(xué)習(xí)那樣用對(duì)錯(cuò)獎(jiǎng)勵(lì)來訓(xùn)練?

Lukasz:我不直接做后訓(xùn)練,這部分確實(shí)有些怪,核心是強(qiáng)化學(xué)習(xí)。比如你會(huì)判斷“這個(gè)回答是否帶有諷刺?是否符合要求?”如果用戶要求諷刺,那模型就該那么回應(yīng)。

主持人:我感覺強(qiáng)化學(xué)習(xí)在模型迭代中占比很大。其他公司發(fā)布模型時(shí)通常與預(yù)訓(xùn)練對(duì)齊,有時(shí)一次預(yù)訓(xùn)練產(chǎn)出多個(gè)模型。以前版本命名常與技術(shù)對(duì)齊,比如o1對(duì)應(yīng)預(yù)訓(xùn)練版本,o3對(duì)應(yīng)強(qiáng)化學(xué)習(xí)版本。大家覺得這種命名很混亂,F(xiàn)在改為按能力命名:GPT-5是基礎(chǔ)能力版,5.1是增強(qiáng)版,也就是更輕量、稍弱但更快更便宜的版本。

Lukasz:推理模型專注于復(fù)雜推理。命名與技術(shù)解綁帶來了靈活性。OpenAI發(fā)展壯大后項(xiàng)目很多,強(qiáng)化學(xué)習(xí)、預(yù)訓(xùn)練,還有網(wǎng)站優(yōu)化等等。模型蒸餾技術(shù)讓我們能整合多個(gè)項(xiàng)目成果,不必等所有項(xiàng)目同時(shí)完成,可以定期集成更新。這對(duì)用戶是好事,不用再苦等耗時(shí)數(shù)月的新預(yù)訓(xùn)練模型。

主持人:用戶能控制模型的思考時(shí)間。那在默認(rèn)情況下,模型自己是怎么決定要思考多久的呢?

Lukasz:模型遇到任務(wù)時(shí)會(huì)自行決定思考多久,但我們可以通過提供額外信息來引導(dǎo)它思考得更深入,F(xiàn)在你確實(shí)能對(duì)它進(jìn)行一定控制了。但更根本的變化在于:推理模型通過消耗更多token進(jìn)行思考,其能力提升的速度遠(yuǎn)超預(yù)訓(xùn)練階段。如果讓GPT-5進(jìn)行長時(shí)間思考,它甚至能解決數(shù)學(xué)和信息學(xué)奧賽的題目,展現(xiàn)出驚人潛力。

不過目前推理訓(xùn)練主要依賴科學(xué)領(lǐng)域數(shù)據(jù),遠(yuǎn)不如預(yù)訓(xùn)練的數(shù)據(jù)廣泛。這導(dǎo)致模型能力很不均衡,某些方面極其出色,相鄰領(lǐng)域卻表現(xiàn)不佳。這種矛盾很常見:比如模型能解奧賽題,卻可能做不出一年級(jí)的數(shù)學(xué)題,而人類只需十秒就能解決。要記。耗P图葟(qiáng)大,也存在明顯短板。

我舉個(gè)值得深思的例子。用Gemini看兩組點(diǎn)判斷奇偶:第一題兩邊各有若干點(diǎn),中間共享一個(gè)點(diǎn),正確答案應(yīng)是奇數(shù)。Gemini 3答對(duì)了。但緊接著出現(xiàn)結(jié)構(gòu)相似的題目,它卻完全忽略了共享點(diǎn),直接判斷為偶數(shù),明明剛見過類似情境。

同樣的題目給GPT-5.1,它解出第一題卻誤判為偶數(shù)。如果換成GPT-5 Pro,它會(huì)花15分鐘運(yùn)行Python代碼來數(shù)點(diǎn),而五歲孩子15秒就能答對(duì)。

主持人:所以模型到底被什么卡住了?

Lukasz:多模態(tài)方面確實(shí)還處在早期。模型能解出第一個(gè)例子說明有進(jìn)步,但它還沒真正掌握如何在多模態(tài)情境下進(jìn)行推理。它雖然能進(jìn)行上下文學(xué)習(xí),卻不太會(huì)借鑒上下文中的推理思路來推進(jìn)下一步。這些都是已知的瓶頸,主要還是訓(xùn)練不足。

但更深層的問題是,即使多模態(tài)能力提升了,模型可能還是做不好像我女兒做的那種數(shù)學(xué)題。這類題不純是視覺問題,模型還沒學(xué)會(huì)在簡單的抽象層面運(yùn)用推理。它看到點(diǎn)陣圖,容易卡在識(shí)別像素模式上,而看不出“兩邊數(shù)量相同但共享一個(gè)點(diǎn),所以總數(shù)是奇數(shù)”這種抽象邏輯。這種從圖像到符號(hào)的抽象推理能力還沒建立起來。

所以這類題目其實(shí)暴露了推理模型的一個(gè)根本局限:它們還沒能把從文本中學(xué)到的思維鏈策略,比如“先算總數(shù)再判奇偶”,自動(dòng)遷移到視覺輸入上。這是多模態(tài)推理要突破的核心難題

另外還有個(gè)細(xì)節(jié):這些題目對(duì)人來說簡單,但模型得先從像素里識(shí)別出“點(diǎn)”和“共享”的概念。如果圖像中點(diǎn)的大小、間距、顏色有變化,模型可能根本認(rèn)不出關(guān)鍵元素。

相比符號(hào)明確的數(shù)學(xué)題,視覺任務(wù)的基礎(chǔ)識(shí)別還不夠穩(wěn)健。因此當(dāng)模型在第二個(gè)例子失敗時(shí),很可能是因?yàn)樗鼪]正確識(shí)別出“共享點(diǎn)”這個(gè)視覺信息。這說明多模態(tài)推理的瓶頸不僅在于邏輯,還在于跨模態(tài)的語義對(duì)齊。

兒童早期數(shù)學(xué)題設(shè)計(jì)得很妙。這些題目看似簡單,卻融合了抽象、類比、計(jì)數(shù)和奇偶判斷等多個(gè)認(rèn)知環(huán)節(jié)。模型可能在某一步,比如識(shí)別點(diǎn)數(shù)正確,卻在判斷奇偶時(shí)出錯(cuò)。我們通過跟蹤模型每一步的置信度發(fā)現(xiàn),它在“識(shí)別共享點(diǎn)”這一步的把握度在第二個(gè)例子中明顯下降,這說明模型對(duì)視覺模式的泛化能力還不穩(wěn)定。這也為我們指明了改進(jìn)方向:需要在訓(xùn)練中增加更多涉及“共享元素”和“集合運(yùn)算”的視覺推理示例。預(yù)計(jì)這個(gè)具體問題在半年內(nèi)應(yīng)該能得到改善。

回到宏觀視角,我們討論的問題,包括多模態(tài)推理,都是可解的工程挑戰(zhàn),不是根本性的理論障礙。核心教訓(xùn)是:推理模型的“鋸齒狀"能力曲線會(huì)在不同領(lǐng)域持續(xù)存在,但鋸齒的深度會(huì)隨著訓(xùn)練和蒸餾逐漸減小。

主持人:這次GPT-5.1版本更新,簡直像發(fā)布了一個(gè)Pro產(chǎn)品。你覺得最主要的新能力是什么?

Lukasz:最關(guān)鍵的是對(duì)話界面變得更自然了,F(xiàn)在系統(tǒng)能根據(jù)你的意圖,自動(dòng)調(diào)節(jié)回答長短,不用再手動(dòng)選短中長回復(fù)。這靠的是后訓(xùn)練中的強(qiáng)化學(xué)習(xí),獎(jiǎng)勵(lì)信號(hào)不再是簡單對(duì)錯(cuò),而是看“用戶滿不滿意”。他們用大量真實(shí)對(duì)話訓(xùn)練獎(jiǎng)勵(lì)模型,去捕捉那些微妙的互動(dòng)指標(biāo)。這樣模型就學(xué)會(huì)在復(fù)雜問題時(shí)多講點(diǎn),簡單問題時(shí)少講點(diǎn)。

這也是RLHF的進(jìn)化,從學(xué)習(xí)人類偏好,到學(xué)習(xí)讓人滿意。模型還能在生成過程中自我評(píng)估信心,如果把握夠高,就提前結(jié)束回答,省下不少算力。不過這些都屬于基礎(chǔ)設(shè)施優(yōu)化,不直接提升核心推理能力。真正的進(jìn)步來自后訓(xùn)練數(shù)據(jù)質(zhì)量的提升,特別是加入了更多“說不知道”和“反問確認(rèn)”的邊緣案例,讓模型變得更謹(jǐn)慎。5.1版本其實(shí)只是他們整體推理研究中的一個(gè)產(chǎn)品化快照。

主持人:o4-mini的推理能力真的更強(qiáng)嗎?還是評(píng)估的問題?

Lukasz:很多人問我o4-mini和o3的區(qū)別,其實(shí)它們不是簡單的升級(jí)關(guān)系,而是不同的設(shè)計(jì)選擇。o3展現(xiàn)了我們?cè)趶?qiáng)化學(xué)習(xí)上追求極致推理能力的成果,而o4-mini更像是一次“精煉的壓縮”,用更少的資源實(shí)現(xiàn)接近的效果。關(guān)鍵差別在于“推理時(shí)用的計(jì)算量”:o3在回答時(shí)投入大量計(jì)算,o4-mini則靠訓(xùn)練時(shí)更充分的優(yōu)化。

在實(shí)際應(yīng)用中,o4-mini因?yàn)榧尤肓烁嗤ㄓ脭?shù)據(jù),比如長對(duì)話和工具使用,所以在多數(shù)日常場(chǎng)景下顯得更“好用”。但遇到真正復(fù)雜的邏輯或數(shù)學(xué)證明,o3依然更強(qiáng)。理想的方式是搭配使用:一般任務(wù)用mini,需要深度推理時(shí)切到Pro。

我們還看到一個(gè)趨勢(shì):“自主研究”正在模糊訓(xùn)練和推理的邊界。模型不僅能回答問題,還能主動(dòng)設(shè)計(jì)實(shí)驗(yàn)、寫代碼、分析結(jié)果,甚至生成自己的訓(xùn)練數(shù)據(jù),這形成了一個(gè)自我提升的循環(huán),也是我們面向2026年的核心方向。

我認(rèn)為,真正的AGI里程碑,是模型能自主發(fā)現(xiàn)新算法,而不只是完成現(xiàn)有任務(wù)。這需要強(qiáng)化學(xué)習(xí)能支持“探索未知”,而不僅限于可驗(yàn)證的任務(wù)。我們內(nèi)部已有實(shí)驗(yàn)讓模型在模擬環(huán)境中做“假設(shè)-實(shí)驗(yàn)”循環(huán),目前能發(fā)現(xiàn)一些簡單數(shù)學(xué)定理,雖然還非常初級(jí)。但也許某個(gè)周一早晨,我們會(huì)突然發(fā)現(xiàn)它在周末自己證出了新定理,那一刻,可能就是AGI的開始。

/ 05 /

GPT-5.2或?qū)⒐タ薃I最大缺陷:學(xué)會(huì)說“我不知道”

主持人:未來6到12個(gè)月,什么最讓你興奮?

Lukasz:最讓我興奮的是多模態(tài)推理正在成熟。當(dāng)AI能同時(shí)理解圖像和語言,就會(huì)真正賦能機(jī)器人和科研這些領(lǐng)域,它不再只是猜測(cè)文字,而是開始在腦子里模擬真實(shí)世界的運(yùn)作邏輯。另一個(gè)好消息是推理成本正在快速下降,未來甚至能跑在手機(jī)上,讓每個(gè)人都能擁有真正的個(gè)人AI助手。

科學(xué)領(lǐng)域可能會(huì)最先被顛覆,就像AlphaFold 3和新材料研發(fā)那樣。語言模型不再只分析數(shù)據(jù),而是能主動(dòng)提出猜想、設(shè)計(jì)實(shí)驗(yàn)、解讀結(jié)果。我猜想,到2026年底,我們可能會(huì)在頂級(jí)期刊上看到第一篇由AI提出核心假設(shè)、人類主要做驗(yàn)證的論文。那會(huì)是個(gè)歷史性時(shí)刻。

當(dāng)然挑戰(zhàn)還很多,關(guān)鍵是讓AI學(xué)會(huì)“意識(shí)到自己不懂什么”,能主動(dòng)提問而不是盲目自信地胡說,這也是目前強(qiáng)化學(xué)習(xí)重點(diǎn)在解決的問題。希望下次我們聊到GPT-5.2版本時(shí),它能在這一點(diǎn)上帶來驚喜。

主持人:你有什么想對(duì)聽眾說的嗎?

Lukasz:AI發(fā)展從未停滯,只是方向在變化。如果你感覺跟不上,別擔(dān)心,沒人能完全跟上。最驚人的應(yīng)用往往來自非技術(shù)用戶,他們會(huì)用我們沒預(yù)料到的方式使用它。

這些問題未來都會(huì)得到改善。更深層的問題在于,多模態(tài)等領(lǐng)域會(huì)進(jìn)步,我們也在持續(xù)尋找典型案例。雖然技術(shù)前沿會(huì)變化、某些環(huán)節(jié)會(huì)更順暢,但關(guān)鍵在于是否會(huì)出現(xiàn)全新的挑戰(zhàn)。比如,如果工具從三個(gè)齒變成四個(gè)齒,人們不需要重新學(xué)習(xí)整個(gè)使用方式。

我對(duì)泛化能力感到興奮,認(rèn)為這是機(jī)器學(xué)習(xí)和智能理解的核心議題。預(yù)訓(xùn)練有所不同,因?yàn)樗饕揽繑U(kuò)大模型和數(shù)據(jù)規(guī)模來積累知識(shí),而非直接增強(qiáng)泛化。但真正的理解應(yīng)該能提升泛化能力。

關(guān)鍵問題是:理解本身是否足以實(shí)現(xiàn)強(qiáng)大泛化?還是需要更簡單的方法?

我認(rèn)為首要任務(wù)是讓理解過程變得更簡單,這正是我熱衷的工作方向。當(dāng)前模型仍存在局限:它們?nèi)狈ξ锢硎澜绲捏w驗(yàn),多模態(tài)能力不足,理解機(jī)制尚不成熟。

當(dāng)這些瓶頸突破后,我們將面臨更根本的問題:是否需要全新的架構(gòu),使得模型無需通過海量數(shù)據(jù)學(xué)習(xí)每一個(gè)細(xì)節(jié),就能自主掌握核心規(guī)律?

這個(gè)問題的最佳探索方式,是先解決所有相關(guān)子問題。就像在濃霧中駕車,你無法預(yù)知障礙物的距離。我們正在快速前進(jìn),在這個(gè)過程中學(xué)到很多。核心挑戰(zhàn)在于實(shí)現(xiàn)小樣本學(xué)習(xí),像孩子那樣舉一反三的能力,這是當(dāng)前最強(qiáng)大的模型也未能達(dá)到的。

在推進(jìn)理論泛化的同時(shí),另一個(gè)關(guān)鍵問題是架構(gòu)創(chuàng)新。除了Transformer,還有許多值得探索的方向。雖然某些小模型在特定測(cè)試中表現(xiàn)優(yōu)異,但整體突破仍需觀察。不同研究團(tuán)隊(duì)正在推動(dòng)基礎(chǔ)科學(xué)進(jìn)展,這些工作可能不常出現(xiàn)在新聞中,但都至關(guān)重要。

計(jì)算資源的發(fā)展同樣關(guān)鍵:更強(qiáng)大的GPU使得運(yùn)行實(shí)驗(yàn)更加可行,促進(jìn)了研究進(jìn)步。然而,設(shè)計(jì)環(huán)節(jié)仍是主要瓶頸。雖然AI編碼助手能幫助實(shí)現(xiàn)想法,但讓模型執(zhí)行需要長期反饋的任務(wù),如長達(dá)一周的實(shí)驗(yàn)流程,仍面臨挑戰(zhàn)。這涉及到記憶管理問題,通過壓縮關(guān)鍵信息來突破上下文限制,但該能力需要專門訓(xùn)練。

另一個(gè)重要方向是模型與外部工具的連接。當(dāng)前模型已能使用網(wǎng)絡(luò)搜索和Python解釋器,但安全地開放系統(tǒng)權(quán)限仍是難題。隨著模型能力擴(kuò)展至數(shù)學(xué)、科學(xué)乃至金融領(lǐng)域,人們自然思考:是否存在一個(gè)通用模型能處理所有任務(wù)?

從產(chǎn)品視角看,我們需要保持技術(shù)的人本價(jià)值。當(dāng)前模型仍需精細(xì)調(diào)優(yōu),但進(jìn)步速度令人鼓舞。以機(jī)器翻譯為例:雖然GPT-4在多數(shù)場(chǎng)景已足夠準(zhǔn)確,但涉及重要文件時(shí),人們?nèi)詢A向于人工翻譯,這本質(zhì)是信任問題。某些工作將繼續(xù)由人類完成,但這不意味著社會(huì)整體效率不會(huì)提升。

在前沿研究方向上,我特別關(guān)注統(tǒng)一跨領(lǐng)域?qū)W習(xí)的能力。機(jī)器人技術(shù)將是多模態(tài)能力的重要試金石。當(dāng)模型真正理解物理世界時(shí),家庭機(jī)器人可能帶來比聊天機(jī)器人更顯著的社會(huì)影響。

這些突破將深刻改變我們的世界認(rèn)知。雖然實(shí)現(xiàn)路徑充滿挑戰(zhàn),但我相信我們正在朝著這個(gè)方向穩(wěn)步前進(jìn)。

文/林白

       原文標(biāo)題 : AI到頂了?OpenAI首席科學(xué)家否認(rèn),行業(yè)從堆算力轉(zhuǎn)向追求智能密度

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)