在线播出高潮内射片免费,久久婷婷好好热日本手机视频 ,国产伦精品一区二区三区妓女

<sub id="fcw6b"></sub>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

AI到頂了？OpenAI首席科學(xué)家否認(rèn)，行業(yè)從堆算力轉(zhuǎn)向追求智能密度

2025-12-01 11:22

烏鴉智能說

人工智能是不是到頂了？“AI進(jìn)展減速論”在過去一年頻繁出現(xiàn)。

Lukasz Kaiser——Transformer 論文共同作者、OpenAI 首席研究科學(xué)家、推理模型核心奠基者之一，近日在《Mad》播客中給出了截然相反的觀點(diǎn)。

他提到，AI發(fā)展不僅沒有放緩，反而仍沿著穩(wěn)定而持續(xù)的指數(shù)級(jí)曲線加速前進(jìn)。外界感受到的“停滯”，其實(shí)源于突破形態(tài)的改變。行業(yè)從一味做“大模型”，轉(zhuǎn)向構(gòu)建更聰明、更能思考的模型。

在他看來，預(yù)訓(xùn)練依然關(guān)鍵，但已不再是唯一引擎。推理模型的出現(xiàn)像是給基礎(chǔ)模型加了一層“第二大腦”，讓它們學(xué)會(huì)推導(dǎo)、驗(yàn)證與自我糾錯(cuò)，而不僅是預(yù)測(cè)下一個(gè)詞。這意味著在相同成本下，模型能力躍升更明顯、答案可靠性更高。

但AI的“智能地形圖”仍極不均勻。Lukasz坦言，最強(qiáng)模型能攻克奧數(shù)難題，卻可能在兒童拼圖里數(shù)不清物體；能寫出超越專業(yè)程序員的代碼，卻仍會(huì)誤判一張照片的空間關(guān)系。

同時(shí)，新范式也帶來了新的商業(yè)現(xiàn)實(shí)。面對(duì)上億級(jí)用戶，成本效率已壓過算力堆疊，模型蒸餾從“可選項(xiàng)”變?yōu)?ldquo;必需品”。能否讓小模型復(fù)現(xiàn)大模型的智慧，決定了AI能否真正普及。

在這場(chǎng)訪談中，Lukasz不僅否定了“AI減速論”，也描述了一個(gè)更加精細(xì)、聰明、多層推進(jìn)的未來：基礎(chǔ)模型仍在擴(kuò)展、推理層持續(xù)演化、多模態(tài)等待突破，而產(chǎn)品端的效率戰(zhàn)才剛剛開始。

以下是整理后的訪談全文，enjoy~

/ 01 /

AI沒減速，是你沒看懂

主持人：今年以來，一直有觀點(diǎn)認(rèn)為AI發(fā)展正在放緩，預(yù)訓(xùn)練已觸及天花板，擴(kuò)展法則似乎也走到了盡頭。

但就在我們錄制本期節(jié)目時(shí)，圈里迎來了一輪密集的重大發(fā)布，GPT-5.1、Codex Max、GPT-5.1 Pro、Gemini Nano Pro以及Grok-4.1等模型幾乎同時(shí)亮相，這似乎打破了“AI停滯”的論調(diào)。而你們這些身處前沿AI實(shí)驗(yàn)室的專家，看到了哪些外界無法捕捉的進(jìn)展信號(hào)？

Lukasz：AI技術(shù)的進(jìn)步一直是非常平穩(wěn)的指數(shù)級(jí)能力提升，這是總體趨勢(shì)。新技術(shù)層出不窮，進(jìn)步來自于新發(fā)現(xiàn)、算力提升和更好的工程實(shí)現(xiàn)。

語言模型方面，Transformer的出現(xiàn)與推理模型是兩大轉(zhuǎn)折點(diǎn)，它的發(fā)展呈S型曲線。預(yù)訓(xùn)練處于S曲線上段，只是擴(kuò)展定律并未失效，損失會(huì)隨算力呈對(duì)數(shù)線性下降，這一點(diǎn)Google和其他實(shí)驗(yàn)室都已經(jīng)驗(yàn)證了。問問題在于，你需要投入多少錢，相對(duì)于收益是否值得。

新的推理范式處于S曲線下部，同樣成本能獲得更多收益，因?yàn)檫€有大量發(fā)現(xiàn)待釋放。

從ChatGPT 3.5到當(dāng)下，核心變化在于模型不再僅依賴記憶權(quán)重輸出答案，而是能查網(wǎng)頁、推理分析后給出正確答案。

舉個(gè)例子，舊版對(duì)“動(dòng)物園明天幾點(diǎn)開門”這類問題會(huì)從記憶里瞎編，可能讀到過動(dòng)物園網(wǎng)站五年前寫的時(shí)間，編造過時(shí)信息。新版則能實(shí)時(shí)訪問動(dòng)物園網(wǎng)站并交叉驗(yàn)證。

ChatGPT或Gemini本身就已具備許多未被充分認(rèn)識(shí)的能力。你可以拍損壞的東西問怎么修，它會(huì)告訴你；給它大學(xué)水平的作業(yè)，它也能完成。

主持人：我確實(shí)同意這個(gè)說法。目前確實(shí)存在不少顯而易見的改進(jìn)空間，就像“低垂的果實(shí)”，很容易被看到和解決。比如說，模型有時(shí)會(huì)在邏輯上出現(xiàn)前言不搭后語，或者調(diào)用工具時(shí)出錯(cuò)，再就是記不住太長的對(duì)話內(nèi)容。這些都是行業(yè)已經(jīng)意識(shí)到，并且正在著力解決的問題。

Lukasz：是的，有大量極其明顯需要改進(jìn)的地方。大部分屬于工程層面問題：實(shí)驗(yàn)室基礎(chǔ)設(shè)施和代碼優(yōu)化。Python代碼通常能運(yùn)行，但效率低下會(huì)影響結(jié)果質(zhì)量；訓(xùn)練方法上，強(qiáng)化學(xué)習(xí)（RL）比預(yù)訓(xùn)練更棘手、更難做好；此外，數(shù)據(jù)質(zhì)量也是瓶頸。

過去我們使用Common Crawl這類互聯(lián)網(wǎng)原始數(shù)據(jù)倉庫，需要投入大量工作對(duì)原始網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行清洗和提煉。如今大公司都設(shè)有專門團(tuán)隊(duì)來提升數(shù)據(jù)質(zhì)量，但真正提取出優(yōu)質(zhì)數(shù)據(jù)仍然非常耗時(shí)費(fèi)力。合成數(shù)據(jù)正在興起，但如何生成、選用什么模型、以及具體的工程實(shí)現(xiàn)，每一步的實(shí)現(xiàn)細(xì)節(jié)都非常重要。

另一方面，多模態(tài)能力的發(fā)展也面臨挑戰(zhàn)。目前模型在處理圖像和聲音方面，遠(yuǎn)不如處理文本那樣成熟。雖然改進(jìn)方向很明確，但要取得實(shí)質(zhì)突破，可能需要從頭開始訓(xùn)練新一代基礎(chǔ)模型，這意味著數(shù)月時(shí)間和巨額資源的投入。

我常在想，這些進(jìn)步究竟能讓模型變得多強(qiáng)大？這或許是個(gè)被低估的問題。

/ 02 /

AI學(xué)會(huì)“自我懷疑”，GPT開始提前糾正自己的錯(cuò)誤

主持人：我想再聊聊推理模型，因?yàn)樗_實(shí)太新了。很多人其實(shí)還沒完全搞明白它和基礎(chǔ)模型到底有什么區(qū)別。你能用最通俗的話講講，它倆到底不一樣在哪嗎？

Lukasz：推理模型在給出最終答案前，會(huì)自己先在心里琢磨一番，形成一個(gè)“思考鏈條”，并且還能借助像搜索這樣的外部工具來幫自己理清思路。這樣一來，它就能在思考過程中主動(dòng)查找信息，為你提供更靠譜的答案。這算是它表面上看得到的能力。

它更厲害的地方在于，模型學(xué)習(xí)的重點(diǎn)就是“如何思考”本身，目標(biāo)是找到更優(yōu)的推理路徑。以前的模型主要靠預(yù)測(cè)下一個(gè)詞來訓(xùn)練，但這種方法對(duì)“推理”這件事不太奏效，因?yàn)橥评聿襟E沒法直接用來計(jì)算梯度。

所以，我們現(xiàn)在改用強(qiáng)化學(xué)習(xí)來訓(xùn)練它。這就像是設(shè)定一個(gè)獎(jiǎng)勵(lì)目標(biāo)，讓模型自己反復(fù)嘗試，摸索出哪些思考方式更容易得到好結(jié)果。這種訓(xùn)練方式可比以前那種費(fèi)勁多了。

傳統(tǒng)的訓(xùn)練對(duì)數(shù)據(jù)質(zhì)量不那么挑剔，大體上都能運(yùn)行，但強(qiáng)化學(xué)習(xí)就得格外小心，需要精心調(diào)整參數(shù)和準(zhǔn)備數(shù)據(jù)。目前一個(gè)基礎(chǔ)的方法是使用那些能明確判斷對(duì)錯(cuò)的數(shù)據(jù)，比如解數(shù)學(xué)題或?qū)懘a，所以它在這些領(lǐng)域表現(xiàn)特別亮眼。在其他領(lǐng)域雖然也有進(jìn)步，但還沒達(dá)到同樣驚艷的程度。

如何在多模態(tài)上做推理？我認(rèn)為這剛開始，Gemini能在推理過程中生成圖像，這很令人興奮，但還非常初級(jí)。

主持人：當(dāng)前存在一種普遍看法：預(yù)訓(xùn)練和后訓(xùn)練是割裂的，后訓(xùn)練幾乎就等于強(qiáng)化學(xué)習(xí)。但事實(shí)上，強(qiáng)化學(xué)習(xí)在預(yù)訓(xùn)練階段就已參與，只是我們過去的理解并未認(rèn)識(shí)到這一點(diǎn)。

Lukasz：在ChatGPT出現(xiàn)之前，預(yù)訓(xùn)練模型已經(jīng)存在，但無法實(shí)現(xiàn)真正對(duì)話。ChatGPT的關(guān)鍵突破在于將RLHF應(yīng)用于預(yù)訓(xùn)練模型。RLHF是一種基于人類偏好的強(qiáng)化學(xué)習(xí)，通過讓模型比較不同回答并學(xué)習(xí)人類更傾向的選項(xiàng)來進(jìn)行訓(xùn)練。

然而，RLHF若訓(xùn)練過度，模型可能過度“討好”，導(dǎo)致它的內(nèi)核顯得很脆弱。盡管如此，它仍是實(shí)現(xiàn)對(duì)話能力的核心。

當(dāng)前趨勢(shì)轉(zhuǎn)向更大規(guī)模的強(qiáng)化學(xué)習(xí)，雖數(shù)據(jù)規(guī)模仍不及預(yù)訓(xùn)練，但能構(gòu)建具備判斷正確性或偏好的模型。該方法目前適用于可明確評(píng)估的領(lǐng)域，并可結(jié)合人類偏好進(jìn)行更穩(wěn)定的長期訓(xùn)練，避免評(píng)分系統(tǒng)失效。

未來，強(qiáng)化學(xué)習(xí)有望擴(kuò)展到更通用數(shù)據(jù)與更廣泛領(lǐng)域。問題是：做某些事真的需要很多思考嗎？也許需要，也許我們需要比現(xiàn)在更多的思考和推理。

主持人：要提升強(qiáng)化學(xué)習(xí)的泛化能力，是不是關(guān)鍵在于有更好的評(píng)估方式？比如你們之前推出的跨經(jīng)濟(jì)領(lǐng)域評(píng)估，測(cè)試它在不同場(chǎng)景的表現(xiàn)，這種系統(tǒng)性的衡量是不是真的必要？

Lukasz：人們?cè)趯懽髑巴ǔ?huì)有所思考，雖然不像解數(shù)學(xué)題那樣嚴(yán)謹(jǐn)，但總會(huì)有一個(gè)大致的思路。目前模型難以完全模擬這種過程，不過它們已經(jīng)開始嘗試了。推理能力可以遷移，比如學(xué)會(huì)查閱網(wǎng)頁獲取信息后，這個(gè)策略也能用在其他任務(wù)上。但在視覺思考方面，模型的訓(xùn)練還遠(yuǎn)遠(yuǎn)不夠充分。

主持人：思維鏈具體是怎么運(yùn)作的？模型是怎么決定要生成這些思考步驟的？我們?cè)谄聊簧峡吹降哪切┲虚g推理，是模型真實(shí)的完整思考過程嗎？還是說背后其實(shí)隱藏著更復(fù)雜、更長的推理鏈條？

Lukasz：在ChatGPT里你看到的思維鏈總結(jié)，其實(shí)是另一個(gè)模型對(duì)完整思考過程的提煉。原始的思考鏈條通常比較啰嗦。如果僅僅讓模型在預(yù)訓(xùn)練后嘗試逐步思考，它確實(shí)能產(chǎn)生一些推理步驟，但關(guān)鍵不止于此。

我們可以這樣訓(xùn)練：先讓模型嘗試多種思考方式，有些得到正確結(jié)果，有些會(huì)出錯(cuò)。然后我們選出那些導(dǎo)向正確答案的思考路徑，告訴模型“這才是你應(yīng)該學(xué)習(xí)的思考方式”。這就是強(qiáng)化學(xué)習(xí)發(fā)揮的作用。

這種訓(xùn)練真正改變了模型的思考模式，在數(shù)學(xué)和編程領(lǐng)域已經(jīng)看到效果。更大的希望是它能擴(kuò)展到其他領(lǐng)域。甚至在數(shù)學(xué)解題中，模型開始學(xué)會(huì)提前自我糾正錯(cuò)誤，這種自我驗(yàn)證的能力是從強(qiáng)化學(xué)習(xí)中自然涌現(xiàn)的。本質(zhì)上，模型學(xué)會(huì)了質(zhì)疑自己的輸出，覺得可能出錯(cuò)時(shí)就會(huì)重新思考。

/ 03 /

預(yù)訓(xùn)練仍是耗電巨獸，RL和視頻模型正瘋狂搶GPU資源

主持人：談?wù)剰腉oogle到OpenAI的轉(zhuǎn)變，以及兩種文化的差異。

Lukasz：Ilya Sutskever 以前在 Google Brain 時(shí)是我的經(jīng)理，后來他離職創(chuàng)立了 OpenAI。那幾年他問過我好幾次要不要加入。之后 Transformer 發(fā)布了，接著又趕上了疫情。Google 完全關(guān)閉，重啟也非常慢。

Google Brain 作為大公司里的小團(tuán)隊(duì)，工作氛圍和創(chuàng)業(yè)公司很不一樣。

Ilya 跟我說，OpenAI 雖然還在早期階段，但正在做語言模型，可能和我的方向很契合。我當(dāng)時(shí)想：“好吧，那就試試看。”之前除了 Google 和大學(xué)，我沒在別的公司工作過。所以加入一個(gè)小型創(chuàng)業(yè)公司確實(shí)是個(gè)很大的轉(zhuǎn)變。

總的來說，我覺得不同科技實(shí)驗(yàn)室之間的相似之處，比人們想象得要多。它們之間當(dāng)然有差異，但就像從法國大學(xué)的視角來看，大學(xué)和任何一個(gè)科技實(shí)驗(yàn)室的差別，其實(shí)遠(yuǎn)大于實(shí)驗(yàn)室彼此之間的差別。大公司也好，創(chuàng)業(yè)公司也罷，在“必須交付”這一點(diǎn)上更像彼此。

主持人：OpenAI內(nèi)部研究團(tuán)隊(duì)是怎么組織的？

Lukasz：大多數(shù)實(shí)驗(yàn)室都在做類似的工作，比如改進(jìn)多模態(tài)模型、提升推理能力、優(yōu)化預(yù)訓(xùn)練或者基礎(chǔ)設(shè)施。通常會(huì)有專門團(tuán)隊(duì)負(fù)責(zé)這些方向，人員有時(shí)會(huì)流動(dòng)，新項(xiàng)目也會(huì)啟動(dòng)，比如擴(kuò)散模型。有些探索項(xiàng)目規(guī)模會(huì)擴(kuò)大，像視頻模型就需要更多人手參與。

GPU的分配主要基于技術(shù)需求。目前預(yù)訓(xùn)練消耗的GPU最多，所以資源會(huì)優(yōu)先分配給它。強(qiáng)化學(xué)習(xí)和視頻模型對(duì)GPU的需求也在快速增長。

主持人：未來一兩年預(yù)訓(xùn)練會(huì)怎樣？

Lukasz：我認(rèn)為預(yù)訓(xùn)練在技術(shù)上已經(jīng)進(jìn)入平穩(wěn)發(fā)展期，投入更多算力仍能提升效果，這很有價(jià)值。雖然回報(bào)不如推理技術(shù)顯著，但確實(shí)能增強(qiáng)模型能力，值得持續(xù)投入。

很多人忽略了一個(gè)現(xiàn)實(shí)轉(zhuǎn)變：幾年前OpenAI還只是研究實(shí)驗(yàn)室，所有算力都集中在訓(xùn)練上，可以毫不猶豫地打造GPT-4。但現(xiàn)在情況不同了，ChatGPT擁有十億用戶，每天產(chǎn)生海量對(duì)話需求，需要大量GPU資源支撐。用戶不愿意為每次對(duì)話支付過高費(fèi)用，迫使我們開發(fā)更經(jīng)濟(jì)的小模型。

這個(gè)轉(zhuǎn)變影響了所有實(shí)驗(yàn)室。一旦技術(shù)產(chǎn)品化，就必須考慮成本。現(xiàn)在我們不再只追求最大模型，而是努力用更小更便宜的模型提供同等質(zhì)量。這種降本增效的壓力非�，F(xiàn)實(shí)。

這也讓蒸餾技術(shù)重新受到重視。通過將大模型的知識(shí)提煉到小模型中，既能保證質(zhì)量又能控制成本。雖然這個(gè)方法很早就有，但直到面臨實(shí)際的經(jīng)濟(jì)壓力，我們才真正認(rèn)識(shí)到它的價(jià)值。

當(dāng)然，訓(xùn)練超大模型仍然重要，因?yàn)樗钦麴s優(yōu)質(zhì)小模型的基礎(chǔ)。隨著行業(yè)對(duì)GPU的持續(xù)投入，預(yù)計(jì)將迎來新一輪的預(yù)訓(xùn)練發(fā)展。但本質(zhì)上，這些變化都是在同一條技術(shù)演進(jìn)路徑上的調(diào)整，取決于不同階段的資源與需求。

最重要的是要看到：預(yù)訓(xùn)練始終有效，而且能與強(qiáng)化學(xué)習(xí)形成互補(bǔ)。在更強(qiáng)大的基礎(chǔ)模型上運(yùn)行推理，效果自然會(huì)更出色。

主持人：現(xiàn)代AI系統(tǒng)的演進(jìn)，結(jié)合了實(shí)驗(yàn)室、RL和很多技術(shù)。深度學(xué)習(xí)時(shí)代人們常說自己從微觀層面理解AI，比如矩陣乘法，但不完全理解組合在一起后最終發(fā)生什么。過去幾年在可解釋性方面做了很多工作，特別是對(duì)復(fù)雜系統(tǒng)。模型的行為是越來越清晰了，還是仍有黑盒成分？

Lukasz：我覺得兩方面都有道理。從根本上說，我們對(duì)模型的理解確實(shí)取得了巨大進(jìn)步。像ChatGPT這樣的模型，它和無數(shù)人對(duì)話，知識(shí)來自整個(gè)互聯(lián)網(wǎng)，顯然，我們無法完全理解它內(nèi)部發(fā)生的一切，就像沒人能了解整個(gè)互聯(lián)網(wǎng)。

但我們的確有了新發(fā)現(xiàn)。比如OpenAI最近一篇論文表明，如果讓模型的很多連接變得稀疏、不重要，就能更清晰地追蹤它在處理任務(wù)時(shí)的具體活動(dòng)。

所以，如果聚焦在模型內(nèi)部進(jìn)行研究，我們確實(shí)能獲得不少理解�，F(xiàn)在已經(jīng)有很多研究在探索模型內(nèi)部的工作機(jī)制，我們對(duì)模型高級(jí)行為的認(rèn)知進(jìn)步很大。不過，這些理解大多來自較小的模型。不是說這些規(guī)律不適用于大模型，但大模型同時(shí)處理太多信息，我們的理解能力終究有限。

/ 04 /

為什么GPT-5能解奧賽題，卻敗給5歲孩子的數(shù)學(xué)題？

主持人：我想聊聊GPT-5.1。從GPT-4到5到5.1，實(shí)際改變了什么？

Lukasz：這個(gè)問題很難。從GPT-4到5，最重要的變化是加入了推理能力和合成數(shù)據(jù)，同時(shí)預(yù)訓(xùn)練讓成本大幅下降。到了GPT-5，它已經(jīng)成為十億人使用的產(chǎn)品，團(tuán)隊(duì)在安全與友好度之間不斷調(diào)整，讓模型在面對(duì)各類問題時(shí)反應(yīng)更合理，既不過度敏感也不隨意拒絕�；糜X問題雖然還存在，但通過工具驗(yàn)證和訓(xùn)練優(yōu)化，已經(jīng)比之前改善很多。

主持人：GPT-5.1主要是后訓(xùn)練的改進(jìn)，比如加入了不同語氣風(fēng)格，從書呆子氣到專業(yè)范兒，這大概是回應(yīng)有些人懷念早期模型那種討好人的特性。加入更多語氣變化屬于后訓(xùn)練范疇。你們是給模型看示例教它回應(yīng)方式，這更像監(jiān)督學(xué)習(xí)，還是像強(qiáng)化學(xué)習(xí)那樣用對(duì)錯(cuò)獎(jiǎng)勵(lì)來訓(xùn)練？

Lukasz：我不直接做后訓(xùn)練，這部分確實(shí)有些怪，核心是強(qiáng)化學(xué)習(xí)。比如你會(huì)判斷“這個(gè)回答是否帶有諷刺？是否符合要求？”如果用戶要求諷刺，那模型就該那么回應(yīng)。

主持人：我感覺強(qiáng)化學(xué)習(xí)在模型迭代中占比很大。其他公司發(fā)布模型時(shí)通常與預(yù)訓(xùn)練對(duì)齊，有時(shí)一次預(yù)訓(xùn)練產(chǎn)出多個(gè)模型。以前版本命名常與技術(shù)對(duì)齊，比如o1對(duì)應(yīng)預(yù)訓(xùn)練版本，o3對(duì)應(yīng)強(qiáng)化學(xué)習(xí)版本。大家覺得這種命名很混亂�，F(xiàn)在改為按能力命名：GPT-5是基礎(chǔ)能力版，5.1是增強(qiáng)版，也就是更輕量、稍弱但更快更便宜的版本。

Lukasz：推理模型專注于復(fù)雜推理。命名與技術(shù)解綁帶來了靈活性。OpenAI發(fā)展壯大后項(xiàng)目很多，強(qiáng)化學(xué)習(xí)、預(yù)訓(xùn)練，還有網(wǎng)站優(yōu)化等等。模型蒸餾技術(shù)讓我們能整合多個(gè)項(xiàng)目成果，不必等所有項(xiàng)目同時(shí)完成，可以定期集成更新。這對(duì)用戶是好事，不用再苦等耗時(shí)數(shù)月的新預(yù)訓(xùn)練模型。

主持人：用戶能控制模型的思考時(shí)間。那在默認(rèn)情況下，模型自己是怎么決定要思考多久的呢？

Lukasz：模型遇到任務(wù)時(shí)會(huì)自行決定思考多久，但我們可以通過提供額外信息來引導(dǎo)它思考得更深入�，F(xiàn)在你確實(shí)能對(duì)它進(jìn)行一定控制了。但更根本的變化在于：推理模型通過消耗更多token進(jìn)行思考，其能力提升的速度遠(yuǎn)超預(yù)訓(xùn)練階段。如果讓GPT-5進(jìn)行長時(shí)間思考，它甚至能解決數(shù)學(xué)和信息學(xué)奧賽的題目，展現(xiàn)出驚人潛力。

不過目前推理訓(xùn)練主要依賴科學(xué)領(lǐng)域數(shù)據(jù)，遠(yuǎn)不如預(yù)訓(xùn)練的數(shù)據(jù)廣泛。這導(dǎo)致模型能力很不均衡，某些方面極其出色，相鄰領(lǐng)域卻表現(xiàn)不佳。這種矛盾很常見：比如模型能解奧賽題，卻可能做不出一年級(jí)的數(shù)學(xué)題，而人類只需十秒就能解決。要記�。耗Ｐ图葟�(qiáng)大，也存在明顯短板。

我舉個(gè)值得深思的例子。用Gemini看兩組點(diǎn)判斷奇偶：第一題兩邊各有若干點(diǎn)，中間共享一個(gè)點(diǎn)，正確答案應(yīng)是奇數(shù)。Gemini 3答對(duì)了。但緊接著出現(xiàn)結(jié)構(gòu)相似的題目，它卻完全忽略了共享點(diǎn)，直接判斷為偶數(shù)，明明剛見過類似情境。

同樣的題目給GPT-5.1，它解出第一題卻誤判為偶數(shù)。如果換成GPT-5 Pro，它會(huì)花15分鐘運(yùn)行Python代碼來數(shù)點(diǎn)，而五歲孩子15秒就能答對(duì)。

主持人：所以模型到底被什么卡住了？

Lukasz：多模態(tài)方面確實(shí)還處在早期。模型能解出第一個(gè)例子說明有進(jìn)步，但它還沒真正掌握如何在多模態(tài)情境下進(jìn)行推理。它雖然能進(jìn)行上下文學(xué)習(xí)，卻不太會(huì)借鑒上下文中的推理思路來推進(jìn)下一步。這些都是已知的瓶頸，主要還是訓(xùn)練不足。

但更深層的問題是，即使多模態(tài)能力提升了，模型可能還是做不好像我女兒做的那種數(shù)學(xué)題。這類題不純是視覺問題，模型還沒學(xué)會(huì)在簡單的抽象層面運(yùn)用推理。它看到點(diǎn)陣圖，容易卡在識(shí)別像素模式上，而看不出“兩邊數(shù)量相同但共享一個(gè)點(diǎn)，所以總數(shù)是奇數(shù)”這種抽象邏輯。這種從圖像到符號(hào)的抽象推理能力還沒建立起來。

所以這類題目其實(shí)暴露了推理模型的一個(gè)根本局限：它們還沒能把從文本中學(xué)到的思維鏈策略，比如“先算總數(shù)再判奇偶”，自動(dòng)遷移到視覺輸入上。這是多模態(tài)推理要突破的核心難題。

另外還有個(gè)細(xì)節(jié)：這些題目對(duì)人來說簡單，但模型得先從像素里識(shí)別出“點(diǎn)”和“共享”的概念。如果圖像中點(diǎn)的大小、間距、顏色有變化，模型可能根本認(rèn)不出關(guān)鍵元素。

相比符號(hào)明確的數(shù)學(xué)題，視覺任務(wù)的基礎(chǔ)識(shí)別還不夠穩(wěn)健。因此當(dāng)模型在第二個(gè)例子失敗時(shí)，很可能是因?yàn)樗鼪]正確識(shí)別出“共享點(diǎn)”這個(gè)視覺信息。這說明多模態(tài)推理的瓶頸不僅在于邏輯，還在于跨模態(tài)的語義對(duì)齊。

兒童早期數(shù)學(xué)題設(shè)計(jì)得很妙。這些題目看似簡單，卻融合了抽象、類比、計(jì)數(shù)和奇偶判斷等多個(gè)認(rèn)知環(huán)節(jié)。模型可能在某一步，比如識(shí)別點(diǎn)數(shù)正確，卻在判斷奇偶時(shí)出錯(cuò)。我們通過跟蹤模型每一步的置信度發(fā)現(xiàn)，它在“識(shí)別共享點(diǎn)”這一步的把握度在第二個(gè)例子中明顯下降，這說明模型對(duì)視覺模式的泛化能力還不穩(wěn)定。這也為我們指明了改進(jìn)方向：需要在訓(xùn)練中增加更多涉及“共享元素”和“集合運(yùn)算”的視覺推理示例。預(yù)計(jì)這個(gè)具體問題在半年內(nèi)應(yīng)該能得到改善。

回到宏觀視角，我們討論的問題，包括多模態(tài)推理，都是可解的工程挑戰(zhàn)，不是根本性的理論障礙。核心教訓(xùn)是：推理模型的“鋸齒狀"能力曲線會(huì)在不同領(lǐng)域持續(xù)存在，但鋸齒的深度會(huì)隨著訓(xùn)練和蒸餾逐漸減小。

主持人：這次GPT-5.1版本更新，簡直像發(fā)布了一個(gè)Pro產(chǎn)品。你覺得最主要的新能力是什么？

Lukasz：最關(guān)鍵的是對(duì)話界面變得更自然了�，F(xiàn)在系統(tǒng)能根據(jù)你的意圖，自動(dòng)調(diào)節(jié)回答長短，不用再手動(dòng)選短中長回復(fù)。這靠的是后訓(xùn)練中的強(qiáng)化學(xué)習(xí)，獎(jiǎng)勵(lì)信號(hào)不再是簡單對(duì)錯(cuò)，而是看“用戶滿不滿意”。他們用大量真實(shí)對(duì)話訓(xùn)練獎(jiǎng)勵(lì)模型，去捕捉那些微妙的互動(dòng)指標(biāo)。這樣模型就學(xué)會(huì)在復(fù)雜問題時(shí)多講點(diǎn)，簡單問題時(shí)少講點(diǎn)。

這也是RLHF的進(jìn)化，從學(xué)習(xí)人類偏好，到學(xué)習(xí)讓人滿意。模型還能在生成過程中自我評(píng)估信心，如果把握夠高，就提前結(jié)束回答，省下不少算力。不過這些都屬于基礎(chǔ)設(shè)施優(yōu)化，不直接提升核心推理能力。真正的進(jìn)步來自后訓(xùn)練數(shù)據(jù)質(zhì)量的提升，特別是加入了更多“說不知道”和“反問確認(rèn)”的邊緣案例，讓模型變得更謹(jǐn)慎。5.1版本其實(shí)只是他們整體推理研究中的一個(gè)產(chǎn)品化快照。

主持人：o4-mini的推理能力真的更強(qiáng)嗎？還是評(píng)估的問題？

Lukasz：很多人問我o4-mini和o3的區(qū)別，其實(shí)它們不是簡單的升級(jí)關(guān)系，而是不同的設(shè)計(jì)選擇。o3展現(xiàn)了我們?cè)趶?qiáng)化學(xué)習(xí)上追求極致推理能力的成果，而o4-mini更像是一次“精煉的壓縮”，用更少的資源實(shí)現(xiàn)接近的效果。關(guān)鍵差別在于“推理時(shí)用的計(jì)算量”：o3在回答時(shí)投入大量計(jì)算，o4-mini則靠訓(xùn)練時(shí)更充分的優(yōu)化。

在實(shí)際應(yīng)用中，o4-mini因?yàn)榧尤肓烁嗤ㄓ脭?shù)據(jù)，比如長對(duì)話和工具使用，所以在多數(shù)日常場(chǎng)景下顯得更“好用”。但遇到真正復(fù)雜的邏輯或數(shù)學(xué)證明，o3依然更強(qiáng)。理想的方式是搭配使用：一般任務(wù)用mini，需要深度推理時(shí)切到Pro。

我們還看到一個(gè)趨勢(shì)：“自主研究”正在模糊訓(xùn)練和推理的邊界。模型不僅能回答問題，還能主動(dòng)設(shè)計(jì)實(shí)驗(yàn)、寫代碼、分析結(jié)果，甚至生成自己的訓(xùn)練數(shù)據(jù)，這形成了一個(gè)自我提升的循環(huán)，也是我們面向2026年的核心方向。

我認(rèn)為，真正的AGI里程碑，是模型能自主發(fā)現(xiàn)新算法，而不只是完成現(xiàn)有任務(wù)。這需要強(qiáng)化學(xué)習(xí)能支持“探索未知”，而不僅限于可驗(yàn)證的任務(wù)。我們內(nèi)部已有實(shí)驗(yàn)讓模型在模擬環(huán)境中做“假設(shè)-實(shí)驗(yàn)”循環(huán)，目前能發(fā)現(xiàn)一些簡單數(shù)學(xué)定理，雖然還非常初級(jí)。但也許某個(gè)周一早晨，我們會(huì)突然發(fā)現(xiàn)它在周末自己證出了新定理，那一刻，可能就是AGI的開始。

/ 05 /

GPT-5.2或?qū)⒐タ薃I最大缺陷：學(xué)會(huì)說“我不知道”

主持人：未來6到12個(gè)月，什么最讓你興奮？

Lukasz：最讓我興奮的是多模態(tài)推理正在成熟。當(dāng)AI能同時(shí)理解圖像和語言，就會(huì)真正賦能機(jī)器人和科研這些領(lǐng)域，它不再只是猜測(cè)文字，而是開始在腦子里模擬真實(shí)世界的運(yùn)作邏輯。另一個(gè)好消息是推理成本正在快速下降，未來甚至能跑在手機(jī)上，讓每個(gè)人都能擁有真正的個(gè)人AI助手。

科學(xué)領(lǐng)域可能會(huì)最先被顛覆，就像AlphaFold 3和新材料研發(fā)那樣。語言模型不再只分析數(shù)據(jù)，而是能主動(dòng)提出猜想、設(shè)計(jì)實(shí)驗(yàn)、解讀結(jié)果。我猜想，到2026年底，我們可能會(huì)在頂級(jí)期刊上看到第一篇由AI提出核心假設(shè)、人類主要做驗(yàn)證的論文。那會(huì)是個(gè)歷史性時(shí)刻。

當(dāng)然挑戰(zhàn)還很多，關(guān)鍵是讓AI學(xué)會(huì)“意識(shí)到自己不懂什么”，能主動(dòng)提問而不是盲目自信地胡說，這也是目前強(qiáng)化學(xué)習(xí)重點(diǎn)在解決的問題。希望下次我們聊到GPT-5.2版本時(shí)，它能在這一點(diǎn)上帶來驚喜。

主持人：你有什么想對(duì)聽眾說的嗎？

Lukasz：AI發(fā)展從未停滯，只是方向在變化。如果你感覺跟不上，別擔(dān)心，沒人能完全跟上。最驚人的應(yīng)用往往來自非技術(shù)用戶，他們會(huì)用我們沒預(yù)料到的方式使用它。

這些問題未來都會(huì)得到改善。更深層的問題在于，多模態(tài)等領(lǐng)域會(huì)進(jìn)步，我們也在持續(xù)尋找典型案例。雖然技術(shù)前沿會(huì)變化、某些環(huán)節(jié)會(huì)更順暢，但關(guān)鍵在于是否會(huì)出現(xiàn)全新的挑戰(zhàn)。比如，如果工具從三個(gè)齒變成四個(gè)齒，人們不需要重新學(xué)習(xí)整個(gè)使用方式。

我對(duì)泛化能力感到興奮，認(rèn)為這是機(jī)器學(xué)習(xí)和智能理解的核心議題。預(yù)訓(xùn)練有所不同，因?yàn)樗饕揽繑U(kuò)大模型和數(shù)據(jù)規(guī)模來積累知識(shí)，而非直接增強(qiáng)泛化。但真正的理解應(yīng)該能提升泛化能力。

關(guān)鍵問題是：理解本身是否足以實(shí)現(xiàn)強(qiáng)大泛化？還是需要更簡單的方法？

我認(rèn)為首要任務(wù)是讓理解過程變得更簡單，這正是我熱衷的工作方向。當(dāng)前模型仍存在局限：它們?nèi)狈ξ锢硎澜绲捏w驗(yàn)，多模態(tài)能力不足，理解機(jī)制尚不成熟。

當(dāng)這些瓶頸突破后，我們將面臨更根本的問題：是否需要全新的架構(gòu)，使得模型無需通過海量數(shù)據(jù)學(xué)習(xí)每一個(gè)細(xì)節(jié)，就能自主掌握核心規(guī)律？

這個(gè)問題的最佳探索方式，是先解決所有相關(guān)子問題。就像在濃霧中駕車，你無法預(yù)知障礙物的距離。我們正在快速前進(jìn)，在這個(gè)過程中學(xué)到很多。核心挑戰(zhàn)在于實(shí)現(xiàn)小樣本學(xué)習(xí)，像孩子那樣舉一反三的能力，這是當(dāng)前最強(qiáng)大的模型也未能達(dá)到的。

在推進(jìn)理論泛化的同時(shí)，另一個(gè)關(guān)鍵問題是架構(gòu)創(chuàng)新。除了Transformer，還有許多值得探索的方向。雖然某些小模型在特定測(cè)試中表現(xiàn)優(yōu)異，但整體突破仍需觀察。不同研究團(tuán)隊(duì)正在推動(dòng)基礎(chǔ)科學(xué)進(jìn)展，這些工作可能不常出現(xiàn)在新聞中，但都至關(guān)重要。

計(jì)算資源的發(fā)展同樣關(guān)鍵：更強(qiáng)大的GPU使得運(yùn)行實(shí)驗(yàn)更加可行，促進(jìn)了研究進(jìn)步。然而，設(shè)計(jì)環(huán)節(jié)仍是主要瓶頸。雖然AI編碼助手能幫助實(shí)現(xiàn)想法，但讓模型執(zhí)行需要長期反饋的任務(wù)，如長達(dá)一周的實(shí)驗(yàn)流程，仍面臨挑戰(zhàn)。這涉及到記憶管理問題，通過壓縮關(guān)鍵信息來突破上下文限制，但該能力需要專門訓(xùn)練。

另一個(gè)重要方向是模型與外部工具的連接。當(dāng)前模型已能使用網(wǎng)絡(luò)搜索和Python解釋器，但安全地開放系統(tǒng)權(quán)限仍是難題。隨著模型能力擴(kuò)展至數(shù)學(xué)、科學(xué)乃至金融領(lǐng)域，人們自然思考：是否存在一個(gè)通用模型能處理所有任務(wù)？

從產(chǎn)品視角看，我們需要保持技術(shù)的人本價(jià)值。當(dāng)前模型仍需精細(xì)調(diào)優(yōu)，但進(jìn)步速度令人鼓舞。以機(jī)器翻譯為例：雖然GPT-4在多數(shù)場(chǎng)景已足夠準(zhǔn)確，但涉及重要文件時(shí)，人們?nèi)詢A向于人工翻譯，這本質(zhì)是信任問題。某些工作將繼續(xù)由人類完成，但這不意味著社會(huì)整體效率不會(huì)提升。

在前沿研究方向上，我特別關(guān)注統(tǒng)一跨領(lǐng)域?qū)W習(xí)的能力。機(jī)器人技術(shù)將是多模態(tài)能力的重要試金石。當(dāng)模型真正理解物理世界時(shí)，家庭機(jī)器人可能帶來比聊天機(jī)器人更顯著的社會(huì)影響。

這些突破將深刻改變我們的世界認(rèn)知。雖然實(shí)現(xiàn)路徑充滿挑戰(zhàn)，但我相信我們正在朝著這個(gè)方向穩(wěn)步前進(jìn)。

文/林白

原文標(biāo)題 : AI到頂了？OpenAI首席科學(xué)家否認(rèn)，行業(yè)從堆算力轉(zhuǎn)向追求智能密度

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

12月5日
立即投票>> 【評(píng)選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評(píng)選
12月9日
立即報(bào)名>> 恩智浦創(chuàng)新技術(shù)峰會(huì)
【深圳專場(chǎng)】
立即報(bào)名 >> 12月16-17日 AMD 嵌入式峰會(huì)
12月19日
立即報(bào)名>> 【線下會(huì)議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
精彩回顧
立即查看>> 【白皮書】精準(zhǔn)洞察無線掌控——283FC智能自檢萬用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會(huì)

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

封裝工程師北京市/海淀區(qū)
光器件物理工程師北京市/海淀區(qū)
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
技術(shù)專家廣東省/江門市
結(jié)構(gòu)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久国产老熟女

欧美精品成人a在线观看亚洲熟妇av一区二区三区宅男亚洲AV成人无码网站… 欧美天天摸天天添人人喊_女人男人做性全过程视频_久久久久国色AV免费观看性色_2022老司机久久精品