當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

GPT-5王座難坐穩(wěn)，OpenAI想靠價格贏過一切

2025-08-14 16:47

光錐智能

關(guān)注

文｜魏琳華編｜王一粟

從2023年底OpenAI CEO Sam Altman第一次提到GPT-5，到今天模型的正式發(fā)布，時間過去了一年半。

如今，人們?nèi)匀话疽箛^OpenAI的發(fā)布會，但徹夜討論的呼聲中少了驚呼，多了質(zhì)疑。

值得欣慰的是，從模型性能上來說，OpenAI成功扳回了之前下滑的口碑。在發(fā)布會上拿出的GPT-5，依然做到了多方面能力SOTA，更是靠GPT-5直言“世界最強(qiáng)編程模型”，狙擊Claude的領(lǐng)先地位。

但繞不開的一些固有印象是，OpenAI拉開同行的差距，遠(yuǎn)遠(yuǎn)不及GPT-3、GPT-4的斷崖式領(lǐng)先。

OpenAI的同行者也虎視眈眈。不說Anthropic本周官宣要在當(dāng)月發(fā)布大版本更新的模型，馬斯克更是刷屏一晚，強(qiáng)調(diào)自家模型Grok-4在部分測試上已經(jīng)超過了OpenAI的新模型。

OpenAI又能在這個新“王座”上坐多久？Altman不語，只是一味地講起了大模型便宜落地的故事。

盯上最強(qiáng)代碼模型 GPT-5全面升級

刷新的性能分?jǐn)?shù)、極高的性價比、針對性優(yōu)化的幻覺問題和超長上下文，方方面面的優(yōu)化，都是為了讓GPT-5成為一個更適合干活的大模型。

首先在架構(gòu)上，GPT-5是一個統(tǒng)一架構(gòu)版本的模型，由三個部分組成：一個基礎(chǔ)模型、一個具有深度推理能力的GPT-5 thinking模型，加上一個實時路由器。

這樣設(shè)計的好處是，實時路由器能根據(jù)對話類型、問題復(fù)雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當(dāng)用戶的提示詞包括“幫我認(rèn)真思考一下”這類話術(shù)，它就會調(diào)用深度推理模型。

在發(fā)布會前一天就大肆預(yù)熱的Altman，就在X上發(fā)圖暗示GPT-5的性能優(yōu)勢，在發(fā)布會上，他也強(qiáng)調(diào)了對GPT-5的信心。

“如果說和GPT-4的聊天像跟高中生對話，和O3像是跟大學(xué)生聊天，那么跟GPT-5的交流就相當(dāng)于對話博士生。”Altman這樣定義GPT-5的體驗感受。

先從性能說起，被Altman當(dāng)成殺器的GPT-5，確實在多個模型能力上做到了SOTA。聚焦到測評指標(biāo)上，GPT-5的優(yōu)勢體現(xiàn)在編程、數(shù)學(xué)、多模態(tài)理解和健康等方面。

先說OpenAI著重放到開頭講的編程能力，這一次，OpenAI如愿以償?shù)負(fù)尰亓祟I(lǐng)先地位。用他們的話說，“GPT-5是世界上最強(qiáng)的編程模型。”

在SWE-Bench（測試大模型代碼補全能力）的指標(biāo)上，GPT-5的推理版本拿到了74.9%，不僅超越了自家模型O3，也超越了Anthropic剛發(fā)布的Claude Opus 4.1（74.5%）。在編程能力上，OpenAI搶過了Claude系列的王座。

發(fā)布會現(xiàn)場，OpenAI通過一些案例具體展示了OpenAI的編程能力，比如讓它做一個闡釋伯努利效應(yīng)的網(wǎng)頁，在兩分鐘內(nèi)，GPT-5跑出了400行代碼，做了一個支持調(diào)整參數(shù)的網(wǎng)頁版本。

除此之外，OpenAI還展示了模型做一些網(wǎng)頁端小游戲的能力，比如蹦跳躲障礙的網(wǎng)頁小游戲、隨心畫畫的畫布小游戲，還有美觀提升一個度的貪吃蛇。這些能力其實交給當(dāng)下一些開源大模型同樣能完成，只是OpenAI的美觀度和流程完整度上了一個臺階。

除了這種面向C端用戶體驗的案例，在B端實際使用上，OpenAI也面向開發(fā)者演示了GPT-5寫代碼落地的能力，GPT-5不再埋頭寫代碼，而是把“開箱可用”的落地能力夯實了。比如，GPT-5在后臺寫代碼并自行優(yōu)化迭代之后，按照需求開發(fā)了一個財務(wù)信息看板，UI做得也足夠漂亮。

除了編程，在其他多個維度上，GPT-5也有部分指標(biāo)刷新自家模型的上限，包括數(shù)學(xué)（AIME 2025，GPT-5無工具版本拿到94.6%）、多模態(tài)理解（MMMU 為 84.2%）和健康（HealthBench Hard 為 46.2%）。

GPT-5再次向我們證明了“模型即產(chǎn)品”的觀點可行性——加上工具能力的GPT-5 pro，它甚至能直接把AIME 2025（美國數(shù)學(xué)競賽）的測試刷滿分。

不過，OpenAI的翻車變成了第一個出圈的討論。在發(fā)布會演示的現(xiàn)場，OpenAI上來就犯了一個非常嚴(yán)重和低級的錯誤：在現(xiàn)場展示的圖表中，數(shù)字大小和柱狀圖顯示的關(guān)系甚至都匹配不上，69.1和30.8的柱圖高度一模一樣，52.8甚至比69.1更大......

對此，光錐智能也隨便給了一組數(shù)據(jù)測試，讓GPT-5做柱狀圖。最終跑出來的數(shù)據(jù)和圖表關(guān)系對照沒有錯誤，可見不是模型生成的問題，大概單純是制圖失誤。

除了上述優(yōu)化外，GPT-5還在模型的超長上下文理解、幻覺問題等方面做調(diào)整，一切的努力都是為了讓這個模型能夠更好地落地。

根據(jù)OpenAI給出的數(shù)據(jù)，GPT-5在上下文理解上的處理效果不僅有所提升，并且在文本更長的階段（比如輸入在128-256k長度），可以從圖示看到，GPT-5理解能力下降的速度顯著低于其他模型。再有，GPT-5還顯著降低了幻覺問題，其事實錯誤率比GPT-4o降低了45%，這對于模型應(yīng)用在法律、醫(yī)療等要求精準(zhǔn)的行業(yè)算是利好。

如果從性能上評估，GPT-5雖然能力全面升級，不過顯然不是大眾期待的顛覆式超越。但從性價比上來說，GPT-5給出的價格直接甩了對手一條街。

以標(biāo)準(zhǔn)版的GPT-5來說，和Claude Opus 4.1每百萬Token輸入15美元、輸出75美元的定價相比，前者的輸入價格低于后者的1/10，輸出價格低于后者1/7。

極低的價格，也是OpenAI愿意限量免費開放給所有用戶使用的底氣。目前，免費用戶也可以體驗到GPT-5，不過區(qū)別于付費用戶的不限量開放，前者會在用到一定額度后自動切換為GPT-5-mini模型使用。

此外，針對開發(fā)者使用的不同需求，GPT-5還在API 中引入了新功能，通過控制冗余量（verbosity）的方式，分為低中高三檔，幫助開發(fā)者控制AI生成內(nèi)容的長短。

難坐穩(wěn)的SOTA但價格或許能贏過一切

GPT-5固然在多項能力上刷新了SOTA紀(jì)錄，但這種領(lǐng)先優(yōu)勢，不再是需要長期追趕的鴻溝。

先從本次OpenAI最先喊出的“最強(qiáng)編程模型”來說，領(lǐng)先于Claude Opus 4.1僅0.4%的優(yōu)勢，很有可能在本月被Anthropic趕超。

從去年挖角OpenAI成員，再到部分能力超過OpenAI旗艦?zāi)Ｐ�。Anthropic正處在像之前OpenAI狙擊Google新模型的階段，緊緊追著OpenAI的步伐。

本月，在OpenAI發(fā)布兩個開源模型的當(dāng)天，Anthropic早其十幾分鐘，發(fā)布了小更新版本Claude 4.1。特別是在這家公司還預(yù)告了“大幅度更新模型”即將在本月發(fā)布的情況下，0.4%的微弱差距，很難讓人對OpenAI保持樂觀。

微弱的優(yōu)勢同樣造成了評測口碑的兩極分化。即使OpenAI喊出了最佳編程模型的地位，但在用戶使用體驗的階段，OpenAI還沒有形成一邊倒的優(yōu)勢。

有用戶表示，對比GPT-5和Claude，后者跑出的各個案例都明顯優(yōu)于前者，在UI和前端效果上更佳；也有用戶認(rèn)為，用GPT-5跑出來的代碼效果更精細(xì)。

而GPT-5的面面俱到以及微弱優(yōu)勢，或許還不如前一天Google發(fā)布的視覺生成模型Genie更讓人印象深刻。畢竟每秒24幀已經(jīng)能讓AI跑出來的視頻達(dá)到流暢的效果，畫質(zhì)720p的清晰度也翻越了一倍。

在Anthropic、Google等競爭對手的步步緊逼下，AI領(lǐng)域的“SOTA”寶座，正變得越來越難以坐穩(wěn)，也難以留下深刻印象。

那么，在性能趨同的背景下，AI大模型的競爭將走向何方？OpenAI給出的答案是價格。當(dāng)技術(shù)領(lǐng)先難以形成絕對壁壘時，“價格戰(zhàn)”才是贏得市場的終極武器。

“GPT-5 是我們迄今為止最聰明的模型，但我們主要追求的是實際應(yīng)用價值和大規(guī)模的普及/負(fù)擔(dān)能力。”Altman在X上說，“我們完全可以發(fā)布更智能的模型，而且我們會這樣做，但這個模型將有數(shù)十億人受益。”

通過優(yōu)化成本的方式，OpenAI的價格雖然不能和國內(nèi)便宜大碗的開源模型們比較，不過和一個月讓程序員輕松花掉上千美元的Claude相比，OpenAI能在API端把輸入輸出價格分別拉低到1/10和1/7，其成本優(yōu)勢斷層領(lǐng)先。

這也是為什么發(fā)布會后半場，OpenAI開設(shè)了一個“開發(fā)者專場”，專門面向開發(fā)者群體展示模型的實用能力，并拉來Cursor CEO、Manus的首席科學(xué)家背書，秀自家模型在Agent、Vibe Coding（氛圍式編程）上的效果。

于C端，免費開放的GPT-5將大幅提升之前無法體驗O3等付費模型用戶的使用體驗；于B端，便宜的API也會成為開發(fā)者尋求性價比的考慮。

從GPT-5秘密訓(xùn)練到發(fā)布的一年半之間，OpenAI真正的壁壘已然不再靠越來越短的SOTA紅利支撐，而是變成了價格和模型的落地效果。

當(dāng)成本急劇降低到更普適大眾的節(jié)點，AI應(yīng)用的爆發(fā)，才能指日可待。

原文標(biāo)題 : GPT-5王座難坐穩(wěn)，OpenAI想靠價格贏過一切

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

推薦商品

文｜魏琳華 編｜王一粟

發(fā)表評論

登錄

文｜魏琳華編｜王一粟