訂閱
糾錯(cuò)
加入自媒體

OpenAI發(fā)布最強(qiáng)AI模型!

沒(méi)等來(lái)GPT-5,卻等來(lái)了OpenAI悄悄發(fā)布的「o3-pro」。

我們一起看看這個(gè)聲稱 “最強(qiáng)AI模型” 的o3-pro,有哪些亮點(diǎn)?適合哪些人使用?

1 什么是o3-pro?

簡(jiǎn)單來(lái)說(shuō),o3-pro是o3推理模型的加強(qiáng)版。官方介紹它是目前推理能力最強(qiáng)的一代。

具體來(lái)說(shuō),o3-pro是專門為復(fù)雜問(wèn)題設(shè)計(jì)的:它不追求快,而是強(qiáng)調(diào)“想得清楚”。像數(shù)學(xué)、科學(xué)、編程、寫作、教育類任務(wù),它處理得更有條理,輸出內(nèi)容更準(zhǔn)確、結(jié)構(gòu)更清晰。 

2 性能表現(xiàn)亮眼

先來(lái)上成績(jī)單。

在專家評(píng)估中,o3-pro比o3得到了更多認(rèn)可。

在OpenAI內(nèi)部的測(cè)試數(shù)據(jù)中,o3-pro表現(xiàn)相當(dāng)亮眼:

在數(shù)學(xué)測(cè)試AIME 2024中,超過(guò)了谷歌的 Gemini 2.5 Pro。

在GPQA Diamond(博士級(jí)科學(xué)知識(shí)評(píng)測(cè))中,勝過(guò)了Anthropic家的 Claude 4 Opus。

在編程測(cè)試Codeforces中,也比前代模型有了不小的提升。

這些測(cè)試都是針對(duì)邏輯嚴(yán)謹(jǐn)性和知識(shí)深度的高難度評(píng)估。能在這里脫穎而出,確實(shí)說(shuō)明了OpenAI在思考推理能力上的進(jìn)步。 

此外,OpenAI還用 “4/4可靠性評(píng)估” 來(lái)證明了o3-pro的可靠性(4次回答全部正確才被視為成功)。

3 價(jià)格如何?

來(lái)看下API調(diào)用的價(jià)格:

輸入:$20/百萬(wàn)token

輸出:$80/百萬(wàn)token

相較于普通o3,價(jià)格貴了10倍......

4 最強(qiáng)也有局限性

再?gòu)?qiáng)的模型,也不是十全十美。

OpenAI列出了目前o3-pro存在的一些局限:

速度比前代慢,輸出時(shí)間更長(zhǎng);

暫不支持圖像生成;

暫時(shí)不兼容Canvas功能;

ChatGPT中無(wú)法使用“臨時(shí)對(duì)話”功能。

不過(guò)這些問(wèn)題對(duì)大多數(shù)文字為主的使用場(chǎng)景來(lái)說(shuō),影響不大。但如果你要的是深度和準(zhǔn)確性,那就得接受慢工出細(xì)活兒。

目前,o3-pro已經(jīng)面向ChatGPT Pro和Team用戶開(kāi)放,企業(yè)和教育用戶下周可用。

如果你日常對(duì)AI回答的質(zhì)量、準(zhǔn)確率有較高要求,不妨試試看。

       原文標(biāo)題 : OpenAI發(fā)布最強(qiáng)AI模型!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)