91精品免费久久久久久久,天天摸日日添狠狠添婷婷,中文字幕av不卡无码

當(dāng)前位置： OFweek 人工智能網(wǎng) > 計(jì)算機(jī)視覺(jué) > 正文

OpenAI 會(huì)殺死 Manus 們嗎？

2025-07-21 13:53

山上

關(guān)注

“Listen-that's the sound of a great many startups evaporating into the void.”

作者｜薛星星

編輯｜張文

封面｜2001 太空漫游

和三月份發(fā)布文生圖更新一樣，OpenAI 又一次試圖提前結(jié)束 AI Agent 的創(chuàng)業(yè)競(jìng)賽。

北京時(shí)間 7 月 18 日凌晨，OpenAI 發(fā)布 ChatGPT Agent。它可以根據(jù)用戶的指令，自動(dòng)規(guī)劃執(zhí)行步驟，調(diào)用多種工具，并完成從抓取數(shù)據(jù)到生成表格、規(guī)劃行程到預(yù)訂酒店等多環(huán)節(jié)任務(wù)。

OpenAI 推文截圖

這也是目前多數(shù) AI Agent 創(chuàng)業(yè)項(xiàng)目正在嘗試的方向。4 個(gè)月前你在 Manus 那場(chǎng)號(hào)稱首個(gè)通用 AI Agent 宣傳片中看到了什么，ChatGPT Agent 就完成了什么。

OpenAI 創(chuàng)始人山姆·阿爾特曼（Sam Altman）說(shuō)，這是他第一次“真正感受到 AGI（通用人工智能）”。OpenAI 的研究人員則表示，ChatGPT Agent 是目前為止最強(qiáng)的 AI Agent 模型。

——是的，OpenAI 將 ChatGPT Agent 稱為一個(gè)模型，而不是產(chǎn)品。與 Manus 等依賴上下文管理、工具鏈編排的系統(tǒng)不同，OpenAI 訓(xùn)練了一個(gè)專用模型，能夠在單一系統(tǒng)中完成任務(wù)規(guī)劃、跨工具調(diào)用和文檔生成等復(fù)雜流程。該模型目前被歸入 o3 系列，但尚未被單獨(dú)命名。

AI 時(shí)代的創(chuàng)業(yè)者們面臨著比任何歷史時(shí)期都更快速的技術(shù)迭代，一次底層模型更新往往就能毀掉一個(gè)垂直領(lǐng)域的創(chuàng)新產(chǎn)品。

理想汽車創(chuàng)始人李想此前在朋友圈說(shuō)，to C 層面，OpenAI 在內(nèi)的掌握最強(qiáng)基座模型的企業(yè)，不會(huì)留下什么垂直應(yīng)用的創(chuàng)業(yè)空間。“軟件的本質(zhì)是功能，需要場(chǎng)景化、垂直化。人工智能的本質(zhì)是能力，能力強(qiáng)就可以吃掉一切，也是用戶最方便的。”

就連一直高喊 AI 應(yīng)用創(chuàng)新的朱嘯虎也在社交媒體上表示，大模型會(huì)吃掉 90%的 Agent。X 平臺(tái)上也有用戶發(fā)問(wèn)，如果 OpenAI 后續(xù)開(kāi)放 ChatGPT Agent 模型的 API，其他創(chuàng)業(yè)者該如何與其競(jìng)爭(zhēng)？

“Listen-that's the sound of a great many startups evaporating into the void.”（聽(tīng)——那是無(wú)數(shù)初創(chuàng)公司悄然蒸發(fā)的聲音。)

OpenAI 發(fā)布會(huì)視頻下的一條高贊評(píng)論寫道。

Manus 們選擇正面硬剛

至少在目前，Manus 們還沒(méi)有表現(xiàn)出任何退讓跡象。

OpenAI 發(fā)布會(huì)剛結(jié)束，Manus 就在 X 上轉(zhuǎn)發(fā)推文稱，“Welcome to the game.”同屬于華人 AI Agent 創(chuàng)業(yè)公司的 flowith 也轉(zhuǎn)發(fā)強(qiáng)調(diào)，他們?cè)缭谝荒昵熬屯瞥隽?AI Agent 產(chǎn)品。

作為過(guò)去半年最早對(duì)外喊出通用 AI Agent 口號(hào)的創(chuàng)業(yè)公司，Manus 的反應(yīng)要比其他公司強(qiáng)烈得多。發(fā)布會(huì)結(jié)束僅 3 個(gè)小時(shí)，Manus 就一口氣對(duì)外放出了 10 條與 ChatGPT Agent 的對(duì)比測(cè)試，宣稱要和 OpenAI 正面較量。

這些對(duì)比內(nèi)容部分來(lái)自 OpenAI 當(dāng)日展示的演示片段，部分則來(lái)自用戶在社交平臺(tái)上的真實(shí)使用。涵蓋場(chǎng)景包括數(shù)據(jù)整理、路線規(guī)劃、在線購(gòu)物、財(cái)務(wù)分析、餐廳預(yù)訂等，Manus 發(fā)出的測(cè)試結(jié)果幾乎全面占優(yōu)——不僅響應(yīng)更快，也更強(qiáng)調(diào)“任務(wù)完成度”，如表格更整潔、圖示更豐富、PPT 更接近成品。

Manus 發(fā)布的與 ChatGPT Agent 的對(duì)比視頻

比如 OpenAI 演示的“計(jì)劃一次為期三天的棕櫚泉網(wǎng)球之旅”，OpenAI 給出的是一張簡(jiǎn)單的行程表，而 Manus 生成的則是一張帶有目的地風(fēng)格設(shè)計(jì)的行程海報(bào)。

Manus 發(fā)布的測(cè)試對(duì)比

又如分析舊金山市過(guò)去四年的財(cái)務(wù)報(bào)告，OpenAI 輸出的是 Excel 文件，而 Manus 給出的是包含圖表與要點(diǎn)總結(jié)的完整演示文檔。“Manus 完成的是整個(gè)項(xiàng)目，而不僅僅是提供數(shù)據(jù)。”Manus 評(píng)價(jià)說(shuō)。

另一家華人公司 Genspark 的反應(yīng)同樣高調(diào)。創(chuàng)始人景鵬（Eric Jing）在 X 上寫道：“我從未想過(guò)有一天——作為一家只有 24 人的小公司，我們竟然可以領(lǐng)先……領(lǐng)先于 OpenAI。”他表示，用同樣的提示詞，Genspark 的響應(yīng)時(shí)間更短、成本更低，生成結(jié)果的質(zhì)量也“高出好幾倍”。

7 月 19 日，Genspark 也在社交平臺(tái)上分享了 9 個(gè)與 ChatGPT Agent 的對(duì)比實(shí)例，顯示他們輸出的文檔數(shù)據(jù)維度更豐富，排版更加美觀。除了與 Manus 對(duì)比測(cè)試中類似的旅游行程制定、財(cái)務(wù)數(shù)據(jù)分析等案例外，他們還分享了一則視頻生成能力的對(duì)比，指出 ChatGPT Agent 未能完成任務(wù)。

Genspark 分享的視頻生成案例

社交媒體上用戶們的反饋也不如此前 OpenAI 更新文生圖功能那樣強(qiáng)烈。一些批評(píng)聲音指出 ChatGPT Agent 任務(wù)的完成度不高，任務(wù)生成速度也比較緩慢，部分復(fù)雜任務(wù)需要 20 分鐘乃至更長(zhǎng)時(shí)間才能完成。

OpenAI 似乎也意識(shí)到當(dāng)前的 ChatGPT Agent 的速度問(wèn)題，他們拍攝的幾條宣傳視頻里，員工往往在下達(dá)指令后就合上筆記本，等到稍晚再返回查看結(jié)果。

“即便耗時(shí) 15 分鐘或半個(gè)小時(shí)，相比你自己手動(dòng)完成也已經(jīng)是顯著的提速了。”OpenAI 的研究員 Isa Fulford 說(shuō)。她表示，這是一種“可以在后臺(tái)發(fā)起任務(wù)，過(guò)一會(huì)兒再回來(lái)查看結(jié)果”的使用方式，而 OpenAI 的搜索團(tuán)隊(duì)則更專注于低延遲場(chǎng)景。

OpenAI 或許更強(qiáng)調(diào)模型能夠持續(xù)推理和思考的時(shí)間，OpenAI 的研究員張熙堃說(shuō)，ChatGPT Agent 在內(nèi)部測(cè)試中的最長(zhǎng)連續(xù)推理時(shí)間達(dá)到了 2 小時(shí)，“我們應(yīng)該有一個(gè)排行榜來(lái)記錄模型能持續(xù)思考多久。”

針對(duì)外界詬病的生成文檔或 PPT 不夠美觀的問(wèn)題，OpenAI 的研究員們?cè)?X 上建議，先讓 ChatGPT Agent 把研究工作做完，再讓它輸出 PPT 文件。ChatGPT 生成的是標(biāo)準(zhǔn) pptx 格式，用戶也可以在 PowerPoint 中統(tǒng)一套用想要的設(shè)計(jì)模板。

雖然 OpenAI 強(qiáng)調(diào)他們專門為 ChatGPT Agent 訓(xùn)練了專用模型，但部分批評(píng)聲音亦指責(zé)它更像是將此前已經(jīng)推出的 Operator（瀏覽器交互能力）與 Deep Research（深入研究能力）組合在一起的產(chǎn)物。Operator 可以支持 ChatGPT 通過(guò)瀏覽器與網(wǎng)站直接互動(dòng)、閱讀并理解網(wǎng)頁(yè)內(nèi)容，Deep Research 則擅長(zhǎng)分析和總結(jié)信息。

事實(shí)上，ChatGPT Agent 目前團(tuán)隊(duì)成員正是來(lái)自于此前的 Operator 與 Deep Research 部門，目前團(tuán)隊(duì)規(guī)模大約在 20-35 人。OpenAI 對(duì)外表示，ChatGPT Agent 是 Operator 和 Deep Research 功能自然延續(xù)，“我們發(fā)現(xiàn)用戶通過(guò) Operator 嘗試的許多查詢實(shí)際上更適合 Deep Research，因此我們將兩者的優(yōu)勢(shì)結(jié)合在一起。”

OpenAI 表示，這次發(fā)布僅標(biāo)志著他們將智能體功能直接集成到 ChatGPT 中的第一步，他們計(jì)劃定期逐步更新更多功能。

兩種技術(shù)路線

相較于初創(chuàng)公司們過(guò)去半年來(lái)圍繞輸出質(zhì)量和交付體驗(yàn)不斷工程迭代和提示優(yōu)化，OpenAI 剛剛發(fā)布的 ChatGPT Agent 在任務(wù)的最終呈現(xiàn)上可以稱得上是粗糙。

初創(chuàng)公司們?cè)噲D為用戶呈現(xiàn)一個(gè)完成度更高且上手難度更低的 Agent 產(chǎn)品。以 Manus 為例，過(guò)去 2 個(gè)月來(lái)這家公司先后為產(chǎn)品加入了包括 PPT 生成、視頻生成、音頻生成等諸多不同能力，官網(wǎng)還列舉出了諸多現(xiàn)成的模板分享以及用戶案例分享。即便這些能力的實(shí)現(xiàn)都依托于外部模型，但至少在上手難度上，初創(chuàng)公司們都做得比 OpenAI 更好一些。

Manus 官網(wǎng)分享的模板

但拋去這些應(yīng)用體驗(yàn)創(chuàng)新，在基礎(chǔ)模型的能力比拼維度上，ChatGPT Agent 通過(guò)端到端訓(xùn)練的統(tǒng)一模型顯然更有優(yōu)勢(shì)。OpenAI 為 ChatGPT Agent 做了諸多學(xué)術(shù)測(cè)試，部分測(cè)試結(jié)果甚至領(lǐng)先于 OpenAI o3 或 GPT 4o，達(dá)到行業(yè)最高水平。

比如在《人類的最后考試》（Humanity’s Last Exam）評(píng)估中，ChatGPT Agent 取得了取得了41.6%（pass@1）的新高，大約是 OpenAI o3 的兩倍。DSBench 測(cè)試中，ChatGPT Agent 大幅度領(lǐng)先于 GPT-4o，在數(shù)據(jù)分析任務(wù)中的表現(xiàn)更是明顯優(yōu)于人類水平。

Humanity’s Last Exam 測(cè)試結(jié)果

在專門衡量電子表格編輯能力的 SpreadsheetBench 平臺(tái)上，ChatGPT Agent 創(chuàng)下行業(yè)新高，性能較 GPT-4o 領(lǐng)先一倍。OpenAI 稱，在他們的內(nèi)部基準(zhǔn)測(cè)試中，ChatGPT Agent 的能力大致相當(dāng)于 1 至 3 年經(jīng)驗(yàn)的投資銀行分析師水平。

簡(jiǎn)單來(lái)說(shuō)，OpenAI 更強(qiáng)調(diào) ChatGPT Agent 帶來(lái)的底層模型能力的提高，而初創(chuàng)公司們受限于技術(shù)及資金則更傾向于應(yīng)用創(chuàng)新。

7 月 19 日凌晨，Manus 聯(lián)合創(chuàng)始人季逸超發(fā)文稱，Manus 仍將繼續(xù)押注于上下文工程（in-context learning）而非端到端智能體。

他說(shuō)，早在 Mannus 項(xiàng)目初期，他們就在思考是使用開(kāi)源模型訓(xùn)練一個(gè)端到端的智能體，還是基于前沿模型的上下文學(xué)習(xí)能力構(gòu)建智能體。GPT-3 等模型的出現(xiàn)讓他們意識(shí)到，上下文工程才是正確的方向，因?yàn)檫@些模型的能力遠(yuǎn)高于他們此前的內(nèi)部模型。

“如果模型進(jìn)步是上漲的潮水，我們希望 Manus 成為那條船，而不是固定在海床上的柱子。”季逸超說(shuō)，這可以使他們能夠在幾小時(shí)而非幾周內(nèi)交付改進(jìn)，并始終讓他免費(fèi)產(chǎn)品與底層面模型保持正交。

他在這篇技術(shù)文檔中分享了不少 Manus 在上下文工程上的經(jīng)驗(yàn)，比如需要圍繞 KV 緩存進(jìn)行設(shè)計(jì)、要使用系統(tǒng)文件作為上下文等等。這些工程創(chuàng)新顯著提升了 Manus 的響應(yīng)速度以及成本優(yōu)勢(shì)。

季逸超舉例，使用 KV 緩存可以大幅度提升首個(gè) token 的生成時(shí)間和推理成本，例如使用 Claude Sonnet 時(shí)，緩存的輸入 token 成本比未緩存的成本降低 10 倍。

季逸超分享的技術(shù)文檔

上下文工程的創(chuàng)新的確也可以使智能體擁有更好的性能效果。非盈利人工智能研究機(jī)構(gòu) Epoch AI 測(cè)試了 ChatGPT Agent 在 FrontierMath 數(shù)學(xué)試題集中的表現(xiàn)，稱 ChatGPT Agent 在 Tier 1-3 的數(shù)學(xué)題上只得到了 27% 的正確率，且難度越高得分越低。

但當(dāng)每道題允許 ChatGPT Agent 嘗試 16 次之后，它的得分就從 27% 大幅度提升至 49%。Epoch AI 說(shuō)，這表明更好的更好的提示詞設(shè)計(jì)（prompting）或任務(wù)結(jié)構(gòu)支持（scaffolding），可能會(huì)顯著提升當(dāng)前模型的性能。

Epoch AI 測(cè)試結(jié)果

換句話說(shuō)，即便是相同的模型，創(chuàng)業(yè)公司們依然可以通過(guò)更好的提示工程與上下文設(shè)計(jì)，來(lái)達(dá)到遠(yuǎn)超基準(zhǔn)模型的效果。

“你如何塑造上下文最終決定了你的智能體的行為方式：它運(yùn)行的速度、恢復(fù)的效果以及擴(kuò)展的范圍。”季逸超說(shuō)。

如何與 Agent 的未來(lái)共處

ChatGPT Agent 的正式推出，標(biāo)志著 AI Agent 正式進(jìn)入巨頭博弈的時(shí)代。它帶給人類的社會(huì)的影響不會(huì)比大模型爆發(fā)之初的影響小，讓 AI 搶奪人類工作真正成了現(xiàn)實(shí)。

這種改變已經(jīng)在悄然發(fā)生。微軟和亞馬遜等科技巨頭們都在密集裁員，微軟 CEO 薩蒂亞·納德拉今年初表示，微軟 20% 到 30% 的代碼都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就對(duì)外宣布，他們的 AI Agent 僅投入使用一個(gè)月，就處理了公司 2/3 的客服聊天工作，相當(dāng)于 700 名全職人工客服的工作量。

市場(chǎng)研究機(jī)構(gòu) MarketsandMarkets 表示，全球的 AI Agent 市場(chǎng)將從 2024 年的 51 億美元增長(zhǎng)至 2030 年的 471 億美元，年均復(fù)合增長(zhǎng)率（CAGR）達(dá) 44.8%。Deloitte 預(yù)測(cè)，到 2025 年，使用生成式 AI 的公司將有 25% 開(kāi)始試點(diǎn)智能體，到 2027 年將增長(zhǎng)至 50%。

AI Agent 的快速應(yīng)用也讓行業(yè)人士產(chǎn)生擔(dān)憂。和過(guò)去大模型僅僅只是提供信息不同，AI Agent 真正具備了從思考到行動(dòng)的完整能力。比如 ChatGPT Agent 現(xiàn)在已經(jīng)可以訪問(wèn)網(wǎng)站幫助用戶下單購(gòu)物、自動(dòng)填寫信用卡地址，也可以訪問(wèn)用戶的日歷、電子郵件、云盤等隱私信息。對(duì)于使用 AI Agent 的人們來(lái)說(shuō)，這意味著他們將自己的私人信息交給了一個(gè)“黑盒”，也更容易受到攻擊。

發(fā)布會(huì)上，OpenAI 也專門強(qiáng)調(diào)了 ChatGPT Agent 的風(fēng)險(xiǎn)。他們強(qiáng)調(diào)，ChatGPT Agent 在執(zhí)行所有重要操作前都會(huì)征得用戶同意，“用戶始終擁有控制權(quán)。”同時(shí)，OpenAI 還加入了包括主動(dòng)監(jiān)督（Watch Mode）、主動(dòng)風(fēng)險(xiǎn)緩解（Proactive risk mitigation）等安全措施。

OpenAI 發(fā)布的聲明

山姆·阿爾特曼在 ChatGPT Agent 推出后專門發(fā)布長(zhǎng)篇推文警告用戶，要求用戶審慎地使用 ChatGPT Agent。

“Agent 代表著 AI 系統(tǒng)能力的新高度，它可以用自己的計(jì)算機(jī)完成一些令人驚嘆且復(fù)雜的任務(wù)。它融合了 Deep Research（深度研究）和 Operator（任務(wù)執(zhí)行者）的理念，但遠(yuǎn)比這些字面描述更強(qiáng)大 —— 它可以長(zhǎng)時(shí)間思考，使用各種工具，再繼續(xù)思考，再采取行動(dòng)，如此往復(fù)。”山姆·阿爾特曼說(shuō)。

山姆表示，雖然他們還不確定這些影響具體是什么，但也許會(huì)有人試圖惡意“欺騙” 用戶的 AI Agent，使其提供不應(yīng)該提供的隱私信息，并做出無(wú)法預(yù)測(cè)的不當(dāng)操作。“我們建議用戶只授予 Agent 完成任務(wù)所必需的最低限度訪問(wèn)權(quán)限，以降低隱私和安全風(fēng)險(xiǎn)。”山姆強(qiáng)調(diào)，他不會(huì)將 ChatGPT Agent 用于高風(fēng)險(xiǎn)的用戶或涉及大量個(gè)人信息的場(chǎng)景。

但對(duì)于已經(jīng)演變成了一家商業(yè)盈利公司的 OpenAI 來(lái)說(shuō)，它并不會(huì)因?yàn)殡[私或者安全風(fēng)險(xiǎn)而減緩 AI Agent 迭代的步伐。

在 ChatGPT Agent 推出之前，《金融時(shí)報(bào)》就報(bào)道稱 OpenAI 正計(jì)劃在 ChatGPT 中開(kāi)發(fā)支付結(jié)賬系統(tǒng)，通過(guò) ChatGPT 完成訂單的商家需要向 OpenAI 支付傭金�！督鹑跁r(shí)報(bào)》稱，OpenAI 已經(jīng)向部分合作伙伴電商平臺(tái) Shopify 等展示了系統(tǒng)的早期版本。