OpenAI 會殺死 Manus 們嗎?
“Listen-that's the sound of a great many startups evaporating into the void.”
作者|薛星星
編輯|張文
封面|2001 太空漫游
和三月份發(fā)布文生圖更新一樣,OpenAI 又一次試圖提前結(jié)束 AI Agent 的創(chuàng)業(yè)競賽。
北京時間 7 月 18 日凌晨,OpenAI 發(fā)布 ChatGPT Agent。它可以根據(jù)用戶的指令,自動規(guī)劃執(zhí)行步驟,調(diào)用多種工具,并完成從抓取數(shù)據(jù)到生成表格、規(guī)劃行程到預(yù)訂酒店等多環(huán)節(jié)任務(wù)。
OpenAI 推文截圖
這也是目前多數(shù) AI Agent 創(chuàng)業(yè)項目正在嘗試的方向。4 個月前你在 Manus 那場號稱首個通用 AI Agent 宣傳片中看到了什么,ChatGPT Agent 就完成了什么。
OpenAI 創(chuàng)始人山姆·阿爾特曼(Sam Altman)說,這是他第一次“真正感受到 AGI(通用人工智能)”。OpenAI 的研究人員則表示,ChatGPT Agent 是目前為止最強的 AI Agent 模型。
——是的,OpenAI 將 ChatGPT Agent 稱為一個模型,而不是產(chǎn)品。與 Manus 等依賴上下文管理、工具鏈編排的系統(tǒng)不同,OpenAI 訓練了一個專用模型,能夠在單一系統(tǒng)中完成任務(wù)規(guī)劃、跨工具調(diào)用和文檔生成等復雜流程。該模型目前被歸入 o3 系列,但尚未被單獨命名。
AI 時代的創(chuàng)業(yè)者們面臨著比任何歷史時期都更快速的技術(shù)迭代,一次底層模型更新往往就能毀掉一個垂直領(lǐng)域的創(chuàng)新產(chǎn)品。
理想汽車創(chuàng)始人李想此前在朋友圈說,to C 層面,OpenAI 在內(nèi)的掌握最強基座模型的企業(yè),不會留下什么垂直應(yīng)用的創(chuàng)業(yè)空間。“軟件的本質(zhì)是功能,需要場景化、垂直化。人工智能的本質(zhì)是能力,能力強就可以吃掉一切,也是用戶最方便的。”
就連一直高喊 AI 應(yīng)用創(chuàng)新的朱嘯虎也在社交媒體上表示,大模型會吃掉 90%的 Agent。X 平臺上也有用戶發(fā)問,如果 OpenAI 后續(xù)開放 ChatGPT Agent 模型的 API,其他創(chuàng)業(yè)者該如何與其競爭?
“Listen-that's the sound of a great many startups evaporating into the void.”(聽——那是無數(shù)初創(chuàng)公司悄然蒸發(fā)的聲音。)
OpenAI 發(fā)布會視頻下的一條高贊評論寫道。
Manus 們選擇正面硬剛
至少在目前,Manus 們還沒有表現(xiàn)出任何退讓跡象。
OpenAI 發(fā)布會剛結(jié)束,Manus 就在 X 上轉(zhuǎn)發(fā)推文稱,“Welcome to the game.”同屬于華人 AI Agent 創(chuàng)業(yè)公司的 flowith 也轉(zhuǎn)發(fā)強調(diào),他們早在一年前就推出了 AI Agent 產(chǎn)品。
作為過去半年最早對外喊出通用 AI Agent 口號的創(chuàng)業(yè)公司,Manus 的反應(yīng)要比其他公司強烈得多。發(fā)布會結(jié)束僅 3 個小時,Manus 就一口氣對外放出了 10 條與 ChatGPT Agent 的對比測試,宣稱要和 OpenAI 正面較量。
這些對比內(nèi)容部分來自 OpenAI 當日展示的演示片段,部分則來自用戶在社交平臺上的真實使用。涵蓋場景包括數(shù)據(jù)整理、路線規(guī)劃、在線購物、財務(wù)分析、餐廳預(yù)訂等,Manus 發(fā)出的測試結(jié)果幾乎全面占優(yōu)——不僅響應(yīng)更快,也更強調(diào)“任務(wù)完成度”,如表格更整潔、圖示更豐富、PPT 更接近成品。
Manus 發(fā)布的與 ChatGPT Agent 的對比視頻
比如 OpenAI 演示的“計劃一次為期三天的棕櫚泉網(wǎng)球之旅”,OpenAI 給出的是一張簡單的行程表,而 Manus 生成的則是一張帶有目的地風格設(shè)計的行程海報。
Manus 發(fā)布的測試對比
又如分析舊金山市過去四年的財務(wù)報告,OpenAI 輸出的是 Excel 文件,而 Manus 給出的是包含圖表與要點總結(jié)的完整演示文檔。“Manus 完成的是整個項目,而不僅僅是提供數(shù)據(jù)。”Manus 評價說。
另一家華人公司 Genspark 的反應(yīng)同樣高調(diào)。創(chuàng)始人景鵬(Eric Jing)在 X 上寫道:“我從未想過有一天——作為一家只有 24 人的小公司,我們竟然可以領(lǐng)先……領(lǐng)先于 OpenAI。”他表示,用同樣的提示詞,Genspark 的響應(yīng)時間更短、成本更低,生成結(jié)果的質(zhì)量也“高出好幾倍”。
7 月 19 日,Genspark 也在社交平臺上分享了 9 個與 ChatGPT Agent 的對比實例,顯示他們輸出的文檔數(shù)據(jù)維度更豐富,排版更加美觀。除了與 Manus 對比測試中類似的旅游行程制定、財務(wù)數(shù)據(jù)分析等案例外,他們還分享了一則視頻生成能力的對比,指出 ChatGPT Agent 未能完成任務(wù)。
Genspark 分享的視頻生成案例
社交媒體上用戶們的反饋也不如此前 OpenAI 更新文生圖功能那樣強烈。一些批評聲音指出 ChatGPT Agent 任務(wù)的完成度不高,任務(wù)生成速度也比較緩慢,部分復雜任務(wù)需要 20 分鐘乃至更長時間才能完成。
OpenAI 似乎也意識到當前的 ChatGPT Agent 的速度問題,他們拍攝的幾條宣傳視頻里,員工往往在下達指令后就合上筆記本,等到稍晚再返回查看結(jié)果。
“即便耗時 15 分鐘或半個小時,相比你自己手動完成也已經(jīng)是顯著的提速了。”OpenAI 的研究員 Isa Fulford 說。她表示,這是一種“可以在后臺發(fā)起任務(wù),過一會兒再回來查看結(jié)果”的使用方式,而 OpenAI 的搜索團隊則更專注于低延遲場景。
OpenAI 或許更強調(diào)模型能夠持續(xù)推理和思考的時間,OpenAI 的研究員張熙堃說,ChatGPT Agent 在內(nèi)部測試中的最長連續(xù)推理時間達到了 2 小時,“我們應(yīng)該有一個排行榜來記錄模型能持續(xù)思考多久。”
針對外界詬病的生成文檔或 PPT 不夠美觀的問題,OpenAI 的研究員們在 X 上建議,先讓 ChatGPT Agent 把研究工作做完,再讓它輸出 PPT 文件。ChatGPT 生成的是標準 pptx 格式,用戶也可以在 PowerPoint 中統(tǒng)一套用想要的設(shè)計模板。
雖然 OpenAI 強調(diào)他們專門為 ChatGPT Agent 訓練了專用模型,但部分批評聲音亦指責它更像是將此前已經(jīng)推出的 Operator(瀏覽器交互能力)與 Deep Research(深入研究能力)組合在一起的產(chǎn)物。Operator 可以支持 ChatGPT 通過瀏覽器與網(wǎng)站直接互動、閱讀并理解網(wǎng)頁內(nèi)容,Deep Research 則擅長分析和總結(jié)信息。
事實上,ChatGPT Agent 目前團隊成員正是來自于此前的 Operator 與 Deep Research 部門,目前團隊規(guī)模大約在 20-35 人。OpenAI 對外表示,ChatGPT Agent 是 Operator 和 Deep Research 功能自然延續(xù),“我們發(fā)現(xiàn)用戶通過 Operator 嘗試的許多查詢實際上更適合 Deep Research,因此我們將兩者的優(yōu)勢結(jié)合在一起。”
OpenAI 表示,這次發(fā)布僅標志著他們將智能體功能直接集成到 ChatGPT 中的第一步,他們計劃定期逐步更新更多功能。
兩種技術(shù)路線
相較于初創(chuàng)公司們過去半年來圍繞輸出質(zhì)量和交付體驗不斷工程迭代和提示優(yōu)化,OpenAI 剛剛發(fā)布的 ChatGPT Agent 在任務(wù)的最終呈現(xiàn)上可以稱得上是粗糙。
初創(chuàng)公司們試圖為用戶呈現(xiàn)一個完成度更高且上手難度更低的 Agent 產(chǎn)品。以 Manus 為例,過去 2 個月來這家公司先后為產(chǎn)品加入了包括 PPT 生成、視頻生成、音頻生成等諸多不同能力,官網(wǎng)還列舉出了諸多現(xiàn)成的模板分享以及用戶案例分享。即便這些能力的實現(xiàn)都依托于外部模型,但至少在上手難度上,初創(chuàng)公司們都做得比 OpenAI 更好一些。
Manus 官網(wǎng)分享的模板
但拋去這些應(yīng)用體驗創(chuàng)新,在基礎(chǔ)模型的能力比拼維度上,ChatGPT Agent 通過端到端訓練的統(tǒng)一模型顯然更有優(yōu)勢。OpenAI 為 ChatGPT Agent 做了諸多學術(shù)測試,部分測試結(jié)果甚至領(lǐng)先于 OpenAI o3 或 GPT 4o,達到行業(yè)最高水平。
比如在《人類的最后考試》(Humanity’s Last Exam)評估中,ChatGPT Agent 取得了取得了41.6%(pass@1)的新高,大約是 OpenAI o3 的兩倍。DSBench 測試中,ChatGPT Agent 大幅度領(lǐng)先于 GPT-4o,在數(shù)據(jù)分析任務(wù)中的表現(xiàn)更是明顯優(yōu)于人類水平。
Humanity’s Last Exam 測試結(jié)果
在專門衡量電子表格編輯能力的 SpreadsheetBench 平臺上,ChatGPT Agent 創(chuàng)下行業(yè)新高,性能較 GPT-4o 領(lǐng)先一倍。OpenAI 稱,在他們的內(nèi)部基準測試中,ChatGPT Agent 的能力大致相當于 1 至 3 年經(jīng)驗的投資銀行分析師水平。
簡單來說,OpenAI 更強調(diào) ChatGPT Agent 帶來的底層模型能力的提高,而初創(chuàng)公司們受限于技術(shù)及資金則更傾向于應(yīng)用創(chuàng)新。
7 月 19 日凌晨,Manus 聯(lián)合創(chuàng)始人季逸超發(fā)文稱,Manus 仍將繼續(xù)押注于上下文工程(in-context learning)而非端到端智能體。
他說,早在 Mannus 項目初期,他們就在思考是使用開源模型訓練一個端到端的智能體,還是基于前沿模型的上下文學習能力構(gòu)建智能體。GPT-3 等模型的出現(xiàn)讓他們意識到,上下文工程才是正確的方向,因為這些模型的能力遠高于他們此前的內(nèi)部模型。
“如果模型進步是上漲的潮水,我們希望 Manus 成為那條船,而不是固定在海床上的柱子。”季逸超說,這可以使他們能夠在幾小時而非幾周內(nèi)交付改進,并始終讓他免費產(chǎn)品與底層面模型保持正交。
他在這篇技術(shù)文檔中分享了不少 Manus 在上下文工程上的經(jīng)驗,比如需要圍繞 KV 緩存進行設(shè)計、要使用系統(tǒng)文件作為上下文等等。這些工程創(chuàng)新顯著提升了 Manus 的響應(yīng)速度以及成本優(yōu)勢。
季逸超舉例,使用 KV 緩存可以大幅度提升首個 token 的生成時間和推理成本,例如使用 Claude Sonnet 時,緩存的輸入 token 成本比未緩存的成本降低 10 倍。
季逸超分享的技術(shù)文檔
上下文工程的創(chuàng)新的確也可以使智能體擁有更好的性能效果。非盈利人工智能研究機構(gòu) Epoch AI 測試了 ChatGPT Agent 在 FrontierMath 數(shù)學試題集中的表現(xiàn),稱 ChatGPT Agent 在 Tier 1-3 的數(shù)學題上只得到了 27% 的正確率,且難度越高得分越低。
但當每道題允許 ChatGPT Agent 嘗試 16 次之后,它的得分就從 27% 大幅度提升至 49%。Epoch AI 說,這表明更好的更好的提示詞設(shè)計(prompting)或任務(wù)結(jié)構(gòu)支持(scaffolding),可能會顯著提升當前模型的性能。
Epoch AI 測試結(jié)果
“你如何塑造上下文最終決定了你的智能體的行為方式:它運行的速度、恢復的效果以及擴展的范圍。”季逸超說。
如何與 Agent 的未來共處
ChatGPT Agent 的正式推出,標志著 AI Agent 正式進入巨頭博弈的時代。它帶給人類的社會的影響不會比大模型爆發(fā)之初的影響小,讓 AI 搶奪人類工作真正成了現(xiàn)實。
這種改變已經(jīng)在悄然發(fā)生。微軟和亞馬遜等科技巨頭們都在密集裁員,微軟 CEO 薩蒂亞·納德拉今年初表示,微軟 20% 到 30% 的代碼都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就對外宣布,他們的 AI Agent 僅投入使用一個月,就處理了公司 2/3 的客服聊天工作,相當于 700 名全職人工客服的工作量。
市場研究機構(gòu) MarketsandMarkets 表示,全球的 AI Agent 市場將從 2024 年的 51 億美元增長至 2030 年的 471 億美元,年均復合增長率(CAGR)達 44.8%。Deloitte 預(yù)測,到 2025 年,使用生成式 AI 的公司將有 25% 開始試點智能體,到 2027 年將增長至 50%。
AI Agent 的快速應(yīng)用也讓行業(yè)人士產(chǎn)生擔憂。和過去大模型僅僅只是提供信息不同,AI Agent 真正具備了從思考到行動的完整能力。比如 ChatGPT Agent 現(xiàn)在已經(jīng)可以訪問網(wǎng)站幫助用戶下單購物、自動填寫信用卡地址,也可以訪問用戶的日歷、電子郵件、云盤等隱私信息。對于使用 AI Agent 的人們來說,這意味著他們將自己的私人信息交給了一個“黑盒”,也更容易受到攻擊。
發(fā)布會上,OpenAI 也專門強調(diào)了 ChatGPT Agent 的風險。他們強調(diào),ChatGPT Agent 在執(zhí)行所有重要操作前都會征得用戶同意,“用戶始終擁有控制權(quán)。”同時,OpenAI 還加入了包括主動監(jiān)督(Watch Mode)、主動風險緩解(Proactive risk mitigation)等安全措施。
OpenAI 發(fā)布的聲明
山姆·阿爾特曼在 ChatGPT Agent 推出后專門發(fā)布長篇推文警告用戶,要求用戶審慎地使用 ChatGPT Agent。
“Agent 代表著 AI 系統(tǒng)能力的新高度,它可以用自己的計算機完成一些令人驚嘆且復雜的任務(wù)。它融合了 Deep Research(深度研究)和 Operator(任務(wù)執(zhí)行者)的理念,但遠比這些字面描述更強大 —— 它可以長時間思考,使用各種工具,再繼續(xù)思考,再采取行動,如此往復。”山姆·阿爾特曼說。
山姆表示,雖然他們還不確定這些影響具體是什么,但也許會有人試圖惡意“欺騙” 用戶的 AI Agent,使其提供不應(yīng)該提供的隱私信息,并做出無法預(yù)測的不當操作。“我們建議用戶只授予 Agent 完成任務(wù)所必需的最低限度訪問權(quán)限,以降低隱私和安全風險。”山姆強調(diào),他不會將 ChatGPT Agent 用于高風險的用戶或涉及大量個人信息的場景。
但對于已經(jīng)演變成了一家商業(yè)盈利公司的 OpenAI 來說,它并不會因為隱私或者安全風險而減緩 AI Agent 迭代的步伐。
在 ChatGPT Agent 推出之前,《金融時報》就報道稱 OpenAI 正計劃在 ChatGPT 中開發(fā)支付結(jié)賬系統(tǒng),通過 ChatGPT 完成訂單的商家需要向 OpenAI 支付傭金!督鹑跁r報》稱,OpenAI 已經(jīng)向部分合作伙伴電商平臺 Shopify 等展示了系統(tǒng)的早期版本。
原文標題 : OpenAI 會殺死 Manus 們嗎?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
7月31日免費預(yù)約>> OFweek 2025 具身機器人動力電池技術(shù)應(yīng)用大會
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
推薦專題
-
10 AI浪潮新一輪行情的拐點