亚洲人成色99999在线观看,日本任你躁免费精品视频2

當(dāng)前位置： OFweek 人工智能網(wǎng) > 自然語言處理 > 正文

終極“打工人”誕生：OpenAI發(fā)布ChatGPT Agent，重新定義生產(chǎn)力邊界

2025-07-21 13:38

智能進(jìn)化論

關(guān)注

發(fā)布會(huì).png

當(dāng)Agent能夠完成復(fù)雜任務(wù)，我們需要學(xué)習(xí)如何與這個(gè)星球上最聰明的“打工人”共事。

作者 | 小葳

AI Agent的時(shí)代，比所有人預(yù)想的，來得更早、更猛烈。

北京時(shí)間7月18日凌晨，科技圈再次被OpenAI投下的一枚重磅炸彈引爆。沒有冗長的預(yù)熱，沒有華麗的舞臺(tái)，Sam Altman和他的團(tuán)隊(duì)通過一場(chǎng)25分鐘的發(fā)布會(huì)直播，推出ChatGPT Agent。

這不再是我們熟悉的那個(gè)“聊天機(jī)器人”，它是一個(gè)擁有了自己的虛擬電腦、能夠自主思考、規(guī)劃并執(zhí)行復(fù)雜任務(wù)的“行動(dòng)者”。

當(dāng)看到ChatGPT Agent熟練地打開瀏覽器、分析網(wǎng)頁、調(diào)用API、生成PPT、制作表格時(shí)，Sam Altman在直播中坦言：“對(duì)我來說，在觀看它工作時(shí)，這是最讓我感受到AGI的時(shí)刻之一。”

看完發(fā)布會(huì)，令人印象深刻的有三個(gè)方面：

第一，面對(duì)多目標(biāo)的復(fù)雜任務(wù)，ChatGPT Agent雖然耗時(shí)長一些，但完成度很高；

第二， ChatGPT Agent可以隨時(shí)被打斷，人類用戶可以隨時(shí)補(bǔ)充信息和指導(dǎo)，或增加新任務(wù)，人機(jī)協(xié)作的體驗(yàn)更加凸顯；

第三，Agent通過自己專屬的虛擬計(jì)算機(jī)完成所有任務(wù)，并將執(zhí)行任務(wù)過程可視化實(shí)時(shí)展現(xiàn)，用戶可以回放視頻查看Agent每一步動(dòng)作。

從“能聊”到“能干”：

統(tǒng)一智能體，OpenAI的必然一步

ChatGPT Agent的誕生并非憑空而來，它是OpenAI在智能體（Agent）道路上不斷積累的必然結(jié)果。今年早些時(shí)候，OpenAI陸續(xù)推出了兩個(gè)重磅工具：Deep Research和 Operator。

然而，這兩個(gè)工具如同兩個(gè)“偏科生”。Deep Research擅長長文閱讀，卻無法與需要登錄、交互的網(wǎng)頁打交道；Operator擅長處理交互式與可視化的網(wǎng)頁，卻在深度分析和長文閱讀方面力不從心。而許多真實(shí)世界的復(fù)雜任務(wù)，恰恰需要二者能力的結(jié)合。

正如Sam Altman在發(fā)布會(huì)上所說：“人們想要一個(gè)統(tǒng)一的智能體，它能自主運(yùn)行，使用它自己的電腦，幫助人們完成真正復(fù)雜的任務(wù)。它能夠無縫地切換，從思考到采取行動(dòng)。它能使用各種工具，比如調(diào)用終端、在網(wǎng)頁上點(diǎn)擊操作，甚至能生成電子表格、幻燈片等文件，以及具備更多功能。”

ChatGPT Agent正是兩者“強(qiáng)強(qiáng)聯(lián)合”的實(shí)現(xiàn)，它融合了Deep Research的分析能力和Operator的執(zhí)行能力，相當(dāng)于賦予了Agent“大腦”和“雙手”。

真正完成復(fù)雜任務(wù)：

自主選擇工具，可視化執(zhí)行過程

發(fā)布會(huì)上演示的第一個(gè)demo是一個(gè)多目標(biāo)的復(fù)雜任務(wù)，用戶9月份要出席朋友婚禮，需要準(zhǔn)備服裝、禮物、預(yù)訂酒店等一攬子事情，用戶把這些需求一股腦拋給Agent：

- 一套與所有場(chǎng)合的著裝要求相匹配的服裝（男士）。

- 提出五個(gè)服裝選項(xiàng)。選擇一些輕奢檔次的服裝，并應(yīng)與場(chǎng)地和天氣相配

- 找到那些兩端都有幾天緩沖期的酒店。

- 使用Booking進(jìn)行預(yù)訂，并務(wù)必檢查可用性和當(dāng)前價(jià)格。

- 同樣別忘了為新人挑選一件禮物，價(jià)格最好在500美元以內(nèi)。

Agent確認(rèn)關(guān)鍵需求后就開始工作。整個(gè)任務(wù)完成花費(fèi)了20分鐘左右，在發(fā)布會(huì)最后，提供了完善的方案。5件服裝備選直接提供了價(jià)格對(duì)比和購買鏈接。

當(dāng)用戶提出新增要求，安排一個(gè)包括美國職業(yè)棒球聯(lián)盟（MLB）所有運(yùn)動(dòng)球場(chǎng)參觀的旅行計(jì)劃時(shí)，Agent直接給出精確到天的Excel行程表格。

Agent所有動(dòng)作都是通過專屬虛擬電腦完成，這臺(tái)電腦上安裝了很多不同的工具，Agent能自行選擇如何使用。

同時(shí)，Agent將它執(zhí)行任務(wù)的全過程展示為一個(gè)可視化的電腦屏幕，并在不斷變化的對(duì)話框中顯示文本形式的思維鏈過程，也就是Agent在想什么，它決定下一步做什么。

揭秘Agent的工作臺(tái)：

一臺(tái)虛擬電腦和它的工具集

要理解ChatGPT Agent的強(qiáng)大，首先要看它的“工作臺(tái)”——一臺(tái)專屬的虛擬電腦。在這個(gè)工作臺(tái)上，集成了一些強(qiáng)大的工具：

文本瀏覽器 (Text Browser)：和Deep Research工具類似，它能快速抓取和解析大量網(wǎng)頁的文本內(nèi)容，進(jìn)行高效的搜索和信息提煉，這讓它能夠非常高效快速閱讀大量網(wǎng)頁并進(jìn)行搜索，是Agent高效處理信息的“利器”。

可視化瀏覽器 (Visual Browser)：和operator工具類似，這是Agent的“眼睛”和“手”。讓Agent能像人一樣“看”到網(wǎng)頁的圖形界面，進(jìn)行點(diǎn)擊、

滾動(dòng)、拖拽、填寫表單等操作，輕松應(yīng)對(duì)為人類設(shè)計(jì)的復(fù)雜交互界面。

終端 (Terminal)和API，通過與終端的連接，Agent可以運(yùn)行代碼、進(jìn)行復(fù)雜的數(shù)據(jù)分析、處理文件，甚至直接生成可編輯的PowerPoint演示文稿和Excel電子表格。發(fā)布會(huì)演示中，Agent自行編寫代碼編譯幻燈片，并調(diào)用圖像API美化頁面的場(chǎng)景，令人印象深刻。

通過API，Agent能夠調(diào)用外部服務(wù)。包括公共API，以及用于訪問你私有數(shù)據(jù)源的API，比如谷歌云端硬盤，谷歌日歷，github，sharepoint等等。

擁有工具是一回事，懂得何時(shí)使用何種工具，則是更高維度的智能。OpenAI通過強(qiáng)化學(xué)習(xí)（Reinforcement Learning）的訓(xùn)練方式，學(xué)會(huì)在面對(duì)復(fù)雜任務(wù)時(shí)，自主規(guī)劃并智能地選擇最優(yōu)工具組合。

比如，當(dāng)被要求預(yù)訂餐廳時(shí)，Agent可能會(huì)先用文本瀏覽器進(jìn)行海量篩選，然后切換到可視化瀏覽器查看菜品圖片，最后確認(rèn)空位并完成預(yù)訂。

從“指令-響應(yīng)”到“委托-協(xié)作”：

人機(jī)協(xié)作的全新體驗(yàn)

如果說完成復(fù)雜任務(wù)是ChatGPT Agent的“硬實(shí)力”，那么其高度協(xié)作的交互模式則是它的“軟實(shí)力”，也是它與其他AI工具顯著區(qū)別。

過去，我們與AI的交互是僵硬的。一旦任務(wù)下達(dá)，我們能做的只有等待。而ChatGPT Agent被設(shè)計(jì)成一個(gè)真正的“協(xié)作伙伴”。

用戶和智能體隨時(shí)都能夠主動(dòng)與對(duì)方溝通，是ChatGPT Agent重要的交互理念。在ChatGPT Agent執(zhí)行任務(wù)的任何時(shí)刻，用戶都可以隨時(shí)“插話”：

“Agent模型的一個(gè)關(guān)鍵能力是能夠被隨時(shí)打斷，就像是在進(jìn)行多輪對(duì)話。用戶可以插話，引導(dǎo)它。”ChatGPT Agent研發(fā)人員表示。

用戶可以中途補(bǔ)充新的要求（哦對(duì)了，再幫我找一雙9.5碼的黑皮鞋），可以糾正它的方向，甚至可以完全改變?nèi)蝿?wù)（我忘了提這件事，或者你的進(jìn)度如何？做得怎么樣了？）。Agent會(huì)理解新的指令，并在不丟失已有進(jìn)度的前提下，繼續(xù)工作。

同時(shí)，Agent也會(huì)主動(dòng)溝通。在信息不足時(shí)，它會(huì)提出澄清性問題讓用戶確認(rèn)；在執(zhí)行關(guān)鍵操作（如發(fā)送郵件、下單支付）前，Agent會(huì)主動(dòng)尋求用戶的最終確認(rèn)。這種雙向溝通機(jī)制，確保了任務(wù)始終在用戶的掌控之中。

更重要的是，用戶擁有最終的“接管權(quán)”。如果對(duì)Agent的操作不滿意，可以隨時(shí)暫停，直接進(jìn)入它的虛擬環(huán)境，自己動(dòng)手修改。這極大增強(qiáng)了用戶的安全感和控制感，使得人與AI之間建立起一種前所未有的信任關(guān)系。

碾壓級(jí)跑分：

當(dāng)Agent的能力被量化

為了證明ChatGPT Agent并非華而不實(shí)的“花架子”，OpenAI公布了一系列基準(zhǔn)測(cè)試成績。這些數(shù)據(jù)，將其強(qiáng)大的能力清晰地量化了出來。

在被譽(yù)為“人類最后考試”的HLE (Humanity’s Last Exam)基準(zhǔn)上，該測(cè)試旨在衡量AI在各學(xué)科專家級(jí)問題上的表現(xiàn)，ChatGPT Agent取得了41.6%的分?jǐn)?shù)，幾乎是此前o3和o4-mini模型的兩倍。

前沿?cái)?shù)學(xué)基準(zhǔn)FrontierMath上，Agent在工具的輔助下，達(dá)到了27.4%的準(zhǔn)確率，顯著優(yōu)于o3和o4-mini。

在衡量網(wǎng)頁瀏覽和信息定位能力的BrowseComp和WebArena測(cè)試中，Agent同樣表現(xiàn)優(yōu)異。

在與辦公場(chǎng)景息息相關(guān)的SpreadsheetBench（電子表格編輯能力測(cè)試）中，Agent的得分高達(dá)45.5%

這些數(shù)字背后，反映出一個(gè)清晰的信號(hào)：ChatGPT Agent在通用推理、專業(yè)知識(shí)、工具使用和任務(wù)執(zhí)行等多個(gè)維度上，已經(jīng)達(dá)到了一個(gè)全新的高度。它不再是一個(gè)只能在特定領(lǐng)域展現(xiàn)才華的工具，而是一個(gè)具備廣泛能力的“通才”。

“前沿與實(shí)驗(yàn)性”：

奧特曼的謹(jǐn)慎與Agent的風(fēng)險(xiǎn)預(yù)警

在展示強(qiáng)大能力的同時(shí)，Sam Altman也反復(fù)強(qiáng)調(diào)了這款產(chǎn)品的“前沿和實(shí)驗(yàn)性”，并坦誠地揭示了其潛在的風(fēng)險(xiǎn)。這體現(xiàn)了OpenAI在推動(dòng)技術(shù)邊界時(shí)的審慎態(tài)度。

研發(fā)團(tuán)隊(duì)稱，目前最大的擔(dān)憂之一，是被稱為“提示詞注入”（Prompt Injection）的新型攻擊。

當(dāng)Agent訪問惡意網(wǎng)站時(shí)，網(wǎng)站上的隱藏指令可能會(huì)“誘騙”它執(zhí)行不當(dāng)操作，比如泄露用戶的敏感信息。

對(duì)此，OpenAI構(gòu)建了多層防御體系，包括訓(xùn)練模型忽略可疑指令、部署實(shí)時(shí)監(jiān)控系統(tǒng)來終止惡意行為等。但OpenAI也承認(rèn)，他們無法阻止所有攻擊。

隨著AI能力的指數(shù)級(jí)增長，如何為其劃定安全的倫理和技術(shù)邊界，已成為整個(gè)行業(yè)面臨的共同挑戰(zhàn)。

因此，OpenAI給用戶的建議是：充分意識(shí)到使用智能體所面臨的風(fēng)險(xiǎn)，不隨意向智能體透露個(gè)人敏感信息。

結(jié)語

ChatGPT Agent今天所展示的，還只是一個(gè)開始。

Agent不可避免會(huì)犯錯(cuò)，有時(shí)完成任務(wù)可能比人類手動(dòng)操作更耗時(shí)。但它指明的方向，是清晰且不可逆轉(zhuǎn)的。

我們正在從一個(gè)需要自己親手操作每一個(gè)軟件、點(diǎn)擊每一個(gè)按鈕的時(shí)代，邁向一個(gè)只需提出目標(biāo)，便有智能體為你調(diào)度一切資源的時(shí)代。

而我們，需要學(xué)習(xí)如何與這個(gè)星球上最聰明的“打工人”共事。

原文標(biāo)題 : 終極“打工人”誕生：OpenAI發(fā)布ChatGPT Agent，重新定義生產(chǎn)力邊界