訂閱
糾錯(cuò)
加入自媒體

AI應(yīng)用“破壁”:從數(shù)字助手到操盤(pán)物理世界

2025-11-19 15:40
山自
關(guān)注

一句話生成一個(gè)世界,正從數(shù)字隱喻變?yōu)槲锢憩F(xiàn)實(shí)。 當(dāng)AI不僅能回答“如何沖一杯咖啡”,更能直接操控機(jī)器為你遞上一杯親手沖調(diào)、溫度恰好的咖啡時(shí),我們便站在了一個(gè)新時(shí)代的門(mén)檻上。

本周,一場(chǎng)密集的AI“亮劍”正在上演:阿里“千問(wèn)”APP正式定位為“會(huì)聊天能辦事的個(gè)人AI助手”;螞蟻集團(tuán)“靈光”主打“自然語(yǔ)言30秒生成小應(yīng)用”;谷歌Gemini 3昨天則以碾壓性的多模態(tài)和Agent能力震動(dòng)行業(yè)。

這三款產(chǎn)品,不約而同地指向同一個(gè)核心:AI的競(jìng)爭(zhēng)正從“對(duì)話的藝術(shù)”轉(zhuǎn)向“辦事的能力”,從數(shù)字世界的比特流,邁向?qū)ξ锢硎澜绲脑舆M(jìn)行干預(yù)。

AI執(zhí)行力的三級(jí)躍遷

“幫我訂一張下周一到北京最早航班的經(jīng)濟(jì)艙機(jī)票,并用企業(yè)賬戶支付。”——這在過(guò)去需要打開(kāi)App、多次點(diǎn)擊和輸入才能完成的任務(wù),現(xiàn)在正成為AI“聽(tīng)令即辦”的日常。

阿里將“千問(wèn)”項(xiàng)目視為“AI時(shí)代的未來(lái)之戰(zhàn)”,其野心遠(yuǎn)不止一個(gè)聊天機(jī)器人。據(jù)「智能涌現(xiàn)」了解,千問(wèn)APP正計(jì)劃深度整合地圖、外賣、訂票、辦公、學(xué)習(xí)、購(gòu)物、健康等生活全場(chǎng)景。其核心進(jìn)化在于“Agentic AI”(智能體AI)——一種能理解意圖、規(guī)劃步驟、自主執(zhí)行任務(wù)的新范式。

圖片

“阿里計(jì)劃在未來(lái)幾個(gè)月內(nèi)逐步為千問(wèn)增加Agentic AI功能,支持在淘寶、天貓等平臺(tái)上用自然語(yǔ)言購(gòu)物。”一位接近阿里的人士透露。這意味著,用戶指令從“展示羽絨服”變成了“幫我家人買一件適合零下十度、預(yù)算一千五以內(nèi)的長(zhǎng)款羽絨服,要輕便保暖”。AI將自動(dòng)完成搜索、篩選、比價(jià)、尺寸選擇,直至下單支付的全過(guò)程。

螞蟻集團(tuán)的“靈光”則展現(xiàn)了另一種更輕巧的物理世界交互路徑。其“閃應(yīng)用”功能允許用戶在30秒內(nèi)通過(guò)自然語(yǔ)言生成可交互的小應(yīng)用。一位用戶體驗(yàn)后感嘆:“當(dāng)我讓靈光做一個(gè)‘人生計(jì)時(shí)器’,它生成的應(yīng)用不僅美觀,更讓我直觀地感受到已流逝和剩余的生命時(shí)間,這種震撼源于它將一個(gè)抽象概念,變成了可感知、可交互的物理化體驗(yàn)。”

圖片

谷歌Gemini 3的發(fā)布,則將這種執(zhí)行力推向了新的高度。其強(qiáng)大的屏幕理解能力(ScreenSpot-Pro得分72.7%)是一項(xiàng)關(guān)鍵技術(shù)突破。它意味著AI不再依賴專用的API接口,就能像人一樣“看懂”任何軟件界面并進(jìn)行操作。從操作復(fù)雜的專業(yè)軟件到引導(dǎo)你完成手機(jī)設(shè)置,Gemini 3展示了其作為“萬(wàn)能操作員”的潛質(zhì)。

圖片

這三大產(chǎn)品,清晰地勾勒出AI執(zhí)行力的躍遷路徑:從被動(dòng)問(wèn)答到主動(dòng)任務(wù)規(guī)劃,從信息整合到實(shí)物交易,從虛擬助手到物理世界的操盤(pán)手。

多模態(tài)理解與工具調(diào)用的關(guān)鍵突破

AI之所以能邁出虛擬對(duì)話框,得益于其在“眼睛”和“手”上的技術(shù)突破——即多模態(tài)理解和工具調(diào)用能力。

谷歌Gemini 3在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)了碾壓性優(yōu)勢(shì)。其在涵蓋專業(yè)、學(xué)術(shù)領(lǐng)域的“人類終極考試”中取得37.5%的成績(jī),在高端數(shù)學(xué)測(cè)試MathArena Apex中達(dá)到23.4%,大幅領(lǐng)先其他模型。更關(guān)鍵的是,其在終端操作基準(zhǔn)測(cè)試中的優(yōu)異表現(xiàn),為AI操作手機(jī)、電腦等物理世界終端設(shè)備奠定了性能基石。

圖片

阿里的Qwen系列模型同樣構(gòu)筑了堅(jiān)實(shí)的技術(shù)底座。Qwen3-Max在考驗(yàn)代碼能力的SWE-Bench評(píng)測(cè)中獲得69.6分,在需要深度推理的Tau2 Bench測(cè)試上取得突破性的74.8分,超過(guò)Claude Opus4等國(guó)際頂尖模型。尤為引人注目的是,在首屆AI大模型真實(shí)投資比賽中,Qwen3-Max以22.32%的收益率贏得比賽。這證明AI已不僅能處理結(jié)構(gòu)化任務(wù),更能在充滿不確定性的復(fù)雜環(huán)境中進(jìn)行有效決策。

視覺(jué)能力的突破是連接物理世界的“臨門(mén)一腳”。千問(wèn)APP的“以圖搜圖”功能可以直接識(shí)別現(xiàn)實(shí)物品并跳轉(zhuǎn)購(gòu)物,而靈光的“靈光開(kāi)眼”可以實(shí)時(shí)識(shí)別攝像頭中的物體并提供相關(guān)信息。當(dāng)AI能“看懂”我們所見(jiàn)的世界,它才能真正理解“幫我拿一下桌子上的那本書(shū)”這樣的指令。

“過(guò)去,AI是‘盲人’,只能通過(guò)我們的描述來(lái)理解世界,F(xiàn)在,它擁有了‘視力’,并能將看到的信息與知識(shí)圖譜關(guān)聯(lián)。”一位行業(yè)分析師指出,“多模態(tài)理解讓AI從‘文本宇宙’降落在了‘物理地球’。”

從單一App到生活全場(chǎng)景的入口

技術(shù)決定了下限,而生態(tài)決定了上限。AI應(yīng)用能否真正融入物理世界,很大程度上取決于其背后生態(tài)系統(tǒng)的廣度和深度。

阿里正以更加協(xié)同的方式推進(jìn)其AI戰(zhàn)略。其內(nèi)部人士指出,“AI技術(shù)革命讓阿里多樣化的產(chǎn)品和服務(wù)有機(jī)會(huì)產(chǎn)生更大協(xié)同效應(yīng)。”千問(wèn)APP正試圖成為串聯(lián)起淘寶、天貓、支付寶、高德、餓了么、飛豬等阿里系應(yīng)用的“超級(jí)智能中樞”。用戶未來(lái)可能只需對(duì)千問(wèn)說(shuō)一句“我周末想去上海迪士尼”,它就能自動(dòng)規(guī)劃行程、訂購(gòu)機(jī)票酒店和門(mén)票,形成一個(gè)無(wú)縫的體驗(yàn)閉環(huán)。

螞蟻集團(tuán)的靈光則扎根于支付寶深厚的金融與本地生活場(chǎng)景。雖然目前尚未完全打通支付寶的核心API,但其想象空間巨大。一旦實(shí)現(xiàn),用戶將能通過(guò)自然語(yǔ)言直接完成轉(zhuǎn)賬、理財(cái)、繳費(fèi)、信用借款等復(fù)雜金融操作,將原本需要多步跳轉(zhuǎn)的金融流程,壓縮為一句簡(jiǎn)單的對(duì)話。

谷歌憑借其全球化的產(chǎn)品矩陣,為Gemini提供了更廣闊的試驗(yàn)場(chǎng)。從搜索到Gmail,從Google Calendar到Maps,Gemini的Agent能力可以滲透到用戶數(shù)字生活的方方面面,并間接影響物理世界的行為。例如,它可以根據(jù)郵件自動(dòng)添加航班行程到日歷,并提醒你出發(fā)時(shí)間。

這種生態(tài)整合的競(jìng)爭(zhēng),本質(zhì)上是“場(chǎng)景密度”的競(jìng)爭(zhēng)。 誰(shuí)能為AI提供更豐富、更高頻的物理世界交互場(chǎng)景,誰(shuí)的AI就能更快地學(xué)習(xí)和進(jìn)化。一位深度用戶對(duì)比后表示:“千問(wèn)在購(gòu)物和本地生活場(chǎng)景明顯更懂中國(guó)用戶,而Gemini在處理復(fù)雜信息和全球化任務(wù)規(guī)劃上更勝一籌。”

隨著更多生活場(chǎng)景被接入,AI將不再只是回答問(wèn)題的助手,而是真正能夠操辦實(shí)事的伙伴。擺在所有玩家面前的,是一道共同的難題:如何在確保安全、可靠的前提下,讓AI更好地理解并服務(wù)于這個(gè)復(fù)雜而充滿不確定性的物理世界。 這場(chǎng)競(jìng)賽的序幕剛剛拉開(kāi),而它的勝利者,將很有可能定義未來(lái)十年的人機(jī)交互標(biāo)準(zhǔn)與用戶體驗(yàn)范式。

       原文標(biāo)題 : AI應(yīng)用“破壁”:從數(shù)字助手到操盤(pán)物理世界

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)