
AI數(shù)字人,可能是最快跑通大模型商業(yè)閉環(huán)的產(chǎn)品之一,現(xiàn)在已接近盈利分水嶺。
文|趙艷秋
編|;
“在今年夏季,一個數(shù)字人主播的直播間,有時一天能賣出幾萬塊錢西瓜,甚至更多。”中科深智CTO宋健告訴數(shù)智前線,“按照分傭模式,商家和數(shù)字人企業(yè)都能掙到錢,這是一個很正向的過程。”
過去,大模型被詬病“燒錢多、商業(yè)難”,但AI數(shù)字人,可能是最快跑通商業(yè)閉環(huán)的產(chǎn)品之一。它們是形似人類、聲似人類,且能與人類對話和交互的智能體。目前已從技術驅(qū)動期走入商業(yè)驗證期,并接近盈利分水嶺。
01
數(shù)字人在直播間開始“逼單”
“我們不太再區(qū)分真人和數(shù)字人了。”宋健說。現(xiàn)在,在直播帶貨市場,一個時間段中能賣出多少貨,是最重要的指標,誰播的并不重要。
事實上,一位中級真人主播每月的綜合人力成本普遍在2萬元以上,而他們一天中狀態(tài)最好的直播時長,最多四小時。更關鍵的是,對于季節(jié)性強、毛利低的生鮮產(chǎn)品而言,商家難以長期雇傭真人主播,且也不愿意承擔日益加重的固定成本。

數(shù)字人主播可以全天候工作,而對于西瓜這類產(chǎn)品,消費者的決策過程可能只需幾秒,直播畫面重點要體現(xiàn)瓜的新鮮度。在這種情況下,采用數(shù)字人直播的效率會比真人更高。
商家正在擁抱數(shù)字人。在今年“618”期間,京東宣布1.7萬品牌商家使用數(shù)字人直播帶貨。
數(shù)字人的帶貨“技巧”也在躥升。過去,它們僅能重復播放固定內(nèi)容。現(xiàn)在,數(shù)字人也能“看懂”抖音、淘寶的后臺數(shù)據(jù),并學會了真人主播摸索出來的“套路”。比如,在觀眾超過50人時觸發(fā)“逼單”策略——“下面我要放出多少單,請用戶在屏幕上叩1”,從而制造從眾感和購買壓力,讓用戶迅速進入購買狀態(tài)。數(shù)字人主播越來越像人。
在這樣的形勢下,之前一些對數(shù)字人有限制的大平臺,也都在放松規(guī)定,制定自己在數(shù)字人上的策略,畢竟這是一個大勢。
不僅是電商直播,Gartner高級首席分析師費天褀告訴數(shù)智前線,在他們的2025年針對中國AI市場的調(diào)研中發(fā)現(xiàn),數(shù)字人已成為“用戶活躍度和行業(yè)參與度最高的應用之一”。數(shù)字人在電商、文娛、金融、教育等多個行業(yè)表現(xiàn)活躍。
數(shù)字人之所以能夠跑通商業(yè)閉環(huán),核心驅(qū)動因素是制作與運營成本的快速下降。行業(yè)數(shù)據(jù)顯示,虛擬主播24小時直播成本,已低于真人主播的十分之一。
百度智能云資深人士告訴數(shù)智前線,核心驅(qū)動力,來自大模型技術與應用能力的發(fā)展——大模型推理成本一年內(nèi)下降近 60倍,多模態(tài)技術成熟,關鍵場景可用性顯著提升。
從技術角度看,數(shù)字人由過去依賴高度定制的動捕設備、專業(yè)團隊建模,演進至今天AI算法驅(qū)動的自生成。如今只需上傳一張照片、錄制一段語音,AI便能生成虛擬形象。如小冰2024年的“零樣本”數(shù)字人,只要上傳30秒的形象數(shù)據(jù)和10秒的聲音數(shù)據(jù),可以秒級完成形象聲音復刻,這背后是大模型等技術的支撐。從運營來看,京東云已公布,言犀數(shù)字人平均成本不到100元/天。
這也讓數(shù)字人應用從過去的試驗性投入,進入到更具規(guī)模的行業(yè)化部署。在百度智能云披露的一組案例中,一家餐飲企業(yè)使用數(shù)字人進行6小時直播,僅為真人直播15%的成本,銷售效果達到真人主播的85%。
教育行業(yè)也正在經(jīng)歷類似的轉(zhuǎn)變。以某頭部機構(gòu)為例,在用數(shù)字人替代真人錄制課程后,綜合制作成本下降1/3,錄制效率提升20倍。
數(shù)字人的商業(yè)變現(xiàn)模式也已清晰。在B端市場,主流模式有SaaS訂閱制、項目定制和分成三種。

在C端,有訂閱、數(shù)字分身付費等。其中,游戲方面的訂閱服務已被接受,但像克隆數(shù)字人按月付費,在國內(nèi)尚未形成大規(guī)模消費習慣。
不過,盡管AI數(shù)字人技術在快速普及,市場增速卻呈現(xiàn)線性增長而非指數(shù)級爆發(fā)。IDC報告稱,預計數(shù)字人2024-2029年復合增長率為43.5%,到2029年,市場規(guī)模將達到250.5億元人民幣。“這一增長在互聯(lián)網(wǎng)行業(yè)屬于平穩(wěn)型增長。”硅基智能相關人士對數(shù)智前線說。
“可以視為一個階段性的應用‘爆發(fā)’。”小冰科技CEO徐元春說,一方面是由于數(shù)字人應用成本的下降,另一方面則是因為大型KA客戶的場景驗證進入深水區(qū),需要更長地周期去探索和突破。他認為,當數(shù)字人技術能同時滿足擬人化交互、場景化價值、低成本運維三重目標時,將會迎來市場規(guī)模的指數(shù)級增長。
02
最“餓”的行業(yè),最先用
哪些行業(yè)率先形成數(shù)字人商業(yè)閉環(huán)?
來自艾媒咨詢2025年報告的數(shù)據(jù),電子商務、衛(wèi)生健康與社會保障、教育、金融是目前數(shù)字人企業(yè)最集中的領域。這一分布并不偶然,恰恰對應的是幾個要素高度相似的行業(yè):對交互體驗具有持續(xù)需求、場景結(jié)構(gòu)標準化且數(shù)字化基礎扎實。
簡而言之,最“餓”的行業(yè)先用上技術。哪里有成本壓力和服務缺口,數(shù)字人就率先找到了切入點。

百度智能云人士告訴數(shù)智前線,基于服務和營銷場景的數(shù)字員工,天然具有“價值可測量、閉環(huán)高效率”的優(yōu)勢,數(shù)字人在電商直播、基礎客服等高容錯場景規(guī)模化爆發(fā)。
硅基智能超過一半的業(yè)務來自泛政府市場,尤其是政務大廳,各委辦廳局訴求高。而政府一般會采購全套方案,需要開箱即用的產(chǎn)品。
“這類數(shù)字人落地的核心,與項目亮點有很大關系。”一位政務項目供應商分析,“數(shù)字人有明確的展示效果和示范效應,也能提升互動感,公積金、社保等業(yè)務辦理中,市民的使用率也較高。”

國家藥監(jiān)局曾在福建“數(shù)字中國”上展示其“AI用藥顧問”,這位與中國電信合力打造的數(shù)字人,可全天候提供基礎用藥答疑。相較傳統(tǒng)靜態(tài)問答終端,數(shù)字人能處理多輪問詢,面帶表情、聲調(diào)自然,降低了市民對技術系統(tǒng)的抗拒感。
中科深智宋健進一步觀察,辦事大廳等公共場所的數(shù)字人也將迎來一輪升級,它們可以通過對方的外貌、動作、語氣變化來判斷情緒,從而做出有溫度的回應。這背后是數(shù)字人與大模型、環(huán)境感知等系統(tǒng)的越來越緊密的結(jié)合,正獲得真人的“感受力”,從單人的“照本宣科”變成多人互動。
“大模型也在與行業(yè)知識深度結(jié)合,向行業(yè)服務、行業(yè)營銷等‘低容錯、強專業(yè)化’場景延伸。”百度智能云相關人士強調(diào)今年市場的另一大趨勢。
如汽車電銷數(shù)字員工,在用戶咨詢時,既要洞察客戶需求,給出靈活回復,也要基于該車企實際參數(shù)給出精準回復,來支撐用戶決策。這需要深度提煉垂直決策鏈路,打造開箱即用的解決方案,才能交付可量化的業(yè)務效果,形成漸進滲透曲線。對垂直場景Know-how的沉淀和系統(tǒng)化封裝,是競爭分水嶺。
硅基智能人士有類似觀察。數(shù)字人企業(yè)在走入垂類行業(yè)。今年,令她印象深刻的落地應用,是一家大型醫(yī)院推出數(shù)字人醫(yī)生。此前,患者進醫(yī)院,與醫(yī)生話還沒說幾句人就要走了,F(xiàn)在,數(shù)字人醫(yī)生,基于報告、醫(yī)囑和大模型的分析,再把信息詳細說一遍,并回復患者康復指導、健康問題,患者的體驗立刻就提升了。
“AI面試官”是另一個落地速度極快的應用方向,尤其在公務員、校招、職業(yè)能力測試和培訓等領域,數(shù)字人正成為訓練中低成本、高強度的替代品。教育場景的另一類延伸,是“數(shù)字導師”或“數(shù)字助教”。百度在其戰(zhàn)略和動作中,明確將高校招生顧問、4S店銷售專員、銀行營銷專員作為重點拓展方向,計劃打造專用模型、對接教育SaaS、汽車crm等系統(tǒng)的“行業(yè)智能Agent”。
類似的還有數(shù)字人律師,將門檻降低,硅基智能人士認為,這是科技平權(quán)的好方式。
游戲是另一個被看好的方向。“過去游戲里的NPC(非玩家角色)是固定腳本驅(qū)動的。”宋健分析,“現(xiàn)在,數(shù)字人可以成為一個有想法的角色。”未來游戲里,玩家和NPC之間的關系可以是“關系-發(fā)展”。這是沉浸式體驗質(zhì)的飛躍,也為游戲設計打開了新天地。
在這些場景中,數(shù)字人不再只是工具,而逐漸具有了“角色屬性”。
不過,也有一些需求被業(yè)內(nèi)認為是偽需求,如一些公司的展廳數(shù)字人。“除非是大公司,否則利用率很低。這些數(shù)字人很多是租賃形式,按月付費。最終一些企業(yè)放棄了付費。”一位業(yè)內(nèi)人士觀察。
03
數(shù)十萬家數(shù)字人企業(yè)?背后技術與分野
數(shù)字人應用爆發(fā)的背后,更深層的邏輯是大模型技術能力的突破。
“所謂的爆發(fā),并不是數(shù)字人自己的爆發(fā),其實是依托于整個大模型的爆發(fā)。”硅基智能人士說,2024年初,以DeepSeek為代表的大模型在成本與性能上的突破,提升了數(shù)字人的效果,并大幅壓縮了落地門檻。
其實,數(shù)字人很早就存在了,并在2020年前后元宇宙概念興起時,進入大眾視野。但直到2022年后大模型技術快速成熟,才真正開啟了從“看起來像人”到“互動像人”的進階。
這背后,大模型對數(shù)字人的提升非常巨大。此前,制作一個高質(zhì)量數(shù)字人,是“高端定制”的代名詞,F(xiàn)在,通過AI驅(qū)動的圖像建模與語音合成等技術,數(shù)字人的生成已進入“普惠”階段。
中科深智 CTO宋健舉了一個例子,在今年“618”期間,數(shù)字人版的羅永浩與搭檔何蕭木,在百度平臺的一場直播中呈現(xiàn)了真實、自然、配合默契的“日常交互模式”。數(shù)字人還能實時捕捉彈幕并進行語義分析,以 “羅氏幽默” 風格回應觀眾提問,互動效果逼近真人直播。
“當用戶的代入感接近現(xiàn)實后,那種對AI的心理防備,基本也就消失了。”宋健說。
不過,企業(yè)們普遍認為,數(shù)字人接下來的大挑戰(zhàn),是讓它的大腦更聰明。
在技術商業(yè)市場呈現(xiàn)前景的情況之下,IT桔子數(shù)據(jù)顯示,截至7月7日,2025年數(shù)字人領域共發(fā)生投融資案件23起,接近2024年全年的24起,平均每起融資超1.5億元,“技術–市場–資本”驅(qū)動加速。
市場的競爭也更為激烈。“大家認為數(shù)字人是一個利潤高、有前景,門檻也不是特別高的行業(yè),大量企業(yè)涌入。”硅基智能人士說。
在《中國虛擬數(shù)字人影響力指數(shù)報告》第三期顯示,2023年“數(shù)字人、虛擬人”相關企業(yè)已達99.3萬余家,其中超過40萬家是2023年新增,同比漲幅達到42.3%。不過,根據(jù)企查查的數(shù)據(jù),截至7月7日,國內(nèi)數(shù)字人、虛擬人相關企業(yè)現(xiàn)存量達2492家。2023年至今共注冊228家相關企業(yè),其中2023年注冊量達139家,占比達61%。
盡管不同的說法從數(shù)十萬家到數(shù)千家,但真正擁有“從建模到交互再到?jīng)Q策”技術能力的公司并不多,企業(yè)也正在迅速分化出技術壁壘。
小冰科技CEO徐元春坦言:“未來很難靠單一維度構(gòu)筑護城河。”真正具備競爭力的,是那些同時擁有2D/3D數(shù)字人建模及驅(qū)動渲染、語音識別及合成、對話能力、大模型和AIGC能力,并能夠?qū)⒓夹g深度嵌入垂直場景的全棧式公司。
除了小冰科技強調(diào)的全棧式,目前市場上的供應商格局則呈現(xiàn)為:一邊是以百度、字節(jié)、阿里、華為云、京東科技等“大廠”提供數(shù)字人底層能力、平臺和解決方案;一邊是中科深智、硅基智能等獨立公司,扎根垂直行業(yè),提供定制化交付和運營支持。
不過,與國內(nèi)企業(yè)需要多個“技藝”甚至全棧不同,在海外,目前數(shù)字人企業(yè)傾向于分工合作。

如宋健所說:“大廠在軟件工具、平臺支撐、標準解決方案方面有優(yōu)勢,但我們這類獨立公司會深入到行業(yè)客戶的真實場景,做定制、做優(yōu)化,以及細致的運營服務。”比如在直播電商市場,按效果付費,需要根據(jù)市場和直播間復盤,調(diào)整某一頁視頻或產(chǎn)品拍攝角度,這些要靠人去做的細致的運營服務。
而正在發(fā)生的一大趨勢是,數(shù)字人從“虛擬形象”向“業(yè)務智能體”演進。百度智能云人士提出,未來數(shù)字人向低成本個性化普及,是“表達者”,數(shù)字員工則是“決策者和執(zhí)行者”。前者解決“怎么表現(xiàn)”,后者負責“怎么做事”。數(shù)字員工融合了擬人化形象與業(yè)務決策能力,是數(shù)字人的邏輯延續(xù),也是其商業(yè)化的下一階段。