百川開源最新醫(yī)療大模型,中國力量領(lǐng)跑醫(yī)療AI賽道
文|白 鴿
編|王一粟
專注醫(yī)療后,百川智能交出第一份答卷!8月11日,百川智能發(fā)布第二款開源醫(yī)療增強推理大模型Baichuan-M2,其以32B的參數(shù)量,在OpenAI的Healthbench評測集上,超越其剛剛發(fā)布5天的開源模型gpt-oss-120b。
除gpt-oss-120b外,Baichuan-M2還領(lǐng)先GPT-5以外所有開源與閉源前沿模型,以更小尺寸模型實現(xiàn)醫(yī)療能力反超,在所有開源模型中登頂世界第一。
同時,在落地應(yīng)用浪潮下,大模型所追求的,不再只是效果好,還要能低成本落地。
尤其是在醫(yī)療健康領(lǐng)域,模型涉及更多敏感隱私信息,醫(yī)療健康機構(gòu)對私有化部署有著強烈的需求,而私有化部署往往意味著高昂的部署成本。
Baichuan-M2的落地門檻則非常低,其支持RTX4090單卡部署,進一步提升了模型在真實醫(yī)療場景中的落地可能性與可擴展性。
這短短5天 “攻防戰(zhàn)”,不僅改寫了全球醫(yī)療大模型的實力排名,更重要的一點在于,在中美通用大模型差距持續(xù)擴大的背景下,中國團隊可以在AI垂直行業(yè)大模型賽道中,實現(xiàn)彎道超車。
當前,醫(yī)療是大模型最重要、最有潛力的應(yīng)用領(lǐng)域之一,正在逐漸成為全球共識。不過,作為應(yīng)用底座的醫(yī)療大模型,現(xiàn)階段行業(yè)中并未有特別突出的產(chǎn)品。
即使是OpenAI最新發(fā)布的GPT-5,其數(shù)學(xué)能力滿分,代碼、寫作、知識能力的成績也都很高,但醫(yī)療領(lǐng)域的得分依舊很低。
這也說明,醫(yī)療大模型仍有很長的路要走。
而中美垂直行業(yè)大模型的能力差距并不大,作為中國頭部大模型企業(yè)代表,百川智能此次在醫(yī)療大模型上,已實現(xiàn)與OpenAI的并駕齊驅(qū)。
那么,作為國內(nèi)最早全力押注醫(yī)療AI賽道的大模型創(chuàng)企,百川智能又是如何做到彎道超車的?
力壓全球醫(yī)療大模型,拆解Baichuan-M2硬實力
長期以來,模型在醫(yī)學(xué)考試(如 USMLE)上的表現(xiàn)被視為衡量其醫(yī)療能力的重要指標,但隨著相關(guān)題庫的飽和,這類選擇題或短回復(fù)的評測已難以全面反映模型的真實臨床實用性。
畢竟,醫(yī)療AI并不等于“刷題機器”,考試分數(shù)再高,也未必意味著在真實醫(yī)療場景中好用。
因此,醫(yī)療能力的評測需要有系統(tǒng)化的方法,驗證模型在推理決策、臨床溝通等關(guān)鍵能力上的綜合表現(xiàn)。
今年5月,OpenAI發(fā)布權(quán)威且貼近真實臨床場景的HealthBench醫(yī)療健康評測集。
該測評集包含了5000個廣泛場景覆蓋的醫(yī)患多輪對話,并通過由262個人類醫(yī)生編寫的48562個醫(yī)療評價規(guī)則來對模型能力進行評估,是全球公認的醫(yī)療大模型“能力試金石”。
該數(shù)據(jù)集主要包含2個版本:
HealthBench:標準版本,包含5000條對話和對應(yīng)準則。
HealthBench Hard:包含1000個特別具有挑戰(zhàn)性的案例。
在HealthBench中,Baichuan-M2得到60.1高分,反超OpenAI最新開源模型gpt-oss120b(得分57.6),還力壓Qwen3-235B、Deepseek R1、Kimi K2等當前世界所有開源大模型。
同時,Baichuan M2在醫(yī)療對話任務(wù)中展現(xiàn)出顯著優(yōu)勢,如緊急醫(yī)療響應(yīng)、醫(yī)療上下文理解、醫(yī)患溝通能力、全球健康知識覆蓋及醫(yī)學(xué)思維完備性等核心醫(yī)療場景性能全面領(lǐng)先。
HealthBench Hard,是一個針對更復(fù)雜困難場景的數(shù)據(jù)集,用于驗證模型多維度、全景化解決疑難復(fù)雜醫(yī)學(xué)問題的能力。
據(jù)悉,此前該測試集發(fā)布時,世界上所有頂尖模型得分都沒超過32分,許多前沿模型得分甚至為0。
GPT-5發(fā)布時,OpenAI也特別強調(diào),其是HealthBench Hard評測全球唯一超過32分的模型。
但現(xiàn)在Baichuan-M2打破了這一紀錄,其以34.7分成為全球第二款超過32分的模型,力壓世界所有其他頂尖閉源大模型。而Baichuan-M2和GPT-5也是目前全球唯二超過32分的模型。
事實上,盡管HealthBench已收集大量真實醫(yī)療場景,但現(xiàn)實情況往往更加復(fù)雜多樣。
不過,基于其評測,也至少能夠證明在多數(shù)醫(yī)療場景上的問答質(zhì)量,GPT-5和Baichuan-M2已經(jīng)超越資深醫(yī)生,特別是在知識更新速度和全面性上,完全可以給人類醫(yī)生強大支持。
那么,百川智能的Baichuan-M2醫(yī)療大模型,是如何以32B參數(shù),實現(xiàn)以小博大?其核心思路,就是讓大模型像醫(yī)生一樣思考、應(yīng)對真實醫(yī)患場景。
從技術(shù)角度來說,其背后則是百川智能在大型驗證系統(tǒng)(Large Verifier System)、端到端強化學(xué)習、AI患者模擬器、多類型醫(yī)療數(shù)據(jù)用于深度推理等4個方面的創(chuàng)新探索。
近一年來,大語言模型后訓(xùn)練范式的升級,特別是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大規(guī)模強化學(xué)習訓(xùn)練,帶來了大模型效果的顯著提升,尤其是在有明確答案的數(shù)學(xué)、代碼、科學(xué)等領(lǐng)域。
但是,強化學(xué)習在數(shù)學(xué)、代碼、科學(xué)等領(lǐng)域之所以能夠顯著提升模型能力,是因為這些領(lǐng)域的數(shù)據(jù)是靜態(tài)的,由簡潔的問題和答案構(gòu)成。
而醫(yī)療問題卻是復(fù)雜問題,沒有標準答案,同一個癥狀可能存在不同病因,同一病因,患者的體格、病史、用藥史、藥物耐受程度不一樣,治療方案也會不同。
因此,醫(yī)療領(lǐng)域的強化學(xué)習不僅要驗證診斷結(jié)果、治療方案的準確性,還要驗證大模型的問診對話過程是否符合醫(yī)生思維,是一個動態(tài)驗證的形式,也就導(dǎo)致傳統(tǒng)強化學(xué)習規(guī)則在醫(yī)療領(lǐng)域表現(xiàn)并不好。
針對這一現(xiàn)狀,百川智能則以構(gòu)建Large Verifier System為核心,在通用Verifier之外,結(jié)合醫(yī)療場景自身特點設(shè)計了一套較為全面的醫(yī)療Verifier系統(tǒng)。
用通俗的話來理解,如果將大模型比作一位醫(yī)學(xué)實習生,那么這個系統(tǒng)就像是一個要求極高、異常挑剔的醫(yī)療專家。它會從醫(yī)療正確性、完備性、安全性以及對患者的友好性等多個維度,細致地評估模型的輸出,指出其不足并引導(dǎo)模型改正,使其思維方式更貼近專業(yè)醫(yī)生。
但想要讓這個系統(tǒng)成為嚴謹?shù)尼t(yī)療專家,最大的難點在于,人類醫(yī)生在聽取患者描述病情時,很容易分辨患者描述中的邏輯漏洞、從含混不清的表達中辨別出真實病因,F(xiàn)實中患者幾乎無法全面準確表達自己的癥狀,僅基于靜態(tài)的病例、指南等醫(yī)療數(shù)據(jù)訓(xùn)練,模型無法掌握人類醫(yī)生的這一能力。
而為了突破這一瓶頸,百川技術(shù)團隊升級迭代了今年初首創(chuàng)的“AI患者模擬器”。
今年1月,百川在arXiv上發(fā)表AI患者模擬器,用真實數(shù)據(jù)構(gòu)造上萬個不同年齡性別癥狀的AI患者,能夠模擬千差萬別患者的癥狀和表達,特別是包含錯誤噪聲的表達,最大程度還原真實醫(yī)療場景。
7個月后,百川升級患者模擬器并引入模型端到端強化學(xué)習,訓(xùn)練的Baichuan-M2在HealthBench等評測上取得更大突破。
這個模擬器的具體作用就是讓AI在訓(xùn)練時,不斷和這個虛擬病人聊天,而在聊天的過程中,“考官” 會實時根據(jù)聊天情況,動態(tài)調(diào)整打分標準,幫AI練出“隨機應(yīng)變”的能力,即就算病人說的信息亂、不全,也能重新判斷病情,以及會看病人說的信息夠不夠,決定是繼續(xù)問還是直接給結(jié)論。
而為了AI能夠更好的學(xué)習醫(yī)學(xué)知識,百川智能還采用了多階段強化學(xué)習策略(Multi- Stage RL),將復(fù)雜的強化學(xué)習任務(wù)分解為幾個易于管理的、分層的訓(xùn)練階段。
就像學(xué)車要先練直線、再練轉(zhuǎn)彎、最后上馬路,AI學(xué)當醫(yī)生也分階段練,先練“醫(yī)學(xué)常識”,再練“和病人聊天的技巧”,最后練“復(fù)雜病例的診斷”,一步步提升,避免一下子學(xué)太難而懵圈。
綜合來看,用“智能考官”判斷AI表現(xiàn),用“真實病例 + 虛擬病人”模擬實戰(zhàn),分階段訓(xùn)練讓AI既懂醫(yī)學(xué)知識,又能靈活應(yīng)對真實醫(yī)患場景,百川智能最終使大模型具備了一個靠譜醫(yī)生的能力。
但在當前AI大模型落地應(yīng)用浪潮中,大模型不僅僅要有能力,更重要的還是能落地,尤其是在垂直行業(yè)中,很多時候都面臨著大模型效果是很好,但部署運營成本太高,終成demo的情況。
醫(yī)療大模型落地,既要效果好還要成本低
早在2016年的深度學(xué)習浪潮中,AI就已經(jīng)開始在醫(yī)療場景落地,但彼時更多是聚焦在語音語義、圖像等方面的應(yīng)用,以及單點功能(病例錄入、智能閱片)的落地。
但這一代醫(yī)療大模型開啟了全新范式,其能力與上一代醫(yī)療AI相比已經(jīng)產(chǎn)生了質(zhì)的飛躍,醫(yī)療大模型不僅僅是醫(yī)學(xué)知識的問答引擎與效率提升的工具,它能夠通過Agent的方式全流程融入到診中、診前、診后的各個環(huán)節(jié),為AI落地醫(yī)療真實場景打開了更廣闊的空間。
百川智能醫(yī)療大模型的迭代和落地正是這一顛覆性變化的側(cè)寫。
在實踐應(yīng)用中,今年2月,以Baichuan-M1為底座的AI兒科醫(yī)生在國家兒科醫(yī)學(xué)中心多學(xué)科會診中大放異彩,獲得會診專家一致認可。M2則在醫(yī)療溝通、診斷合理、檢查合理、醫(yī)療治療、醫(yī)療安全六個維度相較于M1均顯著提升。
這背后最關(guān)鍵的一點在于,Baichuan-M2為了更適配中國醫(yī)療場景,也從中國醫(yī)學(xué)指南對齊、醫(yī)療政策適配和患者需求洞察等多個維度進行了深度優(yōu)化。
在中國臨床診療場景的問題評測中,對比gpt-oss系列模型,Baichuan-M2展現(xiàn)出更明顯的可用性優(yōu)勢,其中部分優(yōu)勢就來源自中國醫(yī)療場景的適配性,例如針對臨床診療的案例,M2更貼合中國醫(yī)療場景,更遵循中國權(quán)威指南推薦。
以某一個真實的肝癌治療案例中,針對CNLC IIa期(BCLC B期)的肝細胞肝癌患者,M2首選推薦在具備手術(shù)條件的情況下進行解剖性肝右葉切除(或根據(jù)腫瘤具體位置,可考慮擴大右半肝切除、右三葉切除等),目標是R0切除。
原因在于,依據(jù)國家衛(wèi)健委發(fā)布的《原發(fā)性肝癌診療指南》(2024版),肝切除術(shù)是潛在根治性治療,可提供最佳的長期生存獲益。
同樣的案例,gpt-oss-120b建議首選治療經(jīng)動脈化療栓塞術(shù)(TACE),理由是符合BCLCB期治療指南,當前情況下手術(shù)切除和移植風險不理想。
臨床醫(yī)學(xué)專家認為,類似這樣的情況還有很多。
僅就這個案例來說,手術(shù)切除或TACE都是可選方案,只是中西方指南不同,不是醫(yī)學(xué)上的高下之分,而是基于本地患者特點、醫(yī)療資源與當前醫(yī)學(xué)發(fā)展水平權(quán)衡之下的最優(yōu)解。
畢竟,醫(yī)療大模型能否將全球醫(yī)學(xué)知識、醫(yī)學(xué)證據(jù)轉(zhuǎn)化為符合本地優(yōu)勢特長的臨床決策,也是為醫(yī)生和患者提供切實服務(wù)能力的關(guān)鍵。
Baichuan-M2則為此所做的專門優(yōu)化,讓中國臨床場景有了專屬的頂尖模型。此外,更為重要的一點在于,Baichuan-M2能夠讓中國萬千醫(yī)療機構(gòu)以更低的成本部署使用。
業(yè)內(nèi)皆知,醫(yī)療大模型落地面臨“兩難”,即追求高精度往往意味著高成本,如閉源模型授權(quán)費、定制化開發(fā)投入,而低成本方案又難以滿足臨床核心需求,尤其是在復(fù)雜場景的推理上。
Baichuan-M2則通過技術(shù)優(yōu)化和開源的方式,降低了醫(yī)療機構(gòu)的部署成本。
百川智能通過多種PTQ量化策略,對Baichuan-M2進行權(quán)重4bit量化,量化后模型精度接近無損,可在RTX4090上單卡部署,相比DeepSeek-R1 H20雙節(jié)點部署方式,成本降低了57倍。
同時,其基于Eagle-3訓(xùn)練了Baichuan-M2-Spec版本,單用戶場景下token吞吐可獲得74.9%的提升。
另外,開源大模型特性是支持二次開發(fā),可根據(jù)具體場景輕量化訓(xùn)練,避免“大而全”的冗余成本,模型權(quán)重、訓(xùn)練代碼全開放,企業(yè)/機構(gòu)無需支付授權(quán)費。
百川M2開源醫(yī)療大模型為中國醫(yī)療AI提供了“低成本突破”的路徑,推動醫(yī)療AI技術(shù)的普惠應(yīng)用。它通過“高精度推理 + 開源低成本”的組合,證明醫(yī)療大模型落地無需在效果與成本間妥協(xié)。
直面全球差距,中國醫(yī)療AI的突圍之道
今年是AI大模型浪潮興起的第三年,但在全球市場中,中國通用大模型一直處于跟隨者地位。
近期在由谷歌Kaggle推出的首屆全球AI象棋爭霸賽中,一眾中國大模型也表現(xiàn)并不佳,首輪比賽中就被淘汰出局。
我們可以看到,在通用大模型上,中美之間始終存在著差距,無論是在能力上,還是在技術(shù)創(chuàng)新層面,差距也仍在不斷擴大。
但相比較來說,中國更擅長的地方,則在于推動大模型走向落地應(yīng)用,而這也是我們在AI垂直行業(yè)賽道能夠彎道超車的關(guān)鍵。
百川智能作為中國大模型創(chuàng)企之一,選擇醫(yī)療這一“中國有需求、有數(shù)據(jù)優(yōu)勢” 的領(lǐng)域深耕,用反超OpenAI的成績證明 “中國可以在垂直賽道做全球第一”。
而通過開源大模型的模式,也可以降低醫(yī)療AI技術(shù)門檻,讓全球研究者、醫(yī)療機構(gòu)可直接復(fù)用模型,在細分的醫(yī)療領(lǐng)域構(gòu)建出自己的專屬模型,加速醫(yī)療AI的落地與創(chuàng)新。
此次發(fā)布會后,M2模型將進入全面落地期,百川將與國家兒童醫(yī)學(xué)中心、北京大學(xué)第三醫(yī)院、海淀衛(wèi)健委等探索AI+醫(yī)療的深度應(yīng)用,真正推動AI醫(yī)療從 “實驗室” 走向 “臨床一線”。未來,隨著模型的落地,將為基層醫(yī)療、疾病診斷等場景帶來革新,推動“AI醫(yī)療惠及全民”。
原文標題 : 百川開源最新醫(yī)療大模型,中國力量領(lǐng)跑醫(yī)療AI賽道

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
8月14日立即報名>> 【在線研討會】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
8月20日參會報名>>> 高價值貨物的‘數(shù)字保鏢’:沖擊記錄儀重塑貨運安全與效率
-
精彩回顧立即查看>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
-
精彩回顧立即查看>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
精彩回顧立即查看>> 全數(shù)會2025中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會
-
3 ADC的進化史
- 1 藥明康德狠狠打了市場的臉
- 2 預(yù)計半年營收超63億元,CXO行業(yè)升溫了,康龍化成的“沸點”又在哪?
- 3 新紀錄!晶泰科技甩出近60億美元大單,AI制藥終于等來“豐收季”?
- 4 泰恩康股價突破40元大關(guān),醫(yī)藥領(lǐng)域的“神藥敘事”為何總有奇效?
- 5 PROTAC:20年磨一劍,破解癌癥"不可成藥"靶點!
- 6 沖刺200億元收入,信達生物一款“減肥神藥”可能要起大作用
- 7 高盛發(fā)聲:中國創(chuàng)新藥價值重估時代來臨
- 8 暴增超100%,胰島素龍頭甘李藥業(yè),翻身
- 9 乙肝“特效藥”的千億戰(zhàn)局
- 10 17家生物醫(yī)藥企業(yè)上榜中國500強