人人人妻人人人妻人人人,在线观看国产精品日韩av,中文字字幕人妻中文色

當前位置： OFweek 人工智能網 > 其他 > 正文

ExGRPO 框架：經驗驅動學習，引領推理新范式

2025-11-14 18:05

來源： OFweek人工智能網

當人工智能模型仍以“刷題+打分”為主流訓練模式時，一支來自上海人工智能實驗室、澳門大學、南京大學與香港中文大學的研究團隊提出：訓練不僅是做題，更要復盤、溫習、內化。

他們近期發(fā)布了題為《ExGRPO: Learning to Reason from Experience》的論文，首次系統(tǒng)性地呈現(xiàn)出“經驗管理”如何在大模型推理訓練中發(fā)揮關鍵作用。

與傳統(tǒng)的在線策略RLVR（基于可驗證獎勵的強化學習）方法相比，ExGRPO在攻克復雜推理難題的能力方面有顯著提升。

下面，就讓我們一窺 ExGRPO 框架背后的邏輯、優(yōu)勢與啟示。

為什么是“經驗驅動”

過去數(shù)年里，為了提升大型語言模型在數(shù)學推理、邏輯推理、復雜任務求解等方向的能力，研究領域普遍采用基于可驗證獎勵的強化學習（RLVR）方法。

但是，在 RLVR 模型訓練中，模型生成一個推理軌跡（roll-out），參與訓練、獲得獎勵后即被舍棄。

一方面，生成的軌跡往往代價昂貴。另一方面，這些“有用的軌跡”卻被一次性使用，隨后被丟棄——好比學生每做一道題后不復盤、不歸檔。

簡而言之，傳統(tǒng)訓練流程存在三大痛點：

經驗浪費 —— 成功的推理軌跡往往被遺忘
效率低下 —— 刷題而不復習，推動能力提升緩慢
訓練不穩(wěn)定 —— 模型可能走入“做題卻不理解”的狀態(tài)

也就是說：當“誰的數(shù)據更多”“誰訓練更久”逐漸成為瓶頸時，如何系統(tǒng)化地讓模型復盤、復用“關鍵經驗”便可能成為突破點。

該研究正是在這個背景下提出：并非所有經驗都值得溫習，關鍵在于「什么樣的經驗」以及怎樣的復習方式。

經驗管理＋混合策略優(yōu)化

論文提出的 ExGRPO（Experiential Group Relative Policy Optimization）是一個用于推理訓練的大模型經驗管理與策略優(yōu)化框架。

其核心在于兩個維度：

經驗管理：即識別、存儲、篩選優(yōu)質經驗
混合經驗優(yōu)化：將精選經驗與新題探索結合起來訓練

在 ExGRPO 中，其經驗管理由三步構成：

經驗收集：每次模型成功完成一道題目后，其軌跡被加入經驗回放池，有點類似錯題本
經驗劃分與存儲：根據模型的近期表現(xiàn)，每條經驗被動態(tài)貼上“簡單”“中等”“困難”標簽。與此同時，若模型在某道題上已連續(xù)多次成功，則將該題移出，避免模型在已掌握題目上刷題停滯
經驗篩選：根據“題目篩選”+“軌跡篩選“兩項先驗指標精選經驗

接下來，ExGRPO 采用了“混合策略”的訓練目標。在每輪訓練中，一部分 minibatch 用于探索全新的問題。另一部分用于從經驗池中抽取精選軌跡，反復學習。

此外，還引入“策略塑形”（Policy Shaping）機制，避免模型因為過度復習而變得保守、失去探索能力。

實驗結果和行業(yè)啟示

在 1.5B-8B 參數(shù)規(guī)模、不同模型架構（如 Qwen、Llama）上，ExGRPO 相比傳統(tǒng) On-policy RL 方法平均提升約 +3.5（分布內任務）至 +7.6（分布外任務）個百分點。

不僅如此，整體訓練的穩(wěn)定性與效率也有所提升。

同時，ExGRPO 也面臨三大挑戰(zhàn)。

第一，在更大規(guī)模、更多任務類型的場景下，經驗識別是否依然精確？

第二，建立、維護經驗池、劃分分區(qū)、篩選軌跡，都需要額外計算資源與工程支持，管理成本堪憂。

第三，論文主要在數(shù)學與通用推理基準上測試。未來在語言生成、對話、跨模態(tài)任務中，這一經驗復用機制能否同樣奏效仍待觀察。

但對模型訓練體系而言，ExGRPO 提供了一個可借鑒的“錯題本式”思路：不僅做題，更復盤；不僅刷題，更優(yōu)化經驗。

對開發(fā)者而言，可以考慮在實際模型訓練中引入類似經驗篩選機制——將模型成功軌跡歸檔、標注、復用，而不是簡單丟棄。

對產業(yè)應用而言，當模型需要長期服務、持續(xù)學習、快速迭代時，經驗機制尤為關鍵。它意味著模型不僅“會做”，還知道怎么做得更好。

對未來研究而言，經驗分區(qū)、軌跡篩選、復用機制是一個值得深入的方向。未來還有可能與自動化經驗選擇、元學習、持續(xù)在線學習等方向融合。

參考資料：https://arxiv.org/pdf/2510.02245

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

推薦商品

最新活動更多

11月27日
立即報名>> 【工程師系列】汽車電子技術在線大會
11月28日
立即下載>> 【白皮書】精準洞察無線掌控——283FC智能自檢萬用表
12月5日
立即投票>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網行業(yè)年度評選
12月9日
立即報名>> 恩智浦創(chuàng)新技術峰會
【深圳專場】
立即報名 >> 12月16-17日 AMD 嵌入式峰會
12月19日
立即報名>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網產業(yè)大會

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯(lián)系郵箱：

_*驗證碼：

粵公網安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久国产老熟女

欧美精品成人a在线观看亚洲熟妇av一区二区三区宅男亚洲AV成人无码网站… 欧美天天摸天天添人人喊_女人男人做性全过程视频_久久久久国色AV免费观看性色_2022老司机久久精品

<dfn id="n2hb0"><th id="n2hb0"></th></dfn>