中文无码av中文字幕在线,国产欧美不卡精品

當(dāng)前位置： OFweek 人工智能網(wǎng) > 自然語(yǔ)言處理 > 正文

牛津大學(xué)最新論文：大模型如何編碼問(wèn)題難易程度？

2025-11-07 18:32

來(lái)源： OFweek人工智能網(wǎng)

大型語(yǔ)言模型（LLM）在復(fù)雜任務(wù)上可以展現(xiàn)卓越性能。然而，它們卻經(jīng)常在看似簡(jiǎn)單的問(wèn)題上失敗。

近日，牛津大學(xué)的研究團(tuán)隊(duì)發(fā)表了一篇論文，研究 LLM 是否編碼了一種與人類判斷相符的問(wèn)題難度概念，并追蹤了這種表征在基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）數(shù)學(xué)推理過(guò)程中的演變。

團(tuán)隊(duì)使用了 60 個(gè)模型訓(xùn)練線性探針，并在 Easy2HardBench 的數(shù)學(xué)和編碼子集上評(píng)估了它們的難度估計(jì)性能。

研究表明，人類得出的難度評(píng)級(jí)可以從模型激活中強(qiáng)而線性地解碼，而 LLM 得出的難度評(píng)級(jí)則顯示出明顯較弱的編碼。

同時(shí)，將模型推向“更簡(jiǎn)單”的表征可以減少輸出長(zhǎng)度，并通過(guò)防止幻覺(jué)來(lái)提高準(zhǔn)確性。

團(tuán)隊(duì)還發(fā)現(xiàn)，在 GRPO 訓(xùn)練過(guò)程中，人類難度表示隨著模型能力的增強(qiáng)而增強(qiáng)，而 LLM 難度表示則退化——隨著模型的改進(jìn)，自動(dòng)難度估計(jì)變得越來(lái)越不協(xié)調(diào)。

實(shí)驗(yàn)結(jié)果

團(tuán)隊(duì)使用可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí) (RLVR) 來(lái)增強(qiáng)模型推理能力。它將強(qiáng)化學(xué)習(xí)融入到具有基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)的低階模型中，可以根據(jù)模型對(duì)數(shù)學(xué)問(wèn)題最終答案的準(zhǔn)確性給予二元獎(jiǎng)勵(lì)。

他們使用 Easy2HardBench 中的兩個(gè)數(shù)學(xué)子集構(gòu)建探測(cè)數(shù)據(jù)集，每個(gè)問(wèn)題都有一個(gè)難度分?jǐn)?shù)。

同時(shí)，團(tuán)隊(duì)從 18 個(gè)模型家族的 60 個(gè)變體中提取激活值，包含 DeepSeek、Qwen-2.5等大模型，以檢驗(yàn)增強(qiáng)的推理能力是否能帶來(lái)更好的難度表征。

結(jié)果表明：

人類難度在 LLM 激活中呈線性編碼。模型激活更好地編碼了人類對(duì)難度的評(píng)價(jià)，而非 LLM 推導(dǎo)出的難度估計(jì)。
難度表征隨模型大小而變化。更大的模型能更好地表征編碼難度。
最佳探測(cè)位置因任務(wù)而異。雖然最后一個(gè)標(biāo)記位置通常在所有數(shù)據(jù)集上都能產(chǎn)生最優(yōu)探針，但某些位置在特定模型中表現(xiàn)出色，這表明最后一個(gè)標(biāo)記位置并非普遍最優(yōu)。
線性探針可以引導(dǎo)模型進(jìn)行更長(zhǎng)的迭代，并誘導(dǎo)工具推理。

結(jié)論

團(tuán)隊(duì)發(fā)現(xiàn)，人類難度表征在訓(xùn)練過(guò)程中保持穩(wěn)定或有所提升，相比之下，LLM 難度表征在早期層和中間層普遍退化，性能下降幅度高達(dá) 50%。這種層級(jí)范圍內(nèi)的退化表明，LLM 難度表征是一個(gè)噪聲信號(hào)，GRPO 會(huì)系統(tǒng)性地覆蓋它。

但是，這也存在幾個(gè)局限性。團(tuán)隊(duì)僅關(guān)注 E2H 中的編碼和數(shù)學(xué)任務(wù)，而忽略了其他三個(gè)子集。計(jì)算資源的限制使得模型無(wú)法在所有 E2H 子集上進(jìn)行廣泛的實(shí)驗(yàn)，也無(wú)法在更大的模型上進(jìn)行 GRPO 訓(xùn)練。

鑒于此因，研究人員將開展更廣泛的跨模型研究，這對(duì)于全面刻畫沿難度方向的轉(zhuǎn)向效應(yīng)至關(guān)重要。

相關(guān)人員表示，未來(lái)的研究應(yīng)該調(diào)查探測(cè)結(jié)果是否能推廣到 Codeforces 以外的其他需要編碼和推理的智能體任務(wù)，并探索難度表征在推理和多輪對(duì)話過(guò)程中是如何演變的。

參考資料：

https://arxiv.org/pdf/2510.18147