當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

OpenAI 公開“懺悔”訓(xùn)練法：讓 AI 保持誠實

2025-12-04 17:46

來源： OFweek人工智能網(wǎng)

研究表明，有時模型會走捷徑或優(yōu)化錯誤的目標(biāo)，但其最終輸出看起來仍然正確。如果能夠發(fā)現(xiàn)這種情況，就能更好地監(jiān)控已部署的系統(tǒng)，改進訓(xùn)練，并提高對輸出結(jié)果的信任度。

OpenAI 和其他機構(gòu)的研究發(fā)現(xiàn)人工智能模型可能會產(chǎn)生幻覺、操縱獎勵機制或做出不誠實的行為。隨著模型能力的提升和自主性的增強，即使是罕見的偏差也會造成更大的后果。

研究團隊隨之提出了一項懺悔的訓(xùn)練技術(shù)——訓(xùn)練模型明確承認自己何時從事不良行為。

測試發(fā)現(xiàn)，懺悔顯著提高了模型不良行為的可見性。在我們設(shè)計的所有誘發(fā)不良行為的評估中，平均而言，假陰（即模型不遵守指令且不坦白）的概率僅為 4.4%。

研究人員在多個對抗數(shù)據(jù)集上測試了概念驗證認罪模型的準確率。結(jié)果分為四類：服從但未認罪（真陰性）、服從且認罪（假陽性）、不服從且未認罪（假陰性）以及不服從且認罪（真陽性）。

懺悔技術(shù)

OpenAI 訓(xùn)練了一個 GPT-5 Thinking 版本來生成懺悔，并在多個旨在誘發(fā)諸如陰謀詭計、作弊、違反指令和產(chǎn)生幻覺等行為的分布外壓力測試數(shù)據(jù)集上對其進行了評估。研究表明，即使模型確實出現(xiàn)了這些不良行為，它也極有可能坦白承認。這種懺悔方法在各種不同的數(shù)據(jù)集和任務(wù)中都具有廣泛的有效性。用戶與模型進行任何以模型回答結(jié)尾的交互后，用戶可以通過向模型發(fā)送“系統(tǒng)消息”來請求其提供一份“懺悔報告”。

該報告針對模型的最后一個回答，包含以下內(nèi)容：

該回答應(yīng)滿足的所有顯式和隱式指令、約束和目標(biāo)列表；
對該回答是否實際滿足每個目標(biāo)的客觀分析；
模型在生成回答過程中遇到的任何不確定性、歧義或“棘手判斷”列表。

在訓(xùn)練過程中，每份報告都由一個獨立的獎勵模型進行評估，該模型僅根據(jù)目標(biāo)的完整性、合規(guī)性分析的準確性以及不確定性的覆蓋范圍對報告進行評分。

許多不理想的模型行為之所以出現(xiàn)，是因為要求模型同時優(yōu)化多個目標(biāo)。在強化學(xué)習(xí)過程中，模型接收到提示后會做出響應(yīng)并獲得獎勵。隨著時間的推移，它會學(xué)會生成得分高的答案。

難點在于，獎勵信號必須同時考慮許多不同的因素：答案的正確性、實用性、是否符合產(chǎn)品和策略規(guī)范、是否滿足安全約束，以及是否符合用戶的偏好。當(dāng)這些信號相互作用時，它們可能會無意中引導(dǎo)模型做出“錯誤”行為。

例如，關(guān)于幻覺的研究表明，某些數(shù)據(jù)集對自信的猜測獎勵高于對不確定性的懺悔承認。當(dāng)偏好信號過強時，模型可能會變得過于討好。其他研究團隊的研究表明，模型會獎勵作弊行為——即在訓(xùn)練設(shè)置中找到漏洞，在不真正執(zhí)行預(yù)期操作的情況下獲得高分。

懺悔機制通過完全分離目標(biāo)來避免這個問題。只針對一個目標(biāo)進行訓(xùn)練：誠實。模型在懺悔中所說的任何內(nèi)容都不會被計入，也不會影響主要答案的獎勵。

實踐表明：模型愿意在坦白中承認不良行為，即使它們在主要答案中隱藏了這些行為。當(dāng)機制失效時，通常是因為指令模糊而令模型感到困惑，而不是因為它故意誤導(dǎo)。

早期結(jié)果表明，即使原始答案完全沒有邏輯推理，懺悔機制仍然有效。

對于模型來說，提供真實、有證據(jù)支持的解釋通常比構(gòu)建一個連貫的、能夠蒙混過關(guān)的虛假敘事要容易得多。

實踐例子

研究人員特意使用一個較弱的模型計算出的可破解獎勵信號來訓(xùn)練模型。這種設(shè)置同時適用于主要獎勵和懺悔獎勵。模型學(xué)會了利用這個較弱的獎勵信號：其表觀準確率（由較弱的模型評估時）有所提高，而其真實準確率（由較強的評估者評估時）卻下降了。

盡管懺悔通道也是用同樣的微弱信號訓(xùn)練的，但它的準確率卻朝著相反的方向發(fā)展。模型學(xué)習(xí)到，優(yōu)化懺悔獎勵的最佳方法就是承認自己破解了主要獎勵。隨著時間的推移，即使主要行為發(fā)生了變化，懺悔的準確率也越來越高。

然而，懺悔并不能阻止不良行為。它的主要價值在于作為一種監(jiān)控和診斷工具，更側(cè)重于模型是否違反了指令；而思維鏈監(jiān)控則可以揭示模型是如何得出該結(jié)論的。

因未大規(guī)模訓(xùn)練認罪機制，認罪準確率仍不盡如人意。要使該方法更可靠、更穩(wěn)健，并能更廣泛地應(yīng)用于不同的模型類型和任務(wù)，還需要做更多的工作�！皯曰凇睓C制只是眾多機制中的一個，這些機制還包括審議式對齊、思維鏈監(jiān)控、指令層級等等。

OpenAI 的目標(biāo)是構(gòu)建一個層級分明的檢查和透明工具系統(tǒng)，使之相互強化。懺悔機制本身并不能解決平衡多個維度的問題。

雖然“懺悔”機制并非萬全之策，但它確實為模型透明度和監(jiān)督體系增添了重要的一層。相關(guān)人員表示，在未來的工作中，OpenAI 計劃擴大“懺悔”機制的規(guī)模，并將其與互補的透明度和安全技術(shù)相結(jié)合，進一步確保模型忠實地遵守所有指令和政策，并如實報告其行為。

參考資料：

https://openai.com/index/how-confessions-can-keep-language-models-honest/