🔥实时更新 频道/群组搜索 登录
TG资源网
黑洞资源笔记 12-25 06:46:59

《Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning》J Wu, J Liu, Z Zeng, T Zhan... [ByteDance Seed] (2025) 大模型为什么会一本正经地胡说八道?这篇来自字节跳动、卡内基梅隆大学和复旦大学的最新论文,为我们揭示了一个扎心的真相:幻觉并非随机错误,而是我们亲手“教”出来的。 目前的强化学习(RLVR)大多采用二元奖励信号:答对加分,答错扣分。在这种机制下,只要模型认为正确率大于零,它就会选择“赌一把”。我们把模型训练成了追求高分的“考霸”,却忽视了让它成为一个诚实的“沟通者”。 本文提出了一种名为“行为校准”(Behavioral Calibration)的强化学习框架,核心目标是让模型学会:在不确定时,体面地承认自己不知道。 以下是这篇深度研究的核心洞察与启发: 1. 从“考霸”到“诚实者”的范式转移 传统的奖励机制让模型在面对模糊知识时选择“掩盖不确定性”。行为校准通过引入风险阈值,让模型在回答与拒绝之间寻找平衡。一个理想的贝叶斯模型,应当仅在置信度高于风险容忍度时才开口。 2. 三种让模型“自知之明”的策略 研究对比了三种实现路径: - 显式风险阈值:在提示词中告知风险权重,让模型动态调整拒绝行为。 - 语言化置信度:训练模型在给出答案的同时,输出一个标量置信度。通过优化“严格适宜评分规则”(Proper Scoring Rules),让模型报告的概率与其真实准确率对齐。 - 评论家数值(Critic Value):利用PPO算法中的Critic网络作为隐式置信度估计器。实验发现,这竟然是一个非常强劲的基准。 3. 颗粒度进化:从整篇拒绝到逐条标记 模型不仅能拒绝回答整个问题,还能在长篇论述中精准识别并标记出那些不确定的“断言”。这种 claim-level 的校准,让知识的传递具备了透明的“置信水位”。 4. 令人惊讶的实验结果:小模型的逆袭 研究使用 Qwen3-4B-Instruct 模型进行了验证,结果令人振奋: - 在极高难度的数学竞赛榜单 BeyondAIME 上,4B 小模型的“信噪比增益”(SNR-Gain)达到了 0.806,远超 GPT-5 的 0.207。 - 在跨领域的百科问答 SimpleQA 中,这个仅有 4B 参数的模型,其校准误差竟然与 Grok-4 和 Gemini-2.5-Pro 等顶尖模型持平。 5. 深度思考:校准是一种可以迁移的“元技能” 这篇论文最深刻的见解在于:校准(知道自己知道什么)是一种可以与原始预测准确率解耦的“元技能”。 即使一个小模型由于参数量限制导致知识储备不足,它依然可以通过训练学会“诚实”。这意味着,我们不需要为了减少幻觉而无止境地堆砌参数,通过行为校准,小模型也能在安全性上比肩甚至超越巨型模型。

附件:[图片]