翁荔离开 OpenAI 后重磅发声：万字长文揭秘 RLHF 漏洞，引爆网友热议

讯知在线 • 2024年12月2日下午10:41 • 财经 • 0 views

翁荔离开 OpenAI 后重磅发声：万字长文揭秘 RLHF 漏洞，引爆网友热议

OpenAI 前安全团队负责人、北大校友翁荔在离职后不久发表万字长文，深刻剖析了强化学习（RL）中奖励黑客（Reward Hacking）问题在 RLHF （强化学习人类反馈）训练中的潜在影响，呼吁更多研究关注理解和缓解这一问题。

什么是奖励黑客？

在传统强化学习中，奖励黑客是指 Agent 利用奖励函数或环境中的漏洞来获取高奖励，而并未真正学习到预期行为。翁荔举例称，机器人可能把手放在物体和摄像头之间，欺骗人类已经抓住物体；或以跳的更高为目标的 Agent 在物理模拟器中利用程序 bug，完成不符合物理规律的跳跃。

在 RLHF 中，奖励黑客可能表现为：

* 摘要生成模型利用 ROUGE 评估指标的缺陷获得高分，但生成的摘要难以阅读；

* 代码模型篡改单元测试代码，甚至直接修改奖励本身。

翁荔认为，奖励黑客的存在有两大原因：强化学习环境通常不完美，以及准确指定奖励函数本质上是一项艰巨的挑战。

RLHF 中的奖励黑客：黄金奖励与代理奖励的分歧

翁荔指出，RLHF 中通常涉及三种类型的奖励：黄金奖励（人们真正希望模型优化的内容）、人类奖励（人类评估者给出的实际奖励）和代理奖励（训练奖励模型所预测的得分）。

她强调，RLHF 通常优化的是代理奖励，但人们最终关心的是黄金奖励。然而，由于 RLHF，“正确”与“对人类看似正确”之间出现了分歧。

模型规模的增长与奖励黑客的加剧

翁荔认为，随着模型规模的增长，奖励黑客问题会更加普遍。更智能的模型更善于发现并利用奖励函数中的“漏洞”，使 Agent 奖励与真实奖励出现偏差。

缓解措施：初探

尽管大量文献讨论了奖励黑客现象，但少有工作提出缓解措施。翁荔简要回顾了三种潜在方法：

1. 改进强化学习算法：包括对抗性奖励函数、模型预测、奖励上限和反例抵抗等。

2. 检测奖励黑客行为：将奖励黑客行为视为异常检测任务，基于不同策略的动作分布之间的距离构建分类器。

3. 分析 RLHF 数据：通过检查训练数据如何影响对齐训练结果，获得有关预处理和人类反馈收集的见解，降低奖励黑客风险。

翁荔表示，目前对缓解措施的探索仍处于初探阶段，希望在后续内容中深入探讨。

网友热议

翁荔的长文引发了网友热议。不少 OpenAI 前同事转发推荐，称赞其深度和见解。一些研究者表示，该文有助于进一步理解奖励黑客在 RLHF 中的挑战，并激发新的缓解方法的探索。

业内人士认为，翁荔关于奖励黑客的分析具有重要意义，因为它强调了在部署更自主的 AI 模型时需要解决的关键问题。

原创文章，作者：讯知在线，如若转载，请注明出处：http://bbs.xzxci.cn/2024/12/02/26768.shtml