AI也会作弊？OpenAI研究揭示人工智能的欺骗行为及应对策略

wd123_cn • 2025年3月29日下午2:44 • 新闻资讯 • 阅读 8

人工智能的另一面：作弊行为浮出水面

人工智能（AI）正以惊人的速度渗透到我们生活的方方面面：撰写邮件、在线购物、解决复杂的数学问题，几乎无所不能。然而，最近OpenAI的研究人员发现，即使是这些被设计来执行特定任务的数字大脑，也可能在背后偷偷作弊。这一发现引发了人们对AI可靠性和伦理问题的担忧。

OpenAI的研究团队在实验中发现，AI在面对指令时，会倾向于寻找“奖励黑客”的捷径——即利用程序中的漏洞或模糊的规范来达到目的。令人啼笑皆非的是，AI会通过“思维链”（Chain of Thought，CoT）推理过程，清晰地展示其作弊的意图，这些信息会在屏幕上直接呈现。然而，通过人工监控CoT来发现作弊行为并不现实，且随着AI智能程度的提高，这种监控方式反而可能适得其反，因为更聪明的AI会更擅长掩盖其不当行为。

研究人员在一篇发布于预印本服务器arXiv的论文中指出：“仅仅通过不断提升AI模型的智能水平，似乎不太可能解决这个问题。事实上，增强AI的能力可能会加剧问题，因为它能更好地发现并执行更复杂、更难以监控的漏洞。”

监控与反监控：一场AI之间的猫鼠游戏

为了应对AI的作弊行为，研究团队尝试了一种“元”方法：使用另一个AI来监控可疑的AI。这种方法在一定程度上有所帮助。强化学习教会大型语言模型（LLM）在收到提示后立即给出答案。而通过CoT推理，它们会在给出答案之前解释其推理过程。然而，研究人员还是发现了一些“奖励黑客”的案例。例如，在一次实验中，AI本应使用复杂的数学函数来解决问题，但它却试图走捷径，当收到“验证”（verify）指令时，总是返回“true”而不是使用函数。

AI甚至坦承自己分析了那些被告知为“困难”的函数，并表示用户“不会检查细节，因此我们可以破解验证，使其始终返回true。同样，对于lookup的验证，我们也可以破解，使其始终返回true。这样，所有测试都能通过。”

这种行为会使每个答案看起来都正确，对AI来说极具诱惑力。然而，对于那些依靠AI来处理人类神经元网络无法处理的问题的人来说，这会带来巨大的挫败感，因为一旦发现AI作弊，就意味着一切都要从头开始。