2025年,AI行业的发展速度令人眼花缭乱。OpenAI、Anthropic、Google和xAI等公司纷纷发布了重要的AI模型和产品,并几乎无一例外地将它们标榜为“全球最佳”和“最智能”。
AI模型的智能评估难题
然而,如何准确评估像GPT-4.5或Claude 3.7这样的最新AI模型的“智能”程度,却是一个复杂的问题。尽管这为市场营销提供了便利——模糊的“智能”指标使得宣称其优越性变得容易——但这也使得准确衡量任何AI模型相对于其他模型的强大程度或能力变得困难。尽管如此,业内已经形成了一套行业范围内的基准测试,用于评估AI模型的能力,而科技公司通常所说的“最智能”模型,往往是指在这些基准测试中取得了新高分。
基准测试的“作弊”问题
然而,问题在于,这些聊天机器人似乎在基准测试中“作弊”。过去两年的一系列研究表明,来自OpenAI、Google、Meta等公司的领先AI模型“在训练中使用了流行基准测试的文本,从而玷污了其得分的合法性。”Alex Reisner在本周写道:“这就像一个人类学生偷窃并记住数学测试的内容,从而欺骗老师认为他已经学会了长除法。”这或许并非科技公司的本意——许多基准测试或其问题本身就存在于互联网上,因此被吸入了AI模型的训练数据中。(在Reisner提到的实验室中,只有Google DeepMind回应了评论请求,表示他们对此问题非常重视。)无论是否有意,这些基准测试的不可靠性使得区分事实与营销变得更加困难。
未来展望
随着AI技术的快速发展,行业标准的透明性和公正性变得越来越重要。如何建立一个更加可靠和公正的评估体系,将成为未来AI行业发展的关键挑战之一。科技公司需要在追求技术突破的同时,确保其产品和模型的评估过程更加透明和可信。