AI模型在基准测试中“作弊”,行业标准受质疑

AI模型在基准测试中“作弊”,行业标准受质疑

2025年,AI行业的发展速度令人眼花缭乱。OpenAI、Anthropic、Google和xAI等公司纷纷发布了重要的AI模型和产品,并几乎无一例外地将它们标榜为“全球最佳”和“最智能”。

AI模型的智能评估难题

然而,如何准确评估像GPT-4.5或Claude 3.7这样的最新AI模型的“智能”程度,却是一个复杂的问题。尽管这为市场营销提供了便利——模糊的“智能”指标使得宣称其优越性变得容易——但这也使得准确衡量任何AI模型相对于其他模型的强大程度或能力变得困难。尽管如此,业内已经形成了一套行业范围内的基准测试,用于评估AI模型的能力,而科技公司通常所说的“最智能”模型,往往是指在这些基准测试中取得了新高分。

基准测试的“作弊”问题

然而,问题在于,这些聊天机器人似乎在基准测试中“作弊”。过去两年的一系列研究表明,来自OpenAI、Google、Meta等公司的领先AI模型“在训练中使用了流行基准测试的文本,从而玷污了其得分的合法性。”Alex Reisner在本周写道:“这就像一个人类学生偷窃并记住数学测试的内容,从而欺骗老师认为他已经学会了长除法。”这或许并非科技公司的本意——许多基准测试或其问题本身就存在于互联网上,因此被吸入了AI模型的训练数据中。(在Reisner提到的实验室中,只有Google DeepMind回应了评论请求,表示他们对此问题非常重视。)无论是否有意,这些基准测试的不可靠性使得区分事实与营销变得更加困难。

未来展望

随着AI技术的快速发展,行业标准的透明性和公正性变得越来越重要。如何建立一个更加可靠和公正的评估体系,将成为未来AI行业发展的关键挑战之一。科技公司需要在追求技术突破的同时,确保其产品和模型的评估过程更加透明和可信。

(0)
wd123_cnwd123_cn
上一篇 2025年3月8日 下午2:33
下一篇 2025年3月8日 下午2:33

相关文章

  • 行业交流群,欢迎加入~

    课程学习 | 人才孵化 | 求职招聘 | 资源对接 做互联网营销想要提升,或是想跟前辈们交(mo)流(yu),不混圈子怎么能行! 还没有加过交流群想要加群的朋友往下看~~ 艾奇在线是国内专业的SEM与信息流广告从业者学习交流平台,汇聚全网30万互联网广告从业者。同时我们也建立起了规模较大的优质广告投放交流圈子,有 优化师成长交流群 以及&…

    2025年3月13日
  • 雨蛙“打哈欠”的真相:并非困倦,而是为了蜕皮!

    你是否也有过这样的经历:临近睡前,困意袭来,不由自主地开始打哈欠?或者是在午后,百无聊赖时也会打个哈欠?人们通常认为,哈欠是困倦或无聊的信号,甚至有人说打哈欠能释放激素,提高心率和警觉性,短暂地保持清醒。那么,其他动物也会打哈欠吗?它们打哈欠的原因又是什么呢? 雨蛙的“哈欠”之谜 网络上流传着一段可爱的雨蛙“打哈欠”的视频,让人觉得它们也要准备睡觉了。然而,…

    2025年3月17日
  • 教皇方济各肺炎康复后首次公开露面,坐轮椅现身圣彼得广场

    (梵蒂冈城路透社消息)在因双侧肺炎住院治疗两周后,88岁的教皇方济各于周日首次公开露面,他乘坐轮椅进入梵蒂冈圣彼得广场,向欢呼的人群致意。 自3月23日离开罗马杰梅利医院以来,教皇方济各一直没有公开露面。他在那里接受了超过五周的治疗,这是他12年教皇生涯中最严重的健康危机。 在为天主教会禧年举行的弥撒庆典即将结束之际,教皇方济各在事先未宣布的情况下,于中午(…

    2025年4月7日
  • 巨量5月UBA全切,投手们怎么办?

    点击关注▲艾奇SEM 知识 | 经验 | 资讯 | 资料 四大版块 专注SEM与信息流广告 相信大家多少也都接到了UBA即将在5月开始全切的通知,如下: 有网友不免吐槽: 这是要革了优化师的命吗? 2025难道是优化师这个岗位的最后一年吗? 说实在的,从这个通知确实能看到巨量的野心,就是去掉所有中间…

    2025年3月18日
  • 安·威尔逊带伤坚持巡演,臂伤未愈仍坐台献唱

    尽管受伤,安·威尔逊(Ann Wilson)仍然坚持登上舞台。这位著名摇滚乐队Heart的主唱在最近的巡演前意外受伤,但她并未因此放弃演出。安在采访中透露,她在停车场不小心摔倒,导致肘部三处骨折,不得不通过手术用螺钉固定。 受伤细节与演出调整 安解释说:“我现在左臂无法正常使用,这让我在演唱时感到非常困难,因为我的手臂需要固定在吊带中。”她还提到,由于受伤,…

    2025年3月7日
  • 有人往海底捞火锅内小便?上海警方通报:唐某(男、17岁)、吴某(男、17岁)被行拘!

    来源 | 潇湘晨报综合 3月8日,上海市公安局黄浦分局通报,3月6日,黄浦公安分局接辖区某火锅店报案称,网传“有人向火锅内小便”一事发生在该店内。经警方调查,今年2月24日凌晨,外省市来沪人员唐某(男、17岁)、吴某(男、17岁)等人进入该火锅店包间内用餐,唐某、吴某两人醉酒后分别站上餐台向火锅内小便,吴某还将拍摄的视频发布在网上。目前,警方已依法…

    2025年3月8日