AI模型在基准测试中“作弊”，行业标准受质疑

wd123_cn • 2025年3月8日下午2:33 • 新闻资讯 • 阅读 7

2025年，AI行业的发展速度令人眼花缭乱。OpenAI、Anthropic、Google和xAI等公司纷纷发布了重要的AI模型和产品，并几乎无一例外地将它们标榜为“全球最佳”和“最智能”。

AI模型的智能评估难题

然而，如何准确评估像GPT-4.5或Claude 3.7这样的最新AI模型的“智能”程度，却是一个复杂的问题。尽管这为市场营销提供了便利——模糊的“智能”指标使得宣称其优越性变得容易——但这也使得准确衡量任何AI模型相对于其他模型的强大程度或能力变得困难。尽管如此，业内已经形成了一套行业范围内的基准测试，用于评估AI模型的能力，而科技公司通常所说的“最智能”模型，往往是指在这些基准测试中取得了新高分。

基准测试的“作弊”问题

然而，问题在于，这些聊天机器人似乎在基准测试中“作弊”。过去两年的一系列研究表明，来自OpenAI、Google、Meta等公司的领先AI模型“在训练中使用了流行基准测试的文本，从而玷污了其得分的合法性。”Alex Reisner在本周写道：“这就像一个人类学生偷窃并记住数学测试的内容，从而欺骗老师认为他已经学会了长除法。”这或许并非科技公司的本意——许多基准测试或其问题本身就存在于互联网上，因此被吸入了AI模型的训练数据中。（在Reisner提到的实验室中，只有Google DeepMind回应了评论请求，表示他们对此问题非常重视。）无论是否有意，这些基准测试的不可靠性使得区分事实与营销变得更加困难。

未来展望

随着AI技术的快速发展，行业标准的透明性和公正性变得越来越重要。如何建立一个更加可靠和公正的评估体系，将成为未来AI行业发展的关键挑战之一。科技公司需要在追求技术突破的同时，确保其产品和模型的评估过程更加透明和可信。

赞 (0)

死因公布！好莱坞传奇影星吉恩·哈克曼与亡妻共处一周后离世

上一篇 2025年3月8日下午2:33

有人往海底捞火锅内小便？上海警方通报：唐某（男、17岁）、吴某（男、17岁）被行拘！

下一篇 2025年3月8日下午2:33

新闻资讯

行业交流群，欢迎加入~

课程学习 | 人才孵化 | 求职招聘 | 资源对接做互联网营销想要提升，或是想跟前辈们交（mo）流（yu），不混圈子怎么能行！还没有加过交流群想要加群的朋友往下看~~ 艾奇在线是国内专业的SEM与信息流广告从业者学习交流平台，汇聚全网30万互联网广告从业者。同时我们也建立起了规模较大的优质广告投放交流圈子，有优化师成长交流群以及&…

2025年3月13日
新闻资讯

雨蛙“打哈欠”的真相：并非困倦，而是为了蜕皮！

你是否也有过这样的经历：临近睡前，困意袭来，不由自主地开始打哈欠？或者是在午后，百无聊赖时也会打个哈欠？人们通常认为，哈欠是困倦或无聊的信号，甚至有人说打哈欠能释放激素，提高心率和警觉性，短暂地保持清醒。那么，其他动物也会打哈欠吗？它们打哈欠的原因又是什么呢？雨蛙的“哈欠”之谜网络上流传着一段可爱的雨蛙“打哈欠”的视频，让人觉得它们也要准备睡觉了。然而，…

2025年3月17日
新闻资讯

教皇方济各肺炎康复后首次公开露面，坐轮椅现身圣彼得广场

（梵蒂冈城路透社消息）在因双侧肺炎住院治疗两周后，88岁的教皇方济各于周日首次公开露面，他乘坐轮椅进入梵蒂冈圣彼得广场，向欢呼的人群致意。自3月23日离开罗马杰梅利医院以来，教皇方济各一直没有公开露面。他在那里接受了超过五周的治疗，这是他12年教皇生涯中最严重的健康危机。在为天主教会禧年举行的弥撒庆典即将结束之际，教皇方济各在事先未宣布的情况下，于中午（…

2025年4月7日
新闻资讯

巨量5月UBA全切，投手们怎么办？

点击关注▲艾奇SEM 知识 | 经验 | 资讯 | 资料四大版块专注SEM与信息流广告相信大家多少也都接到了UBA即将在5月开始全切的通知，如下：有网友不免吐槽：这是要革了优化师的命吗？ 2025难道是优化师这个岗位的最后一年吗？说实在的，从这个通知确实能看到巨量的野心，就是去掉所有中间…

2025年3月18日
新闻资讯

安·威尔逊带伤坚持巡演，臂伤未愈仍坐台献唱

尽管受伤，安·威尔逊（Ann Wilson）仍然坚持登上舞台。这位著名摇滚乐队Heart的主唱在最近的巡演前意外受伤，但她并未因此放弃演出。安在采访中透露，她在停车场不小心摔倒，导致肘部三处骨折，不得不通过手术用螺钉固定。受伤细节与演出调整安解释说：“我现在左臂无法正常使用，这让我在演唱时感到非常困难，因为我的手臂需要固定在吊带中。”她还提到，由于受伤，…

2025年3月7日
新闻资讯

有人往海底捞火锅内小便？上海警方通报：唐某（男、17岁）、吴某（男、17岁）被行拘！

来源 | 潇湘晨报综合 3月8日，上海市公安局黄浦分局通报，3月6日，黄浦公安分局接辖区某火锅店报案称，网传“有人向火锅内小便”一事发生在该店内。经警方调查，今年2月24日凌晨，外省市来沪人员唐某（男、17岁）、吴某（男、17岁）等人进入该火锅店包间内用餐，唐某、吴某两人醉酒后分别站上餐台向火锅内小便，吴某还将拍摄的视频发布在网上。目前，警方已依法…

2025年3月8日