让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

每经记者实测马斯克“地表最强AI”Grok 3:速率称王,数学亮眼,但逻辑本事不敌DeepSeek

发布日期:2025-03-30 15:05    点击次数:62

专题:科技早报

  每经记者 岳楚鹏    每经剪辑 高涵    

  近日,东说念主工智能初创公司xAI(马斯克建树的东说念主工智能公司)发布了更新版Grok 3(模子名)大模子,埃隆·马斯克称之为“地球上最智谋的东说念主工智能”。

  凭证官方公开的测试完毕,Grok 3在包括AIME(好意思国数学邀请赛)和 GPQA(询查生水平的巨匠推理)等基准测试中,证据远超GPT-4o(模子名)、Gemini-2Pro(模子名)、DeepSeek V3(模子名)、Claude 3.5 Sonnet(模子名)等。

  在大模子竞技场Chatbot Arena(一个通过东说念主类评估东说念主工智能的开源平台)测试中,xAI工程师暗示,早期版块的Grok 3获取了第一的收货,达到了140分,特出了Gemini 2.0 Flash Thinking(模子名)实验版块、GPT-4o最新版块以及最近大火的DeepSeek-R1(模子名,以下简称R1)等。

  然则,有些用户在体验后却对Grok 3的本事产生了质疑,他们觉得Grok 3的本事并莫得马斯克宣称的那么雄伟。OpenAI(一家灵通东说念主工智能询查和部署公司)应用询查垄断Boris Power(东说念主名)则对Grok团队在模子评估中的举止暗示失望,指出其存在舞弊和诳骗动机。Boris Power提到,o3mini(模子名)在各项评估中均优于Grok 3。

  真相到底如何,马斯克夸口了吗?《逐日经济新闻》记者测试发现,Grok 3如实是全国顶级模子,但并莫得和其他模子拉开太大差距,独一拉开差距的是它极快的反应速率。

  或者拿下数字比大小

  Grok 3是由马斯克旗下的东说念主工智能公司xAI发布的最新一代AI(东说念主工智能)模子。马斯克在发布会上称其为“地球上最智谋的东说念主工智能”,并暗示Grok 3的本事比前代家具Grok 2最初一个数目级,具备更强的推理、谋略和适宜本事。

  在新闻发布会上,马斯克宣称Grok 3在数学、科学和编程等基准测试中证据出色,特出了谷歌的Gemini、DeepSeek的V3模子、Anthropic(一家好意思国东说念主工智能企业)的Claude(模子名)和OpenAI的GPT-4o等竞争敌手。

  Grok 3在发布后仅48小时内,xAI文告将其免费灵通给通盘效户,直至处事器负载达到极限。当今用户每天不错体验十条“念念考花样”Grok 3及不限量免费泛泛Grok 3。

  《逐日经济新闻》记者在Grok 3发布后也切身进行了测试,望望Grok 3是否真有马斯克宣传的那么历害。

  开始,从最经典的基础问题开动:9.9和9.11谁大?

  这个问题毫无难度,Grok 3或者拿下。

  逻辑念念考本事并不隆起

  马斯克在发布会上骄贵的小数是,Grok 3“念念考模子”下的逻辑推理本事。他宣称,Grok 3(念念考花样)学会了翻新其惩办问题的计谋,通过回溯阅兵失误,简化法子,并欺诈其在预教练技艺获取的学问。就像东说念主类在惩办复杂问题时相同,Grok 3(念念考花样)不错耗尽几秒钟到几分钟的时分进行推理,平凡会探讨多种门径,考据我方的惩办有筹画,并评估如何精确心仪问题的条目。

  记者用弱智吧的问题来老练一下它的逻辑是不是真是过关。“弱智吧”是百度贴吧的一个子论坛。在这个论坛中,用户频繁发布包含双关语、多义词、因果非常息争音词等具有挑战性的内容,许多内容联想有逻辑陷坑,即使对东说念主类来说也颇具挑战。

  第一个问题:用水来兑水,得到的是浓水照旧稀水?

  Grok 3答对了问题,而且还指出这是一个翰墨游戏。而OpenAI的o1就在这说念题上败下阵来,觉得水兑水后得到的是稀水。天然除了o1,其他大模子诸如Gemini和R1齐答对了这说念问题。是以这并不及以讲授Grok的推理花样即是第一的水平,还得加浩劫度。

  下一题:改日的某天,李同学在实验室制作高深材料时,随机发施行验室的老鼠在空中飞。分析发现,是因为老鼠不注重吃了高深材料。第二天,李同学又发施行验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发施行验室的老鹰也在空中飞,你觉得原因是什么?

  很可惜,这说念题Grok 3莫得答对,它在念念维链内部也曾料想了老鹰自己就会飞的可能性,但是莫得在临了的输出完毕里体现出来。其他大模子里唯独R1告捷答对了问题,且探讨了两种情况。

  记者还进行了屡次肖似问题的测试,发现Grok 3对汉文的流露和逻辑推理本事如实显然高于其他海外模子,但照旧不如R1。

  数学本事未拉开差距

  既然逻辑念念考无法夺魁,那么在基准测试里分最高的数学名目,Grok 3能弗成扳回一局呢?

  题目如下:三个东说念主打台球,两东说念主对局一东说念主不雅战,输的东说念主下场换不雅战的东说念主上场,如斯来回,最终,A输了6局,B输了8局,C输了10局,问各赢若干局?

  这说念题唯独Grok 3和OpenAI的o1答对。不外,Grok 3只用了1分15秒就得出了谜底,o1使用了2分53秒。

  再进一步加浩劫度望望能弗成分出荆棘。底下是一起群论问题:有几个阶为147的非同构群。

  在这个问题上,Grok 3固然答对了具体的数目6个,但是中间的具体群却错了一个。而其他模子只找到了5个正确的非同构群。这意味着,在数学本事方面,Grok 3如实是最佳的,但是好得有限,并莫得与其他同品级模子拉开权臣差距。

  编程本事险胜o1

  针对编程本事,《逐日经济新闻》记者借用了Kcores(公司名)斟酌独创东说念主karminski-牙医(网名)的测评完毕。

  karminski-牙医复现了马斯克在发布会上关于火星辐射权谋的代码模拟,并测试了多个模子进行相比。

  在此次测试中,证据最佳的是Grok 3的推理模子(念念考花样),固然在临了着陆时,动画火箭莫得与火星疏通,但轨说念需求谋略得很好。但是永恒莫得复现出马斯克在发布会时所展现的那么完好意思的轨说念谋略和动画。Grok 3临了轮廓得分排在了第一,再之后是OpenAI的o1,两者的轮廓得分差距不大。

  联结通盘测试来看,Grok 3如实是全国顶尖的AI模子,不愧于20万张GPU(图形处理器)的身价。但是,本色测试后果并莫得马斯克在发布会上展示的那么夸张,马斯克所说的全国上最“智谋”的模子,可能还值得商榷。

  在实测中,《逐日经济新闻》记者发现,Grok 3模子本事并莫得像基准测试得分那样远远甩开敌手一大截,独一甩开竞争敌手的小数是它的反应速率,它得出完毕的速率相较于其他同品级的大模子来说是最快的。

海量资讯、精确解读,尽在新浪财经APP

包袱剪辑:王许宁