发布日期:2024-08-15 08:52 点击次数:176
机器之心报谈【HMGL-068】恥ずかしいカラダ お宝デビュー MARIA*Gカップ2011-11-26HMJM&$Glamour128分钟
机器之机杼剪部
GPT-5不出,Grok依然赶上了。
就在谷歌与OpenAI相互抢新闻的吞并天,马斯克旗下的xAI也莫得闲着。
北京时分周三下昼,xAI精良发布了新一代Grok2大模子。
第三方大模子基准组织ChatbotArena也立即更新了LMSYS榜的得益列表。Grok2的早期型号(sus-column-r)紧随GPT-4o(0513版)之后不错位列第四,发达优于Claude3.5Sonnet和GPT-4-Turbo。
它在编码、复杂问题和数学方面发达出色。
马斯克难免自豪起来,「Grok的鼓励速率像坐了火箭。」
防御,这仅仅早期版块的分数,ChatbotArena暗意后续还会测试一下郑再版。
马斯克暗意,Grok-2是具有起先进推理才智的先进语言模子。新一代包括两个版块:Grok-2和Grok-2mini。两种模子当今齐在X平台上向Grok用户发布。现时,XPremium和Premium+用户依然不错体验Grok-2和Grok-2mini这两种模子。
比较此前的Grok-1.5,Grok-2的早期预览版达成了首要跳动,在聊天、推理、代码等方面展示出了早先的才智。xAI暗意,Grok-2和Grok-2mini现时正在X上处于测试阶段,将在本月晚些时候通过企业API的步地提供。
新模子发布后不到半小时,依然有网友在晒使用后果了,他使用Grok2mini生成了一张「我与马斯克吃热狗」的图像。
再试试其他的生成一张华盛顿的画像。
也有东谈主试了试Grok2mini,生成一只飞猫。
还有东谈主生成了特斯拉ModelY,看起来挺像的?
Grok-2性能大PK
跟着xAI将Grok-2的早期版块「sus-column-r」放入到ChatbotArena,se色综合网咱们看到了它与其他流行开闭源模子的性能比较。
就总体的Elo得分而言,Grok-2的发达要优于Claude系列模子和大多版块的GPT-4。诚然,排在第一位的是OpenAI这几天刚放出的GPT-4o(8月8日版块)。
下图为Grok-2与其他流行模子的胜率(WinRate)比较。
下图为Grok1.5与Grok2两个版块基于事实性的胜率比较。
巨乳xAI汲取这么的历程来对Grok2模子进行评估,运用AITutors在多样任务中与模子信得过互动。在每次互动过程中,Grok2齐会向AITutors提供两个反映,然后证明指南中列出的特定要领聘用最好反映。
xAI专注于在两个关节畛域评估模子性能,分辨是教导恪守和提供准确、信得过的信息。章程裸露,Grok2在运用检索到的实践进行推理以及使用器具的才智方面有了显赫的跳动,比如正确地识别缺失信息、通过事件序列进行推理、丢弃不干系的帖子等。
基准测试得益
xAI通过一系列学术基准对Grok-2模子进行了评估,这些基准包括推理、阅读意会、数学、科学和编码。
Grok-2和Grok-2mini齐比之前的Grok-1.5模子有了显赫转变。在研究生水平的科学知识(GPQA)、学问(MMLU、MMLU-Pro)和数学竞赛问题(MATH)等畛域的发达可与其他前沿模子相失色。
此外,婷婷成人Grok-2在基于视觉的任务方面发达也很出色,在视觉数学推理(MathVista)和基于文档的问答(DocVQA)方面性能显赫。
Grok2界面和功能「大变身」
昔日几个月,xAI一直阻挡地进步x平台上的Grok体验。当今,跟着下一代Grok2的推出,xAI再行遐想了界面,如下图所示。
诚然,xAI提供了一些新功能,比如Conway《生命游戏》的通俗达成。
再比如多模态意会才智(看图话语)。
其中,Grok-2是xAI起先进的AI助手,领有文本和视觉意会功能,并集成了来自X平台的及时信息,可通过X应用门径中的Grok选项卡拜谒。
Grok-2mini是一款工整但功能雄壮的模子,在速率和谜底质地之间赢得了很好均衡。
与其前代居品比较,Grok-2更直不雅、更可控、更机动,适用于多样任务,不管你是在寻找谜底、合作写稿照旧搞定编码任务。
此外,xAI还与初创公司BlackForestLabs张开合作,西席他们的FLUX.1模子,以膨大Grok在X上的功能。
本月晚些时候,xAI还将通过新的企业API平台向开发东谈主员发布Grok-2和Grok-2mini。行将推出的API开发在新的定制期间堆栈上,允好多区域推理部署,以达成环球低蔓延拜谒。
诚然,xAI还提供了一些增强的安全功能,举例强制性多成分身份考据(举例使用Yubikey、AppleTouchID或TOTP)。
不错看到,自2023年11月推出Grok-1以来,xAI一直以惊东谈主的速率鼓励该系列模子。很快,他们将发布具有多模态意会的预览版。xAI之后的重心将是通过新的筹画集群来提高模子的中枢推理才智。
博客地址:https://x.ai/blog/grok-2【HMGL-068】恥ずかしいカラダ お宝デビュー MARIA*Gカップ2011-11-26HMJM&$Glamour128分钟