换个角度来看,
7月12日,中信证券最新研报指出,Grok-4在算力消耗层面的指数级增长,多项测评指标层面实现SOTA,以及年内清晰的产品路线图(编程、多模态、视频生成)等,对当前全球AI产业影响明显,包括算力基建和应用落地等层面,相应体现在:科技巨头在前沿模型领域的“军备竞赛”、推理&scaling law&多模态等带来的算力持续爆炸式增长、推理能力提升带来更多应用场景解锁等。美股科技领域,建议继续围绕基础设施、AI应用等环节,重点布局AI计算芯片、HBM、AI网络设备、IDC、基础&应用软件、互联网服务等领域。
说到底,
全文如下
概括一下,
前瞻|xAI发布Grok-4,算力堆积+强化学习刷新行业SOTA
三生有讯用户评价:
近期xAI发布Grok-4系列模型,其投入的训练计算量为Grok-2的100倍,推理训练量是Grok-3的10倍。在指数级算力消耗增长+强化学习的助推下,Grok-4系列模型综合能力刷新当前行业记录。据xAI官方测评数据,在数学测试、理科测试和代码测试中,Grok-4系列模型的性能表现超越了o3、Gemini-2 Pro和Claude 4 Opus等头部模型。本站认为Grok-4系列模型的影响包括:科技巨头在前沿模型领域的“军备竞赛”、推理&scaling law&多模态等带来的算力持续爆炸式增长、推理能力提升带来繁琐应用场景解锁可能等。美股科技领域,建议继 三生有讯官网 续围绕基础设施、AI应用等环节,重点布局AI计算芯片、HBM、AI网络设备、IDC、基础&应用软件、互联网服务等领域。
▍事项:
然而,
北京时间7月10日中午,马斯克创立的大模型初创公司xAI发布了其最新一代大模型Grok-4系列模型,引发资本市场高度关注。根据xAI官网,该系列模型预计将包含Grok-4、Grok-4 Heavy、Grok-4编程模型和Grok-4视频生成模型4款模型,上下文窗口长度达25.6万Token。其中Grok-4和Grok-4 Heavy已正式开放。Grok-4和Grok-4 Heavy均为纯推理模型,没有非推理模式;Grok-4是单代理版本,而Grok-4 Heavy是多代理版本,可兼容4个代理同时工作。根据xAI官方推特,Grok-4是xAI基于其部署于田纳西州孟菲斯的Colossus超级计算机训练得到的,总训练计算量是Grok-2的100倍,其中推理训练量是Grok-3的10倍。根据xAI发布会,Grok-4编程模型和Grok-4视频生成模型预计将分别于2025年8月和10月问世。
事实上,
▍模型效果与实现机理:算力堆积+强化学习大幅提升模型推理能力。
尤其值得一提的是,
作为在十万卡集群上训练得到的大模型,Grok-4测评结果亮眼,在多项测试中均处于行业领先地位。根据xAI发布会,在数学测试AIME25、研究生水平理科测试GPQA和编程测试Coding(LCB Jan-May)中Grok-4的得分分别为98.8/87.5/79.3,Grok-4 Heavy的得分分别为100/88.9/79.4,性能表现超越了Gemini-2 Pro、Claude 4 Opus和o3等旗舰模型。高难度测试方面:1)根据xAI官网,HLE(Humanities Last Exam)测试中,Grok-4在未采纳软件的情况下得分为25.4,在采纳软件后得分为38.6;Grok-4 Heavy的得分为44.4;而Gemini 2.0 Pro和o3的得分分别为26.9和24.9。2)根据ARC官网,在ARC-AGI v2评测中,Grok达到了SOTA,得分为15.9,第二名Claude 4 Opus得分仅为 8.6 %。根据xAI官网,本站认为Grok-4性能优秀的成因有以下2点:1)庞大的算力投入带来了模型能力的涌现,根据xAI发布会,Grok-4的总训练量为Grok-2的100倍,而推理训练量是Grok-3的10倍;2)强化学习、自我纠错机制、人类反馈循环和上下文训练等训练手段的应用。
三生有讯行业评论:
▍市场定位:C端面向付费使用者,B端定价具备一定吸引力,多模态能力提升后应用场景料将大幅拓展。
很多人不知道,
C端市场方面,根据xAI发布会,目前Grok-4仅面向付费使用者,SuperGrok订阅计划收费为30美元/月(年费为300美元/年),该订阅计划可用采纳Grok-4模型;而可用采纳Grok-4 Heavy的SuperGrok Heavy订阅计划收费为300美元/月(3000美元/年)。B端市场方面,Grok-4的API已经开放采纳,定价为输入3美元/百万Token,输出为15美元/百万Token。对比o3(输入10美元/百万Token,输出为40美元/百万Token)、Gemini 2.5 Pro(输入2.5美元/百万Token,输出15美元/百万Token)和Claude 4 opus(输入15美元/百万Token,输出75美元/百万Token),本站认为Grok-4的API定价具备一定的吸引力,在当前大模型的B端市场有望获得一定的份额。同时从模型本身的能力来看,Grok-4目前兼容文字和图形输入,但不兼容图形输出。本站认为若多模态能力有进一步提升,将有效拓展模型的应用场景。
▍趋势展望:算力堆积+强化学习依然是模型能力进步主要路径,前沿模型演进继续保持快节奏。
反过来看,
根据IBM和MIT研究者的论文《A Hitchhiker’s Guide to Scaling Law Estimation》(Choshen,Zhang和Andreas,2024),理论上来看现阶段预训练Scaling Law依旧有效。而从xAI的实践来看,当前继续堆积算力并结合强化学习改进模型能力的路径依然 IC外汇开户 有效。一方面,Grok-2到Grok-3乃至Grok-4投入的算力每一代都有大幅的增长;另一方面,强化学习技术也在不断进步,在强化学习技术的加持下,模型的软件调用能力迅速进步,对繁琐疑问的处理能力不断提升。同时根据各公司官网,本站认为2025年模型迭代呈现加速状态,平均每2个月头部厂商就会发布一款新模型并刷新模型性能极限。本站认为这种趋势仍将持续,基础模型能力将迅速进步。
事实上,
▍风险因素:
AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、使用者隐私风险;企业数据泄露、信息有保障风险;行业竞争持续加剧风险等。
▍投资策略:
通常情况下,
Grok-4在算力消耗层面的指数级增长,多项测评指标层面实现SOTA,以及年内清晰的产品路线图(编程、多模态、视频生成)等,对当前全球AI产业影响明显,包括算力基建和应用落地等层面,相应体现在:科技巨头在前沿模型领域的“军备竞赛”、推理&scaling law&多模态等带来的算力持续爆炸式增长、推理能力提升带来更多应用场景解锁等。美股科技领域,建议继续围绕基础设施、AI应用等环节,重点布局AI计算芯片、HBM、AI网络设备、IDC、基础&应用软件、互联网服务等领域。
三生有讯报导:
(帖子来源:画面新闻)