谷歌的升级打破了推理的障碍

PLUS:如何利用人工智能制作电视广告

阿洛

阿洛

发布于 2026年3月16日

每日简报概述

早上好,人工智能爱好者们。OpenAI和Anthropic一直在抢占2026年的头条新闻——但谷歌刚刚提醒了所有人,为什么它仍然是人工智能竞赛中的最大巨头。
凭借升级版的Deep Think在数学、编程和科学领域超越基准测试的表现,以及一款能够自主解决开放性问题的新型研究代理,这家科技巨头正将人工智能科学研究推向未知领域。
今日人工智能简报:

  • 谷歌的Deep Think在推理基准测试中大获全胜
  • OAI在Cerebras芯片上推出超快编码模型
  • 如何利用人工智能生成电视广告
  • MiniMax的开源M2.5达到了前沿编码水平
  • 4款全新AI工具、社区工作流程等
1 / 10

⚡谷歌的Deep Think碾压推理基准测试

⚡谷歌的Deep Think碾压推理基准测试

AI资讯:谷歌刚刚对其Gemini 3 Deep Think推理模式进行了重大更新,在数学、编程和科学方面均取得了显著成绩,同时还推出了由新升级驱动的奥林匹亚级数学研究代理。
细节如下:

  • Deep Think在ARC-AGI-2上的得分达到84.6%,远超Opus 4.6(68.8%)和GPT-5.2(52.9%),并在Humanity's Last Exam上创下48.4%的新高。
  • 该队在2025年物理与化学奥林匹克竞赛中也取得了金牌成绩,在Codeforces上的Elo评分为3455,比Opus 4.6高出近1000分。
  • 谷歌还推出了数学代理工具Aletheia,该工具能够自主解决开放性问题、验证证明,并在领域基准测试中屡创新高。
  • Gemini应用中的Deep Think升级已对Google AI Ultra订阅用户开放,研究人员可通过早期访问计划获取API访问权限。
    为何重要:在谷歌在2025年主导各项基准测试并占据头条新闻之后,2026年的焦点更多地转移到了Anthropic和OpenAI身上——但不要忘记这家科技巨头可以说是人工智能竞赛中最大的强者。

Deep Think的分数令人震惊,数学和科学的前沿正在迅速进入未知领域。

2 / 10

💸 不要再浪费95%的数据标注预算了

💸 不要再浪费95%的数据标注预算了

AI资讯:大多数团队都在标注大量从未用于模型训练的数据。

Voxel51于2月18日举办的技术研讨会展示了如何构建反馈驱动的标注流程,以消除过度标注的问题——在提高模型性能的同时节省时间和金钱。
参加工作坊,学习:

  • 如何利用零样本选择和嵌入技术实现最大成本节约
  • 快速审查特定对象并修复错误的QA工作流程
  • 如何实施专门的测试集以尽早发现标签偏移
  • 使用嵌入进行调试,以可视化使模型混淆的聚类
    立即注册。
3 / 10

⚡ OAI在Cerebras芯片上推出超快编码模型

⚡ OAI在Cerebras芯片上推出超快编码模型

AI资讯:OpenAI发布了GPT-5.3-Codex-Spark,这是一款新的速度优化的编码模型,可在Cerebras硬件上运行,每秒可生成1000多个标记,标志着该公司首款由Nvidia堆栈之外芯片驱动的AI产品问世。
细节如下:

  • Spark以速度换取智能,在SWE-Bench Pro和Terminal-Bench上全程追踪5.3-Codex,但完成任务的时间却只有其几分之一。
    就在此次发布几周前,OAI与Cerebras签署了一项价值超过100亿美元的协议,并与AMD和Broadcom分别签署了协议,以实现业务多元化,减少对英伟达的依赖。
  • OAI的愿景是让Spark处理快速的交互式编辑,而让完整的Codex在后台处理更长的自主任务。
  • 该模型作为ChatGPT Pro订阅用户的研究预览版推出,API访问权限最初仅限于少数企业设计合作伙伴。
    为何重要:Codex的主要批评点在于其速度,而OpenAI刚刚以一种重大方式解决了这一问题——同时通过基于Cerebras硬件构建的首款产品,使其芯片多样化策略真正落地。

对于那些能够牺牲一点性能以换取速度的开发任务而言,实时编码并获得即时反馈无疑将改变其工作流程。

4 / 10

📺 如何利用人工智能生成电视广告

📺 如何利用人工智能生成电视广告

AI资讯:在本指南中,您将学习如何以专业电视广告的风格制作一个20秒的广告——无需猜测输出,也无需点击和祈祷。
分步说明:

  • 构思一个广告创意,并让Gemini策划两个5秒的场景。完成后,要求它为两个场景的开头和结尾帧编写提示。
  • 现在,登录到Higgsfield(您需要一个基础版/专业版计划),然后点击“图像”>“创建图像”>“Nano Banana Pro”。

设置4k画质、4种变体和21:9的比例。

  • 为场景1生成开始帧和结束帧,为场景2仅生成结束帧。下载你最喜欢的那些。
  • 在Higgsfield中,进入“视频”>“Kling 3.0”,按照简短场景提示上传你的帧,然后点击“生成”。之后,在免费编辑器中拼接视频。
    专业提示:在生成场景提示时,请让Gemini使用“Hero shot”(英雄镜头)等摄影术语。您还可以使用Suno + Eleven Labs为广告生成音乐。
5 / 10

🏗️ 构建可扩展的安全代理式人工智能

🏗️ 构建可扩展的安全代理式人工智能

AI资讯:微软与CData将携手举办一场45分钟的现场活动,探讨如何利用Copilot Studio、Agent 365和CData的Connect AI设计安全、可扩展的代理基础设施,活动还包括现场跨系统工作流程演示。
在本节课程中,你将学到:

  • 微软和CData如何为生产型人工智能代理提供连接性、上下文信息以及控制能力
  • 两个团队在代理设计和制作方面的最佳实践
  • 如何构建和部署与Salesforce和Dynamics 365同步的Copilot Studio代理
    在此处注册参加会议。所有注册者都将收到会议录像。
6 / 10

💰 MiniMax的开源M2.5达到前沿编码水平

💰 MiniMax的开源M2.5达到前沿编码水平

AI资讯:中国人工智能实验室MiniMax推出了M2.5,这是一个开源模型,在代理编码基准测试中可与Opus 4.6和GPT-5相媲美,但成本仅为后者的几分之一,因此足够便宜,可以支持人工智能代理全天候运行。
细节如下:

  • M2.5展现了尤为出色的编码性能,在关键开发基准测试中的得分与Opus 4.6和GPT-5.2大致相当。
  • 提供了两种应用程序编程接口(API):速度更快的M2.5-Lightning(每百万输出2.40美元)和标准M2.5(每百万输出1.20美元),两者价格均远低于Opus(每百万25美元)。
  • MiniMax透露,M2.5现在处理公司研发、产品、销售、人力资源和财务等日常任务的30%,以及80%的新代码提交。
  • 这些模型可通过API获取,但开源权重和许可证尚未发布。
    为何重要:每隔几个月,似乎就会有一家中国实验室推出一种模型,改变整个行业的成本计算方式。

M2.5以这样的价格提供前沿水平的编码,使得“智能成本低到无法计量”的感觉比以往任何时候都更接近现实,这是一个重要的发展,因为处理更长时间自主任务的智能体正变得越来越普遍。

7 / 10

🛠️ 热门人工智能工具

  • 🔒 Incogni - 从网络上删除您的个人数据,这样骗子和身份窃贼就无法访问了。使用代码RUNDOWN可享受55%的折扣。*
  • 🧠 Gemini 3 深度思考 - 谷歌升级版人工智能推理模式
  • ⚡️ GPT-5.3-Codex-Spark - OpenAI的超快速实时编码模型
  • 🤖 M2.5 - Minimax全新开源前沿模型,具备强大编码能力
    *赞助列表
8 / 10

📰 今日人工智能其他要闻

字节跳动正式发布了其爆红视频模型Seedance 2.0,并公布了基准测试结果和技术博客,但访问权限仍然受限。
穆斯塔法·苏莱曼向英国《金融时报》表示,大多数白领工作将在“12至18个月内完全由人工智能自动化”,而微软正致力于使其模型实现“真正的自给自足”。
埃隆·马斯克表示,xAI的离职潮是被迫的,而非自愿——他称这是在本周失去十位联合创始人和工程师后,为提高“执行速度”而进行的重组。
OpenAI今日宣布,将停用ChatGPT中的GPT-4o、GPT-4.1和o4-mini,而用户则呼吁保留4o。
Anthropic正式宣布新一轮300亿美元的融资,估值达3800亿美元,其收入运行率达到140亿美元——其中25亿美元仅来自Claude Code。
在ChatGPT广告发布后,OAI(开放人工智能)研究员佐伊·希齐格辞职,并警告称OAI的人类思维档案库存在“前所未有的被操纵的可能性”

9 / 10

🤝 社区人工智能工作流程

在每一期通讯中,我们都会展示一位读者如何利用人工智能更高效地工作、节省时间或让生活更轻松。
今天的工作流程来自澳大利亚读者安东尼·H:
“我需要一个二维码扫描器,以便在定期会议上为会员进行签到,这个扫描器需要在iPad上使用。

我找不到一个既不昂贵,又没有多余不必要功能的优秀解决方案。

于是,我利用Google AI Studio、GitHub和Vercel,自己开发了一个。

”。
该系统具备活动会话创建、会员资料管理、为每位会员自动生成自定义二维码以及系统备份等功能,由于数据存储在本地,因此保护了隐私。

我增加了批量导入和导出功能。

还可以根据我们的资金需求创建报告。
"
你是如何使用人工智能的?请在此处告诉我们。

10 / 10

🎓 亮点:新闻、指南与活动

  • 阅读我们上一期人工智能通讯:xAI的下一阶段全面启动
  • 阅读我们上一期的科技通讯:马斯克的“自我成长”月球城
  • 阅读我们上一期的机器人通讯:《Apptronik 9.35亿美元的人形机器人时刻》
  • 今日AI工具指南:如何利用AI生成电视广告
  • 2月18日下一场工作坊的回复:代理工作流训练营第二期

相关文章推荐