Google DeepMind的强大AI联合数学家

附加功能:使用Codex自动化任何手动任务

阿洛

阿洛

发布于 2026年5月11日

每日简报概述

早上好,人工智能爱好者们。GoogleDeepMind刚刚将人工智能的编码策略应用于数学领域:不要直接询问模型答案,而是给一组智能体提供工作空间。
该公司的AI联合数学家在一个旨在难倒人工智能已有数十年的基准测试中创下了新高,一位教授甚至使用了一个被系统自己的审稿人拒绝的证明中隐藏的策略,破解了一个悬而未决的问题。
今日人工智能简报:

  • Google DeepMind的人工智能联合数学家
  • AI资讯圆桌会议:我们的AI应用案例
  • 使用Codex自动化任何手动任务
  • 人工智能从NASA数据中发现100多颗新系外行星
  • 4款全新AI工具、社区工作流程等
1 / 10

🧮 Google DeepMind的人工智能联合数学家

🧮 Google DeepMind的人工智能联合数学家

人工智能资讯:Google DeepMind刚刚发表了一篇关于其人工智能数学助理的论文,该系统基于Gemini 3.1构建,旨在帮助数学家解决未解问题,在研究级数学问题基准测试中创下新高。
细节:

  • DeepMind 模仿了诸如 Claude Code 这样的 AI 编码环境,将智能体团队和内置的审查周期引入数学研究。
  • 一个协调代理将研究工作分解为并行的工作流,每个工作流都有子代理负责编写代码、搜索文献和执行proofs。
  • 牛津大学的马克·拉克比(Marc Lackenby)在一份被拒绝的成果中发现了一种“非常非常巧妙的证明策略”,从而解决了《库罗夫卡笔记本》(Kourovka Notebook)中的一个悬而未决的问题。
    在Epoch AI的FrontierMath Tier 4测试中,该系统以48%的成绩位居排行榜榜首,并且是Gemini 3.1 Pro原始分数19%的两倍多。
    为何重要:随着前沿模型的进步,人工智能(AI)已经引领了数学发现的激增,而与编码类似,代理管道(agentic pipelines)现在正使AI系统能够更进一步。

但正如拉克恩比(Lackenby)的发现所示,对于使顶尖人才能够加速而非取代他们工作的AI而言,未来仍然光明。

2 / 10

📚 初创公司生成式媒体大师

📚 初创公司生成式媒体大师

AI资讯:《初创企业的人工智能未来》(Google)报告是您了解生成式媒体如何重塑产品开发的重要指南,为创始人提供战略见解,帮助他们打造更智能的产品、更快地实现规模化,并始终走在人工智能发展的前沿。
在报告中,您将发现:

  • 如何大规模利用数字孪生技术。
  • 人工智能产品差异化的战略见解。
  • 专家对生成式景观的看法。
    今天就下载这份报告。
3 / 10

💡 AI资讯 圆桌会议:我们的AI应用案例

💡 AI资讯 圆桌会议:我们的AI应用案例

AI资讯:AI资讯圆桌会议是一个每周例行活动,我们会就如何在工作或日常生活中使用人工智能向AI资讯团队成员进行调查。
杰森,开发者:我在OpenAI的Codex中使用了/goal来构建一个《万智牌》应用程序,这样我和我哥哥就可以异步玩游戏,而无需协调通话或尴尬地在FaceTime上玩。

这个想法是让我们每个人在有空的时候轮流玩,干净利落地跟踪棋盘状态,并让游戏持续数天,而不是试图安排日程。

该命令允许Codex继续运行,直到所有任务都完成,基本上无需任何干预就能一次性完成我所寻找的功能。
乔伊,合作:我从未去过希腊,所以为了即将到来的旅行,我全力以赴,把整个行程都交给了Claude。

机票订好了,中转时间安排好了,餐厅列表也按城市精心整理好了。

我现在拿出的计划比大多数旅行社能拼凑出来的还要紧凑!

4 / 10

✅ 使用Codex自动化任何手动任务

✅ 使用Codex自动化任何手动任务

AI资讯:在本指南中,您将学习如何使用Mac或Windows上的计算机功能,让Codex轻松完成任何烦人且重复的工作。
分步说明:

  • 打开Codex,进入“插件”页面,找到并启用“计算机使用”插件,然后启动一个新任务
  • 打开权限菜单,将默认权限切换为完全访问权限,然后确认所有提示,并给Codex一些实际的任务
  • 示例:“打开Chrome浏览器,并调试我正在开发的这个网页用户界面http://localhost:3000/。

点击浏览,重现我描述的错误,然后告诉我你认为是什么导致的。

如果不确定,在做出更改之前先询问”
专业提示:Codex同样可以在本地应用中自动化重复的工作流程——不妨试试用它来处理Photoshop导出、Adobe Premiere清理、文件重命名,或任何其他工具。

5 / 10

🚀 小模型,大推理

🚀 小模型,大推理

人工智能资讯:小型语言模型无需更改权重即可解决更难的推理任务。

Oracle Developers的开源代理推理代码展示了如何在Ollama模型中添加有研究支持的编排功能,开发者可以在本地测试16种推理策略。
在本指南中,您将探索:

  • Ollama的开源推理代码
  • 16种策略,经过4200次运行进行基准测试
  • 无需重新训练模型即可提高准确性
    获取开源推理模式。查阅指南。
6 / 10

🪐 AI从NASA数据中发现100多颗新系外行星

🪐 AI从NASA数据中发现100多颗新系外行星

人工智能资讯:华威大学的天文学家使用名为RAVEN的人工智能系统,扫描了美国国家航空航天局(NASA)凌日系外行星探测卫星(TESS)4年的数据,这些数据涵盖了220万颗恒星。

通过这一系统,他们确认了100多颗系外行星,并且RAVEN还发现了2000多颗额外的潜在候选行星。
细节如下:
RAVEN能够一次性完成检测、审查和确认,它通过模拟行星和误报信号进行训练,以过滤出真正的发现。

  • 发现包括31颗之前从未被发现的系外行星,以及一些绕恒星公转周期不到一天的奇特行星。
  • 在“海王星沙漠”中发现了数百颗系外行星,该区域距离恒星非常近,以至于海王星大小的行星本不应承受如此高的温度而存活。
  • 该系统仅通过更智能的人工智能,而非新增硬件,就能以比以往系统高10倍的精度测量不同行星类型的常见程度。
    为何重要:迄今为止,人类仅确认了数千颗系外行星,而据估计,系外行星的数量高达数万亿颗。

人工智能和技术的进步将迅速改变这一数字——从RAVEN的表现来看,只需升级模型和人工智能集成,就能挖掘出我们现有数据中早已隐藏的太空知识。

7 / 10

🛠️ 热门AI工具

  • 🔒 Incogni - 从网络上删除您的个人数据,让骗子和身份窃贼无法获取。使用代码RUNDOWN可享受55%的折扣*
  • 💻 Codex in Chrome - OAI的Codex扩展程序,用于在Chrome内部执行代理任务
  • 🧠 ERNIE 5.1 - 百度全新基础模型,具备强大的搜索能力
  • 🖨️ 印刷机 - 命令行界面(CLI)工厂,包含30多个预构建的、代理原生的工具
    *赞助列表
8 / 10

📰 今日人工智能的其他所有内容

据报道,Google的Isomorphic Labs正在筹集20亿美元以上的资金,以扩大其药物设计引擎,该公司表示,该引擎在特定任务上的表现明显优于AlphaFold 3。
希腊正提议将人工智能保护纳入其宪法,要求该技术服务于个人自由,希腊总理米佐塔基斯(Mitsotakis)指出民主正面临威胁。
百度发布了ERNIE 5.1,该模型在Arena搜索排行榜上位列第四。百度声称,其训练成本仅为竞争对手模型的6%。
OpenRouter推出了Pareto Code,这是一个免费的路由层,能够自动选择用户设定质量标准之上的最便宜的编码AI,并且随着新模型的改进,价格也会相应调整。
软银集团的电信部门推出了一项电池业务,旨在建设大规模电池和储能系统,以满足正在开发中的数据中心的电力需求。

9 / 10

🤝 社区AI工作流程

在每一期通讯中,我们都会展示一位读者如何利用人工智能更高效地工作、节省时间或让生活更轻松。
今日的工作流程来自读者匿名:
“我在专业领域使用ChatGPT处理各种事务,它出奇地有用且令人耳目一新。

不过,迄今为止,我发现它最大的用处是帮助我训练我的四只狗。

之前,由于训练过程混乱,我曾打算花费数千美元请一位专业训练师,但ChatGPT帮助我找到了特定行为的根本原因,并教会我如何针对我的每只狗,使用量身定制的特定技巧,成功绕过并克服这些行为。

它带给我的信心和积极的强化改变了家庭中的每一个动态,我真希望自己早点开始使用它。


你是如何使用人工智能的?请在此处告诉我们。

10 / 10

🎓 亮点:新闻、指南与活动

  • 阅读我们上一期人工智能简报:OpenAI弥合语音代理中的推理差距
  • 阅读我们上一期的科技通讯:《“内存天劫”即将降临你的笔记本电脑》
  • 阅读我们上一期的机器人通讯:创世纪机器人制作早餐
  • 今日AI工具指南:使用Codex自动化任何手动任务

相关文章推荐