ARC-AGI-3刷新了前沿人工智能的得分记录

附加:为您公司的Slack创建带有品牌特色的反应GIF图

阿洛

阿洛

发布于 2026年3月26日

每日简报概述

早上好,人工智能爱好者们。

人工智能行业最喜欢挂在嘴边的一个论点是,我们即将迎来通用人工智能(AGI),但最近的一项测试表明,世界上最好的模型甚至无法获得超过1%的分数。
ARC-AGI-3是该基准测试的加强版,已成为检验AGI(人工智能通用智能)宣称是否属实的首选标准——而Gemini Pro以仅0.37%的差距领先,前沿模型刚刚面临了一个全新的挑战(但很可能在大约六个月内再次轻松超越)。

今日人工智能简报:

  • ARC的新AGI测试让所有前沿AI都束手无策
  • Reddit的人工智能机器人打击行动跳过了身份检查
  • 为Slack创建带有品牌特色的表情GIF
  • 谷歌在零精度损失的情况下缩小了人工智能内存
  • 4款全新AI工具、社区工作流程等
1 / 10

🧐 ARC的新AGI测试让所有前沿AI都束手无策

🧐 ARC的新AGI测试让所有前沿AI都束手无策

AI资讯:弗朗索瓦·乔莱(François Chollet)的ARC奖基金会刚刚发布了其交互式推理基准测试的最新版本ARC-AGI-3,在该测试中,人类可以在首次尝试时解决100%的任务,但人工智能模型却表现不佳,顶级系统甚至得分不到1%。
细节如下:
实验室花费数百万美元在早期版本的测试上训练模型,在不到一年的时间里,将ARC-AGI-2的得分从3%提升至约50%。

  • 智能体在没有指令的情况下面对类似游戏的场景,必须完全从头开始发现规则、形成目标并规划策略。
  • 在前沿模型中,谷歌的Gemini Pro得分最高,仅为0.37%,其次是GPT 5.4 High(0.26%)、Opus 4.6(0.25%)和Grok-4.20(0%)。
  • 挑战赛设有100万美元的奖金,联合创始人迈克·诺普(Mike Knoop)表示,前沿实验室对V3的关注度远高于对早期版本的关注。
    为何重要:每次看到新的ARC-AGI发布时,顶级模型的得分被重置到1%以下,总是令人震惊。

但如果以旧测试为参考,那么前沿实验室的快速攀升将更为令人惊讶。

这究竟是反映了真正的推理能力,还是仅仅是通过更昂贵的暴力破解手段,正是Chollet构建V3的目的所在。

2 / 10

🧑‍💻 你的AI队友都在Slack里

🧑‍💻 你的AI队友都在Slack里

AI资讯:Agentforce将强大的AI代理直接集成到Slack中,无需新登录或切换上下文。

直接私信代理,在频道中@提及它,或让它通过提取Salesforce洞察、更新记录和即时创建画布来执行操作。
在本指南中,您将学习如何:

  • 在团队当前的工作环境中开始使用代理
  • 通过获取洞察、更新记录等方式,更快地采取行动
  • 借助现成的模板,您可以在几分钟内快速上手,或为任何团队构建自定义代理
    阅读完整指南,开始在Slack中使用Agentforce。
3 / 10

🤖 Reddit对AI机器人的打击行动跳过了身份检查

🤖 Reddit对AI机器人的打击行动跳过了身份检查

AI资讯:Reddit首席执行官史蒂夫·霍夫曼(Steve Huffman)概述了一项计划,旨在将网站中的人类用户与机器人用户区分开来,包括为自动账户打上标签、标记可疑用户以进行验证,以及在不进行大规模身份检查的情况下,让子社区进行自我监管。
细节如下:

  • 在社交平台上以获批方式运行自动化的账户将带有[应用]标签,如出现可疑行为,将进行人工验证。
  • 为确认人类身份,Reddit将提供通行密钥或Sam Altman的世界身份证扫描仪,只有在法律要求的情况下,才会将政府身份证作为最后手段。
  • 人工智能撰写的内容并未被禁止,霍夫曼称其“令人烦恼”,但表示社区可以对人工智能生成的帖子自行制定规则。
  • 竞争对手平台Digg近期因机器人泛滥而关闭,而Cloudflare的数据显示,到2027年,自动化流量将超过人工流量。
    为何重要:在过去的六个月里,人工智能(AI)代理加速发展之前,“死亡互联网理论”就已经存在。

如今,它已成为每个社交媒体网站都在面对的现实。

虽然这感觉有点像权宜之计,但却是朝着每个平台都需要一个严肃的“以人为本”解决方案迈出的一小步,只有这样,平台才能继续为人们所用。

4 / 10

🤯 为Slack创建带有品牌特色的表情GIF

🤯 为Slack创建带有品牌特色的表情GIF

AI资讯:在本指南中,您将学习如何使用Higgsfield(一款图像和视频生成工具)为您公司的Slack制作定制的、带有品牌特色的反应GIF动图。

关键在于,在制作动画之前,先生成起始帧。
逐步说明:

  • 前往Higgsfield图片生成器,确定GIF的外观,并输入反应的视觉风格和文本,例如“带有‘SLOW DOWN’字样的ESPN主题反应GIF”
  • 如果您的品牌无法被识别,请在生成静态图像时附上您的标志或其他品牌参考图像
  • 生成几张静态图片,并挑选出最佳的一张,然后在该静态图片上点击相机的“动画”按钮,使其成为Higgsfield视频的起始帧
  • 然后,将剪辑长度设置为3秒,关闭其音频,并提示:“反应GIF”。最后,下载MP4文件,并通过任何MP4转GIF网站将其转换为GIF格式
    专业提示:如果你制作了一大批MP4文件,请让Claude Code在桌面上批量将它们转换为GIF格式,这样你就不必一个文件一个文件地去转换网站了。
5 / 10

💬 市场领导者从ChatGPT和谷歌获取潜在客户

💬 市场领导者从ChatGPT和谷歌获取潜在客户

AI资讯:您的买家正在向AI提问,而AI却回答了您的竞争对手的问题,而不是您。Tely让像ChatGPT、Google和Claude这样的AI为您的业务做推荐。
有了Tely AI,你可以:

  • 短短一周内,即可在ChatGPT、Google、Perplexity和Claude中获得推荐
  • 完全无干预:无作者、无代理、无内容管理
  • 成本低于雇佣自由职业者或维护营销团队
  • 非常适合那些专业知识至关重要的细分行业
    自动从谷歌和ChatGPT获取潜在客户。
6 / 10

💾 谷歌在不损失准确率的情况下缩小了人工智能内存

💾 谷歌在不损失准确率的情况下缩小了人工智能内存

AI资讯:谷歌研究院推出了TurboQuant算法,该算法能够在无需重新训练的情况下,将AI模型的内存压缩6倍以上,同时在Nvidia H100芯片上实现高达8倍的速度提升,且准确率几乎无损。
细节如下:

  • 人工智能模型会记录每次对话,随着聊天内容的增加,存储量会迅速膨胀,这会减慢响应速度并增加成本。
  • TurboQuant在零精度损失的情况下,将存储空间缩小了6倍以上,在将关键细节隐藏在大量文本中的测试中获得了满分。
  • 在英伟达的顶级服务器芯片上,与标准方法相比,其响应处理速度提高了8倍,且运行成本没有任何增加。
    该论文将于2026年4月在ICLR(国际计算机学习与机器学习会议)上发布,在向量搜索方面也超越了竞争对手的方法——向量搜索是科技搜索引擎用来快速匹配相似结果的技术。
    为何重要:尽管该报告于2025年4月首次发布,但顶级人工智能(AI)存储器公司已感受到官方发布所带来的压力,其股价下跌了3-5%。

一张压缩纸不会在一夜之间摧毁存储器需求,但此次抛售表明,华尔街正在为智能软件削减高端AI存储器需求的世界定价。

7 / 10

🛠️ 热门人工智能工具

  • 🎶 Lyria 3 Pro - 谷歌升级版AI音乐模型,可输出更长的曲目
  • 🌐 MolmoWeb - Ai2的开源网页浏览代理
  • 🎨 Uni-1- Luma的统一模型,能够跨文本、图像进行推理和生成
  • ⚙️ Composer 2 - Cursor功能强大且经济高效的编码模型
8 / 10

📰 今日人工智能的其他资讯

4月10日,纽约Oracle数据深度挖掘大会:亲身体验人工智能实验室,直接与Oracle专家交流。了解更多信息并免费注册。*
OpenAI将再次筹集100亿美元,使其创纪录的融资轮次总额超过1200亿美元,微软、a16z和T. Rowe Price将参与此轮融资。
谷歌升级了其音乐人工智能模型,能够生成包含前奏、主歌和副歌的完整3分钟歌曲,并在Gemini、Vertex AI和Google Vids中推出了Lyria 3 Pro。
布雷特·泰勒(Bret Taylor)的Sierra公司推出了Ghostwriter,这是一款能够构建其他AI代理的AI代理——让公司能够创建涵盖语音、聊天和30多种语言的客户服务机器人。
美国劳工部推出了“让美国为人工智能做好准备”项目,这是一项为期7天的免费人工智能素养课程,完全通过短信形式进行,旨在提升人工智能技能。
*赞助列表

9 / 10

🤝 社区人工智能工作流程

在每一期通讯中,我们都会展示一位读者是如何利用人工智能更高效地工作、节省时间或让生活变得更轻松的。
今日的工作流程来自英国伦敦的读者May F.:
“我正在休产假,但我想提升自己在人工智能方面的知识,所以我使用Claude Code为我追踪的数据(如喂养时间、小睡等)定制了一个仪表板。

现在,我每天早上都会收到一封电子邮件,其中包含前一天的总结,以及根据我宝宝当前年龄和发展情况量身定制的指导建议。

你是如何使用人工智能的?请在此处告诉我们。

10 / 10

🎓 亮点:新闻、指南与活动

  • 阅读我们上一期人工智能简报:OpenAI的Sora项目被砍掉
  • 阅读我们上一期的科技通讯:深海奢华竞赛再度启航
  • 阅读我们上一期的机器人通讯:OpenClaw热潮席卷机器人领域
  • 今日AI工具指南:为Slack创建带有品牌特色的表情GIF
  • 请回复参加今天下午2点(美国东部时间)的下一场研讨会:Vibe编程入门第三部分

相关文章推荐