TodayAIAI Intelligence Desk

TODAYAI DAILY

今日 AI 日报2026-06-03

要闻速览/

Breaking News

今天最值得先看的 AI 变化。

微软推出 MXC:面向 AI 代理的内核级沙箱,OpenAI 和英伟达已率先接入

在人工智能代理能力迅速提升的背景下,如何确保这些代理的安全运行成为业界关注的焦点。微软在年度 Build 开发者大会上给出了自己的答案:推出 Microsoft Execution Containers(MXC)—— 一个基于策略的执行层,直接内置于 Windows 操作系统内核中。这一设计允许开发者和 IT 管理员精确声明 AI 代理可以访问和不能访问的资源,所有边界在运行时由操作系统内核强制执行,从而从底层杜绝恶意操作或权限滥用。与传统的应用层沙箱不同,MXC 作为内核级机制,能够拦截代理进程的系统调用,确保即使代理本身遭到入侵,也无法越界访问敏感文件或网络资源。此举不仅提升了代理执行的安全性,也为企业在部署自主工作流时提供了可审计的保障。值得注意的是,OpenAI 和英伟达已率先宣布支持 MXC,表明行业巨头对这一方案的认可。这意味着未来基于 GPT、Claude 等模型的代理应用,将能够在 Windows 原生层级获得安全隔离。微软还计划将 MXC 与 Azure 策略服务集成,实现安全策略的云端统一管理。在代理技术快速迭代的当下,MXC 的推出有望成为行业标准,平衡能力与风险,让 AI 代理真正值得信任。

来源:VentureBeat AI·原文

大公司/

Big Names

主流 AI 公司、平台和芯片厂商动态。

开启构建企业数据应用的新方式:Replit与Microsoft Fabric集成

Replit宣布与微软合作,将其AI辅助开发平台与Microsoft Fabric深度集成,帮助企业快速构建AI驱动的数据应用。通过这一合作,开发者可以在Replit中利用AI从提示词直接生成应用,并一键部署到Fabric中,同时获得企业级的治理和安全保障。该集成旨在将传统开发周期从数月缩短至数天,使团队能够利用治理后的企业数据构建内部工具、仪表盘、工作流和AI应用。Replit还推出了新的开放标准Rayfin,进一步推动AI原生开发与微软数据生态的融合。微软CEO萨提亚·纳德拉在Build 2026主题演讲中强调了这一合作,展示了如何通过Replit和Fabric的结合,让企业软件以“想法的速度”迭代。此外,微软还发布了Surface RTX Spark Dev Box、AI助手Scout、操作系统级AI代理沙箱MXC以及统一数据上下文层Microsoft IQ等一系列重大更新,全面加速企业AI落地。

来源:The Verge AI、TechCrunch AI、VentureBeat AI·原文

大型AI实验室研究论文发布与模型部署之间存在时间差

Reddit上一位用户提出疑问:像Google DeepMind这样的顶级AI实验室,在arXiv上发表强化学习论文后,其技术是否已经实际部署在正在训练的模型中(如Gemini 3.5 Flash和Pro)?用户观察到,实验室往往先发表研究成果,再经过一段时间才在商业模型中出现,这引发了关于学术发表与产品化之间时间差的讨论。该帖子试图了解这些公司是在大规模测试前就公开论文,还是只在验证后才会发表。这一问题反映了AI行业研究与工程之间的典型滞后现象,尤其是在竞争激烈的大模型领域,研究者需要平衡学术透明度和商业保密性。评论者指出,时间差可能从几个月到一年不等,取决于技术的成熟度和公司的内部部署策略。该讨论也延伸至其他实验室如OpenAI和Meta,揭示了业界对AI研究到产品转化效率的关注。

来源:Reddit LocalLLaMA·原文

百度文心发布PaddleOCR-VL-1.6:准确率突破96.33%,刷新文档解析SOTA

百度文心团队推出了其光学字符识别模型PaddleOCR的最新版本VL-1.6,在文档解析任务上取得了高达96.33%的准确率,刷新了业界最佳水平。该模型已上线PaddleOCR官网,支持网页端和API调用,方便开发者集成。PaddleOCR-VL-1.6在复杂版面、多语言混合、手写体识别等场景下表现出显著提升,这得益于视觉-语言联合预训练和更精细的注意力机制。百度强调,新版本特别优化了表格、公式和结构化文档的解析能力,使得从PDF、扫描件中提取信息更加精准。这一进展对金融、医疗、法律等需要大量文档处理的行业具有重要意义。PaddleOCR作为开源工具,持续降低OCR技术门槛,推动AI文档智能化应用的发展。用户可以通过官网直接试用,体验更高效、更准确的文档识别服务。

来源:量子位·原文

新工具与产品/

AI Tools

值得留意的新工具、AI 产品和应用更新。

GitHub Copilot 桌面应用:原生代理工作流体验

GitHub Copilot推出了全新的桌面应用,专为代理原生工作流而设计。随着AI代理在软件开发中的普及,开发者的工作流程变得越来越分散,上下文需要在多个窗口之间切换,同时管理多个代理并行运行变得困难重重。Copilot桌面应用将代理直接集成到开发者的工作环境中,让开发者能够在一个统一的界面中同时指导多个代理,实时跟踪每个代理的执行进度、代码变更以及验证结果。该应用支持从提示到计划、从议题到拉取请求、从审查反馈到合并代码的完整代理驱动流程,确保每段代码都有清晰的来源和人工审核点。目前,使用Copilot Pro、Pro+、Business或Enterprise计划的用户即可开始体验。这一更新标志着AI辅助开发从单一补全向多代理协作的重要演进。

来源:GitHub Blog·原文

Codex 新插件、站点与注释:覆盖每个角色、工具与工作流

OpenAI发布了全新的Codex插件、站点和注释功能,旨在让分析师、营销人员、设计师、投资者等更多角色能够借助AI提升效率。Codex最初是帮助开发者生成代码的工具,如今扩展为支持多种工作流的通用平台。新的插件生态系统允许用户将Codex集成到常用的设计工具、数据分析平台和营销自动化系统中,通过自然语言指令直接生成可视化报告、网站原型、投资分析摘要等。站点功能让用户可以快速部署基于Codex的交互式应用,无需编写代码。注释功能则帮助团队在文档和设计中嵌入智能建议,加速协作决策。OpenAI表示,这些更新让Codex从一个代码助手转变为一个跨团队的智能工作中心,覆盖从创意到执行的完整工作流程。

来源:OpenAI Blog·原文

代理型AI助力全球医疗保健回归人性化

全球医疗保健系统正面临前所未有的压力,长期投资不足和人员招聘限制,叠加人口老龄化的服务需求激增,导致医护工作者负担沉重、职业倦怠率高企。世界卫生组织警告,到2030年全球医护人员缺口将达1100万。在此背景下,越来越多的医疗机构将希望寄托于代理型AI(agentic AI),据KPMG调查,68%的医疗提供者已在其劳动力中引入AI代理。这些AI代理被用于自动化复杂的后台流程、协助医疗团队进行诊断和治疗计划,甚至对患者进行初步分诊。然而,MIT Technology Review的文章强调,技术应当以人为本——AI的终极目标是减轻临床医生的认知负荷,让他们有更多时间专注于患者关怀,而非取代人类。通过重新设计工作流程,代理型AI有望在提高效率的同时,让医疗回归人性化本质。

来源:MIT Technology Review AI·原文

开发者与 Agent/

Developer & Agents

开发者工具、开源项目、API、SDK 和 Agent 框架。

OpenAI Codex 更新:站点与角色插件让 Agent 构建企业交互工作区

OpenAI 本周宣布了其 Agent 平台 Codex 的重大更新,推出了领域特定工作流、名为“Sites”的半私有快速网页托管功能,以及名为“Annotations”的就地编辑工具。此次发布标志着 OpenAI 有意将 Codex 从专门的编程助手转变为面向商务专业人士的日常操作环境。据 OpenAI 向 VentureBeat 等媒体分享的数据,非开发者用户——包括财务分析师、市场营销人员、运营人员和研究人员——目前已占 Codex 每周 500 万活跃用户的约 20%,并且他们采用该技术的速度是传统工程师的三倍。OpenAI 正利用这一趋势将 Codex 定位为构建企业级交互式工作区的首选应用,通过站点和角色特定插件,即使没有编程经验的用户也能快速搭建定制化的智能工作环境。

来源:VentureBeat AI·原文

Qwen 3.7 Plus 与 MiniMax M3 登陆 Vercel AI Gateway,赋能开发者

阿里云的通义千问 Qwen 3.7 Plus 现已可在 Vercel AI Gateway 上使用。该模型将视觉与语言统一为单一 Agent 基础,支持图形界面和命令行操作、编码与生产力工作流,以及包含感知与推理的视觉 Agent 任务。付费 AI Gateway 用户可在 2026 年 6 月 4 日之前免费使用 Qwen 3.7 Plus 和 3.7 Max。同时,MiniMax 的 M3 模型也已上线,它是 MiniMax 首个拥有 100 万 token 上下文窗口的原生多模态模型,基于 MiniMax 稀疏注意力机制,在软件工程、终端工具使用和 Agent 网络浏览方面表现更佳。Vercel AI Gateway 提供统一的 API 来调用模型、跟踪使用和成本,并支持重试、故障转移以及性能优化,且不收取平台推理费用。

来源:Vercel Blog·原文

阿里 Qwen3.7-Plus:多模态低价格但转为闭源,开发者面临新抉择

阿里巴巴本周发布了 Qwen3.7-Plus,这是通义千问系列的最新大语言模型,具备强大的多模态能力,支持文本、视频和图像输入,成本比之前仅文本的 Qwen3.7-Max 降低了 60%。然而,与之前的开源策略截然不同,Qwen3.7-Plus 仅通过专有 API 和 Qwen Chat 提供,采用封闭的商业许可。这标志着阿里在 Qwen 模型策略上的重大转变——此前他们主要发布接近最先进水平的开源模型。许多依赖开源 Qwen 模型的企业(包括 Airbnb 等美国巨头)无疑会对这一变化感到失望。尽管闭源令人遗憾,但该模型凭借低成本和高性能在多模态任务上仍值得关注,开发者需要在开放生态与合作便利之间做出权衡。

来源:VentureBeat AI·原文

研究与模型/

Research & Models

模型、论文、推理、多模态和技术突破。

特朗普签署行政令要求AI模型发布前接受审查

美国总统特朗普近日签署了一项行政命令,为人工智能公司创建了一个“自愿框架”,要求它们在发布前沿模型之前与联邦政府共享,目的是“促进安全创新并加强关键基础设施的网络安全”。该行政令指出,美国AI产业的成功部分归因于“拒绝用过度繁重的监管扼杀创新”,但同时也承认新的AI能力伴随着安全风险。因此,命令多个联邦机构制定一套框架,在模型发布前“评估AI模型的高级网络能力”。这一举措标志着美国政府在不采取严格监管的前提下,试图在AI安全与创新之间取得平衡,可能会影响未来AI模型的发布流程和行业标准。

来源:The Verge AI·原文

JetBrains 发布 12B 参数混合专家模型 Mellum2

JetBrains 正式发布了 Mellum2,这是一个拥有 120 亿参数的混合专家(MoE)模型,旨在提升自然语言处理任务的效率与性能。混合专家架构通过动态激活部分参数,在保持较低计算成本的同时实现了强大的模型能力。Mellum2 在多项基准测试中表现出色,尤其在代码生成、逻辑推理和多语言理解方面具有优势。该模型已在 Hugging Face 平台上开源,供研究人员和开发者使用。JetBrains 表示,Mellum2 的发布是为了推动 AI 技术的民主化,让更多团队能够基于强大的基础模型进行微调和应用开发。

来源:Hugging Face Blog·原文

NVIDIA 推出 Cosmos 3:首个用于物理 AI 的开放全模态模型

NVIDIA 宣布推出 Cosmos 3,这是首个面向物理 AI 推理与动作的开放全模态模型。该模型能够同时处理视觉、语言和物理信号,为机器人、自动驾驶和工业自动化等领域提供统一的感知与决策能力。Cosmos 3 在模拟环境和真实世界数据上进行了训练,可以理解物体物理属性、空间关系以及动作序列,从而执行复杂的物理交互任务。NVIDIA 强调,开放该模型将加速物理 AI 的研究与应用,推动从仿真到现实的无缝迁移。该模型已在 Hugging Face 上开源,并附带详细的文档和示例代码。

来源:Hugging Face Blog·原文