微软开源SkillOpt;Claude Fable 5开放;Coinbase推出MCP协议代理 | TodayAI
要闻速览/
Breaking News
今天最值得先看的 AI 变化。
微软开源SkillOpt:无需修改模型权重即可自动优化AI Agent技能
微软开源了一项名为SkillOpt的框架,旨在自动优化AI Agent的技能指令集。Agent技能通常以Markdown文件形式存储,用于指导模型适应特定企业场景,但传统上优化这些技能需要人工反复修改指令,过程缓慢且容易出错。SkillOpt通过类似深度学习优化的方法,将技能文档视为可训练对象,基于性能反馈系统性地探索指令修改,并找到最佳组合,全程不调整底层模型的权重。这一方法有望大幅提升Agent在复杂工作流中的表现,减少人工试错成本,推动企业级AI应用更高效地部署和迭代。
大公司/
Big Names
主流 AI 公司、平台和芯片厂商动态。
Anthropic CEO的未婚妻曾是OpenAI开除的“AI股神”
据量子位报道,Anthropic CEO Dario Amodei的未婚妻曾被称为“AI股神”,此前被OpenAI开除。这一消息被视为Dario的“唯一弱点”,引发外界对Anthropic与OpenAI关系的猜测。尽管双方未公开评论,但事件凸显了AI巨头间复杂的个人与商业纠葛。
Anthropic开放Claude Fable 5,Mythos 5仍限合作伙伴使用
Anthropic 发布 Claude Fable 5,这是面向更广泛用户开放的 Mythos-class 模型;而限制更少、能力更敏感的 Claude Mythos 5 仍只通过可信访问计划提供给少量合作伙伴。Fable 5 的重点在于把 Mythos 级能力带到更常规的知识工作、编码和视觉任务中,同时通过额外安全护栏限制高风险领域响应。对开发者而言,这意味着 Anthropic 正在尝试用分层发布策略平衡模型能力、安全风险和可用性。
OpenAI工程师Thibault Sottiaux领导ChatGPT最大改造
OpenAI工程师Thibault Sottiaux曾主导Codex项目,使AI编程成为公司增长最快的业务之一。如今他正负责ChatGPT自发布以来最全面的改造,涵盖界面、多模态和Agent功能。在接受WIRED专访时,他表示下一阶段将聚焦自动化任务和复杂工作流,推动ChatGPT从对话工具转向生产力平台。
苹果相机主管:AI可为用户提供超能力,但不会为用AI而AI
苹果相机主管Jon McCormack在WIRED采访中表示,iOS 27新版照片应用将引入生成式AI,可添加虚假像素以提升编辑灵活性。但他强调苹果不会为了AI而AI,而是基于用户需求。McCormack认为AI能赋予用户“超能力”,但需平衡真实与创造。该功能预计随iOS 27在今年晚些时候推出。
Anthropic CEO Dario Amodei仅有一名直接下属
据TechCrunch报道,Anthropic首席执行官Dario Amodei目前整个公司只有一名直接下属。作为全球增长最快的人工智能公司之一,Anthropic的扁平化管理结构令人意外。这一信息揭示了该公司独特的领导风格,可能与其专注于研究导向的文化有关。Amodei本人此前曾在OpenAI担任研究科学家,Anthropic以安全AI研发著称,其组织架构或许反映了对效率与快速决策的追求。
开发者与 Agent/
Developer & Agents
开发者工具、开源项目、API、SDK、Agent 框架和工作流。
Coinbase推出MCP协议代理,支持加密货币交易与付费研究
Coinbase发布了一款基于MCP(Model Context Protocol)的AI代理工具,允许代理通过x402协议自动获取数据和API访问权限。该代理能够执行加密货币交易、支付高级研究费用,并接入Coinbase的金融数据流,为开发者构建自动化交易Agent提供了标准化接口。此举标志着加密货币领域正式进入Agent可编程金融时代。
上下文压缩新研究:16倍压缩LLM输入,推理速度提升8.8倍
来自NYU、哥伦比亚大学、普林斯顿等研究团队提出了Latent Context Language Models(LCLM),一种编码器-解码器压缩模型。该方法在解码前直接压缩输入序列,相比KV缓存压缩方案,在RULER长上下文基准测试中实现16倍压缩时输出速度提升8.8倍,且准确率未下降。对于长期运行的Agent,这能显著降低不断累积的检索、推理和对话上下文带来的计算开销。
Meshy发布全球首个3D AI Agent,自然语言即可创作3D模型
3D内容创作平台Meshy推出了全球首个3D AI Agent,用户仅需用自然语言描述需求,Agent即可自动生成或编辑3D模型。该Agent理解空间关系和材质语义,支持迭代修改,大幅降低3D建模门槛。这一发布被视为3D领域的“ChatGPT时刻”,将推动游戏、影视、设计等行业的3D内容生产效率革命。
阿里发布免费AI志愿填报Agent,已通过40万考生压测
阿里云基于千问大模型推出了免费的高考志愿填报Agent,该Agent整合历年高考录取数据、专业就业趋势及考生个人情况(分数、兴趣、地域偏好),提供个性化填报建议。开发团队前期使用40万AI模拟考生进行压力测试,确保系统在高峰期稳定运行。目前该Agent已在支付宝等平台上线,服务1290万考生。
AI Agent扫描DN42网络导致运营商破产
一个AI Agent在尝试扫描DN42(一个去中心化实验网络)时,因大量消耗流量导致运营商收到巨额账单而破产。据Hacker News上的讨论,该Agent由个人开发者部署,旨在探索DN42拓扑,但由于未限制并发数,扫描任务触发了计费系统的峰值费用,最终运营商无力支付。该事件警示开发者在设计自动化Agent时,必须加入资源配额、费用上限和终止保护机制,防止类似事故。目前社区已开始讨论如何设计更安全的Agent沙箱。
研究与模型/
Research & Models
模型、论文、推理、多模态和技术突破。
Benchling如何利用AI代理加速生命科学发现
在LangChain博客的Max Agency节目中,Benchling的AI负责人Nicholas Larus-Stone与主持人Harrison Chase讨论了构建用于生命科学的AI代理的复杂性。他们介绍了多模型架构的使用、生产追踪审查以及可验证科学任务的策略,旨在应对生命科学领域数据复杂性和高准确性要求。这些工程实践为在药物研发等场景下高效、可靠地部署AI提供了参考。
极端不平衡数据问题:10万样本仅56个故障案例
这篇Reddit帖子讨论了一个实际工程挑战:从10万条时间序列数据中预测机器故障,但故障样本只有56个。用户尝试去除无关特征后,询问适合的算法或深度学习模型。该问题反映了工业预测维护中常见的极端不平衡学习困境,对研究少样本学习和异常检测方法具有现实价值。
来源:Reddit Machine Learning·原文 耳训练练习网站的AI潜力探讨
ToneGear是一个提供音程、和弦等耳训练练习的网站,旨在帮助音乐学习者提升听力技能。尽管当前Hacker News上的讨论未直接涉及AI,但此类练习平台可集成机器学习模型实现自适应难度调整和个性化反馈,为音乐教育技术研究提供了应用场景。本条目仅供编辑参考。
AI基准测试遗漏的真实性能因素
VentureBeat文章指出,传统AI基准测试关注计算、GPU分配和训练吞吐量,却忽略了生产环境中存储与计算之间的数据交付瓶颈。实际流量中的延迟峰值、网络抖动和节点降级导致管道在实验室表现良好但部署时停滞。文章介绍了应用交付控制器(ADC)作为解决方案,强调真实性能评估需要超越基准测试。
行业、政策与商业/
Industry, Policy & Business
AI 融资、监管、商业化、产业落地和市场结构变化。
Opendoor退出印度市场引发AI与外包讨论
Opendoor决定关闭印度业务,正值印度成为全球最大全球能力中心(GCC)市场之际。这一举动引发了对AI如何重塑外包行业的深入讨论。随着AI自动化能力的提升,传统外包模式面临挑战,企业开始重新评估离岸团队的价值。Opendoor的退出可能预示着更多科技公司将AI视为替代人工外包的关键,从而影响印度IT服务业的长期增长。
AI原生计费工具Easybilling上线,助力AI产品商业化
Easybilling是一款专为按用量付费的AI产品设计的计费与支付解决方案。它帮助AI公司自动处理复杂的计费逻辑,包括令牌消耗、API调用次数等,从而简化收入管理。对于快速增长的AI初创企业,Easybilling提供了从订阅到用量计费的灵活支持,降低了商业化门槛,适合需要精细计费的AI SaaS和API服务商。
开源社区复现DeepSeek-R1,推动AI模型开源与商业竞争
Hugging Face发起的Open-R1项目旨在完全复现DeepSeek-R1模型,引发了对开源AI模型商业可行性的讨论。DeepSeek-R1作为高性能推理模型,其开源复现将降低企业采用成本,可能改变AI商业生态。此举不仅推动技术民主化,还可能加剧API服务市场的价格竞争,影响以闭源模型为核心的商业策略。
从零构建经典LLM项目开源,探讨AI教育与定制化商业潜力
开发者发布了一个从零开始构建经典大语言模型的项目,详细记录了训练流程和技术细节。该项目不仅是学习资源,也展示了定制化小型LLM的可行性。对于企业而言,这意味可以更低成本训练特定领域模型,而非依赖通用API。此类开源项目可能催生新的AI教育服务和垂直模型定制商业机会。
Google DeepMind 担忧百万智能体交互风险,出资研究多智能体安全
Google DeepMind 正资助研究数百万AI智能体在线交互时可能出现的危险。该公司AGI安全与对齐研究负责人Rohin Shah指出,随着无需人类监督即可执行任务的智能体大规模上市,它们相互间可能执行指令,导致前所未有的风险。DeepMind 联合Schmidt Sciences、英国政府等投入1000万美元,试图从零构建多智能体安全这一新兴领域,防范超大规模诈骗、协同网络攻击等威胁。
来源:MIT Technology Review AI·原文 美国两党议员提出 JAWBONE 法案,允许公民就政府非法施压内容下架提起诉讼
参议院商业委员会主席Ted Cruz与参议员Ron Wyden联合提出JAWBONE法案,允许美国公民在政府官员非法试图胁迫社交媒体、AI或广播公司删除其帖子时,无论平台是否执行,均可起诉并要求赔偿。法案还要求政府与这些平台沟通时提高透明度。这可能赋予像Jimmy Kimmel这样的人起诉FCC主席Brendan Carr的权利,成为言论自由领域的重要立法。
亚马逊数据中心2025年消耗25亿加仑水,首次公开用水数据
在Seattle实施为期一年的数据中心建设暂停令后(部分亚马逊员工曾推动该禁令),亚马逊首次公开其全球数据中心用水量:2025年消耗25亿加仑水,平均每千瓦时电力消耗0.12升水,较2024年下降2%。尽管运营规模扩大,用水效率有所提升。亚马逊声称其用水效率优于部分大型科技竞争对手,此举正值AI数据中心用水和能源争议加剧之际。
建设者观察/
AI Builders
AI 产品、模型、Agent、开发者工作流和创业判断的一手观察。
Boris Cherny:Fable 5 从编码代理进化为设计伙伴
Boris Cherny认为Fable 5是自Opus 4.5以来模型能力最大的一次跃升。他指出,Fable不再只是一个编码代理,而是一个具备判断力、品味和维度的思考和设计伙伴。他分享了一次调试经历:模型会系统化地测量、添加日志并验证修复,展现出前所未有的“大模型气质”。这让他更信任Fable处理最复杂的工作,并感觉它已成为产品构建中的真正合作伙伴。
Nikunj Kothari:利用Claude研究模式+Claude Code一次性生成网站
Nikunj Kothari展示了高效AI工作流:将播客转录文本输入Claude app的研究模式,让模型自动研究历史S曲线并规划章节,然后生成一个Claude Code提示,最后一次性输出完整网站。这种方法将研究、规划与编码无缝衔接,大幅降低了从想法到产品的门槛,体现了当前AI工具链的整合潜力。
Aaron Levie:Aaron Levie(Box CEO):Fable 5证明AI进展并未放缓,将大幅提升知识工作代理能力
Aaron Levie认为Fable 5的能力全面提升是对AI进展放缓论调的直接回应。他指出,这一跃升将立即改善几乎所有知识工作类别中的代理性能,带来实际生产力突破。Levie强调,过去几个月的怀疑只是暂时的,真正的进步正在发生,并会持续加速。
Guillermo Rauch(Vercel CEO):硅谷的meritocratic精神让任何人都能构建未来
Guillermo Rauch认为硅谷最独特之处在于其唯才是举的环境,未来总是可以被任何人重新定义。他作为天使投资人,会平等对待两位小伙子和一只狗组成的团队与五次获奖的企业家。这种开放性和机会平等鼓励了无数创新者投入AI等前沿领域,是推动技术快速迭代的核心动力。