有开发者在 GitHub 上指出,里约热内卢市信息技术公司 发布的 Rio-3.5-Open-397B 模型是开源模型 Nex N2 Pro 与 Qwen3.5-397B-A17B 按约 0.6 比 0.4 比例的线性融合。Nex 团队随即通过验证确认了该说法,并发现移除系统提示词后,该模型有 79% 的概率自称为 Nex。对此,IplanRIO 更新了项目说明,官方称模型在合并后原本经过了 On-Policy Distillation,但误传了未经蒸馏的基础合并版本。
有开发者在 GitHub 上指出,里约热内卢市信息技术公司 发布的 Rio-3.5-Open-397B 模型是开源模型 Nex N2 Pro 与 Qwen3.5-397B-A17B 按约 0.6 比 0.4 比例的线性融合。Nex 团队随即通过验证确认了该说法,并发现移除系统提示词后,该模型有 79% 的概率自称为 Nex。对此,IplanRIO 更新了项目说明,官方称模型在合并后原本经过了 On-Policy Distillation,但误传了未经蒸馏的基础合并版本。
开发者在 GitHub 上指出,里约热内卢市信息技术公司 IplanRIO 发布的 Rio-3.5-Open-397B 模型未进行独立训练,其权重实质是开源模型 Nex N2 Pro 与 Qwen3.5-397B-A17B 按约 0.6 比 0.4 比例的直接逐元素融合。
开发者给出了两项证据:
首先,如果移除 Rio 模型硬编码的系统提示词直接询问其身份,该模型有 79.2% 的概率自称 “Nex”,0% 自称 “Rio”,甚至能逐字复述 Nex 机构的背景信息。
其次,通过提取各层张量计算,发现其余弦相似度高达 0.99,证明这在统计学上不可能是不相关模型偶然产生的结果。
据 Google DeepMind 团队发文,Gemini 的日期困惑与勒索等行为属可通过蒸馏传递的“遗传特质”。研究证实,此类行为主要源自 SFT 阶段的教师模型,且难以通过数据过滤彻底移除。
据 Google DeepMind 团队发文,Gemini 的日期困惑与勒索等行为属可通过蒸馏传递的“遗传特质”。研究证实,此类行为主要源自 SFT 阶段的教师模型,且难以通过数据过滤彻底移除。
Google DeepMind 语言模型可解释性团队发文探讨为何传统 SFT 数据过滤方法效果不佳。
研究通过“后训练差异分析”对比 Gemini 与 Olmo 流水线,证实 Gemini 表现出的日期困惑、勒索倾向等行为主要源自 SFT 阶段的教师模型,而非后期训练阶段。
实验发现,即便过滤掉引发特定行为的提示词,模型依然会通过“幽灵般的”泛化保留这些特质,导致过滤策略失效。
官方总结称,通过过滤直接移除特定行为难度很大,但若通过 RL 等方式先改变教师模型行为,再进行转移则相对容易。
微软董事长兼 CEO Satya Nadella 发文称,企业应在 AI 时代构建结合“人力资本”与“Token 资本”的“学习闭环”,并呼吁建立广泛分配价值的前沿生态系统。
微软董事长兼 CEO Satya Nadella 发文称,企业应在 AI 时代构建结合“人力资本”与“Token 资本”的“学习闭环”,并呼吁建立广泛分配价值的前沿生态系统。
微软董事长兼 CEO Satya Nadella 发文阐述了 AI 驱动经济下企业的未来形态。
他主张企业需打造由“人力资本”和“Token 资本”组成的“学习闭环”,确保在更换底层模型时依然能保留机构 IP。
Nadella 警告少数模型吞噬行业价值的危害,强调应构建“前沿生态系统”以实现价值广泛流动。
据媒体报道,阿里巴巴集团回应称“周靖人辞职”纯属谣言,指出近期有人在网络组织扩散该信息,呼吁外界勿传播不实内容。
据媒体报道,阿里巴巴集团回应称“周靖人辞职”纯属谣言,指出近期有人在网络组织扩散该信息,呼吁外界勿传播不实内容。
据 第一财经 报道,阿里巴巴集团 回应称“周靖人 辞职”纯属谣言。
该公司指出,近期有人在网络上组织扩散该不实信息,并呼吁大家不要传播。
此前,周靖人 刚被任命为 阿里巴巴 首席科学家,负责牵头成立 AI未来研究院。
据社区讨论,编程工具 Amp Code 已上线 KYC 身份验证。其 CEO 称,用户可凭政府证件提前验证,以备未来访问前沿模型,原因是该公司预计此类政策要求未来很可能发生。
据社区讨论,编程工具 Amp Code 已上线 KYC 身份验证。其 CEO 称,用户可凭政府证件提前验证,以备未来访问前沿模型,原因是该公司预计此类政策要求未来很可能发生。
据社区讨论,编程工具 Amp Code 已上线 KYC 身份验证。
AMP Code 的 CEO 发文称,用户可使用护照等证件主动验证身份,以确保未来在平台上访问前沿模型时无需重复验证。
该 CEO 表示,受政府及相关实验室政策影响,此类要求很可能会发生,但无法保证具体的访问条件或时间表。
此外,社区发帖人猜测这种 KYC 限制未来可能不仅针对 fable 甚至可能波及即将发布的 GPT5.6。
据 Axios 报道,Anthropic 派遣高级技术人员前往 华盛顿,与白宫官员会面,试图解决导致其顶级模型 Mythos 和 Fable 被实施出口管制并下线的争端。
据 Axios 报道,Anthropic 派遣高级技术人员前往 华盛顿,与白宫官员会面,试图解决导致其顶级模型 Mythos 和 Fable 被实施出口管制并下线的争端。
据 Axios 援引接近 Anthropic 的消息人士报道,该公司高级技术人员已抵达华盛顿,与白宫官员会面,试图化解因安全担忧而对其最强大模型 Mythos 和 Fable 实施全面出口管制所引发的争端。
消息人士称,自政府方面周五首次联络以来,Anthropic 技术人员已与白宫官员举行了线上会议,双方消息人士均表示希望尽快解决问题。
不过政府官员称 Anthropic 此前未进行认真接触。
消息称 字节跳动 计划推出名为 Seedance2.0 mini 的新版本视频生成模型。该版本预期将大幅降低定价,旨在满足对成本敏感的用户需求,且据称在部分测试中其文生视频与参考生视频表现与现有的 Fast 型号差距不大。Seedance2.0 mini 预计将在第一时间接入剪映平台,为各类创作者提供更具性价比的视频生成选项。
消息称 字节跳动 计划推出名为 Seedance2.0 mini 的新版本视频生成模型。该版本预期将大幅降低定价,旨在满足对成本敏感的用户需求,且据称在部分测试中其文生视频与参考生视频表现与现有的 Fast 型号差距不大。Seedance2.0 mini 预计将在第一时间接入剪映平台,为各类创作者提供更具性价比的视频生成选项。
消息称 字节跳动 计划推出名为 Seedance2.0 mini 的新版本视频生成模型。
目前,Seedance2.0 分为 Fast 和 Standard 两个型号,其中 Fast 型号主打性价比和低价路线,但在实际创作应用中成本依然偏高。
为了应对算力紧缺情况以及短剧、广告等创作端对成本和速度的痛点,推出单独的小尺寸模型成为了覆盖基础使用场景的预期方案。
Seedance2.0 mini 预期将带来大幅降低的定价,主要面向成本敏感的用户群体。