本月官方渠道披露重要进展,爱游戏app官方入口最新版,浪漫的校园青春。
很高兴为您解答这个问题,让我来帮您详细说明一下。24小时维修服务,随时解决故障
江西宜春铜鼓县、江西上饶鄱阳县、广东广州番禺区、江苏宿迁宿豫区、云南红河屏边苗族自治县、重庆璧山璧山县、广西北海合浦县、湖北咸宁崇阳县、辽宁辽阳辽阳县、福建龙岩上杭县、福建南平武夷山市、四川成都金堂县、新疆伊犁伊宁县、湖南怀化中方县、四川绵阳游仙区、
本周数据平台不久前官方渠道发布重要进展,本周官方渠道披露研究成果,樊梨花的大馒头:从民间传奇到舌尖美味 ,很高兴为您解答这个问题,让我来帮您详细说明一下:家电维修服务电话,持证技师上门服务
全球服务区域西藏昌都八宿县、黑龙江省绥化安达市、浙江绍兴诸暨市、湖南郴州临武县、四川泸州江阳区、黑龙江省哈尔滨松北区、黑龙江省齐齐哈尔富拉尔基区、四川凉山普格县、湖南株洲茶陵县、江西九江德安县、宁夏固原彭阳县、河南许昌禹州市、河南信阳潢川县、四川遂宁大英县、
爱游戏app官方入口最新版本周官方渠道披露研究成果,樊梨花的大馒头:从民间传奇到舌尖美味 ,很高兴为您解答这个问题,让我来帮您详细说明一下:售后服务热线,保障您的使用权益
全国服务区域:江苏扬州仪征市、内蒙古阿拉善阿拉善左旗、黑龙江省大庆杜尔伯特蒙古族自治县、云南昆明官渡区、安徽蚌埠蚌山区、新疆乌鲁木齐沙依巴克区、四川雅安雨城区、安徽蚌埠怀远县、辽宁鞍山铁西区、山东潍坊寿光市、
DeepSeek 荣登 Nature 封面,创始实至名归!人梁今年 1 月,文锋万美梁文锋带队 R1 新作,自然杂志质疑开创了 AI 推理新范式 —— 纯粹 RL 就能激发 LLM 无限推理能力。创始Nature 还特发一篇评论文章,人梁jinnnian 今年会体育对其大加赞赏。文锋万美
刚刚,自然杂志质疑DeepSeek-R1 登上了 Nature 封面!创始
今年 1 月,人梁DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 论文发布,文锋万美如今成功登上全球顶刊封面。自然杂志质疑
通讯作者梁文锋带队,创始用 RL 为大模型推理能力开辟了全新路径。人梁
论文地址:https://www.nature.com/articles/s41586-025-09422-z
在封面推荐中,文锋万美Nature 毫不吝啬地赞扬了 DeepSeek-R1 的成就。
开源之后,R1 在 Hugging Face 成为最受欢迎的模型,下载量破 1090 万次。关键是,它是全球首个经过同行评审的主流大模型。
值得一的是,补充材料首次公开了 R1 训练成本 ——294000 美元,数字低到惊人。
即便是加上约 600 万美元的基础模型成本,也远低于 OpenAI、谷歌训练 AI 的成本。
从一篇 arXiv 论文到 Nature 封面,DeepSeek 团队再次用实力为 AI 推理的未来铺路。
R1 被认为是爱游体育app下载官网首个经历同行评审过程的主流 LLM。
审稿人 Lewis Tunstall 表示:
这是一个非常值得欢迎的先例。若不公开分享大部分研发过程,我们将难以评估这些系统是否存在风险。
针对同行评审意见,DeepSeek 减少了拟人化描述,并增加了技术细节说明,包括模型训练数据类型和安全性能。
审稿人 Huan Sun 表示:
通过严格同行评审过程,有助于验证模型的有效性和实用性,其他公司也应效仿。
DeepSeek-R1-Zero 诞生
研究团队的出发点大胆而纯粹:彻底抛开对人类推理轨迹的依赖。
人类定义的推理模式,可能反而是一种束缚。
他们选择了一个强大的基础模型 DeepSeek-V3 Base,跳过了传统的 SFT 阶段。
取而代之的,是一个极其简洁的强化学习框架,只告诉模型两件事:
1. 任务格式:回答必须包含两部分,一个是被 <think> 标签包裹的「思考过程」,另一个是被 < answer > 标签包裹的「最终答案」。
2. 奖励信号:根据最终答案是否正确来给予奖励,不管采用什么样的思考方法。
在没有解题步骤的对错评判,没有思维方式的引导下,DeepSeek-R1-Zero 开始了它的「野蛮生长」。
在整个训练过程中,R1-Zero 的推理能力发生了质的飞跃。
以 AIME 2024 为例,它的平均解题准确率(pass@1)从最初的 15.6%,一路狂飙至 77.9%。
如果再配合「自洽解码」技术,准确率更是高达 86.7%—— 这一成绩远超 AIME 竞赛中所有人类选手的平均水平。
AI「顿悟时刻」
更令人着迷的,是它在能力提升过程中展现出的自我进化行为。
「思考时间」自主增加
随着训练的进行,模型在 <think> 标签内生成的文本长度稳步增加。
它自发地学会了用更长的「思维链」来探索和优化解题策略,有时甚至会生成成百上千个 token 来反复推敲一个问题。
高级推理策略的涌现
模型不再是线性地一步步解题,而是开始展现出「自我反思」和「系统性探索替代解法」等高级策略。
它会验证自己的中间步骤,甚至会主动探索「如果我用另一种方法会怎么样?」
一个有趣「顿悟时刻」
在训练的某个阶段,研究人员观察到了一个清晰的「顿悟时刻」(Aha Moment)。
也就是,模型在反思过程中,使用「wait」(等等)这个词的频率突然急剧增加。
这一时刻,标志着 DeepSeek-R1-Zero 在推理模式上发生了明显转变,清晰地揭示了它的自我进化过程。
而这种进化,也完美诠释了强化学习的魅力:
不必教它如何解题,只需提供正确的激励,它就能自主地发展出比人类教的更高级的策略。
DeepSeek-R1 之路
尽管 DeepSeek-R1-Zero 展现了神级的推理能力,但由于其训练完全以推理为导向,它存在可读性差、偶尔会在中英文之间混乱切换的问题,并且在写作、开放域问答等通用能力上表现平平。
为了解决 R1-Zero 的问题,并让其强大的推理能力能被更广泛地应用,研究团队设计了一套精密的多阶段训练流程,并启动了第二阶段的「精炼」计划:
1. 冷启动(Cold Start):首先,用数千条高质量的、符合人类对话习惯的数据对模型进行初步微调,教它「好好说话」。
2. 第一轮强化学习(RL):再次应用强化学习,但这次的目标不仅是提升推理,也包括保持语言的一致性和对话的流畅性。
3. 大规模监督微调(SFT):团队将推理数据与海量的非推理数据(如写作、通用问答、代码工程)混合在一起,进行大规模的监督微调。这极大地扩展了模型的知识面和通用能力。
4. 第二轮强化学习(RL):最后,再进行一轮全面的强化学习,利用一个更复杂的奖励模型,进一步增强模型的有用性、无害性,并使其行为与人类偏好对齐。
经过多轮炼丹,DeepSeek-R1 不仅在 AlpacaEval 2.0 和 Arena-Hard 等衡量通用指令遵循和用户偏好的基准上,性能提升了 17%-25%,而且还在数学、编程等高难度推理任务上保持了顶尖水准。
揭秘 DeepSeek-R1「炼丹炉」
接下来,就让我们深入这个「炼丹炉」的内部,一探究竟。
GRPO 算法
在 AI 训练的赛道上,强化学习算法 PPO(近端策略优化)长期以来都是大语言模型训练的「标配赛车」。它虽然强大,但也以资源消耗巨大和实现复杂而著称。
DeepSeek 团队选择了一条更聪明的路,他们采用了 GRPO(组相对策略优化)算法作为核心驱动引擎。
PPO 就像一位极其谨慎的教练,它在每次训练更新时,都会严格限制新策略与旧策略的偏离程度,以防模型「跑偏」导致训练崩溃。
这种谨慎是有代价的,它需要大量的计算来维持稳定。
而 GRPO 则像一位更高效、更相信「集体智慧」的教练。它的核心思想是:
在每次训练时,让模型针对同一个问题,生成一组(比如 16 个)不同的答案。
然后,它不只是简单地奖励最好的那个,而是根据这一组答案的「相对好坏」,来整体优化模型。
具体来说,它会计算出每个答案相对于这一组答案平均水平的「优势」(Advantage),优势大的(即表现更好的)答案会得到更大的激励权重,而表现差的则会被抑制。
这种「组内竞争、择优而学」的机制,简化了 PPO 复杂的约束过程,不仅显著降低了资源消耗,还被证明在实践中同样稳定高效。
奖励设计
强化学习的本质,就是通过奖励(Reward)来塑造模型的行为。它决定了模型将朝着哪个方向进化。
为此,DeepSeek 团队设计了一套双轨制的奖励系统。
1. 基于规则的奖励
对于推理任务(数学、编程、逻辑),团队采用了一套极其严格的基于规则的奖励系统。
准确率奖励:最终答案对不对?对于数学题,答案必须和标准答案完全一致;对于编程题,代码必须通过所有预设的测试用例。
格式奖励:思考过程是否符合规范?所有的思考过程都必须封装在 <think> 和 </think > 标签内。
这里,有一个关键的决定:在推理任务上,完全不使用基于神经网络的奖励模型。
因为团队发现,AI 在长时间、大规模的强化学习中,会找到奖励模型本身的漏洞并加以利用,即所谓的「奖励投机(Reward Hacking)」。
2. 基于模型的奖励
然而,世界并非非黑即白。对于通用任务比如写作、对话,大多只有好坏之分。
于是,DeepSeek 团队引入了基于模型的奖励,从而让模型更符合人类的偏好。
有用性奖励模型:专门负责评判模型的回答对用户是否有用、切题。它通过比较大量的「好答案」与「坏答案」对(由 DeepSeek-V3 生成并筛选)来学习人类的偏好。有趣的是,它只评估最终的摘要部分,而不去干涉底层的推理过程,给予模型在思考上的充分自由。
安全奖励模型:负责检查模型的全部输出,包括思考过程,以识别和惩罚任何潜在的有害、偏见或危险内容。
如此一来,模型在保持强大推理能力的同时,也学会了如何生成更有用、更安全、更符合人类习惯的内容。
训练细节
DeepSeek 的训练并非一蹴而就,而是分为多个精心设计的阶段,每个阶段都有不同的侧重点和巧妙的参数调整。
最开始的训练完全聚焦于数学、编程等推理任务,仅使用基于规则的奖励。
一个有趣的现象发生在训练进行到第 8,200 步时:研究人员将模型处理的最大文本长度从 32,768 个 Token 猛增到 65,536 个 Token。
这一改变带来了立竿见影的效果,模型的性能和回答长度都出现了「大幅跃升」。
其他参数设置如下:
学习率:3×10⁻⁶
KL 散度系数:0.001
GRPO 裁剪比率 ϵ:10
推理采样温度:1
每个训练步包含 32 个独立问题,每步的批大小为 512。
每 400 步,用最新的策略模型替换参考模型。
第一强化学习阶段
在这一阶段,训练数据变得更加多样化。
团队遇到了一个意想不到的挑战:模型的「思维链」(<think> 标签内的内容)中频繁出现中英夹杂的「语言混合」现象。虽然这不一定影响最终答案的正确性,但极大地影响了可读性。
为了解决这个问题,他们创造性地引入了一个「语言一致性奖励」:如果模型在处理中文问题时,思维链中中文词汇的比例越高,获得的奖励就越多。
尽管实验表明,强行「矫正」语言会导致模型性能微乎其微的下降,但为了输出结果更符合人类阅读习惯,这个牺牲是值得的。
第二强化学习阶段
在这一阶段,研究人员结合了奖励信号和多样化的提示词分布来训练模型。
推理数据使用基于规则的奖励,通用数据则启用基于模型的奖励。
奖励可以公式化为:
其中
第二阶段保留了第一阶段的大部分参数,但将温度降至 0.7,以防因为系数过高造导致生成内容不连贯。
此外,这里还有一个关键操作:基于模型的奖励(有用性和安全性)仅在最后 400 个训练步中才被引入,从而避免奖励投机的产生。
挑战与未来
DeepSeek-R1 的诞生,为 AI 发展带来了深刻的启示,也伴随着新的挑战。
能力局限
在结构化输出和工具使用(如调用计算器、搜索引擎)方面,目前的 DeepSeek-R1 尚有欠缺。它对提示词非常敏感,不适合复杂的少样本提示,在零样本直接提问时效果最佳。此外,由于强化学习在耗时长的软件工程任务上效率不高,R1 在该领域的提升有限。
奖励投机
纯强化学习的成功,完全依赖于可靠的奖励信号。在数学、编程这类有明确对错答案的领域,这很容易实现。但对于像「写一首优美的诗」这样主观的任务,则很难设计完美的奖励模型。如果奖励信号本身有漏洞,策略模型就会像一个聪明的学生钻考试规则的空子一样,「投机取巧」、骗取高分,而不是真正提升能力。
年初,DeepSeek-R1 发布后,OpenAI 感觉不可思议,指责 DeepSeek「可能使用了 ChatGPT 的输出来训练 R1」。
在与审稿人的交流中,DeepSeek 表示,R1 并非通过复制 OpenAI 模型生成的推理示例来学习。
不过,与大多数其他大语言模型一样,R1 的基础模型是在网络上训练的,因此它会吸收互联网上已有的 AI 生成的内容。
俄亥俄州立大学 AI 研究员 Huan Sun 表示,这一解释「与我们在任何出版物中看到的一样令人信服」。
Nature 审稿人、Hugging Face 机器学习工程师 Lewis Tunstall 补充说,其他实验室的复制尝试表明,DeepSeek 推理方法已经足够好,不需要这样做。
他说:「我认为现在的证据相当明确,仅使用强化学习就可以获得非常高的性能。」
Lewis Tunstall 说,其他研究人员现在正试图应用创建 R1 的方法来改进现有大语言模型的类似推理能力,并将其扩展到数学和编码以外的领域。他补充说,通过这种方式,R1「开启了一场革命」。
参考资料:HYJ
https://www.nature.com/articles/s41586-025-09422
https://www.nature.com/articles/d41586-025-03015-6
本文来自微信公众号:新智元(ID:AI_era)原文标题:《刚刚,DeepSeek 登上 Nature 封面!梁文锋带队回应质疑,R1 训练真 29.4 万美金》
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。
(凤凰网宁波 秋能、远鲲晚)
文章点评