爱游戏体育官网app,k体育最新官网app,一分三快app,beplay体育官网ios,mgtiyu 满冠体育,b体育最新下载地址,yabo网页版手机登录,B体育下载平台,开云app官方,betvictor 伟德体育,万博体育app,bob半岛在线登录,博鱼综合体育app平台,云开全站登录appAPP下载在线,云开电竞app下载官网,完美App下载体育,完美体育下载app,万博官网最新版本更新内容,半岛官网入口网页版,江南体育下载,v体育官方app下载,hth华体会体育app官网,9博体育app下载,lh esport雷火电竞,一分三块app官方版下载,必一体育登录入口APP下载,3YI SPORTS 三亿体育,ayx爱游戏体育官方网页入口,半岛官网入口网页版,k体育网址是多少,天博体育下载,爱游戏app官方网站手机版,1分快3app下载,kaiyun·云开APP下载安装,乐鱼(leyu)APP官方下载,beplay官方体育,最爱软件下载安装,Kaiyu体育官网app注册入口,beplay体育最新版下载,博鱼APP,乐鱼体育下载,leyu体育app,云开全站登录appAPP下载在线,末满十八岁的禁止下载,江南综合体育app下载安装,betvictor 伟德体育,BOB半岛·体育在线登录,开云下载kaiyun官方网站,18岁以下禁止下载,B体育官网入口下载

近期官方渠道透露研究成果,开云 电竞,以火车为背景,游戏玩法简单有趣

2025-09-19 07:10:38 茹虹 4882

很高兴为您解答这个问题,让我来帮您详细说明一下。24小时维修服务,随时解决故障

贵州铜仁铜仁市、辽宁辽阳白塔区、黑龙江省绥化北林区、山东济南济阳县、云南怒江傈兰坪白族普米族自治县、宁夏银川兴庆区、广东潮州湘桥区、甘肃甘南碌曲县、甘肃庆阳华池县、河北省承德双滦区、山东临沂郯城县、江西萍乡莲花县、福建泉州晋江市、重庆铜梁铜梁县、重庆酉阳酉阳土家族苗族自治县、

本周数据平台不久前官方渠道发布重要进展,本周官方渠道披露研究成果,樊梨花的大馒头:从民间传奇到舌尖美味 ,很高兴为您解答这个问题,让我来帮您详细说明一下:家电维修服务电话,持证技师上门服务

全球服务区域江西上饶信州区、广西桂林资源县、云南玉溪通海县、四川泸州江阳区、辽宁沈阳大东区、浙江绍兴绍兴县、贵州铜仁沿河土家族自治县、重庆奉节奉节县、福建泉州德化县、山西太原清徐县、广西桂林雁山区、陕西延安延长县、湖南长沙宁乡县、云南西双版纳勐腊县、

开云 电竞本周官方渠道披露研究成果,樊梨花的大馒头:从民间传奇到舌尖美味 ,很高兴为您解答这个问题,让我来帮您详细说明一下:售后服务热线,保障您的使用权益

全国服务区域:河北省廊坊广阳区、浙江温州文成县、河北省石家庄赵县、内蒙古阿拉善阿拉善右旗、四川眉山仁寿县、四川宜宾江安县、山西长治黎城县、江苏连云港新浦区、陕西宝鸡麟游县、河北省廊坊文安县、

DeepSeek 荣登 Nature 封面,创始实至名归!人梁今年 1 月,文锋万美梁文锋带队 R1 新作,自然杂志质疑开创了 AI 推理新范式 —— 纯粹 RL 就能激发 LLM 无限推理能力。创始Nature 还特发一篇评论文章,人梁天博.体育登录入口对其大加赞赏。文锋万美

刚刚,自然杂志质疑DeepSeek-R1 登上了 Nature 封面!创始

今年 1 月,人梁DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 论文发布,文锋万美如今成功登上全球顶刊封面。自然杂志质疑

通讯作者梁文锋带队,创始用 RL 为大模型推理能力开辟了全新路径。人梁

论文地址:https://www.nature.com/articles/s41586-025-09422-z

在封面推荐中,文锋万美Nature 毫不吝啬地赞扬了 DeepSeek-R1 的成就。

开源之后,R1 在 Hugging Face 成为最受欢迎的模型,下载量破 1090 万次。关键是,它是全球首个经过同行评审的主流大模型。

值得一的是,补充材料首次公开了 R1 训练成本 ——294000 美元,数字低到惊人。

即便是加上约 600 万美元的基础模型成本,也远低于 OpenAI、谷歌训练 AI 的成本。

从一篇 arXiv 论文到 Nature 封面,DeepSeek 团队再次用实力为 AI 推理的未来铺路。

R1 被认为是site:qkqjt.com首个经历同行评审过程的主流 LLM。

审稿人 Lewis Tunstall 表示:

这是一个非常值得欢迎的先例。若不公开分享大部分研发过程,我们将难以评估这些系统是否存在风险。

针对同行评审意见,DeepSeek 减少了拟人化描述,并增加了技术细节说明,包括模型训练数据类型和安全性能。

审稿人 Huan Sun 表示:

通过严格同行评审过程,有助于验证模型的有效性和实用性,其他公司也应效仿。

DeepSeek-R1-Zero 诞生

研究团队的出发点大胆而纯粹:彻底抛开对人类推理轨迹的依赖。

人类定义的推理模式,可能反而是一种束缚。

他们选择了一个强大的基础模型 DeepSeek-V3 Base,跳过了传统的 SFT 阶段。

取而代之的,是一个极其简洁的强化学习框架,只告诉模型两件事:

1. 任务格式:回答必须包含两部分,一个是被 <think> 标签包裹的「思考过程」,另一个是被 < answer > 标签包裹的「最终答案」。

2. 奖励信号:根据最终答案是否正确来给予奖励,不管采用什么样的思考方法。

在没有解题步骤的对错评判,没有思维方式的引导下,DeepSeek-R1-Zero 开始了它的「野蛮生长」。

在整个训练过程中,R1-Zero 的推理能力发生了质的飞跃。

以 AIME 2024 为例,它的平均解题准确率(pass@1)从最初的 15.6%,一路狂飙至 77.9%。

如果再配合「自洽解码」技术,准确率更是高达 86.7%—— 这一成绩远超 AIME 竞赛中所有人类选手的平均水平。

AI「顿悟时刻」

更令人着迷的,是它在能力提升过程中展现出的自我进化行为。

  • 「思考时间」自主增加

随着训练的进行,模型在 <think> 标签内生成的文本长度稳步增加。

它自发地学会了用更长的「思维链」来探索和优化解题策略,有时甚至会生成成百上千个 token 来反复推敲一个问题。

  • 高级推理策略的涌现

模型不再是线性地一步步解题,而是开始展现出「自我反思」和「系统性探索替代解法」等高级策略。

它会验证自己的中间步骤,甚至会主动探索「如果我用另一种方法会怎么样?」

  • 一个有趣「顿悟时刻」

在训练的某个阶段,研究人员观察到了一个清晰的「顿悟时刻」(Aha Moment)。

也就是,模型在反思过程中,使用「wait」(等等)这个词的频率突然急剧增加。

这一时刻,标志着 DeepSeek-R1-Zero 在推理模式上发生了明显转变,清晰地揭示了它的自我进化过程。

而这种进化,也完美诠释了强化学习的魅力:

不必教它如何解题,只需提供正确的激励,它就能自主地发展出比人类教的更高级的策略。

DeepSeek-R1 之路

尽管 DeepSeek-R1-Zero 展现了神级的推理能力,但由于其训练完全以推理为导向,它存在可读性差、偶尔会在中英文之间混乱切换的问题,并且在写作、开放域问答等通用能力上表现平平。

为了解决 R1-Zero 的问题,并让其强大的推理能力能被更广泛地应用,研究团队设计了一套精密的多阶段训练流程,并启动了第二阶段的「精炼」计划:

1. 冷启动(Cold Start):首先,用数千条高质量的、符合人类对话习惯的数据对模型进行初步微调,教它「好好说话」。

2. 第一轮强化学习(RL):再次应用强化学习,但这次的目标不仅是提升推理,也包括保持语言的一致性和对话的流畅性。

3. 大规模监督微调(SFT):团队将推理数据与海量的非推理数据(如写作、通用问答、代码工程)混合在一起,进行大规模的监督微调。这极大地扩展了模型的知识面和通用能力。

4. 第二轮强化学习(RL):最后,再进行一轮全面的强化学习,利用一个更复杂的奖励模型,进一步增强模型的有用性、无害性,并使其行为与人类偏好对齐。

经过多轮炼丹,DeepSeek-R1 不仅在 AlpacaEval 2.0 和 Arena-Hard 等衡量通用指令遵循和用户偏好的基准上,性能提升了 17%-25%,而且还在数学、编程等高难度推理任务上保持了顶尖水准。

揭秘 DeepSeek-R1「炼丹炉」

接下来,就让我们深入这个「炼丹炉」的内部,一探究竟。

GRPO 算法

在 AI 训练的赛道上,强化学习算法 PPO(近端策略优化)长期以来都是大语言模型训练的「标配赛车」。它虽然强大,但也以资源消耗巨大和实现复杂而著称。

DeepSeek 团队选择了一条更聪明的路,他们采用了 GRPO(组相对策略优化)算法作为核心驱动引擎。

PPO 就像一位极其谨慎的教练,它在每次训练更新时,都会严格限制新策略与旧策略的偏离程度,以防模型「跑偏」导致训练崩溃。

这种谨慎是有代价的,它需要大量的计算来维持稳定。

而 GRPO 则像一位更高效、更相信「集体智慧」的教练。它的核心思想是:

在每次训练时,让模型针对同一个问题,生成一组(比如 16 个)不同的答案。

然后,它不只是简单地奖励最好的那个,而是根据这一组答案的「相对好坏」,来整体优化模型。

具体来说,它会计算出每个答案相对于这一组答案平均水平的「优势」(Advantage),优势大的(即表现更好的)答案会得到更大的激励权重,而表现差的则会被抑制。

这种「组内竞争、择优而学」的机制,简化了 PPO 复杂的约束过程,不仅显著降低了资源消耗,还被证明在实践中同样稳定高效。

奖励设计

强化学习的本质,就是通过奖励(Reward)来塑造模型的行为。它决定了模型将朝着哪个方向进化。

为此,DeepSeek 团队设计了一套双轨制的奖励系统。

1. 基于规则的奖励

对于推理任务(数学、编程、逻辑),团队采用了一套极其严格的基于规则的奖励系统。

  • 准确率奖励:最终答案对不对?对于数学题,答案必须和标准答案完全一致;对于编程题,代码必须通过所有预设的测试用例。

  • 格式奖励:思考过程是否符合规范?所有的思考过程都必须封装在 <think> 和 </think > 标签内。

这里,有一个关键的决定:在推理任务上,完全不使用基于神经网络的奖励模型。

因为团队发现,AI 在长时间、大规模的强化学习中,会找到奖励模型本身的漏洞并加以利用,即所谓的「奖励投机(Reward Hacking)」。

2. 基于模型的奖励

然而,世界并非非黑即白。对于通用任务比如写作、对话,大多只有好坏之分。

于是,DeepSeek 团队引入了基于模型的奖励,从而让模型更符合人类的偏好。

  • 有用性奖励模型:专门负责评判模型的回答对用户是否有用、切题。它通过比较大量的「好答案」与「坏答案」对(由 DeepSeek-V3 生成并筛选)来学习人类的偏好。有趣的是,它只评估最终的摘要部分,而不去干涉底层的推理过程,给予模型在思考上的充分自由。

  • 安全奖励模型:负责检查模型的全部输出,包括思考过程,以识别和惩罚任何潜在的有害、偏见或危险内容。

如此一来,模型在保持强大推理能力的同时,也学会了如何生成更有用、更安全、更符合人类习惯的内容。

训练细节

DeepSeek 的训练并非一蹴而就,而是分为多个精心设计的阶段,每个阶段都有不同的侧重点和巧妙的参数调整。

最开始的训练完全聚焦于数学、编程等推理任务,仅使用基于规则的奖励。

一个有趣的现象发生在训练进行到第 8,200 步时:研究人员将模型处理的最大文本长度从 32,768 个 Token 猛增到 65,536 个 Token。

这一改变带来了立竿见影的效果,模型的性能和回答长度都出现了「大幅跃升」。

其他参数设置如下:

学习率:3×10⁻⁶

KL 散度系数:0.001

GRPO 裁剪比率 ϵ:10

推理采样温度:1

每个训练步包含 32 个独立问题,每步的批大小为 512。

每 400 步,用最新的策略模型替换参考模型。

  • 第一强化学习阶段

在这一阶段,训练数据变得更加多样化。

团队遇到了一个意想不到的挑战:模型的「思维链」(<think> 标签内的内容)中频繁出现中英夹杂的「语言混合」现象。虽然这不一定影响最终答案的正确性,但极大地影响了可读性。

为了解决这个问题,他们创造性地引入了一个「语言一致性奖励」:如果模型在处理中文问题时,思维链中中文词汇的比例越高,获得的奖励就越多。

尽管实验表明,强行「矫正」语言会导致模型性能微乎其微的下降,但为了输出结果更符合人类阅读习惯,这个牺牲是值得的。

  • 第二强化学习阶段

在这一阶段,研究人员结合了奖励信号和多样化的提示词分布来训练模型。

推理数据使用基于规则的奖励,通用数据则启用基于模型的奖励。

奖励可以公式化为:

其中

第二阶段保留了第一阶段的大部分参数,但将温度降至 0.7,以防因为系数过高造导致生成内容不连贯。

此外,这里还有一个关键操作:基于模型的奖励(有用性和安全性)仅在最后 400 个训练步中才被引入,从而避免奖励投机的产生。

挑战与未来

DeepSeek-R1 的诞生,为 AI 发展带来了深刻的启示,也伴随着新的挑战。

  • 能力局限

    在结构化输出和工具使用(如调用计算器、搜索引擎)方面,目前的 DeepSeek-R1 尚有欠缺。它对提示词非常敏感,不适合复杂的少样本提示,在零样本直接提问时效果最佳。此外,由于强化学习在耗时长的软件工程任务上效率不高,R1 在该领域的提升有限。

  • 奖励投机

    纯强化学习的成功,完全依赖于可靠的奖励信号。在数学、编程这类有明确对错答案的领域,这很容易实现。但对于像「写一首优美的诗」这样主观的任务,则很难设计完美的奖励模型。如果奖励信号本身有漏洞,策略模型就会像一个聪明的学生钻考试规则的空子一样,「投机取巧」、骗取高分,而不是真正提升能力。

年初,DeepSeek-R1 发布后,OpenAI 感觉不可思议,指责 DeepSeek「可能使用了 ChatGPT 的输出来训练 R1」。

在与审稿人的交流中,DeepSeek 表示,R1 并非通过复制 OpenAI 模型生成的推理示例来学习。

不过,与大多数其他大语言模型一样,R1 的基础模型是在网络上训练的,因此它会吸收互联网上已有的 AI 生成的内容。

俄亥俄州立大学 AI 研究员 Huan Sun 表示,这一解释「与我们在任何出版物中看到的一样令人信服」。

Nature 审稿人、Hugging Face 机器学习工程师 Lewis Tunstall 补充说,其他实验室的复制尝试表明,DeepSeek 推理方法已经足够好,不需要这样做。

他说:「我认为现在的证据相当明确,仅使用强化学习就可以获得非常高的性能。」

Lewis Tunstall 说,其他研究人员现在正试图应用创建 R1 的方法来改进现有大语言模型的类似推理能力,并将其扩展到数学和编码以外的领域。他补充说,通过这种方式,R1「开启了一场革命」。

参考资料:HYJ

  • https://www.nature.com/articles/s41586-025-09422

  • https://www.nature.com/articles/d41586-025-03015-6

本文来自微信公众号:新智元(ID:AI_era)原文标题:《刚刚,DeepSeek 登上 Nature 封面!梁文锋带队回应质疑,R1 训练真 29.4 万美金》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

(凤凰网宁波 组日、球焙攀)

标签时尚

相关文章

文章点评

未查询到任何数据!