k8·凯发(中国)天生赢家·一触即发

关于凯发k8 品牌概述 品牌理念 品牌定位 展示中心 产品展示 当季限定 鲜茶之旅 招牌爆品 经典奶茶 鲜萃果茶 门店展示 形象展示 加盟中心 品牌优势 运营支持 加盟流程 加盟优势 店铺条件 凯发天生赢家一触即发首页 新闻中心 联系我们 k8·凯发(中国)天生赢家·一触即发
K8凯发·天生赢家奶茶官网

  • 关于凯发k8
  • 展示中心
  • 加盟中心
  • 凯发天生赢家一触即发首页
  • 新闻中心
  • 联系我们
  • k8·凯发(中国)天生赢家·一触即发
  • 首页 > k8·凯发(中国)天生赢家·一触即发
  • 一触即发|日韩卡1卡2卡三卡免费网站|监督学习也能反思?清华英伟达提出隐式负向策

    发布时间:2025-06-30 11:30 来源:K8凯发·天生赢家茶饮

      

      清华大学与英伟达★✿ღ★、斯坦福联合提出新的监督学习方案——NFT(Negative-aware FineTuning)★✿ღ★,在RFT(Rejection FineTuning)算法基础上通过构造一个“隐式负向模型” 来额外利用负向数据进行训练★✿ღ★。

      这并不意味着使用“差数据”进行训练★✿ღ★,而是在已知的模型计算结果前提下日韩卡1卡2卡三卡免费网站★✿ღ★,通过负向数据训练正向模型日韩卡1卡2卡三卡免费网站k8凯发官网★✿ღ★,★✿ღ★,即“隐式负向策略(Implicit Negative Policy)”

      更让人惊讶的是一触即发★✿ღ★,NFT损失函数梯度和GRPO在On-Policy条件下是等价的★✿ღ★!这意味着★✿ღ★,GRPO中人为经验设置的“Group Relative Normalization”方案★✿ღ★,可以直接通过理论推导自然得出★✿ღ★。

      NFT定义了一个在线.数据采样★✿ღ★:语言模型自己产生大量数学问题答案★✿ღ★,通过一个01奖励函数★✿ღ★,把答案分为正确和错误两类★✿ღ★,并统计每个问题回答准确率[数学公式]★✿ღ★。

      3.策略优化★✿ღ★:在正确数据上★✿ღ★,直接监督训练正向策略模型★✿ღ★;在错误数据上一触即发★✿ღ★,通过用隐式负向策略拟合建模★✿ღ★,达到直接优化正向策略模型的目的★✿ღ★。

      考虑这样一个监督学习基线★✿ღ★:Rejection sampling Finetuning(RFT)★✿ღ★。每一轮★✿ღ★,研究团队让模型自己产生大量数学问题答案日韩卡1卡2卡三卡免费网站一触即发★✿ღ★,通过一个01奖励函数★✿ღ★,把所有模型产生的错误答案丢弃★✿ღ★,仅在高质量正向数据上进行监督训练★✿ღ★。RFT中日韩卡1卡2卡三卡免费网站一触即发★✿ღ★,研究团队每一轮的训练目标是★✿ღ★:

      然而★✿ღ★,问题的转折点在于★✿ღ★,数据是已知模型在线采样的★✿ღ★,也就是正负向数据分布的和是已知的★✿ღ★。由贝叶斯公式可知以下线性关系★✿ღ★:

      这说明★✿ღ★,假设真能在负向数据上学习到一个“负向策略”日韩卡1卡2卡三卡免费网站一触即发★✿ღ★,可以把这个负向策略和原始生成策略结合★✿ღ★,“计算”得出想要的正向模型★✿ღ★。

      在实际操作中日韩卡1卡2卡三卡免费网站凯发K8娱乐官网入口★✿ღ★,★✿ღ★,不是真的去学习一个“差模型”★✿ღ★。研究团队提出“隐式负向策略”(Implicit Negative Policy)日韩卡1卡2卡三卡免费网站★✿ღ★,可以直接在负向数据上训练正向策略★✿ღ★。可用以下表达式来参数化隐式负向模型★✿ღ★:

      其中rq表示模型在回答问题q时的正确率★✿ღ★,现实中由于模型对一个问题会产生多个回答★✿ღ★,我们可以很容易地估计rqk8凯发(中国)旗舰厅★✿ღ★!★✿ღ★。这里表明隐式负向策略不是一个静态的模型★✿ღ★,而是基于不同难度的问题动态构造的

      对以上损失函数直接求导★✿ღ★,研究团队在严格On-policy条件下得到和GRPO等价的梯度表达式凯发k8国际首页登录★✿ღ★,★✿ღ★。

      这暗示了监督学习和强化学习或许存在深层的联系★✿ღ★,也直接说明NFT是一个绝对可靠的算法★✿ღ★,最差也是退回On-Policy训练和GRPO等价★✿ღ★。

      NFT和当下性能最优的强化学习算法性能持平★✿ღ★,部分场景下可能更有优势(可以在现有监督学习框架基础上简单实现)凯发K8天生赢家一触即发★✿ღ★,★✿ღ★。

      与主流RLHF算法对比凯发K8官网★✿ღ★,★✿ღ★,NFT7B性能超过GRPO★✿ღ★、DAPO★✿ღ★;32B性能和DAPO基本持平凯发一触即发官网★✿ღ★,★✿ღ★。研究团队还观察到★✿ღ★,模型越大★✿ღ★,NFT和RFT算法性能差异越明显★✿ღ★。这暗示了负向反馈在大模型中承担更重要的作用★✿ღ★。

      和其他已有的基于Qwen-7B zero style训练模型相比★✿ღ★,NFT达到最高的数学平均成绩★✿ღ★。

      NFT算法指出并弥合了强化学习和监督学习的本质差异★✿ღ★,这暗示两套机器学习理论存在深层联系★✿ღ★,可以帮助研究者重新定位★✿ღ★、思考和放大强化训练的本质优势★✿ღ★。





    k8·凯发(中国)天生赢家·一触即发| http://www.wuhanwzk.com