status
type
date
slug
summary
tags
category
icon
password
稍微总结一下dpo的数学推理过程
 
首先是将RLHF划成了三个阶段 SFT → reward learning → RL optimize
 
先通过sft获得最基本问答/总结的能力 然后把生成的问题人工标注好坏(一好一坏就够)
假设我们有这个完美的reward model(ground truth r)
我们可以通过把这个reward代入simgoid算出 好的答案所应该的占比
当然这里我们是说理想情况 这样我们可以有这个preference distribution
 
notion image
 
但是我们需要去train 这个reward function 通过 maximize 这个 sigmoid
这里推荐看一下
20:33 左右 基本上我们可以牢记 这个P(A > B) 就是 sigmoid(A - B)
 
 
SFT + DPO 塔罗解读关于Docker network的一些补充
Loading...
ran2323
ran2323
忘掉名字吧
Latest posts
SFT + DPO 塔罗解读
2025-3-30
DPO 相关
2025-3-29
今日paper(3/25) - MAGPIE
2025-3-27
关于Docker network的一些补充
2025-3-26
PPO 相关, 关于损失函数的一些理解
2025-3-13
SAM 代码学习 [1]
2025-3-4
Announcement
 
 
 
 
暂时没有新的内容