status
type
date
slug
summary
tags
category
icon
password
稍微总结一下dpo的数学推理过程
首先是将RLHF划成了三个阶段 SFT → reward learning → RL optimize
先通过sft获得最基本问答/总结的能力 然后把生成的问题人工标注好坏(一好一坏就够)
假设我们有这个完美的reward model(ground truth r)
我们可以通过把这个reward代入simgoid算出 好的答案所应该的占比
当然这里我们是说理想情况 这样我们可以有这个preference distribution

但是我们需要去train 这个reward function 通过 maximize 这个 sigmoid
这里推荐看一下 ‣
20:33 左右 基本上我们可以牢记 这个P(A > B) 就是 sigmoid(A - B)
- Author:ran2323
- URL:https://www.blueif.me//article/1bf71a79-6e22-80de-ab91-cf5c0463b941
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!