DPO 相关 | 湛蓝与蔚蓝

status

type

date

slug

summary

category

icon

password

稍微总结一下dpo的数学推理过程

首先是将RLHF划成了三个阶段 SFT → reward learning → RL optimize

先通过sft获得最基本问答/总结的能力然后把生成的问题人工标注好坏(一好一坏就够)

假设我们有这个完美的reward model(ground truth r)

我们可以通过把这个reward代入simgoid算出好的答案所应该的占比

当然这里我们是说理想情况这样我们可以有这个preference distribution

但是我们需要去train 这个reward function 通过 maximize 这个 sigmoid

这里推荐看一下 ‣

20:33 左右基本上我们可以牢记这个P(A > B) 就是 sigmoid(A - B)