在看了 OpenAI 的直播,精读了字节论文,以及和 知乎@真中合欢 激烈辩论后。我对 RFT ( Reinforcement Fine-Tuning ) 也有了一些自己的认知,这篇文章给大家分享一下我的理解。 首先给出我的结论:RFT 并不是新的技术范式,而是 PPO 技术范式下的新应用范式,RFT 相比于 ...
OpenAI年终大戏第二场推出了强化微调RFT (Reinforcement Fine-Tuning),它可以让你用几十到几千个的训练数据,为特定的复杂任务构建专家模型,加强了模型如何处理类似问题的推理,微调后的o1-mini得分提高80%,反超o1正式版! 强化微调技术的一种实现方式:首先通过 ...