🎯 核心价值
强化学习微调(RL Fine-tuning)是一类基于人类反馈和偏好学习的高级微调技术,旨在使大语言模型(LLM)的输出更符合人类的期望、价值观和特定指令风格。这类方法超越了传统的监督微调SFT,通过学习隐式的偏好信号,实现更深层次的模型对齐。
💡 主要方法与选择
方法 | 核心思想 | 适用场景 | 复杂度 | 主要优势 |
---|---|---|---|---|
监督微调SFT | 学习显式输入输出 | 基础指令跟随、知识注入 | 低 | 简单直接 |
DPO微调 | 直接优化偏好对 | 需要人类偏好对比数据 | 中 | 无需奖励模型、训练稳定 |
RLHF微调 | 模仿人类反馈循环(包含PPO微调) | 追求高质量、复杂对齐 | 高 | 效果最佳、最接近人类 |