本文档系统性梳理大语言模型(LLM)微调的核心原理、主流方法与实践策略,为技术团队构建定制化智能系统提供方法指导和技术导航。
微调概述
什么是微调?
微调(Fine-tuning)是在预训练模型基础上,使用特定任务数据继续训练的迁移学习方法,通过少量数据实现针对性优化。
为什么需要微调?
- 通用模型知识面广但不够准确(如无法准确回答公司政策)
- 提示工程无法满足深度定制需求(如特定领域术语)
- 某些任务需引导模型行为(如限制回答风格、安全策略)
技术分类体系
适用场景判断
详细分析请参考:微调适用场景分析
按参数更新方式
- 全参数微调方法 - 传统的全参数训练
- PEFT参数高效微调 - 资源友好的高效方法
按训练目标
主流PEFT技术对比
方法 | 参数量 | 显存需求 | 适用场景 |
---|---|---|---|
LoRA微调 | 0.1%-1% | 低 | 通用微调首选 |
QLoRA微调 | 0.1%-1% | 极低 | 消费级GPU |
Adapter微调 | 0.5%-2% | 中等 | 多任务部署 |
Prefix Tuning | 0.01%-0.1% | 最低 | 轻量级任务 |
核心技术方法
参数高效微调
- LoRA微调 - 低秩适应,平衡效果与效率
- QLoRA微调 - 量化LoRA,极致显存优化
- Adapter微调 - 模块化设计,多任务友好
- Prefix Tuning - 最少参数,轻量级方案
强化学习优化
任务导向应用
按任务类型
实施流程
方法选择指南
快速决策表
详细选择策略:微调策略选择指南
相关技术对比
微调 vs 其他方法
📚 参考资源
核心论文
- LoRA: Low-Rank Adaptation
- DPO: Direct Preference Optimization
- RLHF: Training language models to follow instructions
实用工具
- Hugging Face PEFT
- Unsloth - 快速微调框架
- TRL - 强化学习工具