微调适用的任务类型
结构化任务
- 意图识别:用户输入的意图分类
- 情感分析:文本情感倾向判断
- 评分预测:内容质量、满意度评分
- 实体识别:命名实体提取和分类
非结构化生成任务
- 领域问答:特定行业的专业问答
- 文档摘要:符合特定格式的摘要生成
- 对话系统:具有特定风格的聊天机器人
- 内容创作:特定风格的文案、代码生成
多任务场景
- 问答+分类:同时完成回答和意图识别
- 摘要+评分:生成摘要并给出质量评分
- 多模态任务:图文联合理解和生成
微调不适合的场景
实时信息更新
- 新闻资讯:需要最新信息的查询
- 股价汇率:实时变化的数据
- 天气预报:动态更新的信息
💡 替代方案:使用RAG方法论技术,通过外部知识库提供实时信息
广泛开放知识领域
- 百科全书式问答:涵盖各个领域的通用知识
- 常识推理:基础的逻辑推理和常识判断
- 多语言翻译:通用的语言转换任务
💡 原因:大模型本身的预训练知识已经足够,微调可能反而降低泛化能力
场景选择决策树
是否需要特定领域知识?
├─ 是 → 是否有足够标注数据?
│ ├─ 是 → 推荐微调
│ └─ 否 → 考虑[[RAG方法论]]或[[Prompt工程]]
└─ 否 → 是否需要特定输出格式?
├─ 是 → 推荐[[监督微调SFT]]
└─ 否 → 直接使用预训练模型
微调效果评估指标
分类任务
- 准确率(Accuracy)
- F1分数
- 混淆矩阵
生成任务
- BLEU分数:机器翻译质量
- ROUGE分数:摘要质量
- 人工评估:流畅度、相关性、有用性
成本效益分析
场景类型 | 数据需求 | 训练成本 | 效果提升 | 推荐度 |
---|---|---|---|---|
专业领域问答 | 中等 | 中等 | 显著 | ⭐⭐⭐⭐⭐ |
意图分类 | 较少 | 较低 | 显著 | ⭐⭐⭐⭐⭐ |
通用对话 | 较多 | 较高 | 一般 | ⭐⭐⭐ |
实时信息 | - | - | 无效 | ⭐ |