微调适用的任务类型

结构化任务

  • 意图识别:用户输入的意图分类
  • 情感分析:文本情感倾向判断
  • 评分预测:内容质量、满意度评分
  • 实体识别:命名实体提取和分类

非结构化生成任务

  • 领域问答:特定行业的专业问答
  • 文档摘要:符合特定格式的摘要生成
  • 对话系统:具有特定风格的聊天机器人
  • 内容创作:特定风格的文案、代码生成

多任务场景

  • 问答+分类:同时完成回答和意图识别
  • 摘要+评分:生成摘要并给出质量评分
  • 多模态任务:图文联合理解和生成

微调不适合的场景

实时信息更新

  • 新闻资讯:需要最新信息的查询
  • 股价汇率:实时变化的数据
  • 天气预报:动态更新的信息

💡 替代方案:使用RAG方法论技术,通过外部知识库提供实时信息

广泛开放知识领域

  • 百科全书式问答:涵盖各个领域的通用知识
  • 常识推理:基础的逻辑推理和常识判断
  • 多语言翻译:通用的语言转换任务

💡 原因:大模型本身的预训练知识已经足够,微调可能反而降低泛化能力

场景选择决策树

是否需要特定领域知识?
├─ 是 → 是否有足够标注数据?
│   ├─ 是 → 推荐微调
│   └─ 否 → 考虑[[RAG方法论]]或[[Prompt工程]]
└─ 否 → 是否需要特定输出格式?
    ├─ 是 → 推荐[[监督微调SFT]]
    └─ 否 → 直接使用预训练模型

微调效果评估指标

分类任务

  • 准确率(Accuracy)
  • F1分数
  • 混淆矩阵

生成任务

  • BLEU分数:机器翻译质量
  • ROUGE分数:摘要质量
  • 人工评估:流畅度、相关性、有用性

成本效益分析

场景类型数据需求训练成本效果提升推荐度
专业领域问答中等中等显著⭐⭐⭐⭐⭐
意图分类较少较低显著⭐⭐⭐⭐⭐
通用对话较多较高一般⭐⭐⭐
实时信息--无效

相关概念