_大模型完整研发流程

阶段	关键任务	常用工具/框架	典型指标
系统方案设计	业务拆解、能力边界、技术选型	架构图（C4 Model）、ADR	功能覆盖率、投资回报
数据处理	清洗 → 过滤 → 标注 → 质检 → 分桶	Spark/Flink + Label Studio	数据量、标签一致率
模型设计	基座模型选型、模块化设计、PEFT 插件化策略	Transformers、Colossal‑AI	模型尺寸、FLOPs
训练/微调	SFT → DPO/RLHF → 量化训练	DeepSpeed ZeRO、QLoRA	训练成本、收敛步数
评测	自动+人工，离线&在线	BLEU、BERTScore、RAGAS	评测覆盖度
部署	GPU/CPU 异构、批处理 & 流式	vLLM、SGLang、Triton	QPS、P99 延迟
监控 & 联调	指标 + 日志 + 反馈回流	Prometheus + OpenTelemetry	漏斗转化率、Hallucination Rate

核心痛点：呼叫时长受限、实时 ASR/TTS、用户意图多样、合规性要求严格。

数据侧
- 录音 → ASR 文本 → 角色分离 → 情绪/意图标签
- 引入 CRM、FAQ、商品知识库 形成多源数据。
模型侧
- SFT：利用高质量转写+标签进行监督指令微调。
- DPO/RLAIF：用真实通话 KPI（约见率、用户满意度）做偏好对齐。
- 情绪/意图多任务头：共享 encoder，解耦任务‑特定头部。
评测侧
- 自动指标：ASR WER、上一轮 Intent‑F1、情绪识别 AUC。
- 在线指标：接通率、ACW 时长、销售转化率。
优化方向
- 可控文本生成：Prompt + 控制码 + 禁词表，避免违规。
- 增量学习：日批最新通话回流，使用 SFT Adapter 热更新。
- 端到端流水线：ASR→LLM→TTS 串行改并行，减少 300 ms+ 交互延迟。

主题	关键技术	优化思路
训练与微调	全参数 vs. PEFT（LoRA、Prefix、Adapter）	• 小样本场景先做 PEFT； • 逐层解冻 + learning‑rate warm‑up 降低漂移
知识增强	知识图谱 + 检索式外显记忆	• Neo4j + KG‑Embedding； • RAG‑over‑KG，实体链接→节点检索→上下文注入
多轮问答	上下文窗口管理 + 角色记忆	• Sliding window/Tree of Thought； • “摘要记忆+检索记忆” 双缓存
检索/生成协同	BM25 + 向量 Hybrid、ColBERT re‑rank	• Reciprocal Rank Fusion 调权； • GPU Batch Rerank 减少 cold‑start

QLoRA：4‑bit NF4 权重量化 + LoRA 低秩更新，单张 48 GB GPU 即可微调 65 B 模型；保持全精度效果的 99 % 以上。([arXiv][1])
LoRA‑V2 / AdaLoRA：动态调整秩 r，在后期降秩实现更高压缩。
Selective Fine‑Tuning：仅解冻高层 Block 或 MoE‑Expert，匹配任务语义。
Optimizer 工程：Paged‑AdamW、Lion 8‑bit optimizer 节省显存；torch.compile() + Flash‑Attention‑2 加速前向。
数据效用最大化：
- 优先整理 Domain‑Specific + High‑Quality 数据 < 100 k 条；
- 自研 Sentence‑Piece + Prompt Mixing 方案防止过拟合。

技术	亮点	适配场景
vLLM V1	prefix kv‑cache + GPU paging，推理吞吐提升 ~1.7×；支持多模态扩展。([GitHub][2])	高频并发、流式 SSE
SGLang	后端运行时 + DSL 前端协同，快速多路复用 prompt 模板。([GitHub][3])	多产品共享推理池
Quantization	INT8/4 (AWQ, GPTQ)、SmoothQuant	边缘部署 / CPU
Pruning	N:4 结构化剪枝、稀疏 kernel	极低延迟场景
Distillation	Llama‑3 70B → Student‑7B，蒸馏+RLHF	资源预算受限

落地技巧

文档收集 → 清洗/切分 → 嵌入生成 → 向量索引 → 检索 → （可选）重排序 → Prompt 构造 → 生成

组件	进阶手段	典型工具
切分	递归分块 (RecursiveTextSplitter)、语义切分 (text‑tiling)	LangChain, LlamaIndex
Embedding	混合多模态向量；投影到统一 384‑d	OpenAI text‑embedding‑3 large, BGE‑M3
向量库	GPU FAISS / Qdrant→支持 HNSW+PQ；缓存近期热点向量	FAISS, Milvus, Elasticsearch
Hybrid 检索	BM25 score × α + 向量相似度 × (1‑α)，再做 RRF 融合；显著提升长尾召回。([superlinked.com][4])	Azure Cognitive Search, Vespa
Re‑Rank	Cross‑encoder (E5‑r‑er‑base)、ColBERTv2；批量推理 Batching	vLLM‑rerank
上下文构造	动态 Top‑k + MaxToken 裁剪；段落 Group‑by‑Source 去重
Cache	Prompt‑key & Embedding‑key 双缓存；重用检索结果
防幻觉	源片段 citation、检索置信度阈；反向检索验证 (RRV)	Guardrails.ai

多跳 RAG：基于查询迭代、链式检索，解决跨文档推理。
结构化 RAG：先解析 JSON/SQL，再将结构化答案写入 prompt，减少 Large Context 依赖。
Agents + RAG：使用工具调用（Search/Calculator），提高事实正确率。
开源框架：LangGraph、Haystack 2.x、Firecrawl RAG‑CLI 等提供流水线模板与评测脚本。([Firecrawl][5])
评测工具：RAGAS、RAG‑Bench，支持 Faithfulness / Groundedness 自动评分。
系统级优化：GPU‑Pinned‑mem mmap + Asymmetric HNSW；检索耗时 < 30 ms；端到端 p95 < 250 ms。

分类	资源	说明
官方文档	HuggingFace Transformers Course	全流程示例，含 PEFT
高效微调	QLoRA 论文 + 代码	4‑bit LoRA ([arXiv][1])
推理引擎	vLLM GitHub / Blog	高吞吐推理 ([GitHub][2])
RAG 深度	《2024 RAG Approaches Survey》	12 种新方案综述 ([Medium][6])
知识图谱	Practical KG (苏剑林)	Neo4j + RDF 实战
对话评测	HolisticEval、DIAL‑Eval	多维度对话质量评价
监控&运维	LLMOps 电子书	从训练到上线全栈监控

ZYX HOME