基于 BERT embedding + 聚类自研用户诉求自动分类系统,实现高效归类与新问题发现,准确率提升 30%+,构建半监督反馈闭环,显著降低人工负担并支持模型持续演化。
graph TD A[每日用户文字诉求(几十万条)] --> B[文本清洗 & 预处理] B --> C[BERT 编码为语义向量] C --> D[无监督聚类(KMeans / DBSCAN)] D --> E[聚类结果输出] E --> F[Top-N关键词 + 示例句子生成标签] E --> G[发现新类型诉求] F --> H[人工审核可选介入,持续优化聚类质量]
- 类似方法常应用在用户聚类与画像
项目介绍
🔥 项目背景
支付宝某应用每日接收到几十万条用户文字诉求反馈,内容高度非结构化、词汇表达多样,传统做法依赖大量正则规则进行分类整理。然而:
- 准确率低:表达差异大,规则难以覆盖所有变种;
- 维护困难:规则数量庞大,需频繁人工更新;
- 难以发现新问题:只能识别已知问题,对新兴诉求无能为力。
🚀 解决方案
为应对大规模非结构化文本诉求,本项目引入BERT Embedding + 聚类分析的智能处理方案。
✅ 技术流程概述:
- 语义向量化(Embedding):
- 使用预训练的 BERT 模型(或轻量版本如 MiniLM)对用户诉求进行语义编码;
- 每条反馈被转化为固定维度的高质量语义向量。
- 聚类算法识别诉求群体:
- 使用 KMeans、DBSCAN、HDBSCAN 等算法对 embedding 结果聚类;
- 每一类代表一个“用户共性诉求主题”;
- 可结合聚类中心、Top-N关键词、示例句子进行主题命名。
- 新问题自动发现:
- 每日新增数据动态聚类;
- 可追踪热点变化、发现以往未涵盖的新类型问题。
- 人工标签辅助&反馈机制:
- 可选步骤:人工审核聚类样本,为模型微调提供标签;
- 支持持续优化的“半监督反馈闭环”。
项目效果
- 准确率提升:相较于正则方式,聚类准确率提升 30%+;
- 发现新问题能力大幅提升,解决了“已知问题优先”的盲点;
- 人力成本降低:自动归类显著减少人工审核负担;
- 可持续演化:模型可持续训练,适配用户语言变迁。