Uplift评估指标的推荐顺序
1. Decile 单调性验证
2. Qini 曲线可视化
3. AUUC 面积量化
🔢 一、Decile Analysis:“分段看效果”
🎯 目的:
看模型预测的 uplift 分数是否 分得清楚好人和坏人(即排序是否靠谱)
🧠 做法:
- 将所有用户按照模型输出的 uplift 分数从高到低排序
- 分成 10 份(decile),每一份称为 D1, D2, …, D10
- 每一组中,分别计算:
- Treatment 组的转化率
- Control 组的转化率
- 两者相减(就是 uplift)
✅ 理想结果:
Decile | Treatment CVR | Control CVR | Uplift |
---|---|---|---|
D1 | 30% | 10% | +20% ✅ |
D2 | 25% | 10% | +15% |
… | … | … | … |
D10 | 5% | 5% | ≈ 0 or negative ❌ |
Uplift 趋势应该 单调下降,高分段 uplift 高,低分段接近 0。
📈 二、Qini Curve:“可视化排序效果”
🎯 目的:
更直观地看:模型预测得越高的用户,是否真的 uplift 越大
🧠 做法:
- 按模型预测 uplift 分数降序排序
- 累积选择 Top X% 的人(如 top 10%, 20%, …, 100%)
- 每个阶段计算累积 uplift:
- 绘制:
- 横轴:人群比例(0~1)
- 纵轴:累积 uplift
- 比较曲线 vs baseline(随机投放)
✅ 理想结果:
- 模型曲线远高于 baseline(表示优先选中最有 uplift 的人)
- 曲线越陡,表示排序越精准
📐 三、AUUC(Area Under the Uplift Curve):“排序好坏的一行数”
🎯 目的:
用一个数值来衡量模型整体排序效果
🧠 做法:
- 计算 Qini 曲线下面积
✅ 理想结果:
- AUUC 越大越好
- 可直接用来比较不同模型效果
✅ 三者之间关系总结:
指标 | 类型 | 用来判断什么 | 优点 | 缺点 |
---|---|---|---|---|
Decile 分析 | 表格 | 模型排序是否单调、分段效果 | 可解释性强、直观 | 仅粗略分段 |
Qini 曲线 | 图形 | 整体 uplift 排序是否可靠 | 可视化清晰、趋势判断好 | 无法直接比较模型 |
AUUC | 数值 | 排序“总体效果” | 模型之间可定量比较 | 不可解释为什么好 |
✅ 实战建议:
阶段 | 指标 | 判断标准 |
---|---|---|
模型开发后初步筛选 | Decile 分析 | 是否单调下降,前几组 uplift 明显高 |
多个模型比较 | AUUC | 哪个面积大 |
模型上线/业务解释 | Qini 曲线 + Decile | 能否解释效果&策略 |