多臂Bandit
多臂Bandit(Multi-armed Bandit,MAB)是用户增长与营销优化方法论中用于多目标优化的算法框架,特别适用于在用户增长-实战技巧中提到的多目标优化场景。
基本概念
多臂Bandit源自赌场中”单臂老虎机”的概念,核心问题是:
- 面对多个选择(臂),每个选择有未知的收益分布
- 需要在”探索”(尝试不同选择以了解其收益)和”利用”(选择已知收益最高的选择)之间取得平衡
- 目标是最大化总体收益,而不仅仅是找到最优选择
与传统A/B测试的区别
多臂Bandit | 传统A/B测试 |
---|---|
动态分配流量 | 固定分配流量 |
探索与利用并行 | 先探索后利用 |
可处理多个策略 | 通常比较两个策略 |
更快收敛到最优策略 | 实验周期较长 |
更适合短期目标优化 | 更适合验证长期效果 |
常用算法
-
ε-贪心算法
- 以ε的概率随机探索,1-ε的概率选择最优臂
- 简单易实现,但探索策略较为粗糙
-
Thompson Sampling
- 基于贝叶斯推断,对每个臂的收益分布建模
- 根据后验分布采样来选择行动
- 性能优秀,理论保障好
-
UCB(Upper Confidence Bound)
- 考虑估计值的不确定性,选择上置信区间最高的臂
- 平衡探索与利用,有良好的理论保证
在营销中的应用
多臂Bandit在用户增长与营销优化方法论中的应用:
-
营销策略优化
- 同时测试多种文案/创意/渠道
- 自动将更多流量分配给效果好的策略
-
用户分群与干预组合
- 探索”最优人群-干预”组合
- 解决Top-K排序与灰度精准投放中的多策略问题
-
实时优化
- 在AB回流闭环与迭代优化中提供更快速的反馈
- 减少对低效策略的资源浪费
实施建议
-
上下文Bandit
- 考虑用户特征(上下文)信息
- 为不同用户提供个性化的最优策略
-
分层Bandit
- 先优化大方向策略
- 再优化具体执行参数
-
与Uplift结合
- 将Uplift建模的结果作为Bandit的先验
- 加速收敛到最优策略
多臂Bandit是实现精细化、自动化营销优化的强大工具,能够显著提高资源分配效率和营销ROI。