当前位置 >> 宝马论坛 > 345宝马论坛 >
回忆Facebook经典CTR预估模型
日期:2019-03-09

简而言之,文章提出了一种利用 GBDT 自动进行特色筛选跟组合,进而生成新的 feature vector,再把该 feature vector 当作 logistic regression 的模型输入,猜想 CTR 的模型构造。

模型结构

这里是「王喆的机器学习笔记」的第九篇文章,今天我们重读一篇经典的 CTR 预估范围的论文,Facebook 在 2014 发表的「Practical Lessons from Predicting Clicks on Ads at Facebook」。

在这篇文章中,Facebook 提出了经典的 GBDT(Gradient Boosting Decision Trees)+LR(Logistics Regression) 的 CTR 模型结构,可能说开启了特征工程模型化、主动化的新阶段。此外其在五年前就采用的 online learning,online data joiner,negative down sampling 等技巧时至今日也有极强的工程意思。下面我们就一起回想一下这篇当时红极一时,当初仍常看常新的论文吧。

GBDT+LR 模型结构

用户场景

盘算广告方向的同学应该都对 GBDT+LR 这个模型有所理解,这一点也无益是这篇文章最大的贡献。诚然文章其余部分的价值丝毫不逊于该模型,但再次回忆该模型,清楚知道其技能细节还是必要的。

这里须要强调的是,用 GBDT 构建特征工程,跟应用 LR 预测 CTR 两步是独破训练的。所以自然不存在如何将 LR 的梯度回传到 GBDT 这类复杂的问题,而利用 LR 猜测 CTR 的过程是显然的,在此不再赘述,咱们着重讲一讲如何利用 GBDT 构建新的特点向量。

雷锋网 AI 科技评论按,本文作者是硅谷高级工程师王喆,原文发表在微信民众号/知乎专栏 王喆的机器学习笔记上,雷锋网获授权转载。

文章的用户场景是一个标准的点击率预估的场景,需要强调的只有一点,因为咱们需要利用 CTR 打算精准的出价、ROI 等重要的后续预估值,因此 CTR 模型的预估值需要是一个存在物理意思的精准的 CTR,而不是仅仅输出广告排序的高低关系。所以文中不仅把 CTR calibration 作为主要的评估指标,更是在最后介绍了模型校正的相关方法。