Skip to content

Latest commit

 

History

History
724 lines (558 loc) · 96.2 KB

computational-advertising.org

File metadata and controls

724 lines (558 loc) · 96.2 KB

计算广告

内容来自于

文章里面有几幅插图会因为广告拦截插件而无法显示

update@201509: 近期刘鹏老师出了一本书叫做 计算广告. 我当时看的计算广告学讲义应该就是这本书的原型, 讲义里面有许多小节里面内容是空缺的, 在这本书里面都补上了. 推荐此书.

在线广告综述

广告的定义与目的

  • 参与方
    • 需求方(Demand): 可以是广告主(advertiser),代表广告主利益的代理商(agency)或者其它技术形态的采买方
    • 供给方(Supply): 可以是媒体,也可以是其他技术形态的变现平台。
    • 受众(Audience)
  • 广告目的:广告主通过媒体达到低成本的用户接触。
  • 广告的低成本, 是与那些”人员”的信息活动传播相对比的, 即相比于那些由市场和销售人员完成的劝服活动, 广告搭媒体流量的便车理应更加有效
  • 品牌广告(Brand Awareness): 希望借助媒体的力量来快速接触大量用户,以达到宣传品牌形象,提升中长期购买率与利润空间的目的。
  • 效果广告(Direct Response): 希望能利用广告手段马上带来大量的购买行为。
目的效果对象
广告通过媒介传播某种企业形象或产品信息某特定人群的有效到达(reach), 多渠道综合ROI潜在用户
销售提升产品销量, 从而提高企业收益收入和利润较明确需求者

在线广告类型

  • 条幅广告(Banner Ad): 这是显示广告中中最传统,也是最典型的形式。这种广告一般是嵌入在页面中相对固定位置的图片,与内容一样需要占据固定的版面。
  • 文字链广告(Textual Ad): 这种广告的素材形式是一段链接到广告主落地页的文字,在搜索广告中为主流形式,同时在媒体广告中也被广泛采用。
  • 富媒体广告(Rich Media Ad): 这类广告往往是利用视觉冲击力较强的表现形式,在不占用固定版面位置的情况下,向用户侵入式地投送广告素材。
    • 富媒体广告常见的形式有弹窗、对 联、全屏等。它比较适合在高质量的媒体做一些品牌性质比较强的广告投放,但是对用户的使用体验往往影响也较大。
    • 一些门户网站的首页有时会为某个品牌广告主提供专门定制的、交互形式很复杂的富媒体广告, 这样的广告一般不采用受众定向的投送方式,也主要强调创意的冲击力和交互形式的特色。
  • 视频广告(Video Ad): 视频广告有两种最主要的形式:在视频内容播放之前的前插片广告,以及视频播放暂停时的广告。前插片广告一般采用短视频的形式,创意的冲击力和表现力要远远强于普通的显示广告,因此CPM价格往往也比较高;暂停广告则与普通的条幅广告区别不大。
  • 社交广告(Social Ad): 社交广告中最典型的形式,是插入在社交网络信息流中的广告,这种方式最早见于Twitter,产品称为“Promoted Tweets”。社交广告希望达到的效果,是通过用户的扩散式传播获 得更大的影响力,以及更可信的口碑.
  • 移动设备广告(Mobile Ad): 严格来说, 移动互联网上的广告与桌面电脑上的广告没有本质区别.
  • 邮件营销广告(Email Direct Marketing, EDM): EDM是一种主动的广告形式,它不需要等到用户接触的机会产生时才被动地提供广告,而是可以随时向认为合适的用户发送推广信息。不过也正因为如此,EDM非常容易变垃圾邮件的主要来源。

在线广告简史

  • 把网站的HTML页面当成是杂志的版面,在里面插入广告位,按照杂志的广告那样去售卖。
    • 这种在互联网上展示条幅(banner)广告创意的产品形式,我们称为显示广告(Display Advertising)。
    • 合约式广告(Agreement-based Advertising): 即采用合同约定的方式确定某一广告位在某一时间段为某特定广告主所独占,并且根据双方的要求,确定广告创意的允许范围以及同一页面上的某种广告主排他策略。
  • 我们是可以对不同的受众呈现不同的广告创意的! 定向广告(Targeted Advertising)
    • 受众定向(Audience Targeting),即通过技术手段标定某个用户的性别、年龄或其他标签。
    • 广告投放机(Ad Server),它将广告投送由直接嵌入页面变为实时响应前端请求,并根据用户标签自动决策和返回合适的广告创意。
    • 由于从传统的品牌广告市场直接延伸而来,此时的定向广告仍然以合约的方式进行: 媒体向广告主保证某个投放量,并在此基础上确定合同的总金额以及量未完成情况下的赔偿方案。这种“担保式投送(Guaranteed Delivery)”的交易方式,逐渐成为互联网合约式广告的主要商业模式。
    • 一般来说,这样的广告合约仍然主要面向品牌广告主,并且按照按千次展示付费(Cost Per Mille, CPM)的计费方式。
    • 定向投放的最初动机,是供给方为了拆分流量以获得更高的营收。如果一开始就提供非常精细的定向,反而会造成售卖率的下降,因此,最初的定向标签往往都设置在在较粗的粒度上,最典型的是一些人口属性标签。
  • 在受众定向的环境下合约广告系统问题和瓶颈
    • 在满足各合约目标受众量要求的同时,尽可能为所有广告商分配到质更好的流量。
    • 如何有效地将流量分配到各个合约互相交叉的人群覆盖上;
    • 在线的环境下实时且经济地完成每一次展示决策。
    • 在线分配问题(Online Allocation)
    • 受众定向产生以后,市场向着精细化运作的方向快速发展,主要有两方面的发展趋势:
      • 一是定向标签变得越来越精准;
      • 二是广告主的数量不断膨胀。
    • 在这些趋势下,仍然按照合约的方式售卖广告会碰到越来越多的麻烦:
      • 首先,很难对这些细粒度标签组合的流量做准确预估;
      • 其次,当一次展示同时满足多个合约的时候,仅仅按照量约束下的在线分配策略进行决策,有可能浪费掉了很多本来可以卖得更贵的流量
  • 大胆一点,抛弃量的保证,而采用最唯利是图的策略来进行广告决策? 竞价广告(Auction-based Advertising)
    • 在这种模式下,供给方只向广告主保证质即单位流量的成本,但不再以合约的方式给出量的保证, 换言之,对每一次展示,都基本按照收益最高的原则来决策。
    • 竞价广告产生的最初场景,是在互联网广告最主要的金矿搜索广告(Search Ad)中。从广告的视角来看,我们也可以把付费搜索看做一种定向广告,即根据用户的即时兴趣定向投送的广告,而即时兴趣的标签就是关键词。很显然,这 种定向广告从一开始就直接达到了非常精准的程度,也就很自然地采用了竞价的方式售卖。
    • 当搜索广告产生了巨大的收益以后,搜索引擎开始考虑将这样的变现方式推广到其他互联网媒体上:将用户的即时兴趣标签有搜索词换成正在浏览页面中提取的关键词,可以将这套竞价广告系统从搜索结果页照搬到媒体页面上,这就产生了上下文广告(Contextual Advertising)。
    • 从宏观市场上看,竞价广告与合约广告有很大的不同。没有了合约的保证,大量的广告主处在一个多方博弈的环境中。与直觉不同的是,在如何收取广告主费用这一点上,我们并非按照微观上最优的方案实施,就可以达到整个市场最大的收益。关于定价机制的深入研究,产生了广义第二高价(Generalized Second Pricing)这一竞价重要的理论。
  • 基于竞价机制和精准人群定向这两个核心功能,在线广告分化出了广告网络(Ad Network)这种新的市场形态。
    • 它批量地运营媒体的广告位资源,按照人群或上下文标签售卖给需求方,在需求发生冲突时用竞价的方式决定流量分配。
    • 广告网络的结算,以按点击付费(Cost per Click, CPC)的方式为主。虽然我们不太能指这种方式的千次展示收益(Revenue per Mille, RPM)可以达到合约式品牌广告的水平,但它使得大量中小互联网媒体有了切实可行的变现手段:这些媒体有一定的流量,但还不值得建立自己的销售团队面向品牌广告商售卖,直接把自己的广告库存(Inventory)托管给广告网络,借助广告网络的销售和代理团队为自己的流量变现。
  • 这种面向多个广告网络或媒体按人群一站式采买广告,并优化投入产出比的需求方产品,我们称为自动交易终端(Automatic Trading Desk, ATD)。只能在广告网络定义好的定向标签组合上预先指定出价,而不能控制每一次展示的出价,因此,市场看起来象一个黑盒子,需求方只能靠选择合适的标签组合,以及阶段性调整出价来间接控制效果。
  • 在广告网络中,核心的竞价逻辑是封闭的。这种封闭的竞价机制,仍然不能完全满足需求方越来越明确的利益要求。这样的目标催生了实时竞价(Real Time Bidding)技术。
    • 试想下面的两个例子:一、某电子商务网站需要通过一次广告投放来向它的忠实用户推广某产品;二、某银行希望通过自己的信用卡用户在网络上找到类似 的潜在用户群,并通过广告争取这批潜在用户。 #note: 主要是这个受众定向太具体了,广告网络不可能计算出来什么是所谓的忠实用户因为和电商网站的访问数据过于相关
    • 很显然,任何广告网络都不可能直接为这两个需 求提供人群标签。与其想办法满足这些不断产生的定制化需求,不如干脆设计一种开放的竞价逻 辑,让需求方按自己的人群定义来挑选流量!
    • 所谓实时竞价,就是把拍卖的过程由广告主预先出价,变成每次展示时实时出价。只要把广告展示的上下文页面url,以及访客的cookie等信息传给需求方,它就有充分的信息来完成定制化的人群选择和出价。
  • 需要注意的是,越是定制化的人群选择,往往就越精细,也就意味着单一媒体能达到的reach会相当有限。于是,市场上产生了大量聚合各媒体的剩余流量,采用实时竞价方式为他们变现的产品形态:广告交易平台(Ad Exchange)。
  • 通过实时竞价的方式,按照定制化的人群标签购买广告,这样与广告交易平台接口的产品,我们称为需求方平台(Demand Side Platform, DSP)。因为充分的环境信息使得深入的计算和估计成为可能。基于DSP的广告采买,非常类似于股票市场上的程序交易,我们把这样的广告采买方式也叫做程序购买(Programmatic Buy)。

基本上可以说,这一图谱是从两端向中间逐渐发展和形成的:首先是合约阶段,广告主通过代理公司(Agency)从媒体方采买广告,而媒体方的Ad Server则负责完成和优化各个广告主的合约; 然后,市场进化出了竞价售卖方式,从而在靠近供给方产生了广告网络(Ad Network)这样的产品形态,而需求方的代理公司为了适应这一市场变化,孵化除了对应的广告采买平台(Media Buying Platform);最后,当市场产生了实时竞价方式交易时,供给方进化出了广告交易平台(Ad Exchange),而需求方则需要用需求方平台(DSP)与其对接来出价和投送广告。

广告有效性原理

广告效果生成过程

../images/ads-effect-procedure.png

根据上图,这以有效性模型把广告活动的整个信息接收过程分为三个大阶段:选择(Selection)、解释(Interpretation)与态度(Attitude);或者进一步分解为六个小阶段:曝光、关注、理解、接受、保持与决策,其中每两个小阶段对应一个大阶段。

定性地说,越靠前的阶段,其效果的改善对点击率的贡献越大;而越靠后的阶段,其效果的改善对转化率的贡献越大。

  • 曝光(Exposure)阶段: 这一阶段指的是广告物理上展现出来的过程。此阶段的有效性往往与广告位的物理属性有关,并没有太多可以通过技术优化的空间。实际的广告实践中,曝光的有效性对最终结果的影响往往远远高于其他技术性因素。
  • 关注(Attention)阶段:这一阶段指的是受众从物理上接触到广告到意识上注意到它的过程。那么如何使得关注阶段的效率提高呢?我们介绍几个重要的原则:
    1. 尽量不要打断用户的任务。
    2. 明确传达向用户推送此广告的原因,这一点是受众定向广告创意优化的重要方向。
    3. 内容符合用户的兴趣或需求,这是受众定向的原理基础。
  • 理解(Comprehension)阶段:受众意识到了广告的存在,并不意味着他一定能够理解广告传达的信息。理解阶段有哪些原则呢?
    1. 广告内容要在用户能理解的具体兴趣范围内,这就说明了真正精准的受众定向有多么必要。
    2. 要注意设定与关注程度相匹配的理解门槛。
      1. 电视广告中,可以用有一定情节的短故事来宣传品牌;
      2. 在路牌广告中,创意制作原则是将若干主要市场诉求都表达出来;
      3. 而对于互联网广告,由于用户的关注程度非常低,我们应该集中强调一个主要诉求以吸引用户的注意力。
  • 接受(Acceptance)阶段:受众理解了广告传达的信息,并不一定表示他认可这些信息。
    • 广告的上下文环境对于广告的接受程度也有着很大的影响, 同一个品牌广告出现在某游戏社区上和门户网站首页上,用户会倾向于认为后者更具说服力,这也就是优质媒体的品牌价值。
    • 在定向广告越来越普遍的今天,如何让合适的广告出现在合适的媒体上,即广告安全(Ad Safety)的问题,正在引起大家越来越多的关注。
  • 保持(Retention)阶段:对于不仅仅追求短期转化的广告商,当然希望广告传达的信息给用户留下长久的记忆,以影响他长时间的选择。
  • 决策(Decision)阶段:成功广告的最终作用是带来用户的转化行为,虽然这一阶段已经离开了广告的业务范围,但好的广告还是能够为转化率的提高做好铺垫。

在线广告相关行业协会

  • 交互广告局(Interactive Advertising Bureau, IAB)。
    • IAB主要是站在供给方的长远利益上来研究和影响市场。换句话说,IAB主要关注的是在线广告供给方的利益。
    • 因此,IAB的典型会员是Google, Facebook, Yahoo!, Microsoft这样的广告供给方,以及和AudienceScience, MediaMath这样的广告技术公司。
    • 从具体工作上看,IAB与互联网大量媒体和广告平台合作,制定了一系列意义重大的标准和规范,这些都极大地促进了在线广告行业的健康发展。其中几个重要的规范有:
      1. 条幅广告创意尺寸标准。创意尺寸的统一化,对于在线广告市场淡化广告位概念、推广受众定向有着非常根本的促进作用。中国市场在这方面由于广告位尺寸非常复杂,因而各个网站之间的壁垒较高,非常不利于定向广告和程序采买的发展。
      2. 视频广告标准VAST(Digital Video Ad Serving Template)。由于视频广告创意和展示形式比较复杂,消耗资源也较多,IAB制定了一套统一的XML schema用于向在线视频媒体投放视频流内的广告,并对其用户相应做规范化的描述,这一标准实际上减少了进入视频广告领域的技术障碍,使得视频广告市场规模快速发展成为可能。
      3. 通用实时竞价接口标准OpenRTB。将条幅广告、视频广告、移动广告情形下的实时竞价接口做了统一的规范。
  • 美国广告代理协会(American Association of Advertising Agencies, 4A)。
    • 4A并不是一个专门从事互联网广告的组织,而是线上线下各种广告,特别是品牌广告的代理商在美国的行业协会。
    • 4A公司向其会员代理公司约定,至少要向广告主收取17.65%的服务费用,这一方面是为了避免行业内的恶性竞争,另一方面也是确保广告代理公司能够站在广告主的利益角度考虑问题,而后一点对于市场的长期健康发展是有很大帮助的。
    • 4A公司的典型代表有奥美(Ogilvy & Mather)、智威汤逊(JWT)、麦肯(McCann) 等。
  • 美国国家广告商协会(Association of National Advertisers, ANA)。
    • ANA是一个广告主的协会,也是最彻底地代表需求方利益的组织。其会员多是AT&T, 宝洁(P&G), NBA这些拥有大量广告预算的广告主。

计算广告基础

在线广告的技术特点

  • 技术和计算导向。数字媒体的特点使在线广告可以进行精细的受众定向,技术又使得广告决策和交易朝着计算驱动的方向发展。除了受众定向,由于在线广告中独特拍卖性质的市场的存在,对于广告效果精确的预估和优化能力也是非常重要的。可以说,从来没有任何传统广告形式象在线广告那样,需要大规模地收集并利用数据,而这正是在线广告最吸引人之处。
  • 效果的可衡量性。在线广告刚刚产生的时候,大家对这种广告最多的称道之处,是它可以以展示和点击日志的形式直接记录广告效果。当然,我们也可以利用这些日志优化广告效果, 这同样是计算广告非常重要的方法论。
  • 创意和投放方式的标准化。标准化的驱动力来自于受众定向与程序购买。既然需求方关心的是人群而非广告位,创意尺寸的统一化与一些关键接口的标准化非常关键。
  • 媒体概念的多样化。随着Web 2.0的普及,赋予了更多交互功能的互联网媒体与线下媒体大有不同。随着交互功能的不同,这些媒体与转化行为的距离也就不同。
    • 举个例子,对在线购 物行业而言,门户网站、垂直网站、搜索引擎、电商网站、返利网,在转化链条上一个比一个更靠近购买行为。
    • 我们从直观就可以知道,越接近需求方的媒体上的广告,其带来的流量一定可以达到越高的ROI,不过离“引导潜在用户”这样的广告目的也就越远。
    • 因此我们在从需求方看在线广告时,应该注重各种性质媒体的配合关系,并从整合营销的角度去审视和优化整体的效果。
  • 数据驱动的投放决策。与工业革命时期机器化的根本驱动力电力相类比,互联网化的根本驱动力可以认为是数据的深入加工和利用。

计算广告核心问题

  • 计算广告的核心问题,是为一系列用户与环境的组合,找到最合适的广告投放策略以优化整体的投入产出比(ROI)。
  • 对一个广告市场中具体的产品形态而言,我们往往能够主动优化的是产出(return)而非投入(investment)的部分,因此,我们主要关注回报的部分。
  • μ(a,u,c)表示点击率(Click through Rate, CTR),用ν(a,u)表示点击价值(Click Value)[a = ad, u = user, c = context],而这两部分的乘积,定量地表示了某次或若干次展示的期望CPM值,我们称之为expected CPM(eCPM)。
  • eCPM 它是计算广告中最常被提及,也最有代表性的定量评估收益的指标,本书中有大量的计算问题都是围绕它展开的。

在线广告技术课题

算法优化:

  • 即对a(ad), u(user), c(context) 打标签以方便挖掘的技术,对应产生了受众定向问题
  • 如果不考虑全局最优,则主要依靠eCPM估计,特别是CTR预测来完成每一次展示时的局部优化
  • 如果考虑到量的限制和投放时即时决策的要求,就产生了在线分配的问题
  • 为了在多方博弈的市场中达到动态平衡时的收益最大化,则需要对定价策略做深入研究
  • 为了更全面地采样整个(a, u, c) 的空间以便更准确地估计点击率,需要用到强化学习(Reinforcement Learning)中的探索与利用(Explore and Exploit, E&E)算法
  • 而在DSP快速发展的今天,推荐算法也被广泛使用在个性化重定向当中。

系统架构:

  • 我们需要用到实时索引技术服务于广告候选的检索
  • 用到No-SQL的在线存储技术为投放时提供用户、上下文标签和其他特征
  • 大量使用Hadoop这样的分布式计算平台进行大规模数据挖掘
  • 用到最新的流计算平台实现短时用户行为反馈
  • 以及在广告交易环境下实现高并发、快速响应的的实时竞价接口
  • 还需要许多有关HTML协议和前端展示的技术来完成广告的具体投放

在线广告计费模式

  • CPM(Cost per Mille)计费,即按照千次展示计费,这里的“mille”是拉丁文“千次”的意思。(偏向品牌广告)
    • 对于品牌广告,由于效果和目的有时不便于直接衡量,可以考虑按照CPM的方式计费。
    • 这种方式,是供给方与需求方约定好千次展示的计费标准,至于这些展示是否能够带来相应的收益,由需求方来估计和控制其中的风险。
    • 对于品牌广告,由于目标是较长时期内的利益,很难通过对短期数据进行分析的方式直接计算点击价值,而点击率也因为对于用户接触的核心要求变得不是唯一重要的因素。
    • 在这种情况下,由需求方自行根据其市场策略与预算控制单位流量的价格并按CPM方式计费,是比较合理的交易模式。
  • CPC(Cost per Click)计费,即按点击计费。这种方式最早产生于搜索广告,并很多为大多数效果广告网络所普遍采用。(偏向效果广告)
    • CPC计费方式最有利于发挥供给方和需求方的长处,因而在市场上被广泛接受。
    • 这种方式是把点击率的估计交给供给方(或者中间市场),而把点击价值的估计交给需求方,而需求方通过出价的方式向市场通知自己的估价。
    • 供给方的通过其收集的大量用户数据,可以根准确地估计点击率;而转化效果是广告商站内的行为,当然他们自己的数据分析体系更能够准确地对其作出评估。
  • CPS(Cost per Sale)/CPA(Cost per Action)/ROI计费,即按照销售订单数、转化行为数或投入产出比来计费,而这些都是按照转化付费的一些变种。(偏向效果广告)
    • 这是一种极端的情况,即需求方只按照最后的转化收益来结算,从而极大程度上规避了风险。
    • 在这种计费方式下,供给方或中间市场除了估计点击率,还要对点击价值作出估计,才能合理地决定流量分配。
    • 这一方式存在两个很明显的问题:
      • 一是转化行为并非供给方能够控制,因此也无法进行准确的估计和优化。只有那些转化流程和用户体验相似的广告商组成的广告网络,按转化付费才比较合理,典型的例子比如淘宝直通车;
      • 二是存在广告主故意降低转化率,以低成本赚取大量品牌曝光的可能。
      • 因此,我们认为这种方式只适合于一些垂直广告网络(Vertical Network)。
  • CPT(Cost per Time)计费,这是针对大品牌广告主特定的广告活动,将某个广告位以独占式方式交给某广告主,并按独占的时间段收取费用的方式。
    • CPT还有一种变形,即轮播式CPT,它是将某一广告位的流量按照某一cookie接触到的次数划分成多轮,在其中的若干轮独占式售卖给某广告主,这同样是中国市场很常见的一种售卖方式。
    • CPT这样独占式的售卖虽然有一些额外的品牌效果和橱窗效应产生,但是非常不利于受众定向和程序交易的发展,因而长期看来比例会有下降的趋势。

综合起来看,可以认为对于效果广告,CPC计费方式最有利于发挥供给方和需求方的长处, 因而在市场上被广泛接受。而对于品牌广告,由于效果和目的有时不便于直接衡量,可以考虑按照CPM的方式计费。而CPS的计费方式,只在一些特定的环境下才比较合理。

计算广告系统架构

../images/ads-arch.png

广告系统由三个主体部分构成:一个是在线的高并发投放引擎(Ad server),一个是离线的分布式数据处理平台(Grid),另一个是用于在线实时反馈的流式处理平台(Stream computing)。

  • 广告投放,机即图中的Ad server。这是接受广告前端Web server发来的请求,完成广告投放决策并返回最后页面片段的主逻辑。
    • 一般来说,为了扩展性的考虑,我们都采用类搜索的投放机架构,即先通过倒排索引从大量的广告候选中等到少量符合条件的或相关的候选,再在这个小的候选集上应用复杂而精确的排序方法找到综合收益最高的若干个广告。
    • 对广告投放机来说,最重要的指标是能同时处理的并发数,以及广告决策的延迟。
  • 广告检索,包括图中的Ad index和Ad retrieval两部分。它主要的功能,是实时接受广告投放信息,建立倒排索引,以及在线时根据用户与上下文标签从索引中查找广告候选。
  • 广告排序,包括图中的Ad ranking和Click modeling两部分。
    • 其关键技术,在于离线分布式计算平台上的海量数据支持的 点击率预测模型的训练。当然线上如何高查询模型需要的特征并进行高效计算,也是非常关键的。
    • 另外,在需要估计点击价值的广告产品中,我们还需要一个点击价值估计的模型,或者一些简单的规则,但是不像点击率预测那样有较为稳定统一的建模方法.
  • 数据高速公路,即图中的Data highway。这部分完成的功能,是将在线投放的数据准实时传输到离线分布式计算平台与流式计算平台上,供后续处理和建模使用.
  • 用户日志生成,即图中的Session log generation。从各个渠道收集来日志,需要先整理成以用户ID为key的统一存储格式,我们把这样的日志称为用户日志(Session log)。目的是为了让后续的受众定向过与程更加简单高效.
  • 商业智能(Business Intelligence,BI)系统,包括ETL(Extract-Transform-Load)过程, Dashboard和Cube。由于实际的广告运营不可能完全通过机器的决策来进行,其间必然需要有经验的操作者根据数据反馈对一些系统设置做及时调整。因此,实现一个功能强大,交互便利的BI系统是非常重要的。
  • 行为定向,包括结构化标签库(Structural label base), Audience targeting, 以及User attributes的cache.这部分完成的是挖掘用户日志,根据日志中的行为给用户打上结构化标签库中某些标签的过程。
  • 上下文定向,包括半在线页面抓取(Near-line page fetcher)和Page attributes的cache.这部分与行为定向互相配合,负责给上下文页面打上标签,用于在线的广告投放中。
  • 定制化用户划分,即图中的Customized audience segmentation:由于广告是媒体替广告主完成用户接触,那么有时需要根据广告主的逻辑来划分用户群,这部分也是具有鲜明广告特色的模块。这个部分指的是从广告主处收集用户信息的产品接口,而收集到的数据如果需要较复杂的加工,也将经过数据高速公路导入受众定向模块来完成。这这是广告独特的功能模块,推荐系统和搜索系统是不需要这一功能的。
  • 在线行为反馈:这部分指的是一些需要准实时完成的一些任务,包括短时的用户行为标签和短时用户点击反馈等。当然,在利用日志完成这些逻辑之前,必须要进行的步骤是反作弊(Anti-spam)与计价(Billing)。需要特别指出,这一部分对于在线广告系统的效果提升意义重大: 在很多情形下,把系统信息反馈调整做得更快,比把模型预测做得更准确效果更加显著。
  • 广告管理系统:这部分是广告操作者,即客户执行(Account execute, AE)与广告系统的接口,AE通过广告管理系统定制和调整广告投放,并且与数据仓库交互,获得投放统计数据以支持决策。
  • 实时竞价接口:这是广告交易市场实时向DSP发起广告询价请求,并根据竞价结果胜出DSP的程序交易接口。它包括作为需求方时使用的RTBS(RTB for Supply),以及作为供给方时使用的RTBD(RTB for Demand)。

Ad Serving 基本功能:

  • 管理广告活动
    • 建立广告活动、建立排期和投放规则
    • 启动、停止广告投放活动
    • 上传物料
    • 查看广告活动的投放效果、成本等相关报表
  • 排期执行
    • 按照CPD或者CPT排期执行投放任务
  • 定向投放
    • 时间定向
    • 地域定向
    • 人群定向
    • 行为定向
  • 上限控制
    • 投放量控制
    • 预算控制

../images/ads-ad-serving-arch.png

将广告决策的请求和物料请求分开:

  • 广告决策请求每次都发送,由Ad Serving服务器处理. 一般要控制在200ms以内,200ms以内,完成的事情:
    • 浏览器建立与服务器的HTTP连接
    • 网络传输时间
    • Ad Server解析投放请求
    • Ad Server进行排期和各种定向计算,需要进行一系列的数据库或者缓存查询
    • Ad Server组装返回信息
  • 物料可以选择放在CDN上,并且开启客户端缓存. 一般要控制在1s以内.

基础知识准备

信息检索

最优化方法

统计机器学习

合约广告

互联网广告业务开始阶段,拥有流量的媒体与需要广告资源的代理商是市场的主要参与者。线下广告的商业逻辑也被照搬到了线上,由广告代理公司和媒体签订协议,确保某些广告位在某时间段为制定的广告商所占有,同时广告商一次性支付广告费用。这种方式与技术的关系并不大,唯一需要用到的系统就是广告排期系统.

我们讨论的合约式广告的重点,是按CPM计费、担保式投送的受众定向广告。这种售卖方式切合了在线广告的关键优势,又兼顾了线下品牌广告商的传统习惯,因此比较早地产生且被市场接受。面向合约式CPM广告的投放系统,需要解决受众定向、流量预测、点击率预测这三个基本问题,并采用在线分配的方式完成实时决策。

担保式投送的决策逻辑比较复杂,而且在目前竞价广告越来越重要的市场环境中显得有些古怪,因此有时会被技术人员和产品忽视。然而,此问题的研究却对广告中广泛存在的“量的约束下优化质”这一根本诉求给出了重要的框架,并在各种市场形态中都有变形后的具体表现形式. 因此,我们希望能从两个方面对此问题的一般性思路做清晰的介绍:

  • 一是在未来流量的情况未知的情形下,如果估计在线分配算法的最差性能;
  • 二是在根据历史数据能进行相对合理的流量预测的情形下,如果利用这一信息搭建实用的在线分配系统。

按CPM售卖的合约广告,除了上述的核心算法,还有两项广泛应用的支持技术,即流量预测和频次控制。频次控制则是广告主为了展示的有效性提出的控制性要求。

广告位售卖和排期系统

最早产生的广告售卖方式,是媒体和广告主约定在某一时间段内,用某些广告位的流量为该广告主投送广告,相应的结算方式为CPT方式。

  • 这是一种典型的线下媒体广告投放模式,因而在互联网广告产生的早期也自然地被采用。
  • 这种方式的缺点,是基本无法做到按受众类型投放广告,因而也无法进行深入的效果优化。
  • 不过这种方式也存在一些现实的好处:
    • 广告素材可以直接插入媒体页面,并通过CDN加速访问,因而使得广告投放延迟做得到很小(以现在的技术来说不是问题)
    • 在一些有价值媒体上广告位中长期独占式的购买,有利用形成“橱窗效应”,塑造不断攀升的品牌价值和转化效果
    • 这种销售由于可以向广告主提供一些额外的附加服务,比如同一个页面上的竞品互斥,使得高溢价的流量变现成为可能。

CPT售卖还有一种变形的形式,即按照轮播售卖。

在CPT售卖的情形下,供给方和需求方的计算需求和技术成分都不太高。需求方的参与者, 往往是4A或其他代理公司,对于广告主质和量两方面的需求,都是代理公司的人员通过对媒体广告位的历史经验,以及对广告主业务的了解,通过人工优化的方式来满足。对于供给方即媒体而言,则需要一个与代理公司沟通需求,并在合同确定以后自动地执行合同的广告管理工具,或者我们称为广告排期系统。

广告排期系统的代表性产品,有Doubleclick的DFP,以及中国市场上好耶(Allyes)的类似产品。当然,这些都是这些产品早期的形态,随着按受众售卖广告的方式越来越普及,这些产品的功能也都逐渐演进, 从广告排期管理逐渐拓展出其他售卖方式下媒体需要的功能,如果结合了Dynamic Allocation和RTB等功能,也就接近于供应方平台产品(SSP)了.

担保式投送

担保式投送(guaranteed delivery, GD)是另一种常见的合约广告形式。一般来说,GD采用的是CPM结算方式,在合约中明确保证分配给广告主的流量下限。我们从供给方和需求方两方面来看这种售卖方式出现的合理性。

  • 媒体从按固定广告位售卖变为按CPM售卖,初衷是为了在受众定向的基础上提高单位流量的变现能力,可是面向的仍然是原来的品牌广告主。
  • 广告主按广告位采买时,比较容易预估自己拿到的流量,可是按照人群定向的方式采买,流量有诸多不确定的因素。因此,需求方希望在合约中加入对量的保证,才能放心地采买。

这里仍然要再次强调我们的观点,那就是广告主对量的要求是切实存在的,而且在某种意义上并不比对质的要求低。对大多数广告主,特别是有一定品牌诉求的广告主,一定有某一个市场环节会向其提供保证量的服务。这一点贯穿于在线广告的 发展逻辑,也是广告业务的重要特点。

当然,这里的担保并不一定是展示量上的担保,也可以是点击数或者到达数等指标上的担保。只要是在某个量上有下界式的约束,就可以认为是GD一类的问题。

在线分配问题

二部图匹配算法 (see 拉格朗日方法, KKT, SVM)

GD的分配方式在实际的品牌广告市场上存在一定的问题,其原因可以这样来说明:假设广告主甲在合约中要求地域为北京的人群,其实有一层潜在的含义,那就是得到的流量尽可能符合北京人群的自然分布。假设在另一个合约中,广告主乙要的是北京的男性人群,那么为了同时满足两个合约,那么Ad Server会倾向于将北京的男性人群分配给乙。这样一来,甲得到的流量中,女性的比例就会显著高于自然分布,这并不是广告主想要的。为了尽可能缓解上述问题,我们可以对在线分配的目标函数做一些加工,使得系统在完成合约的同时,尽可能给每个广告主以代表性的流量分布。这样的分配目标,我们称为最大代表性分配(Maximally Representative Allocation, MRA)问题。

基于流量预测的方案: 虽然即时决策的限制给分配问题带来了很大的麻烦,好在历史数据对于投放决策可以起到非常强的指导作用。因此,实用的在线分配算法,都需要在根据历史数据的流量预测基础上展开。如果广告流量的分布在各个循环周期内是近似一致的,那么在线分配的问题就可以转变为离线计算的问题:只需要把根据现有合约生成Demand constraints,在上一个流量周期内离线完成带约束优化,再将优化的结果作为下一个周期内的分配策略在线执行即可。(see HWM算法)

实际的Ad server中,还需要考虑的一个问题是这一分配策略不能过于庞大以至于给server带来内存和计算上的很大负担,因此,我们往往需要一个紧凑分配方案(Compact allocation plan)。除了紧凑性的要求,如果分配策略能做到一定程度上无状态,也对于Ad Server的实现非常有利:因为这样的话,多台Ad Server的物理机器之间就不需要频繁进行同步以完成状态更新,而是根据预先计算好的策略进行投放即可。这对与系统的稳健性和扩展性,有着非常大的好处。

流量预测

流量预测的问题可以这样描述,给定某广告的一组受众标签和其他条件,以及一个eCPM的阈值,估算在将来某个时间段内能够得到的在该eCPM阈值以下的流量。其中eCPM阈值主要是用于竞价广告系统中,目的是了解在一个某一个出价水平下能够得到的流量。对于合约式广告来说,这个阈值是不需要的,或者为了工程上一致起见,将该阈值设为一个很大的数。

对于流量预测问题,基本的思路,是尽可能找到相对可比较的历史流量,根据历史数据来预测未来的流量。

频次控制

一般来说,随着某个用户看到同一个创意频次的逐渐上升,点击率呈逐渐下降的趋势这一点是可以被验证的。因此,在按照CPM采买流量时,广告主有时会要求根据频次控制某个用户接触到某创意的次数,以达到提高性价比的目的。

合约广告的优缺点

从供给方或广告市场方来看,合约广告和竞价广告的对比,可以类比于计划经济和市场经济的区别。在合约广告的情况下,所有的量的保证和质的优化,都是由媒体方的Ad Server 来统一完成,这也直观地反应在GD合约广告比较复杂的planning和allocation过程。而在竞价广告的情况下,市场只负责制定竞价和收费的规则,而各广告主量的保证完全采用市场竞争的方式来完成。在这种情况下,市场方需要仔细设计宏观竞争机制,但是不一定需要实现象合约广告那样的allocation功能。

从需求端来看,合约广告的采买方式对广告主来说缺乏透明性,唯一能做的就是在合约的层面预先约定好一些最关心的利益条款,但是很难做深入的优化。不过,合约的采买方式也有一定的好处,特别是可以对量的保证可以有预先的约定,这对于品牌性质较强的广告活动来说比较有意义的。

受众定向

受众定向技术即是对广告(a)、 用户(u)、上下文(c) 这三个维度提取有意义的特征(这些特征也称为标签)的过程。受众定向虽然不见得是计算广告中最困难的技术,但是确实是在线广告、特别是显示广告最核心的驱动力。

一般来说, 对于某一种定向技术,我们需要同时关注其效果和量两方面的指标,同时提供覆盖率较高但精准程度有限的标签,和那些非常精准但量相对较小的标签,有利于市场形成竞争的环境。从技术框架的角度看,受众定向标签可以分成用户标签、上下文标签和广告主定制标签三种类型:

  • 1. 用户标签,即可以表示成t(u)形式的标签,或者说是以用户历史行为数据为依据,为用户打上的标签;(行为定向) cookie->(age, gender, category, location)/demographic
  • 2. 上下文标签,即可以表示成t(c)形式的标签,或者说是根据用户当前的访问行为得到的即时标签;(上下文定向) url->channel->domain->topoc
  • 3. 定制化标签,即可以表示成t(a, u)形式的标签,这这是一种用户标签,不同之处在于是针对某一特定广告主而言的,因而必须根据广告主的某些属性或数据来加工。creative->solution->campaign->advertiser->category.

可以注意到,无论是上下文定向,以及在此基础上的行为定向,都广泛使用到文本分类和主题挖掘的技术。而在广告业务中,我们往往要选择那些有监督的主题挖掘方法,将页面内容映射到预先定义好的标签体系上,而不是无监督地自动聚类产生标签。这是由于广告中的标签体系要向广告主售卖,因此必须是可解释的。

熟悉了前面的受众定向技术,我们会发现,受众定向的的本质,是将用户在网络上的一些行为可以售卖的人群属性。这同时也揭示了精准广告业务的本质:将原材料,即用户行为数据,加工成标签,再将标签售卖给需要的广告主。而广告投放过程已经变成了交付这些标签的载体而已。既然数据加工本身如此重要,这足以成为互联网广告中相对独立的一项业务。于是,数据加工与交易的产品化和规模化,成为在线广告区别于传统广告的一项重要市场特点。在这样的环境下,数据管理平台(DMP)这样面向数据收集、加工和交易的产品也应运而生.

定向方法综述

在考察某种定向方法时,主要有两个方面的性能需要关注:一是定向的效果,即符合该定向方式的流量上高出平均eCPM的水平;二是定向的规模,即这部分流量占整体广告库存流量的比例。

我们先来看一些市场上比较流行的定向方式。按照其有效性和在广告信息接受过程中起作用的阶段,对照第一章中的广告有效性模型,我们把这些定向方式按照非常粗略的定性评估:

../images/ads-audience-targeting-technology.png

水平方向表示的是定向技术在广告信息接收过程中大致起作用的阶段,而垂直方向为大致的效果评价(越往下效果越好)。对受众定向的一些典型方法,我们举例说明如下:

  • 地域定向(Geo-targeting)。由于很多广告主的业务有区域特性,这种定向方式的作用相当重要,也是所有在线广告系统都必须支持的定向方式。
  • 人口属性定向(Demographical targeting)。人口属性的主要标签,包括年龄、性别、收入水平等。
  • 频道定向(Channel targeting)。频道定向是完全按照供应方的内容分类体系,将库存按照频道作为划分依据,对各频道的流量投送不同的广告。
  • 上下文定向(Contextual targeting)。上下文定向需要对广告所在的页面进行分析。
  • 行为定向(Behaviorial targeting)。行为定向是显示广告中非常重要的一种定向方式,其框 架是根据用户的历史访问行为,了解用户兴趣,从而投送相关广告。行为定向之所以重要,是因 为它提供了一种一般性的思路,使得我们在互联网上收集到的用户日志可以产生变现的价值。
  • 精确位置定向(Hyper-local Targeting)。使得大量区域性非常强的小广告主,比如餐饮、美容等有机会投放精准定位的广告。
  • 重定向(Retargeting)。这是一种最简单的定制化标签,其原理是对某个广告主过去一段时间的访客投放广告以提升效果。
  • 新客推荐(Look-alike)。由于重定向的量太小,而且无法满足广告主接触潜在用户的需求,因此不能仅仅依靠它来投送广告。Look-alike定向的思路,是根据广告主提供的种子访客信息,结合广告平台更丰富的数据,为广告主找到行为上相似的潜在客户。
  • 团购(Group Purchase)。根据我们的观点,团购也是一种变相的广告形式,这种广告有两个显著的特点: 首先是一般都针对区域性的广告主,因此地域定向,或者直接按照地域分类组织,是必要的功能;另外,团购主要是利用价格工具,直接降低用户在决策阶段的门槛,使得价格敏感的用户转化效果有明显的提升.

地域定向、频道定向和上下文定向属于t(c)的定向方式;人口属性定向、行为定向属于t(u)的定向方式;而重定向和Look-alike则是 (a, u)的定向方式。t(c)和t(u)两种定向方式,一个根据的是当前页面信息,一个根据的是历史日志数据,因而在系统框架上有比较大的区别。下面我们将对这两种方式的典型代表,即上下文定向和行为定向的实现进行讨论。

上下文定向

从打标签的方法上来看,上下文定向主要可以有如下的几种思路:

  • 1. 用规则将页面归类到一些频道或主题分类
  • 2. 提取页面中的关键词(TFIDF)
  • 3. 提取页面入链锚文本中的关键词
  • 4. 提取页面流量来源中的搜索关键词
  • 5. 用主题模型将页面内容映射到语义空间的一组主题上

确定了对上下文页面打标签的方法以后,在在线广告投放时,页面标签系统需要对Ad Server查询的某一个URL快速返回其对应的标签。复杂的打标签计算是不可能马上完成的,不过在广告的问题中,某一次展示时标签的缺失并不是致命性的。根据广告的这一特点,我们可以用一种半在线的方式来实现页面抓取和打标签的逻辑。(触发式抓取+离线分析+缓存)这样的方案,有以下的两点好处:首先是在线cache的使用效率非常高,仅仅那些最近有广告请求的发生的URL才会被抓取,这样我们不需要耗费大量的爬虫资源去抓取可能根本用不到的页面。其次,因为我们只抓取需要的页面,并且可以在该页面第一次广告请求后很快得到页面标签,页面的信息覆盖率也很高。

行为定向

行为定向是精准广告业务中对数据利用和变现最重要的问题,这一问题可以描述为,根据某用户一段时期内的各种网络行为,将该用户映射到某个定向标签上。

行为定向的标签体系有两种组织方式:

  • 一种是按照某个分类法(Taxonomy)制定一个层次标签体系,其中上层的标签是下一层的父节点,在人群覆盖上是包含关系。这一体系中的标签,是根据需求方的逻辑而制定,某些在媒体方意义很大的分类标签,比如军事等,由于没有明确的需求对应,不宜直接出现在标签体系中。对这样的媒体上的用户,应该用受众定向的方法根据其用户的细分特征映射到上面需求方的标签体系中。
  • 另外一种标签的组织方式,是根据广告主某类特点的定向需求设置相应的标签,所有的标签 并不能为同一个分类体系中所描述,也不存在明确的父子关系。这种半结构化的标签体系,往往包含一些比较精准的标签的集合,因而主要适用于多种目标、特别是效果目标并存的广告主的精准流量选择要求。

行为定向数据来源

一般来说,有九种行为是确定对行为定向的建模有意义的。在评价某种行为的作用时,主要关注两个因素,一是质,就是上面所说的信息强度,二是量,就是该行为的频繁程度。我们按照这些行为的信息强度和性质,将这些行为分为四组排列如下:

  • 决策行为:转化(Conversion)、预转化(Pre-conversion)。这些指的是在广告主的网站中发生的行为,往往对应着非常明确的用户兴趣。这类行为的价值是最高 的,但是也是供给方最难得到的。
  • 主动行为:搜索广告点击(Sponsored search click)、广告点击(Ad click)、搜索点击(Search click)、搜索(Search)。这一组行为都是用户在网络上在明确意图支配下主动产生的行为,因而也有比较丰富的信息量。
  • 半主动行为:分享(Share)、网页浏览(Page View)。这两类行为都是用户在目的比较弱的网上冲浪过程中产生的。因此,其所设计的兴趣领域对把握用户信息有价值,但是非常细节的内容则精准程度有限。
  • 被动行为:广告浏览(Ad view)。

关于以上各类行为数据对广告效果的意义,有两条基本的规律:

  • 随着用户主动意图的提升,相应的行为数据信息价值也随之增大。
  • 越接近转化的行为,对效果广告的精准指导作用越强。

不过需要提醒读者的是,不要忘记广告的根本 目的是“低成本地接触潜在用户”。从这一点上判断行为数据的作用,会发现更靠近转化的行为更精准,实际上是因为这部分人群已经更加接近于决策的最终阶段,也就是说越发不是“潜在用户”。因此,在行为定向这个问题上,不能单纯追求ROI或者转化效果,而是要根据广告主的具体的人群接触目标来平衡效果和覆盖率。

文本主题挖掘

总体上看,主题模型有两大类别:一种是预先定义好主题的集合,用监督学习的方法将文档映射到这一集合的元素上;一种是不预先定义主题集合,而是仅仅控制主题的总个数或聚类程度,用非监督学习的方法自动学习出主题集合,以及文档到这些主体的映射函数。

广告中的主题挖掘有两种用途:如果仅仅用于广告效果优化的特征提取,那么监督或非监督的方法都可以;如果是用于建设对广告主售卖的标签体系,那么应该优先考虑采用监督学习的方法,因为这样可以预先定义好对广告主有意义且可解释的标签体系,对后续售卖会有很大帮助。

数据加工与交易

要提高定向的精准程度与人群覆盖率,技术并不是最重要的因素。那么什么才是决定性的呢?其实是数据的来源与质量。这是正确认识精准广告业务非常重要的观念。

有哪些数据是对精准广告业务有直接贡献的呢? 我们可以按照下面的分类来总结:

  • 用户标识. cookie & cookie mapping.
  • 用户行为.
  • 人口属性(demographic)
  • 地理位置.
  • 社交关系.

精准广告业务若干错误观念

  • 越精准的广告,给市场带来的价值越大
  • 媒体利益与广告主利益是相互博弈的关系
  • 精准投放加上大数据可以显著提高营收
  • 人群覆盖率较低的数据来源是不需要的
  • 不同的广告产品应该采用不同的投放机

数据管理平台(DMP)

数据管理平台(Data Management Platform, DMP)

除了需要用到上面讨论的受众定向技术,DMP还有一个技术问题,就是如何将加工好的用户标签传送给其他标签的购买方,比如DSP。虽然在图中我们的示意是直接通过在线cache的形式访问,实际上由于DMP与DSP之间跨域且物理上分开的原因,这样的方案并不实际。因此,在DMP中,往往需要提供数据交换(Data Exchange) 的产品功能,来进行在线或离线的数据对接。

Bluekai的主要业务模式,是聚合大量中小媒体的有价值行为数据,使用受众定向技术为用户打上标签,并对外售卖标签以获取收入。Bluekai同时提供面向媒体、数据提供商和广告主的一系列产品:包括一个DMP、一个数据交换平台(Bluekai Exchange)、以及一个数据分析系统。这几项产品都围绕一个商业目标展开:那就是帮助有数据变现需求的参与者能够自由、灵活地通过技术对接的方式与广告主进行交易。

  • 对于媒体或者其他拥有数据者,可以通过Bluekai Exchange将 自己的数据公开式地出售给市场上的需求方,同时可以比较自主地控制定价;
  • 对于广告主,可以通过Bluekai提供的DMP产品和第三方数据标签,与自己的第一方数据结合起来,对自己的人群 进行更灵活的划分,并按此购买广告。
  • Bluekai通过数据交易获得的收入,其中很大比例还将返 还给数据提供方。

通过这种数据交换方式,广告市场上最有价值的数据资源被盘活利用了:数据拥有者不需要直接涉足复杂的广告业务,也可以对数据进行变现;而数据需求者也可以方便地找到数据购买来源,以快速提高自己广告投放的效果。

竞价广告

竞价顺应了定向广告向精细化发展的趋势要求,也为大量无法用合约形式售卖的剩余流量找到了可能的变现渠道,使得大量中小广告主的参与在线广告的可能性和积极性大大增强,也是的在线广告的商业环境与线下广告产生了本质的区别。

竞价广告中,计算的作用更加突出,这一方面是因为竞价本身需要对eCPM做尽可能准确的估计,也是因为中小广告主的规模使得计算的效率要求很高。具体而言,有两项技术非常关键:

  • 当大量中小广告主参与市场后,如何根据广告的一些业务要求设计更高效合理的索引和检索技术
  • 为了完成eCPM估计,对给定(a, u, c)组合上的点击率预测技术。

对应于广告网络的产生,需求方的产品和技术也在发生变化。关键的变化有两点:

  • 一是由面向广告位采买变成面向人群的跨网络采买;
  • 二是帮助广告主在竞价环境中完成量的要求,这一点是竞价市场不再直接保证的。

位置拍卖市场

在广告这样的参与者可以针对同一个标的物不断调整出价的拍卖环境中,通过聪明的定价策略,完全可能为整个市场创造更高的收益以及其他好处。

拍卖方式分配规则支付方式是否知道别人的出价应用场景
------------------+-----------------------------------------------------+--------------------------+------------------+--------------------+-----------------------------------------------------h-
英式拍卖(Open)竞买者逐步加价, 直到最后只剩下一个投标人为止出价最高者得最高的报价古董和艺术品的拍卖
荷兰式拍卖(Open)出售者从一个很高的价格开始逐步降价,直到有人愿意购买出价最高者得最高的报价农产品的交易
第一价格密封拍卖在某一个约定的时间同时公开所有投标人的报价最高(竞买时)最低(竞卖时)最高或最低的报价政府公共工程的建设招标
第二价格密封拍卖在某一个约定的时间同时公开所有投标人的报价最高(竞买时)最低(竞卖时)次高或次低的报价改进后的广义二阶价格(GSP)拍买机制被各大互联网公司采用

广义第一高价(GFP, Generalized First Price):价高者得, 按照报价支付. 报价具有连续性和公开性,但是极不稳定,拍卖效率低. 假设这里有两个广告位和三个竞价者(收益分别为A: 10, B: 4, C: 2). 那么出现这样竞价变化序列: B->2.01, A->2.02, B->2.03…最终B到3.99之后不在竞价. 价格很难在一轮确定下来. 更糟糕的是, 如果A使用程序化交易而B是人工调价的话, 那么A可以迅速作出价格调整这样对BC非常不利.

在线广告竞价市场最常见的定价策略,是广义第二高价(Generalized Second Pricing, GSP)策略; 另外有一种VCG(Vickrey-Clarke-Groves)定价策略,虽然理论上比GSP更好,但是由于原理较复杂,向广告主解释起来有难度,因此在实用系统中采用的并不多。GSP简单理解是在位置拍卖中,向赢得某个位置的广告商收取其下一位广告主的出价。VCG定价是Vickrey, Clarke和Groves在研究竞价系统均衡状态时得到的一种理论上较为优越的定价策略。其基本思想是:对于赢得了某个位置的广告主,其所付出的成本应该等于他占据这个位置给其他市场参与者带来的价值损害。

VCG vs. GSP

  • 分配原则
    • VCG的分配原则是使得社会效率最优,即最后的分配结果是买方对卖方的总估值最大
    • GSP的分配原则是按买方的报价与广告“质量效应”的乘积即从高到低依次排列进行分配
  • 支付原则
    • VCG. 广告主为网民一次点击的支付等于他对其他广告主造成的效率损失
    • GSP. 广告主为网民一次点击的支付是使该广告主保持在这个位置的最低报价
  • 均衡形式
    • VCG中讲真话是参与者的弱占优策略,通过讲真话可以达到纳什均衡
    • GSP总会存在一个纳什均衡,但是讲真话不一定是一个纳什均衡,且纳什均衡报价不唯一
  • 社会最优性
    • VCG可以保证达到社会分配有效性,即达到社会最优
    • GSP不能保证达到社会最优

为了控制广告的质量和保持一定的出售单价,竞价广告市场往往要设置一个能够赢得某个拍卖位置的最低价格,这一价格我们称之为市场保留价(Market Reserve Price, MRP)。市场保留价有两种设置方法,一是对整个竞价市场采用同样的保留价格;二是根据不同标的物(例如搜索广告里的关键词)的特性设置不同的保留价格。

在CPC广告网络中,eCPM可以表示成点击率和出价的乘积。即r = μ · ν。但是在有的情况下,我们有动机对此公式做一些微调,把它变成下面的形式: r = μ^κ ·ν. 其中的κ为一个大于0的实数。我们可以考虑两种极端情况来理解κ的作用:当κ → ∞时,相当于只根据点击率来排序,而不考虑出价的作用;反之,当κ → 0时,则相当于只根据出价来排序。因此,随着κ的增大,相当于我们在挤压出价在整个竞价体系中的作用,因此我们把这个因子叫做价格积压(Squashing)因子。

价格积压因子的作用,主要是为了能够根据市场情况,更主动地影响竞价体系向着需要的方向发展。比如说,如果发现市场上存在大量的出价较高但品质不高的广告主,则可以通过调高κ来强调质量和用户反馈的影响;如果发现市场的竞价激烈程度不够,则可以通过降低κ来鼓励竞争;如果存在短期的财务压力,则需要将κ调整到接近于1的范围,往往就可以使得整体营收有所上升。

广告网络(Ad Network)

广告网络的基本业务,是批量聚合各媒体的剩余流量,按照人群或上下文标签的流量切割方式售卖给广告主。由于是按人群售卖,广告网络会极力淡化广告位的概念。另外,广告网络一般不会向广告主约定或保证能够买到的量,而只是根据变现能力来决定每次展示分配给哪个广告主。

与合约式的广告系统不同,广告网络使得为了保证合约而设计的复杂的在线分配算法必要性大大降低,使得其中的计算技术可以把精力集中在对eCPM的估计上。从商业角度来看, 广告网络的销售模式与合约的方式相比,也有两点优势:

  • 无需再满足广告主品牌独占的要求,这使得让国美和苏宁同时参与同一个人群的竞价,提高市场流动性成为可能,而在合约广告中,这一点是很难做到的。
  • 由于广告网络不再保证量,二是根据实际消耗来结算,一般来说财务上采用广告主先充值的方式,这区别于合约广告投放结束后计算的方式,结果使得广告网络运营方的现金流状况大为改善。

广告网络的存在CPM、CPC和CPS等不同的结算方式,不过最主流的方式是CPC。

  • 从Demand来看,既然是各种媒体的不同广告位聚合在一起售卖,广告主无法知道每个媒体上广告的具体位置。而根据我们前面的讨论,位置对于广告的曝光效果影响巨大,因此实际上广告主根本无法评估每次展示的出价,而在点击上出价,这个问题就没那么严重了。
  • 另外从Supply来看,由于淡化广告位的概念,并且聚合了多个媒体的流量,广告网络可以接触到同一个用户比较丰富的网络行为,并且知道每次展示所在的媒体与广告位位置,所以比广告主更容易估计点击率。

广告网络的典型系统架构如图5.2.1所示,其中广告投放的决策流程为:

  1. 服务器接收前端用户访问触发的广告请求,
  2. 首先根据上下文url和用户cookie从Page Attributes和User Attributes系统中查出相应的上下文标签和用户标签;
  3. 然后用这些标签,以及其他一些广告请求条件从广告索引中找到符合要求的广告候选集合;
  4. 最后,利用CTR预估模型计算所有的广告候选的eCPM,
  5. 再根据eCPM排序选出赢得竞价的广告,并返回给前端完成投放。
  6. 由于广告网络广泛采用点击计费,准实时的计费和点击反作弊功能是必不可少的。

对于一些有特殊业务需求,或者特殊数据来源的媒体或媒体组合来说,有时候希望能够直接从广告网络的广告库中挑选广告,并能够创造比广告网络自动挑选更多的价值。因此,某些广告网络也会对一部分合作供给方开放广告库供其自行挑选,广告网络的这种运营模式,我们可以称为联盟(Affiliate)模式。

实际的广告网络有两种不同的业务方向,一中是广泛承接各种广告库存,并面向所有品类的广告主进行服务,我们称之为水平广告网络;另一种则专门服务于某一种类型的广告主,例如电商、游戏等,并寻找相关的媒体资源来搭建网络,我们称之为垂直广告网络。

广告检索

媒体广告与搜索的检索技术,还有一点不太一样的地方,即在处理很多个term组成的query时的处理办法。我们考虑上下文定向的情形,当通过网页内容的关键词来匹配广告候选时,往往需要用十多个甚至几十个关键词去查询广告,再进行后续精细的排序。在这一情形下,如果仍然采用一般搜索引擎对query的处理办法,则会陷入两难的境地:如果假设各个term之间是与的关系,基本上不可能得到任何匹配的结果;如果假设各个term之间是或的关系,那么在检索阶段就会返回大量相关性很差的候选,为后续排序制造极大的麻烦。

解决这一问题的基本思路,是在检索阶段就引入某种评价函数,并按这一函数的评价结果来 决定返回哪些候选。这一评价函数的设计有两个要求:一是合理性,即对最终排序的评价函数有直觉上合理的近似;二是高效性,即需要存在与倒排索引数据结构相契合的快速评价算法,否则就与在排序阶段展开计算没有差别了。 see WAND算法.

智能频次控制

在品牌广告中,可以通过EC(expected click)计数上的直接控制来达到一定用户接触程度的目的,由广告主来直接设定;在效果广告中,则可以将EC的计数,或者频次的计数,作为点击率预测模型的特征直接加入训练,靠点击率模型的作用降低出现频次过高的创意的竞争力。

换句话说,在精细的效果要求下,我们实际上更加认清了频次的本质:它与其他影响点击率的特征是平等的,并且应该放在统一的、数据驱动的计算框架下加以利用。而究竟对某个创意应该将频次控制在几,也不应该是根据经验设定,而是应该放在竞价的环境中自行决定。

媒体采买平台

即按照广告主预算跨媒体和广告网络一站式采买某种人群的广告投放机会。另外,还可以具备一项高级功能,即机器驱动的自动ROI优化功能。这样的产品形态,我们称为媒体采买平台(Media Buying Platform, MBP),与之类似的概念,还有所谓交易终端(Trading Desk),可以认为是同一类的产品。从市场发展来看,许多媒体采买平台都是4A或其他代理公司为了适应市场技术形态的变化, 收购或者孵化出来的子公司.

eCPM估计

按照转化过程的自然划分,eCPM可以分解成点击率和点击价值的乘积。一般来说,相对于点击价值的预测,点击率的预测由于训练数据充分一些,而且主要描述的是媒体上发生的行为,其建模的难度要小一些。点击价值的估计虽然要困难得多,在很多广告产品中却是不可缺少的,比如按照CPS结算的广告网络,或者后面介绍参与实时竞价的DSP。对这个问题,由于行业的区别和数据完整性的不同,并不存在象点击率预测那样相对成熟的一致方法。

点击率预测核心的挑战是动态信息的捕捉,一般可以从模型和特征两个方面来研究这一问题,我们将在本章中对工业界使用的典型方法做剖析。另外,由于点击数据的稀疏性,在实用中还需要考虑模型的校准以及动态特征的平滑。由于点击率的预估严重依赖历史数据的反馈, 所以如何更全面的探索建模的整个空间以获得充分的统计数据,同时又不损失短期的收益, 值得探索和研究。

点击价值的估计虽然要困难得多,在很多广告产品中却是不可缺少的,比如按照CPS结算的广告网络,或者后面介绍参与实时竞价的DSP。对这个问题,由于行业的区别和数据完整性的不同,并不存在象点击率预测那样相对成熟的一致方法。

eCPM的分解与估计问题

按照点击和转化两个发生在不同阶段的行为,eCPM可以分解 成点击率和点击价值的乘积: (a,u,c) = μ(a,u,c)·ν(a,u). 我们认为点击率μ是广告三个行为主体的函数,而点击价值则是用户u和广告商a的函数。后一点的假设有近似之处,因为实际上媒体的来源会影响用户对广告信息的信任程度,但我们为了概念清楚起见忽略这一影响。

在不同的市场环境下,具体的广告产品可能不需要对这两个量决都进行估计,而且估计要求的准确程度也有所区别:对于按CPC结算的广告网络,需要尽可能准确地估计μ,和粗略地估计ν;对于在广告网络中采买的交易终端,主要需要估计ν;而对于DSP,则需要对两个都有较强的估计能力。

点击率(CTR)预测

LR模型, L-BFGS/ADMM优化, 点击率模型的校正, 点击率模型特征, 点击率预测评测

对于一些常用且重要的的偏差特征,我们简单地介绍如下:

  • 广告位位置。位置的影响在搜索广告和显示广告环境下有一定的区别。对于搜索而言, 页面布局简单,位置相对稳定,相应地统计也比较充分,因此可以将位置视为离散的变量,分别计算各个位置的EC。而对于显示广告,特别是在广告网络环境下的显示广告而言,位置的可能性非常多,因此不可能对每种不同的位置都作为独立的变量来考虑。比较合理的方法,是找出其重要影响因素,比如广告位中心相对于页面左上角的坐标,用这样的连续变量作为特征来训练偏差模型。
  • 广告位尺寸。尺寸的情形与上面说的位置因素很类似:在创意尺寸选择比较少的情况下,可以作为离散变量来处理;而在尺寸选择很多的情况下,也可以用长宽等连续变量来代替。对于搜索广告,由于各创意尺寸一致,这一因素的影响不存在。
  • 广告投放延迟。广告完成决策逻辑,并将最终结果返回给用户的整体时间长短,对点击率有着非常大的影响。如果在前端将广告请求发生的时间和最终展示时间都记录下来,可以为点击率预测模型提供一个重要的偏差特征。
  • 日期和时间。实际的观测表明,工作日还是周末,对不同类型的广告点击率有着明确的影响,这主要是由于在不同时间用户任务的集中程度不同,对广告的关注也有所区别。时间的因素,即是工作时间还是休闲时间,也有着类似的特性。因此,日期和时间一般来说也是必须要考虑的偏差特征。除了在模型中显式利用,我们往往还要求所有的训练过程都覆盖7天的整数倍的数据,其目的也是为了避免日期带来的偏差。
  • 浏览器。浏览器本身并不对广告效果有明确的影响,不过由于各个浏览器上Ad blocker的覆盖程度有较大区别,因此在实际建模中其影响也相当大。

影响点击率的因素

  • 广告自身的影响
    • 广告类型:文字、图片、富媒体、......
    • 广告内容:颜色、构图、语言、......
  • 上下文环境的影响
    • 广告位属性:媒体、类型、位置、尺寸、......
    • 曝光属性:发生时间、停留时间、......
  • 广告浏览者的影响
    • 人群属性:性别、年龄、兴趣爱好、......
    • 历史行为:浏览过此广告几次、浏览过同品牌广告几次、......

探索与利用(E&E)

Explore & Exploit

点击价值估计

搜索广告

从商业逻辑和产品形态上看,搜索广告可以认为是广告网络的一个特例。它是以上下文查询词为粒度进行受众定向,并按照竞价方式售卖和CPC结算的广告网络。从商业逻辑和产品形态上看,搜索广告可以认为是广告网络的一个特例。它是以上下文查询词为粒度进行受众定向,并按照竞价方式售卖和CPC结算的广告网络。

搜索广告与一般广告网络最主要的区别,是上下文信息非常强,因此用户标签的作用受到很大的限制。因此,关于搜索广告的研究,有两个技术上的重点:

  • 一是查询词的扩展,即如何对 简短的上下文信息做有效的拓展,由于搜索广告的变现水平高,这样的精细加工是值得而且有效的;
  • 二是根据用户同一个搜索session内的行为对广告结果的调整,因为围绕同一个目的一组搜索,往往对于更准确地理解用户意图有很大帮助。

对搜索广告这个产品,不同搜索引擎提供商有不同的称呼,比如Paid Search, Search Ad, Sponsored Search等。这些词汇概念上非常相似,但也略有差别,个人比较倾向于采用“Sponsored Search”这样的说法,而“Paid Search”有时会让读者对是谁付费产生误解。至于“Search Ad”,实际上还应包括搜索引擎中的其他广告形式,比如百度品牌专区,因而并不是本章讨论的狭义的完全竞价的搜索广告网络。

Hint: Google Adwords 排名前10000的关键字. 百分比: 前一万关键字中使用人数的占比. 所示价格:CPC中的最高价格

  • #1 insurance 保险— $54.91—24%
  • #2 loans 贷款—$44.28—12.8%
  • #3 mortgage 抵押贷款—$47.12—9%
  • #4 attorney 法务代理— $47.07—3.6%
  • #5 credit 信贷—$36.06—3.2%
  • #6 lawyer 法律顾问— $42.51—3%
  • #7 donate 捐赠— $42.02——2.5%
  • #8 degree 文凭学位— $40.61—2.2%
  • #9 hosting 主机— $31.91— 2.2%
  • #10 claim 索赔—$45.51—1.4%

前 20 位关键字产生的收入占 Adwords 总收入的 70%,剩下的 30% 的收入产生于 1000 左右的分类中的各种关键字.

搜索广告概览

搜索广告的展示区域,一般来说分为北(North)、东(East)、南(South)三个部分。搜索广告是一个非常典型的位置竞价问题,就期望点击率而言,北显著高于东区,而同区当中位置越靠上也越高。

../images/ads-search-layout.png

搜索广告的受众定向标签,即是上下文的搜索词。由于搜索词非常强地表征着用户的兴趣, 搜索广告可以进行非常精准的定向。相对这样的上下文信息,根据用户历史行为得到的兴趣标签重要性大打折扣,这一方面是因为其信号远不如上下文搜索词强烈,另一方面是因为用户这样强烈兴趣的任务是绝不能被打断的(参见第二章中广告有效性原理部分)。这是搜索广告区别于显示广告网络的最大特点。

既然搜索词的重要性极高,粒度又非常细,如何根据广告主的需求对其关键词进行合理的拓展,找到那些相关而又效果不错的关键词,这对于需求方和供给方来说都有很大意义:需求方需要通过扩展关键词以拿到跟多流量;供给方则需要借助此来变现更多流量和提高竞价的激烈程度。因此,查询扩展(Query Expansion)是搜索广告的重要技术。搜索广告的查询扩展,与搜索中的这个问题,有相通之处,又有一些显著的区别。

虽然按照用户历史行为做定向不适用于搜索广告,用户在一个session内的一系列查询,还是会对准确理解用户意图大有帮助。另外,前一章介绍的点击反馈特征,也存在着快速更新的需求。要达到这两个目的,系统上的挑战要大一些,原先那样基于Hadoop的离线挖掘模式就不适用了。正是这一需求的存在,催生了流式计算(Stream Computing) 的技术平台,目的是利用用户短时的行为快速、连续地得到一些统计信息,并反馈给线上决策系统。

查询扩展

  • 基于推荐的方法. (session/user, query)矩阵. SVD++在Netflix举办的推荐算法大赛中,以Yehuda Koren为首的小组获得了头名,并得到了100万美元的大奖。他们采用了一种称为SVD++的算法技术,来预测某个用户对某个电影的评分。
  • 基于主题模型的方法. 除了利用搜索的日志数据本身,也可以体用一般的文档数据来进行查询词扩展。这类方法实质上就是利用文档主题模型,对某个查询拓展出主题相似的其他查询。
  • 基于历史效果的方法. 对搜索广告而言,还有一类方法非常重要,那就是利用广告本身的历史eCPM数据来挖掘变现效果较好的相关查询。由于在广告主选择竞价的查询词时,一般来说都会选择多个查询,如果从历史数据中发现,某些查询对某些特定广告主的eCPM较高,按么我们应该将这些效果较好的查询组记录下来,以后当另一个广告主业选择了某组查询中的一个时,可以根据这些历史记录,自动地扩展出其他效果较好的查询。

广告条数个性化

搜索广告的内容本身虽然不宜进行特别深入的个性化,但是在搜索页面中插入的广告条数则存在很大的个性化空间。这样做的基础,是不同用户对于广告,或者相关程度差一些的内容,接受和容忍的程度有着很大的不同。实际上,即使在北美市场这样的用户受教育程度较高的市场上,也至少有三四成的用户不能完全分辨搜索结果和广告。因此,对不同的用户动态调整广告的条目数,可以使得在平均广告数目相同的约束下,整体系统的营收有显著的提高。

短时行为反馈

对于搜索广告,尽管深度的个性化结果并不一定有效,但同一个session内的一系列查询对于准确理解用户当前的任务时有帮助的。因此,如果将用户短时的行为数据及时地反馈到线上决策系统,对广告效果的提高大有帮助。

对搜索广告而言,上下文信息即Query的核心作用是不能被弱化的,否则会对相关性和用户反馈有较大负面影响。因此,我们提倡在广告检索阶段,不采用短时行为反馈的到的标签信息来影响Query的检索结果,不过在排序阶段,可以利用短时动态特征来提高那些用户更倾向于选择的结果。

流式计算平台

搜索引擎营销

搜索广告对应的需求方问题,即通过竞价采买搜索引擎关键词来做广告的问题,我们称之为搜索引擎营销(Search Engine Marketing, SEM)。从本质上看,SEM与前文提到的媒体采买平台面临的挑战类似,即流量选择(此处为关键词选择)和出价。

由于搜索广告的定向粒度很细,可以看出关键词选择和出价都是规模很大的优化问题,而且由于广告网络半封闭的竞价机制,数据的反馈和调整都不够及时,因此这一优化问题技术挑战是比较大的。这种面向广告网络中非RTB流量的ROI优化,也成为广告技术产品的一个重要方向.

广告交易市场

提供广告主自行选择流量和在每次展示上独立定价的功能。这样的功能,必然要求竞价这一过程在每次展示时实时进行,也就是实时竞价(Real Time Bidding, RTB)。RTB的产生,使得广告市场向着透明的比价平台的方向发展,这样的平台就是广告交易平台(Ad Exchange),其主要特征即是用RTB的方式实时得到广告候选,并按照其出价简单完成投放决策。与广告交易平台对应的采买方,我们称为需求方平台(Demand Side Platform, DSP)。由于实时竞价的功能需求,广告交易市场解决供给方和需求方用户身份对应的问题,这需要用到cookie-mapping的技术。

虽然供给方在广告交易中遇到的算法问题不多,但还是要解决好带宽资源的限制下,用更少的询价请求完成尽可能高效的变现这一问题。从优化角度来看,这很像前面的在线分配问题,同样的带约束优化思路也仍然可以适用。

从需求方来看,定制化的用户划分能力使得广告主可以象优化自己的推荐系统那样优化广告购买,唯一的区别是这个推荐系统是放在站外的。出价需求的存在和广告主预算范围内的套利,要求DSP具备点击率预测、点击价值估计、流量预测、站外推荐等多方面的运算能力。除了站外推荐,广告市场新的发展趋势是根据广告主提供的种子用户,利用海量的媒体数据为广告主找到行为相似的潜在用户。

在需求方的利益得到了充分的保证以后,媒体的变现手段也发生了相应的变化。到现在为止,媒体至少有四中常用的广告变现选择:

  • 担保式投送的合约售卖方式、
  • 自营广告网络、
  • 托管给其他广告网络、
  • 通过RTB变现。

当在线广告市场进入到这个阶段以后,程序交易(Programmatic Trade)的方式已经成为举足轻重的力量,它使得整个在线广告市场越来越向着数据驱动、计算导向的方式前进。

广告交易平台(Ad Exchange)

Ad Exchange的骨干架构:

  • 当用户访问媒体页面,
  • 将广告请求发到Ad Exchange后,
  • Ad Exchange向各个DSP发起询价并完成决策,
  • 然后将胜出的DSP返回给媒体页面进行广告投放。

从核心概念上看,Ad Exchange既不需要自己的广告索引,也不需要eCPM估计,因而可以用非常简单清晰的架构实现。但是这仅仅是概念,实际产品中,为了支持广告主在不需要定制化用户划分时更方便的图形界面采买,也需要广告索引;而为了实现询价优化(后文有具体介绍),一定的的eCPM估计也是不可少的。

基本功能:

  • 竞价和过滤
    • 完成曝光的信息的转发
    • 完成竞价
    • 根据DSP和媒体的预设信息完成必要的过滤
  • 对DSP和媒体接口
  • Cookie Mapping
    • 找到Exchange用户ID与DSP等系统的用户ID的对应关系
    • 统一整个市场的用户标识,让所有参与者说的都是同一个人
  • 提供报表
    • 从DSP角度
    • 从媒体角度
    • 从市场角度

../images/ads-ad-exchange-arch.png

实时竞价

实时竞价的的整个接口可以分成两部分:线下进行的将供给方与需求方用户ID对应起来的cookie-mapping过程,和线上广告请求到来时的竞价和投放过程,如下图所示。

../images/ads-rtb-flow.png

身份对应(Cookie Mapping): 在RTB应用中,Cookie Mapping一般是由DSP在广告主网站上发起,这样做的原因是一般情况下DSP负责的是加工广告主定制受众标签,因而不需要对所有用户都建立对应关系。这一过程又可以细分为:

  1. 从广告主网站向DSP服务器发起cookie mapping请求,
  2. DSP与Ad Exchange服务器之间通信完成cookie mapping

广告请求(Ad Call): RTB的广告请求部分可以分为三个步骤。

  1. 当用户接触到媒体网站的广告位时,前端向Ad Exchange发起广告请求;
  2. Ad Exchange向各DSP传送URL和本域名cookie,发起询价请求。
  3. DSP根据预先做好的cookie mapping查出对应的已方cookie,决策是否参与竞价,如果参与,则返回自己的出价出价。在等待一个固定的时间片后,Ad Exchange选出出价最高的DSP返回给媒体网站;
  4. 媒体网站从胜出的DSP拿到广告创意并展示。

其中3,4两步可以合并为一步,即DSP同时返回出价和广告创意地址,由Ad Exchange返回给媒体。这样做的好处是减少了一次服务器往返,用户看到的广告延迟也会减少,缺点是Ad Exchange可以获得DSP某个广告商的相关受众,因而存在信息泄露风险,不太符合Ad Exchange中立市场的地位。

实际竞价的交易方式,虽然给予了广告主最大的流量选择空间,也对系统提出了更高的要求,并且带来了下面的一些实际的问题:

  1. 每次展示都有Ad Exchange服务器与多个DSP服务器的参与,这使得服务器与带宽成本大大增加;
  2. 在询价过程中,Ad Exchange要等待一个约定好的时间片(一般情况下为100ms),这使得用户看到的广告延迟增加,对CTR有负面影响;
  3. 原理上DSP可以以极低的出价参与竞价,这样虽不能获得流量,却可以低成本得到在媒体网站上的用户行为数据,这里存在着潜在的信息泄露风险。

RTB的接口有两个对接方:在Ad Exchange方实现的部分,我们称为RTBD(RTB for Demand);在DSP方实现的部分,我们称为RTBS(RTB for Supply)。在各个Ad Exchange 中,RTB接口的细节和具体参数有很大的不同。显然这对于广告主从不同的Ad Exchange 中统一采买流量是不利的。为了解决这一问题,IAB经过充分市场调研与企业合作,制定了OpenRTB 的接口标准,这一标准涵盖了视频、无线、文字、条幅等多种广告形式下的RTB 问题,并已经为一些Ad Exchange所采用。

Cookie Mapping

Cookie mapping的情况虽然比较复杂,我们可以重点关注三个问题:由谁发起?在哪里发起?谁保存映射表?最典型的情景有两种:一是涉及到两个域名,即在一个域名的服务上向另一个域名发动的cookie mapping;二是涉及到三个域名,即在一个第三方域名页面上发动的其他两个域名间的cookie mapping。

../images/ads-cookie-mapping-2.png

涉及到两个域名的cookie mapping,典型的例子是媒体与DMP之间的身份对应问题。如上图所示,这一过程有5个步骤:

  1. 用户到达媒体页面;
  2. 向媒体的cookie mapping 服务请求一段负责此功能的JS代码;
  3. 媒体的cookie mapping服务返回该段JS 代码;
  4. 该JS代码判断需要mapping的话,向DMP发起cookie mapping请求,并传送两个参数:DMP的标识,以及媒体方的cookie;
  5. DMP返回一个1×1的beacon,并记录下媒体方cookie与己方cookie的对应关系。

../images/ads-cookie-mapping-3.png

涉及到三个域名的cookie mapping,典型的例子是DSP与Ad Exchange之间的身份对应问题。如上图所示,这一过程有6个步骤:

  1. 用户访问广告主页面时;
  2. 选择性加载一个DSP域名下的iframe;
  3. DSP判断需要mapping的话,返回包括多个beacon的动态html,此处多个beacon的目的是为了同时与多个Ad Exchange交换cookie;
  4. 通过其中的某个beacon,向对应的Ad Exchange发送cookie-mapping请求,并带有Ad Exchange标识、DSP标识和DSP cookie三个参数;
  5. Ad Exchange通过302重定向向DSP返回Ad Exchange 标识以及其域名下的cookie;
  6. DSP返回一个1×1的beacon,并记录下Ad Exchange方cookie与己方cookie的对应关系。

询价优化

Ad Echange需要解决的一个关键问题,就是如何在带宽或服务成本的约束下,优化整体市场的eCPM水平。要考虑带宽或服务成本的约束,显然就需要对每次展示中询价的DSP数目做精简,因此,这个问题也称为询价优化(Call Out Optimization)。

考虑到DSP方有相当一部分是按照广告主定制标签来采买流量,因此,这种DSP一般来说只会在自己感兴趣的人群,也就是cookie-mapping映射过的用户群上出价。显然,Ad Exchange是可以先验地知道这一用户群的,因此,对这类DSP中的某个,如果当前Ad Call到达的用户cookie如果没有与其映射过,那么就不需要向该DSP询价。一般来说,这样的规则可以显著降低带宽需求。不过,也有很多的DSP并不是仅仅在广告主用户集合上出价,或者当这样做仍然不能满足带宽成本的要求时,就需要进一步的优化了。

需求方平台

DSP的系统广告投放的决策流程为:DSP服务器通过RTBS接口拿到广告请求,然后经过与广告网络类似的决策步骤,包括检索和eCPM排序,找到价值最高的广告,并将报价返回给Ad Exchange。与广告网络相比,DSP的广告决策过程有一些难点:一是在eCPM估计时,除了估计CTR,还要估计点击价值,并且由于出价的要求,这一估计要尽可能准确;二是由于DSP是完全面向广告主的产品,广告主量的需求也需要满足,因此还要考虑在线分配的策略。

上面讨论的这个决策流程,适用于以套利为目标的DSP,即通过优化算法提升广告主的ROI来赚取更多的利润。也有的DSP产品更接近于透明采买的方式,即广告主按照自己的用户划分和策略完成RTB购买,而DSP收取固定的手续费,这种情况下,对优化的需求就没有那么高。

../images/ads-dsp-arch.png

DSP与其它广告产品的相比,多了定制化用户划分功能,即图中的Customized Audience Segmentation部分。这部分通常的方式是在广告主网站上布DSP域名的代码,收集到用户行为并进行离线加工分析,再将加工出的标签用于广告投放。

重定向(Retargeting)是广告中最早产生,也最广泛使用的一种定制化标签。重定向的概念很简单,即把那些曾经对广告主服务发生明确兴趣的用户找出来,再次向他们投放该广告主的广告。在不同的广告类型上,重定向主要有两种的目的:用于品牌广告。当用户已经选择过某品牌的服务或产品后,如果在比较高质量的媒体上看到该品牌的广告,他会进一步肯定自己决策的正确性,从而对该品牌的认知度也大大加强。这种用途下,应当以宣传品牌而不是具体产品为主要诉求。用于效果广告。当用户曾经考虑过某种产品,但没有完成最终转化,通过在线广告将他找回,点击率和转化率都会明显高于平均水平。如果用户已经选择了该产品,那么可以利用推荐技术为他推送相关的产品广告。

重定向可以从信息来源和使用信息的精细程度上区分为下面三种类型:

  • 网站重定向(Site Retargeting),即将在一段时间内到达过广告主网站的用户群作为重定向集合。在媒体上采买这种重定向流量时,能够得到的量有两个主要影响因素,一是广告主网站本身的独立访客量水平,二是这些访客与媒体的重合程度。前一个因素没有办法通过广告手段扩大,而后一个因素则要求尽可能多地通过各种渠道采买重定向流量。
    • 要进行网站重定向,需要一个接口将访问广告主网站的用户集合传送给DSP。
    • 这个接口也有两种主流的实现方式
      • 第一种是直接在广告主的网站上布设DSP域名的JS代码或者外链图片(也可以是不可见的beacon),这样DSP就可以直接收集到访客的记录,再自行加工分析即可;
      • 第二种方式,是用线下数据接口的方式,定期将广告主或者其委托的DMP收集到的访客集合批处理式地传送给DSP。当然,前提是DSP与广告主或其DMP之间建立起了cookie-mapping的机制。
      • 前者能够实时地获取访客信息,但是需要一段时间的数据积累才能覆盖广告主用户集合的大部分,而且在多个DSP同时服务于一家广告主时需要加多段跟踪代码,有降低页面响应速度的风险;
      • 后者虽然可以迅速得到访客集合,并且避免了页面因多组跟踪代码而变得太重,却在数据更新时有一定的延迟,并且对广告主方的技术要求较高(跟DMP对接时例外)。
  • 个性化重定向(Personalized Retargeting)。对重定向流量进行深入加工,按照品类和购买阶段等因素进行创意上的深度个性化,就是个性化重定向。具体来说,个性化重定向可以在两个方面做深入挖掘:
    • 一是对于处于不同购买阶段的用户,采用合适的创意推动他尽快完成转化行为,这里的购买阶段,包括浏览、搜索、加入购物车等;
    • 二是对于已经有过一些购买记录的用户,使用推荐技术向其展示相关的商品以提升二次购买率。
    • 从这两层意义上看,这一方法与推荐有非常多的共通之处:以广告产品的视角看,我们称之为个性化重定向;而从推荐产品的视角看,则可以认为是一种站外推荐(Off-site Recommendation),换句话说,是将原来广告主网站上的推荐模块搬到了站外。
  • 搜索重定向(Search Retargeting),即将搜索过跟广告主直接相关的关键词的用户群作为重定向集合。这样的方式也可以获得很精准的用户群,其绝对量也要高于网站重定向,不过对于非主要搜索引擎提供上来说,依靠搜索重定向能覆盖的人群比例未必会高于网站重定向。

个性化重定向其核心支持技术,主要有以下几个关键:

  • 一、动态创意。个性化重定向的核心,是在某个用户到来时,实时决定给他展示什么商品,以及用什么方式展示。以及用什么方式展示。由于广告主的商品数量往往相当大,因此显然不可能为所有的商品预先准备好创意,而如果考虑到同时推荐若干商品的组合关系,就更加不能采用静态的创意方式。
  • 二、推荐技术。由于可以把个性化重定向因而看作是站外推荐,显然推荐技术也是必要的。不过与站内推荐相比,这样的推荐还是有一些不同之处: 首先站内商品页上的推荐主要根据上下文信息来进行,而站外推荐则是根据用户信息来进行;另外,站内推荐由于是发生在某个特定的购买环节上的,因而往往不需要根据用户的购买阶段来调整创意,而站外推荐这么做则有非常大的必要。
  • 三、广告主商品库存实时接口。对于站外的商品推荐,如果用户在点击某单品到达广告主网站时,发现该商品已经售完或下架,或者是价格与创意上的宣传不符,会对该广告主的品牌形象有较严重的伤害。为了尽可能避免这种情况的发生,个性化重定向的技术提供者往往需要统一提供一个准实时的商品库接口,使得广告主可以比较简单地将自己的库存和价格信息及时地同步过来。

广告程序交易谱系

供给方平台

对于媒体而言,无需把全部流量的变现都押在一种交易方式上:既可以通过直接销售来高溢价地售卖品牌广告,也可以灵活地综合使用各种程序交易方式以追求更高的eCPM。媒体的统一变现平台需要这样的逻辑:

  1. 当广告请求到达时,首先检查优质销售方式有无需求,包括CPT和GD的合约,如有需求,按照优先级即在线分配的方案完成投放;
  2. 如果没有优质销售合约,则从自运营广告主库中中找出eCPM较高的,并估算可供调用的若干Network的期望eCPM,在这两者之间找到较高的,以此为低价通过RTBD接口再向接入的各DSP实时询价。

可以看出,在这样的逻辑中,广告请求最后是被分配到自运营广告库,还是其他Network,或者是DSP,是根据他们的收益在线动态决定的,这样的方案称为动态分配(Dynamic Allocation)。这样的统一接入各种广告需求以优化媒体广告变现能力的技术,我们称为收益管理(Yield Management),对应的产品形态,就叫做供给方平台(Supply Side Platform, SSP)。

广告相关技术

  • 前面谈到的广告效果优化思路,基本上集中在受众定向的角度,而在实际的在线广告中,还有一项对广告效果影响巨大的技术,那就是创意优化。创意优化与受众优化性质有所不同,因为创意的改变实际上也改变了广告要表达的诉求。如何在基本的宣传诉求相对稳定的前提下,结合受众定向对创意做调整,这是广告系统不能不考虑的重要问题。
  • 与广告效果的度量相关,有两个问题需要介绍,一是如何在流量中去除那些恶意的和非主动的流量,这部分我们称为流量保护。二是需求方站在自己的利益角度对广告效果的核实性度量,这称为广告监测。
  • 受众定向和程序交易广告的另一个重要影响,是用户的行为数据存在在不同的广告产品之家按泄露的可能。因此,隐私保护技术与其对立面,即去匿名化技术,从正面或者负面的角度,都与在线广告有着密切的联系。
  • 随着社交(Social)、本地(Local)、移动(Mobile)等因素在互联网业务中快速的发展,所谓“SoLoMo”的趋势也越来越显著。在这些新趋势下的广告系统,虽然业务逻辑的本质没有根本变化,但也带来了一些崭新的产品形态和技术挑战。

创意优化

流量保护和效果监测

爬虫流量去除

爬虫流量的去除比较简单,比较规范的搜索引擎会在抓取页面时做声明,而其他一些不做声明的爬虫,也比较容易线下收集其IP,于是用一个黑名单来去除这部分流量即可。对爬虫流量的过滤,最好在广告服务前端的http服务中直接配置实现,即对于已知的爬虫带来的页面请求,服务器直接返回空,而不做任何广告检索和排序的逻辑,这样对服务器压力的减轻有一定帮助。

反作弊

我们知道,广告活动是广告主、媒体与用户之间三方交互的行为,因此广告中的作弊行为主要有两种情况:

  • 一、媒体作弊。媒体是广告活动的主要受益者,因而作弊的动力也最强。展示的作弊相对来说比较困难,因为必然涉及到非正常地触发一些虚假的用户访问。这种作弊的花样繁多,既有将广告展示和点击代码放在非约定位置上或非用户自然行为产生的流量上的方式,也有通过将广告位与内容靠得很近甚至相互重叠来骗取点击的方式。
  • 二、广告主竞争对手作弊。某些广告主的竞争对手,会通过技术手段大量消耗该广告主的预算,达到降低其广告效果的非正常竞争目的。与媒体作弊不同,广告主的竞争对手很难通过控制广告位置或复制代码的方式来作弊,而是通过多次重复点击广告的形式来作弊。

针对不同的作弊方式,也有不同的反作弊思路。单一IP或cookie在大量展示或点击的作弊方式是最容易去除的,只需要一定时间段内的展示或点击设定合理的上限,并进而发现那些显著超过上限的IP或cookie加入黑名单即可。对于更复杂的,通过控制多台电脑来产生假点击的作弊方式,点击热点图是一项很有用的反作弊技术:正常的用户点击,在创意上的位置分布往往呈现与创意关键区域相关的比较自然的分布;而及其产生的用户点击,其分布要么过于均匀,要么过于集中,很容易与自然点击分布相区别。

效果监测

委托某家第三方监测公司对实际发生的展示或点击数目进行核对,以确保自己的利益。

../images/ads-ad-monitoring-arch.png

广告安全

为了服务于广告主,将流量监测、作弊监测和品牌保护等一系列任务都一站式地完成,从而保证广告投放过程对于广告主的安全性,市场上产生了广告安全相关的技术公司。

隐私保护和数据安全

用户身份标识

cookie,account,imei etc…

去匿名化技术及应用

RTB中的数据安全问题

我们先来看看供给方的数据安全性问题。由于在RTB过程中,Adx需要向参与竞价的DSP广播每次展示的URL和cookie,使得DSP理论上存在规模化监听媒体用户行为的可能。假设有某个恶意的DSP,对于能够参与竞价的所有广告请求,都以很低的价格参与竞价,目的不在于赢得流量,而在于收集媒体上的用户行为,这就产生了媒体数据的安全问题,我们将其称为供给方数据安全(Supply Data Security)。供给方的数据安全问题尽管在RTB中确实存在,但是并不是想象中那样严重。我们可以回顾一下询价优化技术:由于带宽的限制,实际上在每次询价时,Adx应该尽可能只向那些最可能赢得竞价的DSP发送询价请求,而那些以恶意收集数据为目的的DSP,在理想情况下应该被挡在大部分的询价以外。

再来看看需求方的数据安全性问题。为了表达更加清楚,假设有两个化妆品电商广告主A和B,两者都通过DSP进行个性化重定向广告采买,那么他们分别利用RTB的方式接触到了自己的顾客集合。需要注意的是,这里的顾客集合实际上是广告主的私有数据,也是特别具有商业价值的数据,然而,DSP、Adx 和媒体都可能在RTB过程中得到这些顾客集合。如果Adx希望制造更加激烈的竞价环境,获得更高的利润,那么它实际上可以将这两个广告主的顾客集合合并在一起,并生产一个相应的用户标签吸引双方来对此标签竞价。这种做法的实质,是在竞争对手之间倒卖顾客集合,并且可以通过比较模糊的标签名字(比如为上面两个化妆品广告主的顾客集合打上“年轻女性”的标签)非常隐蔽地操作。

SoLoMo时代的广告