




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
互聯(lián)網(wǎng)廣告算法和系統(tǒng)實(shí)踐前言這兩年在招聘過程中,有很多的同學(xué)問我“大互聯(lián)網(wǎng)公司的廣告部門是做什么的?”,或者“互聯(lián)網(wǎng)廣告算法都包括哪些?”。有些時(shí)候,一些同學(xué)還會(huì)問的更加細(xì)致,比如“DSP的報(bào)價(jià)算法是怎么設(shè)計(jì)的?”、“不同公司的搜索廣告算法一樣嗎?”、“海量數(shù)據(jù)下的模型訓(xùn)練系統(tǒng)是怎么搭建的?”。更有一些焦急的找工作的同學(xué)直接了當(dāng)?shù)膯栁摇拔覍W(xué)的專業(yè)能否進(jìn)入廣告部門?”。在解答同學(xué)們的問題之余,我開始構(gòu)思寫這個(gè)入門短書,本書的定位非常明確,就是力求用簡單明了的語言,給入門級(jí)的同學(xué)介紹一下互聯(lián)網(wǎng)廣告算法的體系。在本書中,有很多的地方?jīng)]有詳細(xì)的展開,這是留給同學(xué)們?nèi)プ詫W(xué)的地方,大家可以根據(jù)書中的內(nèi)容,自己去深入挖掘。比如,對于邏輯回歸的詳細(xì)推導(dǎo),大家可以去找一下相關(guān)的書籍和博客;對于ctrprediction的工程優(yōu)化,大家可以去google上面找找相關(guān)論文,擴(kuò)展一下視野。本書注重實(shí)踐,寫了一些實(shí)踐的例子,有些實(shí)踐是一個(gè)方向的深入闡述,有些實(shí)踐是經(jīng)驗(yàn)的總結(jié)。希望這本短書能夠幫到大家。與人分享,不亦樂乎。第一部分互聯(lián)網(wǎng)廣告簡介1.1廣告簡介在今天,如果你問一個(gè)人:“什么是廣告?”回答可能五花八門,因?yàn)楝F(xiàn)在的廣告形式日新月異,已經(jīng)發(fā)生了巨大的變化,滲透到了幾乎生活的每一個(gè)角落。我們現(xiàn)在在電視上、電影放映前、地鐵里、商場里、車站牌上、洗手間里……廣告無處不在。以至于有些人預(yù)測了一幅未來的人類社會(huì)場景:隨著顯示硬件技術(shù)和聯(lián)網(wǎng)技術(shù)的極大發(fā)展,所有的公共區(qū)域,甚至墻上都布滿了顯示和輸入設(shè)備,每個(gè)人都可以隨意的在街角的一塊墻上輸入自己的身份,然后登陸完成自己的所有操作,同時(shí)也收到了來自各種源的定向廣告內(nèi)容。當(dāng)然,這只是一種帶有科幻色彩的想象,目前的廣告形式和廣告渠道并沒有達(dá)到這種大一統(tǒng)的階段。WilliamF.Arens在<ContemporaryAdvertising>(中文名《當(dāng)代廣告學(xué)》)里,給了一個(gè)定義:廣告是由已確定的出資人通過各種媒介進(jìn)行的有關(guān)產(chǎn)品(商品、服務(wù)和觀點(diǎn))的、有償?shù)摹⒂薪M織的、綜合的、勸服性的非人員的信息傳播活動(dòng)。這個(gè)定義到現(xiàn)在也不過時(shí),在這個(gè)定義里,我們看到了傳統(tǒng)廣告業(yè)務(wù)包括了三方角色,分別是:廣告主(Advertiser)、媒體(Media)、普通受眾(Audience)。這三方的訴求和利益各不相同,共同構(gòu)成了一個(gè)博弈的生態(tài)系統(tǒng)。充分理解這個(gè)生態(tài)系統(tǒng)的構(gòu)成,對于后面理解廣告系統(tǒng)的算法設(shè)計(jì)、目標(biāo)設(shè)計(jì)、平衡之道,具有重要意義。既然談到了廣告,那么,在這里簡單說一下廣告的歷史。目前認(rèn)為最早的廣告是古希臘的《尋奴》,這是一則尋人啟事,描述了一個(gè)在逃的奴隸,并懸賞一枚硬幣抓捕。古羅馬也有早期廣告的痕跡,龐貝古城的廢墟里面就發(fā)現(xiàn)了關(guān)于商業(yè)信息和政治信息展示物。在古埃及和古阿拉伯,也都有用紙莎草來制作銷售信息和貼墻海報(bào)的歷史。真正意義的現(xiàn)代廣告,隨著印刷術(shù)在15世紀(jì)的廣泛應(yīng)用出現(xiàn)在歐洲。英國出現(xiàn)了世界廣告史上第一個(gè)紙質(zhì)的廣告——宣傳教會(huì)圖書。隨著紙質(zhì)媒體的發(fā)展,廣告業(yè)務(wù)迅速發(fā)展,到了1843年,第一家廣告代理公司由VolneyPalmer創(chuàng)立,專門販賣廣告版面,卻并不提供內(nèi)容。在1869年,GeoragePRowell編寫了廣告史上第一部報(bào)紙索引<Rowell'sAmericanNewspaperDirectory>,即《羅威爾美國報(bào)紙指南》,后來他又創(chuàng)辦了<Printer’sInk>,即《印刷商的油墨》,這是第一份廣告行業(yè)雜志。在1869年,F(xiàn).WaylandAyer成立了美國艾爾父子廣告公司,這家公司在后來提供了設(shè)計(jì)、文案、媒體策略等各方面的服務(wù),是第一個(gè)具備現(xiàn)代廣告公司基本特征的公司。在大熱的美劇《瘋狂廣告人》里面,描述了美國上世紀(jì)60年代,處于黃金時(shí)期的傳統(tǒng)廣告業(yè)。劇中展現(xiàn)了令人嘆為觀止的廣告創(chuàng)意和靈感,有些即便放在今天也是經(jīng)典。時(shí)至今日,中國互聯(lián)網(wǎng)廣告產(chǎn)業(yè)已經(jīng)有了千億的規(guī)模,產(chǎn)品形式豐富多樣,每天影響著幾億中國網(wǎng)民,是實(shí)實(shí)在在的“大產(chǎn)業(yè)”。而且,互聯(lián)網(wǎng)廣告可以用算法進(jìn)行優(yōu)化,投放效果可以量化評估,這些都是傳統(tǒng)廣告行業(yè)不可比擬的。1.2互聯(lián)網(wǎng)廣告簡史在20世紀(jì)末的美國,大型互聯(lián)網(wǎng)公司開始崛起,美國在線(AOL)、雅虎(Yahoo!)開始逐漸成為科技之星,Amazon還只是個(gè)網(wǎng)上的小書店。AOL和Yahoo!的巨大的流量(剛開始也只是百萬級(jí)的pv)并沒有轉(zhuǎn)換成巨大的收入。這時(shí),這些互聯(lián)網(wǎng)公司開始嘗試在頁面中插入條幅(banner)廣告創(chuàng)意,并向廣告主收取費(fèi)用,這種條幅廣告就是顯示廣告(DisplayAdvertising)的最初雛形。顯示廣告的售賣方式是按照所謂的合約廣告(Agreement-basedAdvertising)方式進(jìn)行的,合約廣告是指:采用合同約束的方式,讓某一廣告位在某一段時(shí)間被特定廣告主所獨(dú)占。這個(gè)時(shí)候的廣告并沒有今天這么復(fù)雜的在線計(jì)算,甚至就是沒有什么計(jì)算,只是工程師把HTML的代碼嵌入到網(wǎng)站的某個(gè)位置而已。這種簡單的售賣方式,非常符合普通的廣告售賣認(rèn)知,但是卻無法提升互聯(lián)網(wǎng)廣告的地位。很快,對于不同的人群做不同的廣告創(chuàng)意投放開始出現(xiàn)了,這是一個(gè)重要的轉(zhuǎn)折點(diǎn),標(biāo)志著互聯(lián)網(wǎng)廣告從單純的位置、時(shí)間售賣,進(jìn)入到算法驅(qū)動(dòng)的時(shí)代。這種定向廣告(TargetdAdvertising),通過受眾定向技術(shù)(AudienceTargeting)分析用戶的屬性(UserProfile)標(biāo)簽(性別、年齡……),通過廣告投放服務(wù)(AdServer),將原來靜態(tài)的廣告HTML代碼轉(zhuǎn)變?yōu)楦鶕?jù)算法實(shí)時(shí)變換廣告HTML代碼,返回給瀏覽者。一開始的廣告投放,網(wǎng)站作為媒體方,需要跟廣告主保證一定的投放量(頁面展示或者時(shí)長),這種擔(dān)保式的投放(GuaranteedDelivery)開始逐漸成為最流行的方式,此時(shí)的計(jì)費(fèi)方式,主要以CPM(CostperMille)為主,即千次展現(xiàn)付費(fèi)。我們可以看出,擔(dān)保式的投放是一個(gè)面對廣告主的包銷式的售賣,這種方式是不能達(dá)到“每次流量的利益最大化”的。在Overture公司(原名GoTo公司)的開創(chuàng)下,競價(jià)廣告(Auction-basedAdvertising)應(yīng)運(yùn)而生,開創(chuàng)了互聯(lián)網(wǎng)廣告嶄新的一片天地。后來,Overture公司被雅虎收購。競價(jià)廣告隨著Google公司的騰飛而發(fā)揚(yáng)光大的。Google公司在2002年發(fā)布了第一個(gè)廣告推送產(chǎn)品:AdwordsSelect,并革命性的采用了廣義二階價(jià)格拍賣(GSP),取代了Overture公司的廣義一階價(jià)格拍賣(GFP),成為后來互聯(lián)網(wǎng)廣告的定價(jià)(Pricing)基石。關(guān)于定價(jià)的詳細(xì)理論,我們后面還會(huì)討論。Google的最主要的收入來自于搜索廣告(SearchAd),而這種搜索廣告的形式,其實(shí)就是根據(jù)用戶的搜索詞進(jìn)行定向,然后投放相關(guān)的廣告。Google公司并沒有滿足于搜索廣告,而是繼續(xù)把目光投向了其它的網(wǎng)站的流量,利用自身的技術(shù)優(yōu)勢,開始大量分析其它網(wǎng)站的網(wǎng)頁內(nèi)容,并根據(jù)網(wǎng)頁的內(nèi)容給用戶提供廣告,這就產(chǎn)生了上下文廣告(ContextualAdvertising)。上下文廣告是根據(jù)網(wǎng)頁的上下文內(nèi)容進(jìn)行的定向,這種定向方式是假定用戶的興趣點(diǎn)跟當(dāng)前的網(wǎng)頁內(nèi)容是相關(guān)的。在定向廣告以后的發(fā)展歷史里,將會(huì)產(chǎn)生根據(jù)用戶歷史行為進(jìn)行定向的技術(shù)(BehaviorTargeting),那時(shí),對用戶歷史行為的挖掘和分析將獲得極大的發(fā)展。隨著互聯(lián)網(wǎng)廣告的演進(jìn),有一些需求方(DemandSide)對流量的定制化需求越來越高,甚至想自己去控制競價(jià)流量,這樣就產(chǎn)生了一種新的競價(jià)模式:實(shí)時(shí)競價(jià)(RealTimeBidding)。這種競價(jià)方式改變了預(yù)先由廣告主出價(jià)的模式,改為每次請求的時(shí)候,實(shí)時(shí)出價(jià)。隨著互聯(lián)網(wǎng)廣告市場的媒體流量的聚合,一些聚合的流量聯(lián)盟采用實(shí)時(shí)競價(jià)的方式來變現(xiàn)自己的流量,這樣就產(chǎn)生了一個(gè)新的互聯(lián)網(wǎng)廣告產(chǎn)品:廣告交易平臺(tái)(AdExchange)。說到廣告交易平臺(tái),總要提起股票交易大廳的概念來作類比,也就是說,廣告交易平臺(tái)是一個(gè)交易平臺(tái),處于中間的角色,一方面接入了流量,另一方面接入了競價(jià)的廣告主;這種角色配置跟股票交易大廳的情況很類似。廣告交易平臺(tái)所聚合的中小流量,很多都不可能單獨(dú)滿足一個(gè)廣告主的精細(xì)的定制化需求,比如:一個(gè)小型網(wǎng)站,作為流量的提供方(SupplySide),沒有技術(shù)力量去做人群分析等工作,就可以接入廣告交易平臺(tái),由需求方來按照自己的挑選流量的標(biāo)準(zhǔn)去競價(jià),價(jià)高者得。這樣既避免了小網(wǎng)站變現(xiàn)難的尷尬,也給廣告主更多更自主的選擇。上面所說的需求方組成的平臺(tái),叫做需求方平臺(tái)(DemandSidePlatform,DSP),提供方組成的平臺(tái)叫做提供方平臺(tái)(SupplySidePlatform)。DSP可以是廣告主自己,也可以是一些專門的技術(shù)公司,這是因?yàn)镽TB技術(shù)是很專業(yè)、很復(fù)雜的技術(shù),需要較強(qiáng)的技術(shù)力量。這方面的內(nèi)容在后面還會(huì)詳細(xì)講到。平行于售賣方式進(jìn)化歷史的另一個(gè)歷史,是計(jì)費(fèi)方式的歷史。CPC(CostperClick)是按照點(diǎn)擊付費(fèi)的方式,這種方式能夠讓一些中小網(wǎng)站媒體獲得了可以變現(xiàn)的方式,即:不用跟大網(wǎng)站一樣去費(fèi)力的向大品牌廣告主兜售自己的流量——大品牌廣告主更傾向于大網(wǎng)站的充沛流量和影響力——而是可以把自己的流量加入到某些網(wǎng)絡(luò)聯(lián)盟里面,借助聯(lián)盟的力量為自己變現(xiàn),只要獲得了點(diǎn)擊就可以有收入。而CPS(CostperSale)模式則是更加有利于廣告主的一種計(jì)費(fèi)方式,這種方式只有在發(fā)生了銷售的情況下,廣告主才付費(fèi),這樣的定價(jià)方式,可以讓廣告主基本達(dá)到一種“無憂”的投放狀態(tài),即不擔(dān)心投資回報(bào)率的問題。但是,另一方面,CPM、CPC和CPS這些計(jì)費(fèi)方式,無法相互取代,因?yàn)閺V告主的訴求是不一樣的。有些廣告主要求大面積、穩(wěn)定的曝光,這時(shí)候,可能CPM會(huì)比較適合。有些廣告主只是想把流量引入到自己的網(wǎng)站,這時(shí)候,CPC可能比較合適。有些廣告主只想在成交的時(shí)候才付費(fèi),那么,CPS比較合適。關(guān)于計(jì)費(fèi)方式,后面還要討論。目前在中國,最大的三家互聯(lián)網(wǎng)公司BAT(Baidu、Alibaba、Tencent)已經(jīng)掌控了超過90%的互聯(lián)網(wǎng)在線廣告市場收入。這三家企業(yè)分別是搜索、電子商務(wù)、即時(shí)通訊這幾個(gè)方向的領(lǐng)軍企業(yè),在廣告產(chǎn)品形式方面各有特點(diǎn),但是背后的算法、引擎架構(gòu)、存儲(chǔ)方案都有相同或者想通的地方,這些將在后面詳細(xì)介紹。1.3互聯(lián)網(wǎng)廣告類型互聯(lián)網(wǎng)廣告從誕生之日起,就沒有停止過形式創(chuàng)新的步伐,從最初的條幅廣告開始,隨之技術(shù)的進(jìn)步,不斷的豐富廣告展示內(nèi)容和方法。下面就對這些類型做一個(gè)簡單的介紹。(一)條幅廣告(BannerAd)起源最早的互聯(lián)網(wǎng)廣告形式,一直到目前都活躍在各種網(wǎng)站上。這種廣告一般具有固定的尺寸,內(nèi)容用圖片或者Flash等方式展現(xiàn),有很多是動(dòng)態(tài)的創(chuàng)意素材。(二)郵件直接營銷廣告(EmailDirectMarketing,EDM)通過電子郵件的方式進(jìn)行宣傳的方式,這種方式要對客戶的興趣有一定的了解,否則極易淪為垃圾郵件,被扔進(jìn)黑名單。(三)富媒體廣告(RichMediaAd)顧名思義,這種廣告是內(nèi)容展現(xiàn)力很強(qiáng)的一種廣告形式,一般是采取中斷式、侵入式、遮擋式的方式,想瀏覽者推送品牌性很強(qiáng)、創(chuàng)意很豐富的廣告。這種廣告甚至有時(shí)候允許用戶交互。(四)視頻廣告(VideoAd)視頻廣告的形式比較多樣,片頭廣告、片尾廣告、暫停階段的廣告、正常播放中間的插片廣告,等等。(五)文字鏈廣告(TextualAd)顧名思義,就是以文字內(nèi)容為主的廣告,文字一般配有鏈接,會(huì)引導(dǎo)到廣告主的網(wǎng)站或者活動(dòng)頁。由于文字鏈廣告占用篇幅少,而且可以跟上下文進(jìn)行配合,所以應(yīng)用場景很多,在搜索廣告當(dāng)中是主流形式。(六)社交廣告(SocialAd)隨著社交網(wǎng)絡(luò)(SocialNetwork)的興起,在社交場景下,跟場景結(jié)合推出的廣告,取得了很好的效果。隨著國內(nèi)社交產(chǎn)品的迅猛發(fā)展,尤其是微信等平臺(tái)級(jí)產(chǎn)品的出現(xiàn),使得國內(nèi)的社交廣告形式發(fā)生了巨大的變化。商家跟粉絲之間可以用微信平臺(tái)進(jìn)行互動(dòng),這種私密性是前所未有的,一些商家也看到了里面的廣告商機(jī),開始進(jìn)駐微信等SNS平臺(tái)進(jìn)行營銷,取得了驚人的效果,一些商家甚至利用這種社交工具進(jìn)行定制化營銷,為自己的粉絲定制商品。社交廣告以后的發(fā)展空間是非常大的,也許會(huì)涌現(xiàn)出更加先進(jìn)的廣告推廣方式。(七)移動(dòng)端廣告(MobileAd)嚴(yán)格來說,移動(dòng)設(shè)備上面的廣告跟PC端的廣告沒有本質(zhì)區(qū)別,后臺(tái)的算法也基本一致,只是由于載體換成了移動(dòng)設(shè)備,所以單獨(dú)把這種廣告列出來。移動(dòng)端廣告的發(fā)展速度很快,并且在產(chǎn)品形式上有很大的創(chuàng)新空間,相信很快就會(huì)有新穎的移動(dòng)廣告出現(xiàn)。1.4有效性模型廣告的有效性模型,前人已經(jīng)有了很好的成果,我們在這里就直接拿來用了。下圖是廣告有效性模型的圖,有時(shí)候也稱為廣告效果過程圖:圖1
廣告有效性模型示意圖這個(gè)模型把整個(gè)廣告推廣過程分為三個(gè)大階段:選擇、解釋和態(tài)度,又分為六個(gè)小階段:曝光、關(guān)注、理解、信息接受、保持和購買。“曝光”這個(gè)階段,主要在于“位置”,這個(gè)跟開飯店很像,地段很重要。廣告位的位置差異往往是巨大的,大型網(wǎng)站的首頁的廣告位CPT可以賣到一天上百萬,而小網(wǎng)站的不顯眼位置可能根本無法通過傳統(tǒng)方式賣出,只能加入流量聯(lián)盟,走Exchange的方式變現(xiàn)。“關(guān)注”這個(gè)階段,需要廣告創(chuàng)意本身吸引人,并且借助算法的力量做到定向精準(zhǔn)投放,才能夠讓瀏覽者更加關(guān)注。“理解”指的是廣告本身所傳遞的信息能否被瀏覽者理解,尤其是在當(dāng)今快節(jié)奏的社會(huì)里面,讓用戶迅速的理解廣告想傳達(dá)的意思是一件不簡單的事情。有些優(yōu)秀的創(chuàng)意不但能夠能夠一下子抓住眼球,讓人“關(guān)注”,而且設(shè)計(jì)巧妙,讓瀏覽者一下子就知道這是什么品牌,什么活動(dòng),什么噱頭。利用當(dāng)下實(shí)事進(jìn)行借位宣傳也是普遍采取的方式,比如網(wǎng)絡(luò)熱點(diǎn)事件,網(wǎng)絡(luò)流行詞匯,等等。“信息接受”是很難的,不同的人,觀念不一樣,很難讓看到廣告的人都能接受這些創(chuàng)意內(nèi)容。比如一個(gè)特價(jià)活動(dòng)的廣告,有些用戶更關(guān)心品質(zhì),所以有可能就對特價(jià)活動(dòng)興致缺缺。對于“信息接受”,除了研究人群行為,還要借助心理學(xué)方面的一些理論才能更好的優(yōu)化創(chuàng)意。“保持”的意思是指廣告主要追求中長期的轉(zhuǎn)化,讓潛在消費(fèi)者更關(guān)注品牌的核心價(jià)值,從而牢記在心是非常重要的。“購買”其實(shí)就是最終的決策階段,能否給用戶提供更多更好的選擇非常關(guān)鍵,在這方面,各個(gè)行業(yè)打動(dòng)消費(fèi)者的點(diǎn)不一樣,比如對于電商而言,創(chuàng)意上面的信息再花俏,如果不能促使用戶在一段時(shí)間內(nèi)購買,也是比較失敗的。總體而言,一個(gè)好的創(chuàng)意,不但能夠吸引人(提升CTR),而且能夠抓住人(提升ROI),這樣的創(chuàng)意是比較優(yōu)秀的。1.5計(jì)費(fèi)模式下面,先來看看有哪些互聯(lián)網(wǎng)廣告計(jì)費(fèi)模式。(一)CPM(CostperMille)這里的Mille是拉丁文“千次”的意思,CPM即指按照千次展現(xiàn)計(jì)費(fèi)。我們可以看到,這種方式就是按照展現(xiàn)計(jì)費(fèi),至于展現(xiàn)之后有什么樣的效果,廣告平臺(tái)是不保證的。也就是說,在CPM計(jì)費(fèi)方式下,廣告平臺(tái)只需要把廣告投放出去,讓廣告主的廣告獲得足夠的曝光,至于后續(xù)有多少人來點(diǎn)擊?點(diǎn)擊之后是否跳到了廣告主自己的頁面?跳到了廣告主的頁面之后,瀏覽者是否瀏覽了核心內(nèi)容?瀏覽了內(nèi)容之后是否有成交?……這些問題,廣告系統(tǒng)一概不管。所以,CPM的計(jì)費(fèi)方式非常適合于品牌廣告,因?yàn)槠放茝V告不僅僅注重當(dāng)下的成交,更注重長遠(yuǎn)的品牌增值,注重品牌所影響的人群范圍,注重知名度。(二)CPT(CostperTime)顧名思義,這是按照單位時(shí)間計(jì)費(fèi)的方式。一般來說,是針對大廣告主的推廣活動(dòng),以獨(dú)占時(shí)間段的方式進(jìn)行推廣和計(jì)費(fèi)。跟CPM類似,就是廣告系統(tǒng)不負(fù)責(zé)對投資回報(bào)率進(jìn)行預(yù)估和管理,僅僅是遵守時(shí)間的限制而已。顯而易見,這種方式也是適合于大廣告主為了增加曝光度的行為。(三)CPC(CostperClick)CPC最早產(chǎn)生于搜索廣告,目前是應(yīng)用最廣的計(jì)費(fèi)方式。顧名思義,就是按照千次點(diǎn)擊計(jì)費(fèi)。CPC的計(jì)費(fèi)方式下,一方面廣告系統(tǒng)要負(fù)責(zé)對點(diǎn)擊率進(jìn)行預(yù)估,給出盡可能準(zhǔn)確的預(yù)估分?jǐn)?shù);另一方面廣告主可以參與競價(jià),變相的控制自己的推廣流量。我們可以看到,在CPC方式下,廣告系統(tǒng)和廣告主的能動(dòng)性都得到了一定的發(fā)揮,而在前面的CPM和CPT方式下,廣告主基本是設(shè)定了一個(gè)宏觀的值(投放總預(yù)算、總次數(shù)或者總時(shí)長)然后就撒手不管了。對于廣告系統(tǒng)來說,CPC下需要做的CTR預(yù)估(CTRPrediction)是一個(gè)非常重要的計(jì)算廣告學(xué)分支,是當(dāng)今研究的熱點(diǎn),這部分在后面有詳細(xì)討論。在CPC下,廣告系統(tǒng)關(guān)注點(diǎn)擊率,卻仍然不關(guān)注廣告的實(shí)際成交情況,成交風(fēng)險(xiǎn)仍然是廣告主自己承擔(dān)。(四)CPS(CostperSale)CPS方式下,廣告系統(tǒng)終于開始關(guān)注轉(zhuǎn)化率了!因?yàn)镃PS計(jì)費(fèi)的核心就是按照成交計(jì)費(fèi),所以廣告系統(tǒng)對于ROI指標(biāo)要進(jìn)行預(yù)估。CPS下,廣告系統(tǒng)完全站在了廣告主這一邊。我們來總結(jié)一下各種計(jì)費(fèi)方式,從廣告主的角度來看,不同的計(jì)費(fèi)方式對自己來說風(fēng)險(xiǎn)是不一樣的,按照風(fēng)險(xiǎn)從大到小,各種計(jì)費(fèi)方式的排列是:CPM/CPT,CPC,CPS。從流量提供方的角度來看,風(fēng)險(xiǎn)同樣存在分別,從大到小分別是:CPS,CPC,CPM/CPT。大家可以看到,流量提供方和廣告主方的風(fēng)險(xiǎn)級(jí)別幾乎是反向的,也就是說,在CPM/CPT下面,流量提供方不用承擔(dān)太多的預(yù)估計(jì)算的風(fēng)險(xiǎn),而在CPS下,廣告主可以不用擔(dān)心自己的投放費(fèi)用打水漂。所以,采取什么樣的計(jì)費(fèi)方式,就要照顧到各方的利益,綜合來看。CPC的方式能夠照顧到流量提供方和廣告主的控制權(quán),所以目前被廣泛接受;CPM/CPT受大的品牌廣告主的青睞;CPS在一些特殊的推廣渠道(阿里巴巴推出的“淘客”產(chǎn)品)有自己的用武之地。在移動(dòng)互聯(lián)網(wǎng)和社交產(chǎn)品急速發(fā)展的今天,有一些新的收費(fèi)方式也在醞釀和發(fā)展當(dāng)中。比如,按照收藏量來計(jì)費(fèi)的方式。在一些APP(APP指的是在iOS和Android等平臺(tái)下的應(yīng)用程序)當(dāng)中,曾經(jīng)嘗試過按照瀏覽者是否“收藏”了該商品(或者是店鋪,或者是品牌)來收費(fèi)。一些游戲的廣告主是按照游戲的安裝或者激活來付費(fèi)。未來,計(jì)費(fèi)模式肯定會(huì)有更大的創(chuàng)新。我們談了這么多的計(jì)費(fèi)方式,那么廣告系統(tǒng)對于自己的收益指標(biāo)是拿什么來評估呢?對于定量表示若干次展現(xiàn)的期望收益(CPM)值,有一個(gè)專有名詞eCPM(expectedCPM)來表示。這個(gè)概念是廣告系統(tǒng)當(dāng)中最經(jīng)常被提起的收益評估指標(biāo)。1.6機(jī)制設(shè)計(jì)機(jī)制設(shè)計(jì)是經(jīng)濟(jì)學(xué)中的一個(gè)重要研究課題。在經(jīng)濟(jì)學(xué)中,機(jī)制設(shè)計(jì)所討論的問題是:在給定一個(gè)社會(huì)目標(biāo)或者經(jīng)濟(jì)目標(biāo),以及自由選擇、自愿交換的分散化決策條件下,能否并且怎樣設(shè)計(jì)一個(gè)經(jīng)濟(jì)機(jī)制(包括制約條件、資源配置等),使得參與者的個(gè)人利益和設(shè)計(jì)者既定的目標(biāo)一致。互聯(lián)網(wǎng)廣告的參與者包括廣告平臺(tái)、廣告主和廣告受眾。廣告機(jī)制設(shè)計(jì)研究的是,如何針對不同廣告受眾,將廣告平臺(tái)上有限的展現(xiàn)位置分配給不同的廣告,以達(dá)到某種既定的利益目標(biāo)。這個(gè)目標(biāo)在不同公司甚至不同廣告業(yè)務(wù)線不盡相同,有可能是實(shí)現(xiàn)廣告平臺(tái)的利益最大化,也有可能是實(shí)現(xiàn)廣告平臺(tái)、廣告主和廣告受眾三贏,由廣告平臺(tái)選擇。互聯(lián)網(wǎng)廣告的計(jì)費(fèi)方式有CPM、CPT、CPC、CPS等等。其中,CPC方式的覆蓋范圍最廣,搜索廣告和定向廣告大部分是以CPC方式進(jìn)行收費(fèi)。CPC方式所涉及的競價(jià)方式,也最為豐富。因此本章以CPC廣告為例,介紹其中涉及的機(jī)制設(shè)計(jì)知識(shí)。1.6.1廣告位拍賣搜索廣告的競價(jià)機(jī)制可以抽象為一種廣告位拍賣機(jī)制。在搜索廣告平臺(tái)上,廣告主會(huì)為自己的廣告選擇一些相關(guān)的關(guān)鍵字,并在這些關(guān)鍵字下出具不同的競價(jià)。這樣,對于一個(gè)給定的關(guān)鍵字,可以關(guān)聯(lián)上若干條不同的廣告,每條廣告有不同的競價(jià),這些廣告在廣告系統(tǒng)中形成了一個(gè)競拍關(guān)系,競拍的目標(biāo)是一次關(guān)鍵字命中后,系統(tǒng)中空出的若干條廣告位。形式化而言,假設(shè)有,n個(gè)廣告,另外廣告平臺(tái)提供,m個(gè)廣告位,這里m<n。廣告位拍賣的目的是從A中選取m條廣告,依次放置到S中。如果廣告被點(diǎn)擊了,廣告系統(tǒng)需要的廣告主收取一定的費(fèi)用。對于通常的廣告系統(tǒng),即使是同一次廣告展現(xiàn),不同的展現(xiàn)位置收到的用戶關(guān)注度也會(huì)不同。例如,百度的搜索廣告中,廣告的展現(xiàn)形式是自上而下的排列若干條廣告,這種展現(xiàn)形式中,排第一位的廣告天然會(huì)有更高的點(diǎn)擊率。因此,對于廣告主而言,每次關(guān)鍵字拍賣競爭的不僅是是否獲得展現(xiàn)機(jī)會(huì),還包括在S中的排序位置。不難看出,廣告位的拍賣過程大致可以分為兩個(gè)步驟,廣告排序和廣告扣費(fèi)。廣告排序解決當(dāng)關(guān)鍵字命中后,展現(xiàn)哪些廣告的問題。廣告扣費(fèi)則關(guān)心當(dāng)廣告被點(diǎn)擊后,向廣告主收取多少費(fèi)用的問題。互聯(lián)網(wǎng)廣告的不同發(fā)展時(shí)期,不同的公司,使用的廣告排序方式和廣告扣費(fèi)方式有所不同。在后面的三節(jié)中,我們會(huì)討論三種比較常見的排序方法和扣費(fèi)機(jī)制。這里,我們先討論一些拍賣理論中評價(jià)拍賣策略優(yōu)劣的通用指標(biāo)。拍賣理論中,競拍各方通過相互博弈,競爭待分配的資源,形成最終交易。在競拍過程中,如果存在一點(diǎn),博弈各方如果改變競價(jià)策略就會(huì)導(dǎo)致利益損失。這一點(diǎn),就被稱為納什均衡點(diǎn)。存在納什均衡點(diǎn),表示該拍賣策略存在一種穩(wěn)定狀態(tài),在這個(gè)狀態(tài)下,博弈雙方如果做出策略改變,就會(huì)導(dǎo)致利益損失,因?yàn)楦鞣蕉稼呌诒3衷摖顟B(tài)。在互聯(lián)網(wǎng)關(guān)鍵字拍賣中,廣告主可能會(huì)頻繁的修改自己的出價(jià)。因此,關(guān)鍵字拍賣的博弈過程是一種無限重復(fù)的博弈,這種博弈過程會(huì)有很多不同的納什均衡點(diǎn)。過多的均衡點(diǎn)不便于分析拍賣策略的效果,于是有人提出一種本地?zé)o嫉妒均衡(locallyenvy-freeequilibria),又稱對稱納什均衡。本地?zé)o嫉妒均衡是指,排在第k位的廣告主,如果增大出價(jià)排到第k-1位,不會(huì)增加其收益。與納什均衡相關(guān)聯(lián)的一個(gè)概念是占優(yōu)策略,占優(yōu)策略是指無論競爭對手采取什么策略,都能使本方獲得最大利益的策略。與納什均衡不同的是,占用策略不考慮其他競爭者的策略,都能保證自己利益最大。此外,關(guān)鍵字拍賣希望廣告主按照自己的真實(shí)估價(jià)出價(jià),并通過調(diào)整扣費(fèi)方式來激勵(lì)用戶按照真實(shí)估價(jià)出價(jià)。如果競拍方按照真實(shí)估價(jià)出價(jià),能夠保證其獲得最大利益,則該競價(jià)策略稱為激勵(lì)相容。1.6.2廣義一階價(jià)格(GFP)世界上首例互聯(lián)網(wǎng)廣告誕生于1994年,與現(xiàn)在主流的計(jì)費(fèi)方式不同,早期的互聯(lián)網(wǎng)廣告大部分采取按照展現(xiàn)收費(fèi)的方式。在那段互聯(lián)網(wǎng)廣告的原始時(shí)代,既沒有自動(dòng)投放系統(tǒng),也沒有自動(dòng)計(jì)費(fèi)系統(tǒng)。廣告主通過線下簽訂商業(yè)合同的方式,從互聯(lián)網(wǎng)媒體那里購買從一定流量。一般來說,每筆交易涉及的流量大約只有幾千次展現(xiàn)。即便如此,廣告的花費(fèi)卻比如今的廣告貴很多,通常廣告主一個(gè)月大約要花費(fèi)幾千美金。更糟糕的是,這種線下交易的方式,通常操作起來流程相當(dāng)復(fù)雜,廣告主往往需要等待很長時(shí)間才能看見自己的廣告生效。1997年,Overture公司(已被Yahoo!收購)提出了一套全新的廣告售賣機(jī)制,就是所謂的競價(jià)排名機(jī)制。廣告主選擇跟自己商品相關(guān)的關(guān)鍵字,并對它競價(jià)。用戶輸入關(guān)鍵字時(shí),搜索引擎按照競價(jià)由高到低的順序,自上而下的展現(xiàn)相關(guān)廣告。這樣展現(xiàn)的原因是,通常情況下,越靠上的廣告位越能吸引用戶的注意,因而商機(jī)越好。與早期的互聯(lián)網(wǎng)廣告不同,在Overture的商業(yè)模式中,廣告展現(xiàn)并不扣費(fèi),只有當(dāng)用戶點(diǎn)擊了某個(gè)廣告,才會(huì)扣除廣告主競買這個(gè)關(guān)鍵字的價(jià)格。按照這樣的商業(yè)模式,Overture開發(fā)的廣告投放系統(tǒng),在當(dāng)年一炮走紅,成為Yahoo!和MSN等知名搜索引擎的廣告提供商。Overture的拍賣策略就是所謂的廣義一階價(jià)格拍賣,這里的一階價(jià)格是指廣告主本身的出價(jià)。廣告的排序方式采取按照競價(jià)降序排列,然后選取排序較高的前幾個(gè)廣告用于展現(xiàn)。在廣義一階價(jià)格模式的扣費(fèi)方法是,如果廣告發(fā)生點(diǎn)擊了,便會(huì)按照廣告主的競拍出價(jià),進(jìn)行扣費(fèi)。但是Overture的成功背后卻隱藏著巨大的危機(jī)。因?yàn)槔碚撋蟻碚f,廣義一階價(jià)格排序不存在納什均衡點(diǎn)。所以當(dāng)Overture支持快速改價(jià)功能后,于是市場上出現(xiàn)了競價(jià)機(jī)器人,幫助廣告主在不丟失自己想要廣告位的情況下,不斷嘗試降低競價(jià)。比如說,現(xiàn)在有三個(gè)廣告位售賣,a、b和c三個(gè)廣告主分別出價(jià)¥6,¥4和¥1。如果,b使用競價(jià)機(jī)器不斷調(diào)價(jià),那么為了保住他第二名的廣告位,競價(jià)機(jī)器人最終只要給出¥1.01就可以了。同理,如果a也使用競價(jià)機(jī)器人,那么a為了保住第一名的廣告位,只要給出¥1.02即可。因此,競價(jià)機(jī)器人的出現(xiàn),導(dǎo)致廣告系統(tǒng)的收益大大降低。此外,競價(jià)機(jī)器人的頻繁改價(jià),也極大的加重的廣告系統(tǒng)的負(fù)載。1.6.3廣義二階價(jià)格(GSP)Google意識(shí)到,競價(jià)機(jī)器人的出現(xiàn)實(shí)際是廣義一階價(jià)格模式激勵(lì)了廣告主不斷調(diào)低競價(jià),以便降低自己的廣告成本。于是,Google提出了自己的計(jì)費(fèi)機(jī)制,該機(jī)制被稱為廣義二階價(jià)格。對應(yīng)第i位的廣告,如果發(fā)生點(diǎn)擊,那么廣義二階價(jià)格扣費(fèi)是,收取第i位廣告主,第i+1位廣告競價(jià)加上一個(gè)貨幣最小值。在上一段的例子中,廣告主a和b發(fā)生點(diǎn)擊的收費(fèi)分別是¥4.01和¥1.01。在廣義二階價(jià)格中,廣告主降低其競價(jià),在其展現(xiàn)位置不變的情況下,不會(huì)降低收費(fèi)。因此,杜絕了競價(jià)機(jī)器人對廣告系統(tǒng)的惡劣影響。此外,因?yàn)橄录覜]有降低競價(jià)的行為,其結(jié)果導(dǎo)致上家需要付出更多的點(diǎn)擊費(fèi)用。如果人人皆如此,廣告系統(tǒng)的實(shí)際收益反而會(huì)比廣義一階價(jià)格更多。對于廣義二階價(jià)格,存在所謂本地?zé)o嫉妒均衡,舉例說明圖2廣告位和點(diǎn)擊率圖3廣告和點(diǎn)擊價(jià)值假設(shè)A、B、C三條廣告競爭1、2兩個(gè)廣告位,其中1、2的點(diǎn)擊率以及A、B、C的每次點(diǎn)擊價(jià)值如上表。那么(4,1,0.5)是一個(gè)均衡報(bào)價(jià)。因?yàn)椋我庖环饺绻觾r(jià)是的排名升高,都會(huì)導(dǎo)致利益降低。形式化的,對于,n個(gè)廣告,每條廣告的點(diǎn)擊價(jià)值為,另外廣告平臺(tái)提供,每個(gè)位置的點(diǎn)擊率為,每個(gè)位置當(dāng)前競價(jià)為。對于任意的廣告位i上獲得位置的廣告j有則稱,當(dāng)前狀況為均衡報(bào)價(jià)。需要注意的是,廣義二階價(jià)格的均衡點(diǎn)不唯一。并且,廣義二階價(jià)格不是一個(gè)激勵(lì)相容的機(jī)制。廣告主如果按照真實(shí)點(diǎn)擊價(jià)值報(bào)價(jià),并不一定是最優(yōu)的選擇。例如:圖4廣告位和點(diǎn)擊率圖5廣告和點(diǎn)擊價(jià)值按照上表,此時(shí)如果按照真實(shí)點(diǎn)擊價(jià)值報(bào)價(jià)為(5,2,1),而如果A降低報(bào)價(jià)為1.5,他將獲得更大的利益。因此,廣義二階價(jià)格不是一個(gè)激勵(lì)相容的機(jī)制。盡管如此,由于廣義二階價(jià)格簡單易行。當(dāng)前國內(nèi)各大互聯(lián)網(wǎng)廣告公司如百度、淘寶等,使用的關(guān)鍵詞競拍模式都是基于廣義二階價(jià)格拍賣。在真實(shí)的系統(tǒng)中,不會(huì)將廣告簡單的按照競價(jià)扣費(fèi),扣費(fèi)也不是簡單的按照下家加一的方式進(jìn)行。因?yàn)樵贑PC的廣告場景下,需要考慮廣告的點(diǎn)擊率因素,即使是競價(jià)很高的廣告,如果點(diǎn)擊率很低也不會(huì)給廣告系統(tǒng)帶來多大的收益,因此不應(yīng)該給這類廣告分配展現(xiàn)。因此,對于每條廣告i,廣告系統(tǒng)會(huì)首先預(yù)估廣告i在當(dāng)前展現(xiàn)場景下的點(diǎn)擊率,結(jié)合其競價(jià),然后計(jì)算其每千次展現(xiàn)的期望收益為(原則上,,但是不乘常數(shù)項(xiàng)1000不影響后面的計(jì)算,所以就簡化為),然后將廣告集合按照ecpm排序,選取排序靠前的若干條廣告用于展現(xiàn)。在計(jì)費(fèi)時(shí),如果第i個(gè)廣告被點(diǎn)擊了,那么從廣告主處扣除的費(fèi)用為:這里i+1表示排名在i后面一位的廣告。上式可見,廣告的點(diǎn)擊率越高,那么當(dāng)它被點(diǎn)擊事,從廣告主處扣除的費(fèi)用就越少。而廣告平臺(tái)采取這種方式扣費(fèi),可以激勵(lì)用戶優(yōu)化廣告質(zhì)量提高廣告點(diǎn)擊率,從而也提高了整個(gè)廣告系統(tǒng)的用戶體驗(yàn)。1.6.4VCG機(jī)制VCG(Vickrey-Clarke-Groves)機(jī)制是一種目標(biāo)為最大化社會(huì)價(jià)值的競價(jià)機(jī)制,在互聯(lián)網(wǎng)中有一定的應(yīng)用,facebook和bing曾經(jīng)使用過VCG機(jī)制。假設(shè)有,n個(gè)廣告,每條廣告的競價(jià)為,另外廣告平臺(tái)提供,每個(gè)位置的點(diǎn)擊率為。VCG機(jī)制假設(shè)用戶按照真實(shí)估價(jià)報(bào)價(jià),那么每條廣告的真實(shí)價(jià)值便是V。那么當(dāng)廣告i不參與關(guān)鍵字拍賣時(shí),排在i后面的廣告主i+1,i+2,?,m可以獲得的預(yù)期總收益為而由于的參與,這些廣告獲得的價(jià)值為?通常情況下因?yàn)橹挥衜個(gè)廣告位,所以。那么,如果被點(diǎn)擊了,那么它要付出的代價(jià)是他給社會(huì)上的其他個(gè)體帶來的利益損失與GSP相比,VCG有一些理論上的優(yōu)勢:第一,VCG是一個(gè)激勵(lì)相容的機(jī)制,在VCG機(jī)制下,按照真實(shí)估價(jià)出價(jià)是最有選擇。第二,VCG機(jī)制最大化社會(huì)價(jià)值,對廣告主來說是一個(gè)很好的機(jī)制。第三,VCG存在納什均衡,且均衡點(diǎn)唯一。盡管如此,工業(yè)界使用VCG機(jī)制的并不多,原因在于VCG雖然有很好的理論性質(zhì)卻也有很多缺點(diǎn):第一,VCG計(jì)算困難,且難以向廣告主解釋。第二,在相同競價(jià)情況下VCG機(jī)制的扣費(fèi)會(huì)低于GSP機(jī)制,因此鮮有廣告系統(tǒng)愿意降低收入使用VCG機(jī)制。1.7技術(shù)課題1.7.1優(yōu)化目標(biāo)互聯(lián)網(wǎng)廣告算法要解決的核心問題是什么?雅虎研究院的AndreiBroder在2008年首次提出了計(jì)算廣告學(xué)(ComputationalAdvertising)的概念。他給出了一個(gè)并不十分嚴(yán)謹(jǐn)?shù)谋硎觯赫业接脩簟⑸舷挛暮秃线m的廣告之間的最佳匹配。我們不必對AndreiBroder的定義咬文嚼字的進(jìn)行分析,這個(gè)定義只是對下面展開描述的一個(gè)鋪墊。我們對于互聯(lián)網(wǎng)廣告要解決的核心任務(wù)做了一個(gè)新的歸納,如下:互聯(lián)網(wǎng)廣告算法的核心問題,是根據(jù)用戶、環(huán)境、廣告的全部有效信息,找到最合適的投放策略和模型,兼顧瀏覽者、廣告主、廣告平臺(tái)的最大利益,并不斷調(diào)整。上面的歸納也不是一個(gè)嚴(yán)格的定義,只是本書的一家之言。首先,我們可以看到,互聯(lián)網(wǎng)廣告算法和策略的核心是維護(hù)一個(gè)多方博弈的生態(tài)圈,不是一方獨(dú)大的局面。同時(shí),不同的廣告產(chǎn)品形式,不同的廣告平臺(tái),側(cè)重點(diǎn)是不一樣的。其次,互聯(lián)網(wǎng)廣告算法和策略要利用的信息來自用戶、環(huán)境(上下文,或者稱情境)、廣告,我們分別用U(user)、C(context)、A(ad)來表示,那么我們可以把算法的目標(biāo)函數(shù)簡單表示為:從這里我們只能看出,這個(gè)函數(shù)F跟U、C、A都有關(guān),但是具體的內(nèi)容并不清楚。對于廣告主來說,由于投放廣告更多的考慮是投資回報(bào)率的問題,即ROI(ReturnOnInvestment),所以,對于廣告主的F是:所以,對于廣告主的核心利益,目標(biāo)變成了對上述F的最優(yōu)化問題。這里有一個(gè)需要注意的地方,對于第1次到第N次的展現(xiàn)(i=1…N),總體的ROI最優(yōu)化并不等于每一次的展現(xiàn)ROI最優(yōu)化之和,但是,由于廣告系統(tǒng)是每次展示就要立刻計(jì)算的,所以,一般來說都是在每次展示的時(shí)候立刻計(jì)算ROI,雖然這種方式跟全局優(yōu)化的目標(biāo)未必一致,但是也已經(jīng)成為了業(yè)界的通用做法。對于瀏覽者來說,核心利益是ROI嗎?我們舉個(gè)例子,看看在電子商k務(wù)平臺(tái)上面,瀏覽者跟廣告的關(guān)系。我們平時(shí)在淘寶購物的時(shí)候,如果看到廣告,感興趣的話,會(huì)去點(diǎn)擊,如果商品是我們需要的,可能會(huì)下單購買。在整個(gè)點(diǎn)擊廣告、購買商品的過程中,廣告主投放廣告花了多少錢,這些錢帶回來多少成交,我們這些普通的瀏覽者并不關(guān)心;而這個(gè)廣告產(chǎn)品有沒有用,定向的準(zhǔn)不準(zhǔn)確,創(chuàng)意好不好看……這些才是瀏覽者在意的。所以,從這個(gè)例子可以看出,瀏覽者更注重廣告對自己的吸引大不大,而這種吸引可以部分的反應(yīng)在CTR這個(gè)指標(biāo)上。所以,對于瀏覽者來說,F(xiàn)是:現(xiàn)在,我們再來看看對于平臺(tái)來說(廣告系統(tǒng)方面)核心利益是不是又有所區(qū)別呢?廣告系統(tǒng)的目的是幫助廣告主推廣商品,同時(shí)能夠盈利,所以,廣告系統(tǒng)有一個(gè)非常重要的核心目標(biāo),就是收入,我們用RPM來表達(dá)這個(gè)指標(biāo):上面的公式里,CTR(ClickThroughRate)是點(diǎn)擊率,PPC(PayperClick)是點(diǎn)擊收費(fèi),上面的公式的意思就是RPM等于點(diǎn)擊率和PPC的線性疊加,有些時(shí)候還有一些Discount(折扣)方面的業(yè)務(wù)因子。雖然廣告主、瀏覽者、廣告平臺(tái)各自的核心利益并不完全一樣,但是,一旦競價(jià)模式、計(jì)費(fèi)規(guī)則等定下來,大家都是遵守同一規(guī)則來參與的,當(dāng)生態(tài)系統(tǒng)發(fā)生了變化的時(shí)候,規(guī)則和算法也應(yīng)該進(jìn)行相應(yīng)的調(diào)整。1.7.2搜索引擎技術(shù)從功能上來看,廣告系統(tǒng)搜索引擎十分相似。實(shí)際上,廣告系統(tǒng)的確包含了大部分的搜索引擎功能:倒排索引、搜索詞分析、排序……。但是,這兩個(gè)系統(tǒng)還是有很大區(qū)別的,比如廣告系統(tǒng)有計(jì)費(fèi)模塊,有廣告主實(shí)時(shí)更改價(jià)格的子系統(tǒng),等等。廣告系統(tǒng)的創(chuàng)意庫數(shù)據(jù)量有時(shí)候十分巨大,數(shù)以億計(jì),甚至數(shù)以十億計(jì),所以,廣告系統(tǒng)對于檢索性能的要求一點(diǎn)也不比搜索引擎低。實(shí)際上,檢索性能一直是廣告系統(tǒng)所追求的目標(biāo)之一。一個(gè)優(yōu)秀的廣告系統(tǒng),一次完整的查詢和排序計(jì)算過程,一般在幾十毫秒之內(nèi)完成。跟通用搜索引擎不同的是,廣告系統(tǒng)可能沒有典型的爬蟲(Crawler)模塊。這是因?yàn)閺V告系統(tǒng)的廣告內(nèi)容一般來說都是公司內(nèi)部的資源,所以可以通過規(guī)范化的步驟獲取,而不用Crawler來抓取。1.7.3存儲(chǔ)技術(shù)和實(shí)時(shí)計(jì)算技術(shù)廣告系統(tǒng)在離線部分,需要存儲(chǔ)大量的用戶歷史行為信息、用戶屬性、商品標(biāo)簽……等等信息,信息量很大,可以達(dá)到T級(jí)別,需要有一個(gè)適合大規(guī)模讀寫的存儲(chǔ)系統(tǒng)。現(xiàn)在的大規(guī)模存儲(chǔ)技術(shù)發(fā)展很快,大量有特點(diǎn)的開源系統(tǒng)被大公司采用。另一方面,廣告系統(tǒng)對實(shí)時(shí)計(jì)算方面的需求增長很快,有很多方面需要有實(shí)時(shí)計(jì)算的系統(tǒng),比如:用戶行為分析的實(shí)時(shí)計(jì)算、點(diǎn)擊率預(yù)估的特征更新計(jì)算……這些系統(tǒng)的介紹將放在最后一部分。1.7.4推薦技術(shù)推薦(Recommendation)方法在互聯(lián)網(wǎng)廣告系統(tǒng)中應(yīng)用很廣,我們經(jīng)常在購物網(wǎng)站上面看到“購買過這個(gè)商品的人還購買了”、“跟你有同樣愛好的人還喜歡”等等標(biāo)題的廣告位,類似的標(biāo)題就是說明在這個(gè)位置應(yīng)用了推薦技術(shù)。推薦技術(shù)能夠很好的解決“人與人”或者“商品與商品”的關(guān)系問題,提供一套非常成熟穩(wěn)定的映射結(jié)果。推薦方面的內(nèi)容將在后面詳細(xì)介紹。讀者也可以看一下這方面的論文。1.7.5點(diǎn)擊率預(yù)估點(diǎn)擊率預(yù)估(CTRPrediction)是互聯(lián)網(wǎng)廣告算法當(dāng)中非常重要的一個(gè)方向。在前面講優(yōu)化目標(biāo)的時(shí)候,我們可以看到CTR這個(gè)指標(biāo)是非常重要的,也是排序(Ranking)當(dāng)中的核心參數(shù)之一。點(diǎn)擊率預(yù)估涉及到模型方法、特征的選取和評估、實(shí)時(shí)系統(tǒng)的架構(gòu)……等等諸多問題,這方面的內(nèi)容也會(huì)在后面詳細(xì)介紹。1.7.6廣告主工具對于廣告主,廣告系統(tǒng)會(huì)提供推廣工具和統(tǒng)計(jì)工具來幫助廣告主進(jìn)行廣告營銷。一般情況下,大型的廣告系統(tǒng)會(huì)對廣告主推薦一些投放方法,比如:對特定搜索詞競價(jià),對特定人群維度競價(jià)……等等。舉個(gè)例子,對于搜索廣告,廣告系統(tǒng)所推薦的搜索詞,是經(jīng)過相關(guān)性計(jì)算,并且綜合了覆蓋率等其它因素之后,推薦給廣告主的。廣告系統(tǒng)提供的這些搜索詞,避免了廣告主對于搜索廣告投放“閉門造車”,大大減少了廣告主對市場的調(diào)研開銷,使得中小廣告主也能夠準(zhǔn)確的選擇投放渠道,并達(dá)到滿意的效果。1.8系統(tǒng)架構(gòu)簡介一個(gè)典型的廣告投放系統(tǒng),大概包括如下幾個(gè)主要的組成部分,分別介紹一下。前端引擎:這部分是接收網(wǎng)頁(或者移動(dòng)設(shè)備)發(fā)過來的廣告請求,并經(jīng)過初步處理(判斷請求合法性,等等)之后向后端傳遞,并在拿到后端返回的結(jié)果之后,進(jìn)行拼裝并返回給請求者。這部分是在線部分(online)。檢索引擎:這部分是根據(jù)檢索關(guān)鍵字,對事先存好的倒排索引進(jìn)行檢索,取出關(guān)鍵字對應(yīng)的索引內(nèi)容。這部分的主要關(guān)注點(diǎn)就是效率和性能。這部分是在線部分(online)。實(shí)時(shí)點(diǎn)擊率預(yù)估服務(wù):這部分是對廣告打分,這個(gè)分?jǐn)?shù)將極大的影響廣告的最終展現(xiàn)。如果廣告系統(tǒng)比較簡單,對廣告的打分是一維的分?jǐn)?shù)(即一個(gè)廣告一個(gè)分?jǐn)?shù)),那么這個(gè)服務(wù)其實(shí)也可以做成一個(gè)靜態(tài)的數(shù)據(jù)存儲(chǔ)服務(wù)。而現(xiàn)在真正的大型廣告系統(tǒng),都是實(shí)時(shí)計(jì)算二維的聯(lián)合分?jǐn)?shù),比如搜索廣告會(huì)實(shí)時(shí)計(jì)算<query,ad>的分?jǐn)?shù),那么這種情況下都是建立一個(gè)實(shí)時(shí)的打分服務(wù)。這部分是在線部分(online)。廣告主操作消息更新服務(wù):廣告主是有權(quán)利隨時(shí)更改自己的廣告競價(jià)的,這就需要一個(gè)實(shí)時(shí)更新的服務(wù)來將新價(jià)格更新到索引里去。其實(shí),廣告主隨時(shí)更改的,不僅限于廣告的價(jià)格,還有廣告的投放地域、投放人群、投放時(shí)間、價(jià)格折扣,等等各種參數(shù)。所以,更新服務(wù)的壓力是非常大的,除了要保證更新消息的及時(shí)性,同時(shí)還要保證更新息的完整性和安全性。這部分是在線部分(online)。用戶行為數(shù)據(jù)收集和更新系統(tǒng):系統(tǒng)收集的行為數(shù)據(jù),經(jīng)過一些處理(初步的反作弊、過濾)生成結(jié)構(gòu)化的中間層數(shù)據(jù),再供后續(xù)模塊調(diào)用。這里需要說明的是,行為數(shù)據(jù)既可以被離線(offline)的算法模塊調(diào)用,也可以被在線(online)的算法和業(yè)務(wù)模塊調(diào)用。一般來說,用戶行為數(shù)據(jù)收集和更新系統(tǒng)是實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)的將行為數(shù)據(jù)導(dǎo)入存儲(chǔ)系統(tǒng)的,這是為了迅速更新用戶特征,更準(zhǔn)確的計(jì)算點(diǎn)擊率。這部分是在線部分(online)。特征提取和行為分析:這部分都是利用“用戶行為數(shù)據(jù)收集和更新系統(tǒng)”的數(shù)據(jù),進(jìn)行特征提取、用戶行為分析等離線操作,一般是用Hadoop平臺(tái)來完成這樣的海量數(shù)據(jù)的處理。對Hadoop不了解的同學(xué),可以去搜索一下Hadoop的基本原理和程序設(shè)計(jì)。這部分是離線部分(offline)。反作弊系統(tǒng):這部分是用來發(fā)現(xiàn)和處理作弊信息,包括異常的訪問、無效的點(diǎn)擊等等。反作弊的機(jī)制比較復(fù)雜,有實(shí)時(shí)的反作弊模塊,也有周期性運(yùn)行的模塊,有人工規(guī)則,也有模型判定。這部分既有離線部分(offline)也有在線部分(online)。廣告主后臺(tái):這部分是給廣告主管理自己所有的投放活動(dòng)的系統(tǒng)。一般來說,廣告主典型的行為包括:建立投放計(jì)劃,增加投放創(chuàng)意,出價(jià),設(shè)定投放參數(shù),閱讀報(bào)表(包括實(shí)時(shí)和非實(shí)時(shí)),等等。這部分既有離線部分(offline)也有在線部分(online)。存儲(chǔ)系統(tǒng):廣告系統(tǒng)很多的存儲(chǔ)任務(wù)都是<key,value>對的形式,而且數(shù)據(jù)量極大(TB甚至PB級(jí)),有些時(shí)候?qū)Υ嫒〉男阅芤笠矘O高。這部分既有離線部分(offline)也有在線部分(online)。計(jì)算系統(tǒng):廣告系統(tǒng)的離線計(jì)算包括各種數(shù)據(jù)挖掘任務(wù),比如人群屬性(UserProfile)的挖掘,意圖(UserIntention)的挖掘;也包括很多特征提取的任務(wù),比如:給CtrPrediction用的UserFeature;還有一些模型訓(xùn)練的任務(wù),等等。計(jì)算資源也一直是衡量一個(gè)大公司硬實(shí)力的核心指標(biāo)之一。一般采取Hadoop來做數(shù)據(jù)挖掘和特征提取等計(jì)算,采取MPI等架構(gòu)來做模型訓(xùn)練等任務(wù)。當(dāng)然,每個(gè)大公司的架構(gòu)選型都不太一樣。第二部分搜索廣告2.1
搜索廣告架構(gòu)搜索廣告是指,在搜索過程中,搜索引擎推送給我們的互聯(lián)網(wǎng)廣告。例如,每當(dāng)我們打開百度搜索引擎,輸入查詢,在得到搜索結(jié)果的同時(shí),頁面的右側(cè)和搜索結(jié)果的上方,會(huì)有一些推廣鏈接。這些推廣鏈接,就是我們常說的搜索廣告。搜索引擎通過這些推廣鏈接獲取了巨額的收益,參考Google財(cái)報(bào),Google主站2011年的總收益約是261億美元,其中絕大部分收入來自于搜索廣告。從某種意義上說,是搜索廣告養(yǎng)活了搜索引擎,也為終端用戶的搜索服務(wù)買了單。那么,從搜索引擎收到查詢,到最后展出廣告,都發(fā)生了哪些事情呢?一般來說,當(dāng)用戶輸入一個(gè)查詢后,廣告系統(tǒng)會(huì)經(jīng)過:廣告檢索、廣告排序、流量分配,三個(gè)模塊為用戶提供廣告。廣告檢索模塊,是以當(dāng)前的查詢關(guān)鍵字為基礎(chǔ),輔以用戶自身的信息,從數(shù)以千萬乃至上億的廣告大集合中,粗選出一些比較合適的廣告,交給后續(xù)的廣告排序模塊進(jìn)行排序。廣告檢索模塊,又可以分為廣告索引和廣告匹配兩個(gè)子模塊。廣告索引模塊,將廣告建成<key,value>的索引形式。Key是用戶競價(jià)詞,value是key能關(guān)聯(lián)到的廣告列表。這樣,當(dāng)獲取到競價(jià)詞集合后,就能很方便的得到廣告候選集。一般來說,一次廣告檢索會(huì)選取出幾千條廣告。廣告匹配模塊,將用戶查詢分解成相關(guān)的競價(jià)詞,并從建好的索引中提取廣告。當(dāng)收到查詢以后,廣告匹配模塊會(huì)進(jìn)行相應(yīng)的自然語言分析,處理查詢串。這里的廣告匹配模塊,會(huì)跟搜索引擎產(chǎn)生搜索結(jié)果的處理模塊比較類似。典型的廣告匹配模塊包括,分詞、查詢糾錯(cuò)、查詢擴(kuò)展等模塊。經(jīng)過廣告匹配模塊后,原始的查詢串會(huì)被分解成競價(jià)詞集合。廣告排序模塊,計(jì)算檢索到廣告的質(zhì)量分?jǐn)?shù),并以此進(jìn)行排序。搜索廣告一般是按照點(diǎn)擊計(jì)費(fèi),也就是說,展現(xiàn)出去了,如果用戶沒點(diǎn),搜索引擎是不收廣告主錢的;如果用戶點(diǎn)了,廣告系統(tǒng)才會(huì)收費(fèi)。那具體一次點(diǎn)擊收多少錢呢?因此,在廣告排序模塊中,最為重要的莫過于CTR預(yù)估模型。CTR預(yù)估模型會(huì)從用戶的信息、關(guān)鍵字、廣告本身中抽取有用特征。再調(diào)用機(jī)器學(xué)習(xí)模型,預(yù)估出用戶對廣告的CTR。流量分配模塊,根據(jù)廣告的排序分?jǐn)?shù),決定當(dāng)前情況給用戶出哪些廣告。廣告系統(tǒng)會(huì)對每次流量出的廣告數(shù)量和廣告質(zhì)量做一些限制。流量分配模塊,就是根據(jù)這些限制,實(shí)時(shí)的展現(xiàn)廣告。2.2廣告檢索搜索廣告需要按照用戶的關(guān)鍵字,選出相關(guān)的廣告。在實(shí)際的系統(tǒng)中,一般會(huì)設(shè)置粗選和精選兩個(gè)步驟。粗選是用信息檢索的方法,選取和查詢關(guān)鍵字相關(guān)的一批廣告。精選則是要精確的預(yù)估廣告的點(diǎn)擊率,進(jìn)行排序。本章將會(huì)介紹信息檢索的相關(guān)技術(shù),后續(xù)的章節(jié)將會(huì)介紹CTR預(yù)估相關(guān)的算法。一般來說,廣告檢索需要經(jīng)過三個(gè)步驟,廣告分析,關(guān)鍵字分析和相關(guān)性匹配。廣告分析是指,對廣告進(jìn)行處理,獲取廣告相關(guān)的信息,如作用地域、作用年齡段、作用人群等,并按照與廣告相關(guān)的競價(jià)詞將廣告組織成倒排索引的形式。關(guān)鍵字分析則是根據(jù)用戶的輸入,判斷是否應(yīng)該出廣告,如果有必要出廣告,那么應(yīng)該出什么類型的廣告。相關(guān)性匹配則是根據(jù)關(guān)鍵字分析的結(jié)果,去廣告索引庫中檢索廣告,并按照一定的相關(guān)性算法選取相關(guān)性大的廣告交給后續(xù)的精選環(huán)節(jié)。本章的接下來部分將會(huì)分別介紹廣告分析、關(guān)鍵字分析和相關(guān)性匹配設(shè)計(jì)的內(nèi)容和涉及的算法。2.2.1廣告分析一般來說,廣告分析有兩個(gè)目的,第一個(gè)目的是將廣告組織成倒排索引的形式。所謂倒排索引,是這樣一種key-value格式,key是一個(gè)競價(jià)詞,value是一個(gè)廣告id的鏈表。在檢索廣告時(shí),廣告系統(tǒng)就是用競價(jià)詞作為key,找出與該競價(jià)詞相關(guān)的若干廣告。廣告分析的第二個(gè)目的,是從廣告中抽取特征,如廣告是否地區(qū)相關(guān),屬于什么類型廣告等等。這些信息,可以在相關(guān)性匹配階段提供輔助信息,過濾不相關(guān)的廣告。在廣告主建立廣告時(shí),會(huì)選擇與其相關(guān)的競價(jià)詞,并提供廣告在每個(gè)競價(jià)詞下的競價(jià)。一種簡單的方式是按照廣告主提供的競價(jià)詞建立索引,如果廣告主買了某個(gè)競價(jià)詞,則廣告會(huì)被掛到該競價(jià)詞的value鏈下。但是,廣告主的想象力通常比較有限,這種簡單的索引建立方式會(huì)導(dǎo)致索引向某些常見詞嚴(yán)重傾斜。隨著廣告系統(tǒng)中廣告主和廣告的增加,這種傾斜狀況會(huì)越來越嚴(yán)重。大型的廣告系統(tǒng)會(huì)提供一些技術(shù)和產(chǎn)品解決此類問題,比較常見的方法包括競價(jià)詞生成和模糊匹配。競價(jià)詞生成是指廣告系統(tǒng)通過分析廣告主的landingpage,幫助廣告主選取競價(jià)詞。這樣可以引導(dǎo)廣告主選擇一些競爭不那么激烈的詞,保證索引中廣告鏈長度均勻。競價(jià)詞生成會(huì)抓取landingpage中的文字,并對其做命名實(shí)體識(shí)別,抽取其中可能的商品詞、型號(hào)詞等,作為競價(jià)詞推薦給廣告主。模糊匹配是指用戶選擇一個(gè)通投出價(jià),按照這個(gè)出價(jià),廣告系統(tǒng)自己選擇跟廣告相關(guān)的競價(jià)詞。一般的選擇方式是,根據(jù)用戶已賣的關(guān)鍵詞,推出跟這些關(guān)鍵詞和廣告標(biāo)題相關(guān)的競價(jià)詞。并按照一定的探測邏輯,嘗試在這些競價(jià)詞下出廣告。經(jīng)過這些處理以后,廣告最終建立成索引。廣告系統(tǒng)還會(huì)根據(jù)自己業(yè)務(wù)線的具體需要抽取相應(yīng)的信息做相關(guān)性條件。最終,這些數(shù)據(jù)被傳到后續(xù)的相關(guān)性匹配環(huán)節(jié)中。2.2.2查詢分析用戶在搜索引擎上輸入的關(guān)鍵字,用詞的長短可能不完全相同。做查詢分析時(shí),對長串和短串的處理方式是不同的。一般的廣告系統(tǒng)都會(huì)對長串和短串做區(qū)分處理。一般來說,長串的語義信息明確,如果確有廣告主買了這個(gè)長串做競價(jià)詞,那么按照該詞出廣告,往往可以獲得更高的轉(zhuǎn)化。但是缺點(diǎn)是,每個(gè)長串在廣告系統(tǒng)的展現(xiàn)量往往不足,而長串的總量又會(huì)很大,往往對廣告系統(tǒng)的存儲(chǔ)造成很大壓力。而短串一般都是一些用戶會(huì)頻繁輸入的詞,每條短串下的廣告展現(xiàn)量會(huì)豐富,給算法分析提供很高的便利。但是缺點(diǎn)是,短串的語義信息可能不明確,需要一些方法來幫助明確用戶的意圖。對于長串,語義信息一般比較豐富,但是分詞后會(huì)有多個(gè)詞語,所以從長串中提取關(guān)鍵的詞匯更加重要。例如,用戶輸入“海底撈火鍋”,包含兩個(gè)詞“海底撈”和“火鍋”,此時(shí)需要區(qū)分到底是“海底撈”更重要還是“火鍋”更重要。一般來說,認(rèn)為“海底撈”這類的品牌詞更加重要,所以如果有兩條廣告分別是關(guān)于“海底撈旗艦店”和“小肥羊火鍋”,此時(shí)更應(yīng)該出前者相關(guān)的廣告。而對于短串,分詞后一般只有一個(gè)詞語,有些情況下,還可能是多義詞。例如,用戶輸入“土豆”,他可能是想知道土豆網(wǎng)的鏈接地址,也可能真的是想找蔬菜土豆的信息。這個(gè)時(shí)候,就需要對“土豆”一次做消歧。消歧的方法一般是兩種,一種是根據(jù)用戶的個(gè)性化信息,如用戶的年齡、性別、學(xué)歷、工作等,推算用戶更有可能指的是哪一個(gè)“土豆”。另一種方法,是根據(jù)搜索的上下文信息,如果用戶在輸入“土豆”前查找的是“優(yōu)酷”,那此時(shí)更有可能指的是土豆網(wǎng)。而如果用戶在輸入“土豆”前查找的是“地三鮮”,那此時(shí)更有可能指的是蔬菜土豆。此外,在查詢分析階段,一項(xiàng)最重要的指標(biāo)是擴(kuò)大召回。查詢擴(kuò)展是擴(kuò)大召回的一個(gè)可靠方法,通過分析用戶輸入的關(guān)鍵詞,得到與其語意相近的相關(guān)詞,用這些相關(guān)詞下的廣告擴(kuò)充廣告候選集。用來做查詢擴(kuò)展的技術(shù)包括,用topicmodel、用語意字典擴(kuò)充、事先構(gòu)造本體擴(kuò)充以及通過query-ad鏈接分析查詢相似度做關(guān)鍵字聚類的方法等等。2.2.3相關(guān)性匹配廣告的相關(guān)性匹配可以分成精確匹配和模糊匹配兩種模式。精確匹配是指只有當(dāng)關(guān)鍵字中嚴(yán)格的包含某個(gè)競價(jià)詞時(shí),才觸發(fā)的廣告。在匹配時(shí),首先從關(guān)鍵字中提取出能匹配成功的競價(jià)詞,然后在以競價(jià)詞為key的廣告索引庫中提取廣告即可。在搜索廣告中,用戶輸入的關(guān)鍵字如果很短,那么往往不能匹配上足夠多的競價(jià)詞,從而使得召回降低。為了解決這個(gè)問題,廣告系統(tǒng)往往會(huì)使用模糊匹配,擴(kuò)充競價(jià)詞,已獲得更多的廣告。模糊匹配獲得的競價(jià)詞,及其相關(guān)的廣告,由于不是精確獲得,需要對不同競價(jià)詞區(qū)分對待,此時(shí)需要有一些算法精確計(jì)算關(guān)鍵字同競價(jià)詞之間的相似度。除了文本的相似度以外,在模糊匹配時(shí),還會(huì)考慮搜索上下文,以及用戶本身的個(gè)性化信息等,作為輔助更加精準(zhǔn)的向用戶投放廣告。2.3廣告排序在前面的章節(jié)介紹了主流廣告系統(tǒng)的排序邏輯。通常,廣告系統(tǒng)會(huì)按照ECPM(EffectiveCostPerMille,指的是每一千次展現(xiàn)可以獲得的廣告收入)降序排列廣告候選集,然后將排序靠前的廣告展現(xiàn)出來。這里,ECPM=廣告競拍價(jià)*廣告CTR*1000,其中,廣告競拍價(jià)由廣告主提供,而廣告CTR則需要廣告系統(tǒng)利用機(jī)器學(xué)習(xí)的方法,進(jìn)行準(zhǔn)確的預(yù)估。而廣告CTR預(yù)估的精度,將直接影響廣告系統(tǒng)的收入。因此,在各大互聯(lián)網(wǎng)廣告公司中,都會(huì)深入研究廣告CTR預(yù)估的方法,從而最大化其收益。業(yè)界用于CTR預(yù)估的方法大致可以分成兩大類,基于點(diǎn)擊模型的方法和基于機(jī)器學(xué)習(xí)的方法。點(diǎn)擊模型的方法在互聯(lián)網(wǎng)廣告出現(xiàn)的早期比較常見,當(dāng)時(shí)的CTR預(yù)估多基于簡單統(tǒng)計(jì)的方法。對于一個(gè)展現(xiàn)充分的廣告來說,預(yù)估其CTR最有效的策略是直接從數(shù)據(jù)中統(tǒng)計(jì)其點(diǎn)擊次數(shù)和展現(xiàn)次數(shù),直接算出其歷史CTR來預(yù)測其未來的CTR。但是,在應(yīng)用中發(fā)現(xiàn),廣告的CTR會(huì)受到廣告展現(xiàn)位置的影響。通常,展現(xiàn)位置靠上的廣告天然會(huì)贏得更高的CTR。如果直接通過統(tǒng)計(jì)的方法計(jì)算廣告的CTR勢必會(huì)受到位置因素的影響。利用直接統(tǒng)計(jì)的方法,頻繁展現(xiàn)在第一位的廣告會(huì)獲得更高的CTR。為了克服位置因素的影響,學(xué)術(shù)界提出了很多種所謂點(diǎn)擊模型。大部分點(diǎn)擊模型的思路,是將點(diǎn)擊率建模成如下形式,在上式中,是日志中統(tǒng)計(jì)到的廣告CTR,而在學(xué)術(shù)界會(huì)有很多不同的點(diǎn)擊模型來預(yù)測,然后通過上式計(jì)算出,作為廣告真實(shí)的CTR用于未來使用。學(xué)術(shù)界計(jì)算的方法非常多,考慮的因素往往也很多,比如位置本身、前面位置的廣告是否被點(diǎn)擊、用戶本身的點(diǎn)擊偏好等等。基于點(diǎn)擊模型的方法,往往只能對展現(xiàn)充分的廣告做出準(zhǔn)確的CTR預(yù)估。而一般的廣告系統(tǒng)中,能獲得充分展現(xiàn)的廣告往往只占系統(tǒng)中很小的一部分。而每天上架的大量新廣告,往往不能用點(diǎn)擊模型來計(jì)算CTR。為了解決新廣告的CTR預(yù)估問題,學(xué)術(shù)界和工業(yè)界都嘗試了很多種辦法。解決的方法是利用機(jī)器學(xué)習(xí)算法,綜合考慮大量特征,預(yù)測廣告的CTR。當(dāng)今工業(yè)界,最流行的方法便是用邏輯回歸模型解決CTR預(yù)估問題。本章將會(huì)詳細(xì)介紹基于邏輯回歸模型的CTR預(yù)估方法。一個(gè)中等規(guī)模的互聯(lián)網(wǎng)廣告公司每天會(huì)接受上億次訪問請求,產(chǎn)生幾T規(guī)模的訪問日志,什么樣的機(jī)器學(xué)習(xí)模型能夠有效的處理如此海量的數(shù)據(jù),并從中挖掘出有用信息,并能實(shí)時(shí)的給出準(zhǔn)確的CTR預(yù)估結(jié)果。第一節(jié)將重點(diǎn)討論在搜索廣告中常用的邏輯回歸模型,并分析其在訓(xùn)練和預(yù)測階段的一些性質(zhì)和優(yōu)缺點(diǎn)。在機(jī)器學(xué)習(xí)問題中,數(shù)據(jù)的特征抽取會(huì)直接影響后續(xù)的模型精度。因此,對于廣告CTR預(yù)估,特別是搜索廣告的CTR預(yù)估,抽取哪些特征是一個(gè)非常重要的研究課題。第二節(jié)將介紹搜索廣告中常用的特征處理方法,并給出一些常用的特征分析算法。在互聯(lián)網(wǎng)廣告公司中,算法迭代的速度是非常驚人的,有時(shí)甚至幾十分鐘就可以完成一次模型的更新。但是,未必每次模型更新都會(huì)帶來效果的提升。因此,在模型發(fā)布前,需要經(jīng)過科學(xué)的評估,以確保其能帶來效果的提升。第三節(jié)將列舉一些常用的模型評估方法,首先介紹通常的在線評估策略,然后重點(diǎn)介紹離線評估中常用的評測標(biāo)準(zhǔn),并分析其背后的數(shù)學(xué)含義。2.3.1輯回歸模型邏輯回歸的函數(shù)形式為,,這里e是自然對數(shù),x是輸入的特征向量,y是預(yù)測目標(biāo),w是需要學(xué)習(xí)的特征權(quán)重。以x為一維向量為例,圖中給出當(dāng)w取不同值時(shí),y隨著x值變化的函數(shù)曲線。邏輯回歸的函數(shù)曲線為一條S型曲線,隨著x從-∞向∞逐漸增大,y值從0向1逐漸增大,并與y軸相交于(0,1/2)點(diǎn)。w控制了y值從0到1的過渡速度,w越小y值過渡的越平緩,w越大y值過渡的越迅速。圖6sigmoid函數(shù)邏輯回歸可以被用做分類和回歸。當(dāng)用作二分類問題時(shí),假設(shè)數(shù)據(jù)分成0,1兩種類別,而邏輯回歸的函數(shù)結(jié)果既是輸入x,類別為1的條件概率,即:另一方面,輸入x,類別為0的概率為1-P(Y=1|x),即:二分類時(shí),取兩個(gè)類別中條件概率較大者作為輸入x的類別。換句話說,當(dāng)P(Y=1|x)>1/2時(shí),Y取1類別;P(Y=1|x)<1/2時(shí),Y取0類別。可見,邏輯回歸的分界面是P(Y=1|x)=1/2時(shí)所對應(yīng)的超平面。因?yàn)檫壿嫽貧w的值域分布為(0,1)而不是整個(gè)實(shí)數(shù)域,所以在用作回歸問題時(shí),通常是被用作擬合隨機(jī)變量的發(fā)生概率。在互聯(lián)網(wǎng)廣告中,也是使用邏輯回歸來預(yù)測發(fā)生點(diǎn)擊這一事件的概率,即點(diǎn)擊率CTR。在廣告的CTR預(yù)估中,x是表示廣告的特征,通常為處理過后的0,1特征,維度極高,一般為上億級(jí)別。廣告系統(tǒng)利用一段時(shí)間的廣告點(diǎn)擊日志作為訓(xùn)練數(shù)據(jù),離線訓(xùn)練得到特征權(quán)重w,并用在線算法和實(shí)時(shí)數(shù)據(jù)不斷微調(diào)w。最后得到的特征權(quán)重w,被用于實(shí)時(shí)計(jì)算廣告的CTR。在廣告系統(tǒng)中,通常采用極大似然估計(jì)法來學(xué)習(xí)特征權(quán)重w,對于給定的訓(xùn)練樣本集,這里如果樣本i被點(diǎn)擊了,那么取1;否則取0。訓(xùn)練樣本集T的似然函數(shù)為:這里。上式其實(shí)是一個(gè)條件判斷公式,對于=1的樣本,為1,似然函數(shù)只取;而對于=0的樣本,為1,似然函數(shù)只取1-。似然函數(shù)是一個(gè)連乘積的形式,在求導(dǎo)過程中不容易計(jì)算,所以大部分極大似然估計(jì)法通常最大化的是似然函數(shù)的對數(shù),對數(shù)似然函數(shù)為:需要注意的是,不論是似然函數(shù)還是對數(shù)似然函數(shù),都是關(guān)于特征權(quán)重w的一個(gè)函數(shù),極大似然估計(jì)法的目的,就是需要通過各種優(yōu)化方法找到使得對數(shù)似然函數(shù)最大化的特征權(quán)重。在優(yōu)化方法的學(xué)術(shù)術(shù)語中,邏輯回歸的求解屬于無約束的優(yōu)化問題,且目標(biāo)函數(shù)負(fù)對數(shù)似然函數(shù)恰好是凸函數(shù),并且在可行域上連續(xù)可微。不了解優(yōu)化的讀者可能不理解上面一句話的意思,簡單的說,就是邏輯回歸的似然函數(shù)恰好滿足很好的性質(zhì),很多種經(jīng)典的優(yōu)化方法都可以被用于求解特征權(quán)重w。常用的方法包括,梯度下降法、隨機(jī)梯度下降法、牛頓法和擬牛頓法。下面以梯度下降法為例,繼續(xù)介紹如何求解邏輯回歸的特征權(quán)重w。對于無約束優(yōu)化問題,梯度下降法的核心思想是,對于一個(gè)給定的特征權(quán)重值,我們需要找到一個(gè)方向,保證特征權(quán)重值往這個(gè)方向走一點(diǎn),能得到似然函數(shù)值更大的。這樣,進(jìn)過不停的迭代,讓特征權(quán)重值收斂在最優(yōu)特征權(quán)重。這里,我們需要找的方向就是負(fù)對數(shù)似然函數(shù)的梯度方向,即對于來說,其需要找的方向?yàn)椋哼@里,用f(w)表示負(fù)對數(shù)似然函數(shù)。需要注意的是,是一個(gè)維度與x,w相同的向量,而不是一個(gè)標(biāo)量。而w的迭代公式如下:其中,為第k步的迭代步長,步長的選擇是梯度下降法里最為糾結(jié)的研究課題,步長設(shè)定的過大,容易造成迭代過程在最優(yōu)特征權(quán)重附近來回振蕩而不收斂,設(shè)定太小的步長又會(huì)使求解的過程太慢。這里我們就不再贅述步長選擇問題。在實(shí)際廣告系統(tǒng)中,特征向量的x維度極高,至少在億量級(jí),有些系統(tǒng)甚至上百億千億。如此高維的特征向量,極易造成模型過擬合,從而影響模型的泛化能力。因此,需要用正則化的方法防止模型過擬合,其中最常用的正則化方法是L2正則和L1正則,兩種正則化后的負(fù)對數(shù)似然函數(shù)如下:上式中的NLL是負(fù)對數(shù)似然函數(shù),是一個(gè)正則項(xiàng)權(quán)重,L2正則項(xiàng)即w中每一維權(quán)重值的平方和,而L2正則項(xiàng)是w中每一維權(quán)重值的絕對值和。L2正則,可以防止得到單維絕對值過高的w,從而防止模型過擬合。L1則更加激進(jìn),不僅可以防止出現(xiàn)單維絕對值過高,還能使得大量特征的權(quán)重為0,從而起到特征選擇的作用,因此,L1正則方法在互聯(lián)網(wǎng)廣告CTR預(yù)估中被廣泛的應(yīng)用。在實(shí)際的廣告系統(tǒng)中,用戶的興趣習(xí)慣可能會(huì)在某個(gè)時(shí)間點(diǎn)發(fā)現(xiàn)突然的漂移。例如,淘寶的雙十一促銷、情人節(jié)玫瑰的熱銷等。這些漂移要求模型能夠針對新數(shù)據(jù)的反饋,迅速改變模型權(quán)重,以適應(yīng)現(xiàn)實(shí)環(huán)境的變化。在機(jī)器學(xué)習(xí)領(lǐng)域,這種針對流數(shù)據(jù),不斷改變模型的問題被稱為在線學(xué)習(xí)。邏輯回歸的極大似然估計(jì)天然具有在線學(xué)習(xí)的基因,因?yàn)閷?shù)似然函數(shù)具有樣本可加性,樣本集的對數(shù)似然函數(shù)是每一個(gè)樣本的對數(shù)似然函數(shù)之和。對于邏輯回歸問題,一種常用的在線學(xué)習(xí)算法是隨機(jī)梯度下降算法,其思想是對于一條給定的樣本(x,y),其負(fù)對數(shù)似然函數(shù)為:對于該樣本的NLL,可以計(jì)算其梯度方向?yàn)椋弘S機(jī)梯度下降法的思路是,對每一條新到來的新樣本(x,y),計(jì)算出其梯度方向g,然后選擇一定的步長參考如下公式,更新模型權(quán)重。可以看出,隨機(jī)梯度下降法和梯度下降法并沒有本質(zhì)的區(qū)別,只是在計(jì)算梯度的順序上有所不同。不僅是在線學(xué)習(xí),即使是離線訓(xùn)練模型時(shí),也可以使用隨機(jī)梯度下降方法,反復(fù)的順序或者隨機(jī)從樣本集中抽取樣本,計(jì)算梯度,更新模型權(quán)重,直到模型權(quán)重收斂時(shí)停止。當(dāng)數(shù)據(jù)冗余比較大時(shí),隨機(jī)梯度下降法具有比梯度下降法更快的收斂速度。此外,對于存在局部最優(yōu)解的學(xué)習(xí)問題,隨機(jī)梯度下降法更容易從局部極值點(diǎn)逃逸。因此,在廣告系統(tǒng)學(xué)習(xí)實(shí)際模型時(shí),普遍使用隨機(jī)梯度下降法代替梯度下降法進(jìn)行訓(xùn)練。2.3.2特征處理方式特征處理是介于具體廣告業(yè)務(wù)和底層機(jī)器學(xué)習(xí)算法之間的一層。我們現(xiàn)在已經(jīng)有了一個(gè)比較不錯(cuò)的機(jī)器學(xué)習(xí)模型,能夠幫我們綜合各種信息,擬合出廣告的CTR。同時(shí),我們又有了一系列預(yù)測CTR的先驗(yàn)知識(shí),比如廣告中的字和查詢關(guān)鍵字匹配越多CTR越高。特征處理的任務(wù)就是將人的先驗(yàn)知識(shí),表示成機(jī)器學(xué)習(xí)算法能夠接受的方式。對于搜索廣告而言,大部分是以文字鏈的形式出現(xiàn),其CTR預(yù)估的粒度也通常是以<關(guān)鍵字,廣告>對的粒度進(jìn)行預(yù)估,常用的特征通常包括以下幾類:廣告和查詢關(guān)鍵字的相似度,這類特征用于衡量廣告和查詢關(guān)鍵字的關(guān)聯(lián),一些自然語言處理常用的計(jì)算相似度方法都可以作為特征,包括,廣告和查詢關(guān)鍵字的共現(xiàn)詞個(gè)數(shù),廣告和查詢關(guān)鍵字的cosine距離、KL距離、編輯距離等。有些復(fù)雜的廣告系統(tǒng),也會(huì)使用比較復(fù)雜的語義相似度作為特征。廣告本身的特征,如廣告的歷史CTR、歷史展現(xiàn)、廣告對于商品的價(jià)格、廣告的字?jǐn)?shù)、廣告所包含的詞語等。查詢本身的特征,如查詢關(guān)鍵字歷史的廣告CTR、歷史展現(xiàn)、查詢所包含的詞語等。相似廣告的特征,比如與當(dāng)前廣告相似的廣告的歷史CTR等特征,以及其與當(dāng)前廣告的相似度。相似查詢的特征,比如與當(dāng)前查詢相似的查詢的歷史CTR等特征,以及其與當(dāng)前查詢的相似度。廣告的樹形結(jié)構(gòu)信息,通常的廣告系統(tǒng)是一棵廣告主—廣告賬戶—廣告計(jì)劃—廣告組—廣告創(chuàng)意的樹形結(jié)構(gòu),那么倘若待預(yù)估廣告創(chuàng)意的展現(xiàn)不足,而同廣告主的其他廣告創(chuàng)意的展現(xiàn)充足。那么,同一個(gè)廣告主的其他廣告創(chuàng)意的CTR往往能對預(yù)估當(dāng)前廣告創(chuàng)意的CTR提供很大的幫助。因此,這條廣告樹形結(jié)構(gòu)的每一點(diǎn)都可以作為特征加入到回歸模型中。以上的信息,還是屬于原始信息的范疇。對于邏輯回歸來說,還是很難從直接使用這些原始信息建模。在工業(yè)界,很少直接將連續(xù)值作為特征喂給邏輯回歸模型,而是將連續(xù)特征離散化成一系列0、1特征,交給邏輯回歸模型。離散化的方法通常有兩種,等距劃分和等頻劃分。等距劃分是根據(jù)連續(xù)特征X的值域范圍,等間距的分為n段,產(chǎn)生,n個(gè)0、1特征,當(dāng)X的取值屬于第i段時(shí),則為1,否則為0。等頻劃分是按照特征在訓(xùn)練樣本中的出現(xiàn)頻率,將其分成頻率相同的幾段,這種方式可以保證在訓(xùn)練樣本中出現(xiàn)的頻率相同,對于一些分布不均勻的信息,如廣告的展現(xiàn)量等,通常效果較好。2.3.3算法評估在工業(yè)環(huán)境下,一個(gè)CTR預(yù)估模型效果是否好,最終的檢驗(yàn)方法是看其應(yīng)用于廣告系統(tǒng)中時(shí),是否能帶來穩(wěn)定的收入提升。大型互聯(lián)網(wǎng)企業(yè),會(huì)建立一套分流機(jī)制,從生產(chǎn)系統(tǒng)中切出一部分小流量,用于實(shí)驗(yàn)算法。只有在小流量上,算法能保證,CTR、PPC、RPM等指標(biāo)符合要求,才會(huì)考慮將算法發(fā)布到全流量上。然而,小流量實(shí)驗(yàn)畢竟也會(huì)涉及線上效果和收入的變化。為了保證算法確實(shí)有可能提升線上效果,通常在小流量實(shí)驗(yàn)前,算法還需要經(jīng)過一些離線指標(biāo)的驗(yàn)證。搜索廣告的CTR預(yù)估是以<關(guān)鍵字,廣告>對的粒度進(jìn)行預(yù)估,這樣的對在測試集上能夠獲得的展現(xiàn)往往很少。這樣,就無法使用傳統(tǒng)的誤差平方和等指標(biāo),衡量預(yù)估的CTR和真實(shí)CTR之間的差異。解決的方案是使用AUC來衡量CTR預(yù)估的精度。AUC的英文全稱為AreaUnderCurve,意思是曲線下面積。這里的曲線指的是ROC曲線,ROC全稱為ReceiverOperatingCharacteristics,經(jīng)常被用于模式識(shí)別領(lǐng)域,用于衡量分類器的精度。ROC是二維平面上的曲線,平面的橫坐標(biāo)是falsepositiverate(FPR)假陽性率,即反例樣本中被誤分為正例的比例,縱坐標(biāo)是truepositiverate(TPR)真陽性率,即正例樣本中被準(zhǔn)確的分為正例的比例。分類器在測試集上的表現(xiàn)可以表現(xiàn)為一個(gè)TPR和FPR點(diǎn)對。調(diào)節(jié)分類器的參數(shù),可以使得分類器在ROC曲線上形成一條從(0,0)到(1,1)的曲線。AUC便是計(jì)算分類器在ROC曲線下的面積之和。當(dāng)ROC曲線是一條從(0,0)到(1,1)的直線時(shí),表明分類器的分類為隨機(jī)分類,此時(shí)的AUC為0.5。在廣告系統(tǒng)中,并不是通過得到ROC曲線,再求其面積得到AUC的。互聯(lián)網(wǎng)廣告系統(tǒng)計(jì)算AUC的方法源自AUC的一個(gè)有趣的性質(zhì),AUC等價(jià)于正樣本的score大于負(fù)樣本的score的概率。有了這個(gè)性質(zhì),我們就可以通過求得這個(gè)概率,計(jì)算得到AUC。求得這個(gè)概率的方法是通過統(tǒng)計(jì)測試集中所有的正樣本負(fù)樣本對,并計(jì)算其中正樣本score大于負(fù)樣本score的概率,如果正負(fù)樣本的score值相同,則按照0.5個(gè)正樣本score大于負(fù)樣本score對計(jì)算。在互聯(lián)網(wǎng)廣告計(jì)算AUC時(shí),以被點(diǎn)擊的樣本為正樣本,沒有被點(diǎn)擊的樣本為負(fù)樣本,預(yù)估模型計(jì)算出的CTR為score值進(jìn)行計(jì)算。窮舉所有正負(fù)樣本對的方法有時(shí)候計(jì)算開銷會(huì)比較大,因?yàn)椋绻僭O(shè)正樣本個(gè)數(shù)為M,負(fù)樣本個(gè)數(shù)為N,則計(jì)算AUC的開銷是M*N。可以通過排序的辦法,減少計(jì)算AUC的時(shí)間復(fù)雜度,具體做法是,將樣本按照score的大小從高向低排序,score第一大的樣本獲得一個(gè)n=M+N的rank值,第二大的樣本獲得的rank值為n-1,以此類推。那么,對于rank為r的正樣本i,能組成的正樣本score大于負(fù)樣本score的樣本對個(gè)數(shù)為r-排在i后的正樣本個(gè)數(shù)。由此,AUC可以按照如下方式進(jìn)行計(jì)算,這里需要特別注意的是,如果i個(gè)樣本的score值相同,那么他們的rank值也相同,假設(shè)比他們score大的樣本有j個(gè),則這i個(gè)樣本的rank值為n-j-(i-1)/2,以此類推。2.4廣告主推薦工具2.4.1投放要素前面講了搜索廣告的架構(gòu)和廣告排序方面的知識(shí)。那么,一個(gè)廣告主是如何將自己的廣告投放出去的呢?系統(tǒng)為廣告主提供了哪些推薦的候選競價(jià)詞?這一章就來講講廣告主推薦工具方面的事情。首先,廣告主要注冊一個(gè)推廣賬戶。一般來說,一個(gè)推廣賬戶(Account)包含多個(gè)推廣計(jì)劃(Campaign),一個(gè)推廣計(jì)劃又包含多個(gè)推廣的單元(Group),設(shè)置Group的時(shí)候主要需要競價(jià)詞(Bidword)和廣告創(chuàng)意(Creative),如下圖所示。圖7投放層級(jí)關(guān)系在這里,一個(gè)廣告主對應(yīng)一個(gè)賬戶(Account)很好理解。一個(gè)賬戶下面對應(yīng)多個(gè)推廣計(jì)劃(Campaign)的用意是廣告主可以根據(jù)實(shí)際情況創(chuàng)建多個(gè)側(cè)重點(diǎn)不同的推廣活動(dòng),舉個(gè)例子:一個(gè)店鋪對于夏天的新款服裝單獨(dú)組建一個(gè)Campaign,既便于對新款推廣的管理,也便于對新款推廣效果的分析。一個(gè)Campaign對應(yīng)多個(gè)Group,這里的Group已經(jīng)是很細(xì)節(jié)的單元了,一般來說對應(yīng)的是一個(gè)單獨(dú)的商品,對這個(gè)單獨(dú)商品可以設(shè)置競價(jià)詞(Bidword)還有價(jià)格(Bidprice)等等。雖然一個(gè)Group一般對應(yīng)一個(gè)商品,但是Group下面的Creative可以有多個(gè),目的是為了讓廣告主比較不同創(chuàng)意的效果,從而最終篩選出好的創(chuàng)意。對于Group來說,除了Bidword和Creative這兩個(gè)最基本的要素,還有其它需要完善的需求和策略,如下圖所示。圖8
一個(gè)Group完整的投放需求和策略列表為了能幫助廣告更好的推廣自己的創(chuàng)意,搜索廣告系統(tǒng)需要幫助廣告主“充分表達(dá)自己的投放需求”。為了達(dá)到這一目標(biāo),需要給廣告主提供投放的基本元素,如下圖所示。圖9
給廣告主提供投放的基本元素所以,推薦的重點(diǎn)就在競價(jià)詞(Bidword)。跟推薦系統(tǒng)不同的是,搜索廣告系統(tǒng)的競價(jià)詞推薦,需要考慮“推薦被采用以后的效果”,這里的效果指的是獲得了多少的展現(xiàn),多少的點(diǎn)擊,等等。2.4.2競價(jià)詞推薦方式競價(jià)詞的推薦方式,一類可以叫做主動(dòng)推薦,一類可以叫做被動(dòng)推薦。主動(dòng)推薦指的是不用廣告主參與,由搜索廣告系統(tǒng)直接根據(jù)商品特征和候選詞特征,計(jì)算出最適合的一些競價(jià)詞,由廣告主進(jìn)行選擇。而被動(dòng)推薦指的是廣告主主動(dòng)創(chuàng)建一些搜索詞(廣告主后續(xù)對這些搜索詞會(huì)進(jìn)行競價(jià)),然后由廣告系統(tǒng)根據(jù)這些搜索詞和商品的特征一起計(jì)算出一些候選詞,由廣告主選擇。競價(jià)詞的匹配方式,一種可以叫做精確匹配,一種可以叫做模糊匹配。精確匹配指的是只有精確命中廣告主所競價(jià)的詞,才展出廣告主的創(chuàng)意;而模糊匹配則由廣告系統(tǒng)對競價(jià)詞進(jìn)行一定程度的擴(kuò)展,擴(kuò)大了命中的范圍。推薦工具實(shí)際上就是找到“一座橋梁”:從廣告主的推廣內(nèi)容到候選詞庫,可以考慮用級(jí)聯(lián)二部圖來做。舉個(gè)例子,如下圖所示是一個(gè)賣戶外服裝的垂直B2C電商網(wǎng)站(廣告主1)和一個(gè)賣運(yùn)動(dòng)服裝的垂直B2C電商網(wǎng)站(廣告主2),想要在搜索引擎進(jìn)行關(guān)鍵詞推廣,中間一列是提取的網(wǎng)站關(guān)鍵詞,右邊是推薦的候選詞集合。圖10
級(jí)聯(lián)二部圖例子如果要找到推薦給廣告主的所有候選詞,需要計(jì)算廣告主跟候選詞全集的相關(guān)度,然后排序,即找到<廣告主,候選詞>的所有打分,然后找到最高的N個(gè)。簡單來說,需要下面幾步:1.廣告主到中間節(jié)點(diǎn)的邊的歸一化權(quán)重,中間節(jié)點(diǎn)到候選詞的邊的歸一化權(quán)重。在這個(gè)例子里,這一步主要是文本相關(guān)性。2.根據(jù)中間節(jié)點(diǎn)出度、入度等信息,計(jì)算中間節(jié)點(diǎn)的調(diào)整系數(shù),結(jié)合第一步的相關(guān)性,計(jì)算出:廣告主1,通過一個(gè)中間節(jié)點(diǎn),到一個(gè)候選詞的分?jǐn)?shù);即<廣告主1,中間節(jié)點(diǎn),候選詞>的分?jǐn)?shù)。3.根據(jù)<廣告主1,中間節(jié)點(diǎn),候選詞>的數(shù)據(jù),固定一個(gè)候選詞(比如是候選詞1),綜合所有中間節(jié)點(diǎn),計(jì)算所有的<廣告主1,候選詞1>分?jǐn)?shù)。循環(huán)計(jì)算,直至算完所有的候選詞集合,獲得<廣告主1,候選詞>打分列表。4.根據(jù)分?jǐn)?shù)排序,獲得最前面的N個(gè)詞。在第1步計(jì)算當(dāng)中,需要計(jì)算相關(guān)性,方法很多,比如:Cosine距離、歐式距離、KL距離、Jaccard系數(shù)、Dice系數(shù)、Pearson系數(shù)……等等。這些方法都是很經(jīng)典的方法,這里就不展開介紹了。在第2步的時(shí)候提到的調(diào)整系數(shù),其實(shí)就是因?yàn)橹虚g節(jié)點(diǎn)本身的權(quán)重不一樣,所以可以考慮tf-idf等方法調(diào)整一下。在找到N個(gè)候選詞之后,可以考慮用模型進(jìn)行更精細(xì)的打分預(yù)估,把相關(guān)性、反饋信息、關(guān)鍵詞特征……等,都加入到模型里進(jìn)行預(yù)估,得到一個(gè)整體的預(yù)期收益打分。關(guān)于邏輯回歸等方法,在這里就不展開了。2.4.3其它工具在投放前,廣告主需要一些數(shù)據(jù)來幫助他做決策,在投放后,廣告主需要一些反饋數(shù)據(jù)來跟蹤效果。下面列舉一些常見的數(shù)據(jù)。還有一些廣告主推薦工具,是一些投放模板,也就是一些現(xiàn)成的投放計(jì)劃(包含了各種投放元素怎么設(shè)置,甚至關(guān)鍵詞應(yīng)該怎么購買),可以作為參考。2.5實(shí)踐一:在線學(xué)習(xí)前沿在工業(yè)界中,通常使用廣義線性模型來進(jìn)行CTR預(yù)估,前面講到的邏輯回歸模型,就是一種廣義線性模型。在實(shí)際使用中,特征向量x的維度可以高達(dá)幾十億甚至幾百億維。但是,對于每一條樣本來說,其非零元素往往只有幾十甚至幾百個(gè)。這種讓特征量級(jí)大幅度縮減的技術(shù)就是通常所說的特征稀疏化。在機(jī)器學(xué)習(xí)中,經(jīng)常使用L1范數(shù)作為懲罰項(xiàng),加入目標(biāo)函數(shù)中,使得模型的特征量縮減。例如,可以將邏輯回歸的目標(biāo)函數(shù)修
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西湖初中必考題及答案
- 讀燈火讀后感
- 雨季三防測試題及答案
- 寧波職業(yè)技術(shù)學(xué)院《基礎(chǔ)外語》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年四川樂山市中區(qū)高三第一次診斷考試數(shù)學(xué)試題含解析
- 2024-2025學(xué)年山東省泰安市第四中學(xué)高三下學(xué)期九模考試生物試題含解析
- 黑龍江民族職業(yè)學(xué)院《高等代數(shù)綜合訓(xùn)練》2023-2024學(xué)年第二學(xué)期期末試卷
- 福建省海濱學(xué)校、港尾中學(xué)2025屆高三下學(xué)期自測卷(三)線下考試化學(xué)試題含解析
- 黑龍江省綏化市青岡縣一中2024-2025學(xué)年高三第二次診斷考試化學(xué)試題含解析
- 山東建筑大學(xué)《山西美食及地方文化》2023-2024學(xué)年第二學(xué)期期末試卷
- 船舶運(yùn)輸合同(運(yùn)輸管樁)
- 2023年全國職業(yè)院校技能大賽-老年護(hù)理與保健賽項(xiàng)規(guī)程
- DL∕T 664-2016 帶電設(shè)備紅外診斷應(yīng)用規(guī)范
- 2024年新課標(biāo)Ⅱ高考英語真題試題(原卷版+含解析)
- QB/T 2660-2024 化妝水(正式版)
- 浙江省寧波市2024屆高三下學(xué)期選考模擬考試(寧波二模)2023至2024化學(xué)試題附參考答案(解析)
- 嘉世咨詢:2024現(xiàn)制茶飲行業(yè)簡析報(bào)告
- 2024廣東中山大學(xué)文獻(xiàn)與文化遺產(chǎn)管理部招聘43人歷年公開引進(jìn)高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 中心靜脈置管術(shù);深靜脈穿刺技術(shù)
- 《提案與方案優(yōu)化設(shè)計(jì)》課件-第三部分 設(shè)計(jì)提案制作
- 碩博研究生英語綜合教程完整版電子課件
評論
0/150
提交評論