阿里媽媽展示廣告預估校準演進之路_第1頁
阿里媽媽展示廣告預估校準演進之路_第2頁
阿里媽媽展示廣告預估校準演進之路_第3頁
阿里媽媽展示廣告預估校準演進之路_第4頁
阿里媽媽展示廣告預估校準演進之路_第5頁
已閱讀5頁,還剩15頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大綱背景介紹校準算法演進工程實踐總結與展望預估技術的挑戰真實點擊概率(ACTR)預估點擊率(PCTR)優化序關系(AUC)()而非大小準確性(MSE)()淺層模型算力經濟時代廣告推薦搜索用戶行為概率預估技術(點擊率,轉化率,短視頻3s曝光率等)是搜索、推薦以及廣告領域的核心技術能力。1點擊率預估模型輸出的值是真實點擊概率嗎? 用戶的真實點擊概率可以被準確預測嗎?如何衡量模型的準確性?AUC?更龐大,更精細,更準確深度模型大規模深度模型預估校準在廣告中的必要性校準技術在出價準確性/穩定性(包括算法出價oCPX / Auto-Bidding),競價公平性,計劃冷啟動等方面發揮作用。廣告出價(bid

2、)pCTReCPMRankad11.50.8%121ad20.61.8%112ad31.01.0%103ad40.51.4%74舉例1:CPC出價下4個廣告參競ad3:PCTR 1.0% 1.3% 絕對值高估30%,AUC不變 eCPM 10 13,競得展示機會 廣告拿量能力變大,平臺期望收入降低!#$ = &( *+, -.舉例2:CPC(AD2&AD4) & CPM(AD1&AD3)廣告混競廣告出價pCTReCPMRankAD11.0%131AD21.01.1%112AD31.2%93AD40.51.4%74AD2:PCTR 1.1% 1.2% AD1多扣費,平臺收入增加 PCTR 1.1

3、% 1.0% AD1少扣費,平臺收入折損多種Bid類型多種物料多種預估模型廣告/推薦混排2校準目標與問題拆解校準目標使用戶行為的預估值盡可能逼近真實概率值,最小化MSE(排序水平不降,絕對值變好)相關工作預估模型和校準方法結合將先驗信息,數據采樣比例等導致絕對值偏差的因素引入模型中(或結合常用校準方法)后處理方法(Post-processing)預估模型和校準算法解耦(輕量級的后處理技術,如Binning,Scaling,Binning-scaling方法)計算絕對值準確的后驗概率構建校準函數對預估值與絕對值進行映射關鍵問題(針對后處理校準方法)校準維度選擇問題:特征越相似的PV,模型預估效果

4、(PCTR高/低估)越接近,校準系數計算越準確數據稀疏問題:數據量越稀疏,后驗統計誤差越大,校準系數的計算準確度越低如何獲得準確的后驗概率?3校準評價指標Predicted click over click (PCOC)PCOC = average calibrated probabilityposterior probabilityCal-N =Ni=1error2NPCOCi 1PCOCii , where errori = 1 1PCOCi 1PCOCi 1GC-N =mwjCal-Njj=1m4j=1 wjCalibration-N (Cal-N)Distribution Approx

5、imation: Aggregate samples with similar calibrated probabilitiesGrouped Calibration-N (GC-N)Domain-specific: weighted average Cal-N of m campaignsSamplesCalibrated ProbPosterior ProbPCOC100000.20.40.5(低估)100000.80.61.3(高估)Total(0.2+0.8)/2(0.4+0.6)/21.0(正常?)PCOC的局限性(舉例):阿里媽媽校準校準算法演進5SIR:保序回歸平滑校準算法(Sm

6、oothed Isotonic Regression)1. 分桶(Binning):不同預估值大小區 間為校準的維度2. 保序回歸(Isotonic Regression):利用 模型排序能力減小稀疏問題影響3. 線性插值(Linear Interpolation)保證校 準函數的平滑性! = $% + % ( )! *% -%)6Calibrating user response predictions in online advertising ECML-PKDD 2020SIR:保序回歸平滑校準算法(Smoothed Isotonic Regression)“計劃”創建后SIR算法的校準

7、效果新建計劃初始階段的 投放效果強時效性計劃直播小計劃(客戶)公平性活躍度SIR算法在AB兩個數據集上的實驗對比(N為分桶數,GC-N表現)預估/校準冷啟動問題7數據已脫敏Bayes-SIR:貝葉斯平滑SIR校準算法樸素的貝葉斯平滑思想舉例:!# = !%&!()!# = !%&! + +,() + +-先驗信息8Bayes-SIR:貝葉斯平滑SIR校準算法應用貝葉斯思想緩解數據稀疏帶來的點擊率統計不準確問題, 結合SIR解決校準冷啟動問題。概率圖CTR服從參數為!, #的貝 塔分布展示/點擊服從參數為$%&的二項分布1)先驗數據2)貝塔分布參數求解(矩估計/似然)3)觀測數據(不置信)4)后

8、驗點擊率貝葉斯平滑CTR估計9RTW-BSIR:實時Bayes-SIR校準算法PCOC的波動問題會嚴重影響算法出價(oCPX,Auto-Bidding)的效率、穩定性以及客戶側表現。數據已脫敏PCOC=1.5 PCOC=1.0PCOC=0.6 1天之內的PCOC變化曲線(整天平均PCOC=1.0)加劇環境波動,影響算法策略的穩定性廣告主成本(PPC)不可控,影響廣告成效和賠付時序上的PCOC波動問題?10RTW-BSIR:實時Bayes-SIR校準算法這是一種典型的數據偏移(Dataset Shift)問題,解法的核心思想在于:計算訓練數據與應用數 據的分布差異來修正校準函數(也可采用反事實推

9、斷思想進行無偏處理),實現無偏的校準。111) Binning方式單一缺乏靈活性 2) 排序能力上具備天花板3) 無法自定義校準目標SIR系列校準算法小結SIRBinning,Scaling, IR思想結合引入貝葉斯平滑思想 解決冷啟動問題Bayes-SIRRTW-BSIR解決數據偏移問題帶 來的時序波動影響可解釋輕量級快速可迭代收益顯著12算法思想樹結構特性:白盒,可解釋,可轉化為“IFTHEN”規則節點劃分方法:自定義校準目標下啟發式學習復雜的分箱規則(Binning)Boosting設計:增強模型的表征能力和對稀疏數據的處理能力MBCT:基于樹結構的Boosting校準技術Multipl

10、e Boosting Calibration Tree13后鏈路預估值校準(PCCEM)后鏈路指標:曝光/點擊之后的加購、收藏、轉化、關注等指標。數據稀疏性:后鏈路指標相比點擊更加稀疏,正樣本極少(如CVR通常小于0.1%)延遲反饋:后鏈路指標的反饋延遲通常有數小時甚至數天需求多樣性:后鏈路指標效果優化的重要性越來越強,優化指標的類別越來越多14后鏈路預估值校準(PCCEM)Post-Click Conversion Estimation Model (PCCEM)15算法落地與工程實踐廣告系統模塊結構簡圖AD SELECTIONPREDICTIONCALIBRATIONRANKINGPRED

11、ICTION MODEL TRAININGCALIBRATION FUNCTION LEARNINGAD SERVING SYSTEMUserUSER DBAD DBMODEL TRAINING(stream/batch)Ad request (with context)Ad result (with tracking)User Candidate ads ContextUser Candidate adsPredicted probabilitiesUser Candidate adsCalibrated probabilitiesPrediction modelCalibration fu

12、nctionUser response (clicks,conversions)16算法落地與工程實踐17SIR & PCCEM算法數據流程示意圖總結與展望1999Platt Scaling2001Histogram Binning2002Isotonic Regression2011Smooth Isotonic Regression2015Bayesian Binning2017Temperature Scaling2017Beta Calibration20182019DirichletAttendedScaling/PCCEMTemperature/MBCTScaling/SIR2020Individual Calibration/Field-aware Calibration/Bayes- SIR/RTW-BSIR2021Deep Model & Calib

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論