2024騰訊Yoo視頻底層頁系統_第1頁
2024騰訊Yoo視頻底層頁系統_第2頁
2024騰訊Yoo視頻底層頁系統_第3頁
2024騰訊Yoo視頻底層頁系統_第4頁
2024騰訊Yoo視頻底層頁系統_第5頁
已閱讀5頁,還剩12頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

騰訊Yoo視頻底層頁推薦系統234的行為)。請求TriggerTrigger合并召回結果,輸入rank層做排序;listfaissredis,做消息隊列的Hippo,還有一些數據分發服務。Hadoop,Spark,SparkStreaming,以及機器學習計算平臺Angel和Tensorflow。itemitemlistitemInception模型,輸入圖像做前向計算,將softmax前的輸出層取出來即可得到一個embeddingfaiss前采用人工的方法,人工評估召回的topN圖片中有幾個是相似的。Title/TagEmbeddingword2vecNetworkEmbeddingGraphEmbedding,有三種方式:1.矩陣分解:效果不太好,用的比較少2.隨機游走:利用隨機游走構造一些序列做embedding3.具體使nlp(每個視頻作為一個單詞)訓練word2vec。直接用word2vec會有一些問題,可以優化的方式包括:1.對高低頻的item(視頻)做過濾和降采樣2.合理的劃分session(取多少天的數據)。NetworkEmbedding常見的做法并不是先將樣本直接構造成skip-gram的形式,而是先Embedding學習。這樣做存在的問題1:新的item缺少行為數據導致圖稀疏,解決方案tree-baseddeepmatchitem,為了減少問題的規模,將候選集構建成樹結構,只有葉子節點才是單個的item,每個非葉子節點潛在表達了子孫items。listlistlistb)每層選擇兄弟節點作為負樣本,這faiss的是TDM這種全庫查詢的方式。sparsefeatureidembedding,每一列是一個field,比如畫像信息、上下文等等。然后concat,經過全聯接的隱藏層之后輸出。DNN模型的效果與LR相比沒有很大提升,原因是低階特征組合能力不足,但好處Wide&DeepWideLRDNNauc對LR/DNN有1%的提升,不過依然依賴于人工做一些交叉特征。Wide&DCN模型是2017cross層做特征交叉,具體的交叉方式如公式所示:每一層的Embedding由上一層和第0層交叉,每一層中的aucW&D1%,而DeepFM和W&D相比提升不大。Tensorflowvs(TFRecord)。明文的特點是可讀性String結構比較占用空間,解析速度也慢。特征結構嘗試過三種方式。第一種是明文形式,FeatureColumn的速度非常慢,特征ID化方式FeatureColumnIDidhash結構無法支持。第二種是序列化特征id,這種做法的缺點是序列化速度慢,好處是可以做斷是采用同一個線程,所以在加載模型的時候會出現推斷服務短暫阻塞,造成超時。WarmUp不過可以通過BatchThread提升計算效率。TensorflowAPI不限制于一定要固定的時間間隔加載一次。另外還可以自行調用session函數進行并行推batchsizeTensorflowdatasetapicacheEmbeddingTensorflowtimeline在提高模型的推斷效率方面,可以優化線上特征數據拼接效率,及控制線程和batch之間的關注點是有一些不同的,推薦更關注對用戶興趣的描述,而搜索關注對query的理解。阿里的DIN和DIEN是大家公認對效果提升比較明顯的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論