




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、層次分類中結(jié)構(gòu)關(guān)系的挖掘提綱背景及意義傳統(tǒng)層次分類算法重排序模型(acl 2012,Qi)局部漸增式重排序模型總結(jié)&下一部分工作2014.3CTO俱樂部 營銷技術(shù)經(jīng)驗(yàn)點(diǎn)滴談(圖書評論處理,推薦算法,相似品牌)目錄體系對于算法處理很重要更新當(dāng)當(dāng)網(wǎng)目錄體系,為實(shí)際應(yīng)用鋪平道路(reranker from acl 2012,Qi)層次目錄實(shí)例當(dāng)當(dāng)網(wǎng)目錄體系存在的問題商品運(yùn)營事業(yè)部,根據(jù)供應(yīng)鏈,人工建立(機(jī)械表)保溫杯:戶外運(yùn)動(dòng),日用家居等羽絨服:戶外運(yùn)動(dòng),服裝等信息被零碎化,沒有從用戶選購商品角度考慮存在的問題商品事業(yè)部基于商家,供銷數(shù)據(jù),專業(yè)知 識等技術(shù)基于用戶選購角度的商品目錄體系影響搜索,廣告
2、,推薦等實(shí)際應(yīng)用其他問題內(nèi)部人員編輯內(nèi)容內(nèi)容多面性信息零碎化大數(shù)據(jù),耗費(fèi)人力實(shí)時(shí)性難以得到滿足統(tǒng)一的分類模型基于用戶,保留信息整體性節(jié)省事業(yè)部人力無縫隙和技術(shù)開發(fā)對接保證實(shí)時(shí)性,高效提綱背景及意義傳統(tǒng)層次分類方法重排序算法擴(kuò)展結(jié)果產(chǎn)生最優(yōu)結(jié)果選擇結(jié)果的結(jié)構(gòu)化表示正負(fù)樣本構(gòu)建Reranker訓(xùn)練Reranker測試效果及性能局部漸增式重排序模型總結(jié)及下一步工作扁平分類服飾/內(nèi)衣男裝女裝內(nèi)衣襪品服飾配件裙裝針織衫外套T恤襯衫外套女裝 內(nèi)衣襪品男裝裙裝針織衫外套T恤襯衫外套二分類模型服飾/內(nèi)衣 服飾配件自頂向下分類服飾/內(nèi)衣女裝男裝內(nèi)衣襪品服飾配件裙裝針織衫外套T恤 襯衫外套服飾/內(nèi)衣女裝男裝內(nèi)衣襪
3、品服飾配件裙裝針織衫外套T恤襯衫外套非葉子節(jié)點(diǎn)類:2個(gè)二分類模型,其中:- 子樹模型:判斷商品是否屬于以這個(gè)節(jié)點(diǎn)為根的子樹;- 自身模型:判斷item是否屬于這個(gè)節(jié)點(diǎn)類本身;葉子節(jié)點(diǎn)類:只有自身模型。層次整體分類服飾/內(nèi)衣男裝內(nèi)衣襪品服飾配件 女裝裙裝針織衫外套T恤襯衫外套全局model傳統(tǒng)分類算法缺點(diǎn)相對較低準(zhǔn)確性( 沒有考慮類別依賴關(guān)系)扁平分類自頂向下的層次分類性能低(考慮了依賴關(guān)系)整體分類考慮依賴關(guān)系,高性能的算法提綱背景及意義傳統(tǒng)層次分類方法重排序算法擴(kuò)展結(jié)果產(chǎn)生最優(yōu)結(jié)果選擇結(jié)果的結(jié)構(gòu)化表示正負(fù)樣本構(gòu)建Reranker訓(xùn)練Reranker測試效果及性能局部漸增式重排序模型總結(jié)及下一
4、步工作Reranker-訓(xùn)練2x3x1f(x )1 1f(x )1 2f(x )1 3f(x )1f(x )1 1f(x )y1x1f(x2 )3f(x3 )n 1f(x )2yy3ynxn+ f(x1 )1,f(x1 ) 11 1- f(x ),f(x )+ f(x1 )1,f(x1 )2+ f(x1 )1,f(x1 )3Reranker(1)(2)(3)y 1(4,5)- f(x1 )2 ,f(x1 )1- f(x1 )3 ,f(x1 )1(6)Reranker-訓(xùn)練2x3x1f(x )1 1f(x )1 2f(x )1 3f(x )1f(x )1 1f(x )y1x1f(x2 )3f(x
5、3 )n 1f(x )2yy3ynxn+ f(x1 )1,f(x1 ) 11 1- f(x ),f(x )+ f(x1 )1,f(x1 )2+ f(x1 )1,f(x1 )3Reranker(1)(2)(3)y 1(4,5)- f(x1 )2 ,f(x1 )1- f(x1 )3 ,f(x1 )1(6)扁平分類結(jié)果擴(kuò)展(1 pM 14 ) (1 pM 141 ) (1 pM 142 )(1 pM 143 )P (1 pMCAT )(1 pM 11 ) pM 12 (1 pM) (1 pM 131 ) pM 13213M14M11M12M13M131 M132 M141 M142 M143SVM產(chǎn)
6、生分類概率;聯(lián)合概率P:所以類別概率的乘積;x1 : M12, M132MCATMCAT M11 M12M13 M131 M132 M14 M141 M142 M143扁平分類結(jié)果擴(kuò)展: 基于第二個(gè)(第三大P): 基于第一個(gè)(第三大P):M13M132M14M141M142MCATM11M12M131pMCAT 0.003pM 11 0.006 pM 12 0.453pM 13 0.006 pM 131 0.023 pM 132 0.779 pM 14 0.009pM 141 0.001 pM 142 0.004M143pM 142 0.001MCATM11M12pMCAT 0.003pM 1
7、1 0.006 pM 12 0.453M13M131M132M14pM 13 0.006 pM 131 0.023 pM 132 0.779 pM 14 0.009M141M142pM 141 0.001 pM 142 0.004M143pM 142 0.001M141M142MCATpMCAT 0.003M11M12pM 11 0.006 pM 12 0.453M13M131M132M14pM 13 0.006 pM 131 0.023 pM 132 0.779 pM 14 0.009pM 141 0.001 pM 142 0.004M143pM 142 0.001M14M141M142M1
8、1M12M13M131M132pM 11 0.006 pM 12 0.453pM 13 0.006 pM 131 0.023 pM 132 0.779 pM 14 0.009pM 141 0.001 pM 142 0.004M143pM 142 0.00119P= 0.4040Pro= 0.3346Pro= 0.095Pro= 0.009f(x1 ): 原始輸出(最大P):f(x1 )1 : 在第1個(gè)基礎(chǔ)上改變M12 (第二大P):f(x1 )2f(x1 )3MCATpMCAT 0.003Reranker-訓(xùn)練2x3x1f(x )1 1f(x )1 2f(x )1 3f(x )1f(x )1
9、1f(x )y1x1f(x2 )3f(x3 )n 1f(x )2yy3ynxn+ f(x1 )1,f(x1 ) 11 1- f(x ),f(x )+ f(x1 )1,f(x1 )2+ f(x1 )1,f(x1 )3Reranker(1)(2)(3)y 1(4,5)- f(x1 )2 ,f(x1 )1- f(x1 )3 ,f(x1 )1(6)最優(yōu)擴(kuò)展結(jié)果選擇比較與,Pr, Re和F1值1y1f(x )1 1f(x )1 2f(x )1 3f(x )abc標(biāo)注值預(yù)測值Pr = b/(b+c) Re = b/(a+b)F1=2*Pr*Re/(Pr+Re)最優(yōu)擴(kuò)展結(jié)果選擇PrecisionRecall
10、F1f(x1 )1/11/20.667f(x1 )12/22/21f(x1 )21/11/20.667f(x1 )31/21/20.5由下表得知,對于x1 ,f(x1 )1 在4個(gè)中是最好的性能空間對于每一個(gè)x,假設(shè)總能選擇最好的Micro-F1 = 2*Pr_總* Re_總/(Pr_總 +Re_總)Macro_F1 = average(sum(F1)最優(yōu)性能提供了一個(gè)我們可優(yōu)化的空間Reranker-訓(xùn)練2x3x1f(x )1 1f(x )1 2f(x )1 3f(x )1f(x )1 1f(x )y1x1f(x2 )3f(x3 )n 1f(x )2yy3ynxn+ f(x1 )1,f(x1
11、 ) 11 1- f(x ),f(x )+ f(x1 )1,f(x1 )2+ f(x1 )1,f(x1 )3Reranker(1)(2)(3)y 1(4,5)- f(x1 )2 ,f(x1 )1- f(x1 )3 ,f(x1 )1(6)依賴關(guān)系層次結(jié)構(gòu)中的依賴關(guān)系邊相連的類都具有依賴關(guān)系M11MCATM12M13M131M132M13M14M131 M132 M141M142M143MCATM11M12M13M14MCATM14M11M12M13M131 M132 M141 M142 M143依賴關(guān)系表示層次結(jié)構(gòu): 樣本 x:M131,M132重排序模型基于對樣本x 產(chǎn)生的結(jié)果,我們構(gòu)造正負(fù)樣
12、例:ij 正樣本: f(x) ,f(x)ji 負(fù)樣本: f(x) ,f(x) f(x) ,.,f(x) f(x)1kiij其中,f(x)是最好的,f(x)應(yīng)用著名的偏好性核函數(shù)方法 訓(xùn)練二分類模型該二分類能夠區(qū)分f(x)i是否比f(x)j更好。Reranker-訓(xùn)練2x3x1f(x )1 1f(x )1 2f(x )1 3f(x )1f(x )1 1f(x )y1x1f(x2 )3f(x3 )n 1f(x )2yy3ynxn+ f(x1 )1,f(x1 ) 11 1- f(x ),f(x )+ f(x1 )1,f(x1 )2+ f(x1 )1,f(x1 )3Reranker(1)(2)(3)y
13、 1(4,5)- f(x1 )2 ,f(x1 )1- f(x1 )3 ,f(x1 )1(6)提綱重排序模型傳統(tǒng)層次分類方法(1)擴(kuò)展結(jié)果產(chǎn)生(2)最優(yōu)結(jié)果選擇(3)結(jié)果的結(jié)構(gòu)化表示(4)正負(fù)樣本構(gòu)建(5)Reranker訓(xùn)練(6)Reranker測試效果及性能(7)Reranker-預(yù)測x1x2 x3xn1f(x )1 2f(x )f(x1 )31f(x1 )1f(x )1 12 3f(x )3f(x )n 1f(x )Rerankerf(x )實(shí)驗(yàn)數(shù)據(jù)及工具RCV1-v2/LYRL2004 103個(gè)類,5層。(MCAT來自一個(gè)小分支) 訓(xùn)練集:23,149,測試集:781,265DMOZ 數(shù)
14、據(jù)集(來自ECML/PKDD Discovery Challenge) 5層, 35,448 個(gè)類,其中27,875個(gè)是葉子類 300,000 訓(xùn)練樣本, 94,756測試樣本Liblinear vs reranker實(shí)驗(yàn)結(jié)果準(zhǔn)確性(RCV1)扁平分類liblinearrerankerMicro_F10.7750.849Macro_F10.5160.615提綱背景及意義傳統(tǒng)層次分類方法重排序算法擴(kuò)展結(jié)果產(chǎn)生最優(yōu)結(jié)果選擇結(jié)果的結(jié)構(gòu)化表示正負(fù)樣本構(gòu)建Reranker訓(xùn)練Reranker測試效果及性能局部漸增式重排序模型總結(jié)及下一步工作局部重排序模型reranker:效率稍低;局部rerankers
15、:局部依賴關(guān)系提高高層次判定準(zhǔn)確性自頂向下保證了性能MCATM11M12M13M14M131 M132M141M142M143實(shí)驗(yàn)結(jié)果準(zhǔn)確性(RCV1):效率:F1reranker局部漸增rerankerMicro-F10.8550.846Macro-F10.6340.619Time costreranker局部漸增rerankerTraining (s)9023.24508.75Test (min)434.0814.19實(shí)驗(yàn)結(jié)果準(zhǔn)確性(DMOZ):效率:F1liblinear局部漸增rerankerMicro-F10.6010.734Macro-F10.2020.366Time costli
16、blinear局部漸增rerankerTraining (min)60.1881.26Test (min)19.7439.83.,-星冗逵!手表熱搜韓都衣舍嬰妮芬蘇斯t再士紐瑞滋嬰兒套裝鰭分 類 viii禹級搜索全部商品百分類v新品閃購尾品匯圖書數(shù)宇館服裝運(yùn)動(dòng)戶外孕要窒家屆當(dāng)當(dāng)優(yōu)品電器城當(dāng)當(dāng)超市你是不是想棧兒罣手表 I 電子表 I 手表 男 I 男士手表I 女士手表 I 手表女 I 學(xué)生手表 I 手表男全部 手表眼鏡 手表 手表分類時(shí)尚品牌表日韓品牌表瑞士品牌表國產(chǎn)品牌表品牌艾奇耍利時(shí)Armani阿瑪尼Cas io/卡西歐CITIZEN西鐵堋Dis ne淮 士尼TIME100時(shí) 光一使用人群女士手表男士手表中性手表悟侶手表懷表兒堂手表機(jī)芯類型石英表電子表自動(dòng)機(jī)楨表電吱光動(dòng)能耳他手表風(fēng)格到流商務(wù)豆
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版煤礦安全生產(chǎn)標(biāo)準(zhǔn)化管理體系考核定級辦法培訓(xùn)
- 2024年09月廣東中山市三角鎮(zhèn)社區(qū)衛(wèi)生服務(wù)中心第四期招聘高級雇員1人筆試歷年專業(yè)考點(diǎn)(難、易錯(cuò)點(diǎn))附帶答案詳解
- 水產(chǎn)品加工設(shè)備研發(fā)與優(yōu)化策略考核試卷
- 纖維素油墨生產(chǎn)及應(yīng)用考核試卷
- 《優(yōu)化飲食習(xí)慣:大米食用指南》課件
- 沿海貨物運(yùn)輸企業(yè)社會(huì)責(zé)任考核試卷
- 2024年08月湖南常德市澧縣衛(wèi)生健康系統(tǒng)面向縣內(nèi)一級鄉(xiāng)村醫(yī)生招聘1人筆試歷年專業(yè)考點(diǎn)(難、易錯(cuò)點(diǎn))附帶答案詳解
- 砼結(jié)構(gòu)構(gòu)件生產(chǎn)設(shè)備選型與維護(hù)考核試卷
- 播放器環(huán)境適應(yīng)性測試考核試卷
- 生物基纖維的非織造工藝考核試卷
- OSCE模式下護(hù)理技能競賽考核試題與答案
- 第十四屆全國海洋知識競賽活動(dòng)參考題庫(含答案)
- 北師大版四年級下冊應(yīng)用題專項(xiàng)練習(xí)【含答案】
- 物品接收單模板(接受聯(lián)、存根聯(lián))
- 抗滑樁施工危險(xiǎn)源辨識與評價(jià)及應(yīng)對措施
- 語文園地五(識字加油站、我的發(fā)現(xiàn))
- 建設(shè)單位業(yè)主方工程項(xiàng)目管理流程圖
- 發(fā)展心理學(xué)第四節(jié)-智力發(fā)展
- 壓力管道檢驗(yàn)計(jì)算案例
- 碎石擠密樁復(fù)合地基施工工法解讀
- 初中花城版八年級下冊音樂4.狂歡之歌(15張)ppt課件
評論
0/150
提交評論