


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
分析:如何用數據管理內容
大家好,我是知乎的李申申。首先,我想對主辦方說一聲:謝邀!感謝你們搭建這樣一個專業的平臺,讓大家有機會聚在一起認真討論數據這個話題。說實話,在接到大會邀請的時候,我第一反應想到了這句話。如同DanAriely所說,知乎也像是眾多面對大數據很懵懂的“年輕人”之一;我們雖然也在做大數據相關的一些事情,但其實比較粗淺。我聽說今天在座的各位有不少都是知乎的用戶,對知乎有一些興趣,那我就借這個機會跟大家分享一下知乎數據方面的一些工作。簡單進入正題,我們先來看看知乎的基本數據情況。今天的知乎截至2015年7月,知乎社區已擁有2900萬注冊用戶,月UV1.1億,月累積頁面瀏覽量達3億?,F在知乎全站已累計產生約620萬個問題,以及近2000萬個回答。用戶總回答4,129,244,445字數,是大不列顛百科全書的近100倍,鹿鼎記的2580倍。除了以上比較基礎的數據,一些其他方面的數字也在以令我們比較欣喜的速度發展著。我們截取了知乎開放注冊以來,獲得一千個以上贊同的回答和千字以上的回答兩個數據,看一下它們的增長情況。可以看到,這兩項數據都是保持了一個比較平穩的增長趨勢的。再看一下,這些用戶日均獲贊的數量。首先,必須說明的是:我們并非完全將這兩項指標作為有價值回答的判斷標準,但是當用戶愿意靜下心來花時間撰寫長文回答的時候,至少他的態度是認真的,也符合知乎所倡導的討論理念。另一方面,知乎上的千贊代表了1000位知乎用戶對此回答的認同和接納。除開2月份等過年過節的時期數據會略低些,其他時間,這一數據增速基本都保持在10%左右。同樣基于話題這個維度,我們隨機抽取幾個話題看最近的用戶討論趨勢。這里展示的是心理學、互聯網、經濟以及天津爆炸這幾個話題。值得注意的一點在于,在天津爆炸事件席卷幾乎所有社交和輿論平臺,非常聚焦地引起爆炸性的關注時,知乎站內的其他專業話題討論依然在持續進行。同時,由于天津事件后續的各討論環節中有不少涉及心理學的疑問,因此,知乎站內心理學的話題熱度也被帶動著略有上揚。綜合看,現在的知乎更像是個廣場,各類較為熱點的時事討論好像是廣場中央的噴泉,吸引了游客和大眾的關注目光。而與此同時,在廣場四周也有著各色酒吧、咖啡館和茶館等,各自匯聚了城市的居民們與知己傾心交談。知乎大V和知乎小白有不少知乎用戶曾有疑慮,是否只有早期的用戶們才較為認同知乎的社區理念,又或是只有老用戶們容易收獲贊同和關注?其實并不盡然。讓我們一起看看以下幾組數據截圖,橫軸為時間變化,我們截取了2010年12月20日知乎內測以來到2015年6月30日贊同數前10000的用戶,根據他們的注冊時間和贊同數作圖,以及日均的贊數增長量。大家可以看到這些點分布的比較散,說明增長情況比較均勻??梢钥闯觯杭词乖?015年才剛加入知乎的人也有非常大的機會被關注和認可。這也說明,這些新用戶也有認真討論、獲得有價值信息交換的渴望,這些用戶也是非常認同知乎的社區理念的??梢酝ㄓ玫拿卦E在于:只要堅持不斷地在自己擅長的領域參與討論、輸出信息就能得到更多人的認可。知乎信息如何生產,以及如何流動?前面幾張圖,我們已經了解了知乎的百花齊放的話題和持續貢獻的優質用戶。下面我們來看看知乎信息生產方式,為了更聚焦的展示這個問題,我們選取了近期的天津爆炸事件作為事例。從發展方式來看,熱點話題與其他話題相比,并沒有不同。但是由于其新聞性,這類話題的發展更具有爆發性,用戶的行為更為集中。因此,也更方便我們來做這樣一個展示。首先,一批用戶針對問題進行關注、回答,產生了基礎的優質內容,然后,其他用戶的自發邀請、關注、收藏、感謝、投票、評論等社交行為,使得這些內容獲得了更廣泛的傳播和關注,覆蓋的人群不斷擴大。在知乎,社交行為催生了優質內容的生產與傳播,而優質內容又引發了下一輪新的社交行為。如何用大數據做用戶興趣識別?用戶在知乎上的行為是多維度的;既包括比較輕的瀏覽閱讀,又包括重一些的贊同、反對,還有更重的提問回答(這里的重和輕是根據用戶操作成本來界定的)。我們可以根據這些行為做用戶的特征分析,這也是各個互聯網服務都會做的常規工作,只是基于各自不同的服務特點,所要分析的特征、采用的算法及其效果各有不同。知乎除了有大量的用戶行為數據,還有非常多的文本信息,基于行為和文本,我們對用戶的興趣和擅長能有更準確的識別?,F實社會中,我們對于某些領域的知識掌握是很深入的,但其他的一些領域就未必了。個人精力是有限的,沒有人能夠全知到成為所有領域的專家,這種情況是可以被映射到知乎上的。不同的用戶在不同的話題領域下,他們的專業性是不同的,我們需要掌握這種不同,給每個人,在每個話題下計算一個權重。計算的分值最主要的依據還是那些你在知乎上的回答,當然,我們也會加入一些其他考量因素,包括其他專業人士對你的背書,你的專業背景,等等。這是知乎非?;A的數據設施,但這個數值計算的量級是不小的(百萬回答用戶十萬話題,是千億級別的數量計算),知乎對于權重判定每周都會進行全量的計算,也一直在調整優化中。答案排序:如何更好的呈現?我們對答案排序算法進行優化,目的是讓好的答案更靠前。隨著用戶量不斷增加,早期最簡單的答案排序規則出現了問題:一些答案友情贊同比較多,讓專業性不足的答案被推到靠前的位置。我們想到了給贊同票加權重的方法,基于每個人在話題下的專業權重來計算,排序得到優化,能讓大部分優質答案可以排到前面。雖然針對權重計算的優化仍然在持續進行,我們還是遇到了一些算法上的瓶頸。當問題下有多個發布較早的回答獲得高票時,新的回答即使質量很高,也很難在問題頁上獲得足夠的曝光,難以積累更多贊同票,一些誤導性、煽動性的高票內容,即使同時也有很多反對票,仍然排在認真、嚴謹但票數相對較少的優質回答前面。這些問題在專業領域內對參與討論的用戶造成的傷害尤其明顯。這絕不是我們希望看到的。于是,我們又設計了新的排序算法。新排序算法的思想是,如果把一個回答展示給很多人看并讓他們投票,內容質量不同的回答會得到不同比例的贊同和反對票數,最終得到一個反映內容質量的得分。當投票的人比較少時,可以根據已經獲得的票數估計這個回答的質量得分,投票的人越多則估計結果越接近真實得分。如果新一個回答獲得了1票贊同0票反對,也就是說參與投票的用戶100%都選了贊同,但是因為數量太少,所以得分也不會太高。如果一小段時間后這個回答獲得了20次贊同1次反對,那么基于新算法,我們就有較強的信心把它排在另一個有50次贊同20次反對的回答前面。原因是我們預測當這個回答同樣獲得50次贊同時,它獲得的反對數應該會小于20。威爾遜得分算法最好的特性就是,即使前一步我們錯了,現在這個新回答排到了前面,獲得了更多展示,在它得到更多投票后,算法便會自我修正,基于更多的投票數據更準確地計算得分,從而讓排序最終能夠真實地反映內容的質量。我們的新算法年初發布之后,得到知乎站內的用戶熱烈反饋,也算是做知乎這樣產品的好處吧,很多專業的討論涌現出來,為我們下一步優化提供了很好的想法。首頁Feed的自我修養:內容的個性化推薦首頁的內容會主要考慮這幾方面:知乎的首頁有一套專用的數據收集和處理機制,可以記錄用戶在首頁的所有重要動作,比如,如果某條內容出現在用戶瀏覽器窗口或手機屏幕的可見范圍內,就會記錄一次。以及……知乎還有一些其他的數據優化,我舉幾個例子做簡單介紹。1.邀請回答稍微熟悉知乎的用戶,應該知道謝邀這個詞,這個產品功能是為每一個問題找到合適的回答者,推薦給用戶。我們采取一種算法模型預測某個用戶回答某問題的可能性和回答質量。有90%的邀請是通過這種推薦結果發出的,剩下10%是用戶主動搜索產生的每周知乎精選郵件(eDM)針對每個用戶做了個性化的計算,通過不斷的算法優化,我們已經做到了30%的打開率和14%的點擊率。2.問題聚類眾所周知想對問題的文本進行聚類,最先想到的是通過文本語義匹配,通過復雜的詞袋模型(如傳統的plsa,LDA,新的word2vec等)對問題文本進行向量化,這樣通過語義將相關問題聚類起來。知乎站內擁有龐大的用戶瀏覽數據,如果將這些瀏覽數據通過簡單地算法(如協同過濾)建立一個模型同樣也能達到很好地效果。知乎每天的問答瀏覽量能夠達到千萬級別,這樣就意味著輸入給算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全生產個人述職報告范文
- 林木育種中的樹冠結構與光合調節技術考核試卷
- 生態建筑與節能技術考核試卷
- 煤炭行業的安全生產與應對突發事件考核試卷
- 手工具設計與用戶體驗研究考核試卷
- 玻璃纖維增強塑料的成型方法考核試卷
- 火力發電廠施工中的綠色施工實踐考核試卷
- 批發市場版權交易法規與實務考核試卷
- 智能車載設備編程語言基礎考核試卷
- 2025屆河南省周口市項城三高高三5月一診模擬數學試題
- 庫房管理工作職責與規范化
- Unit 3Keep Fit.教案2024-2025學年人教版(2024)七年級英語下冊
- 2024-2025學年七年級下學期數學期中測試(浙江瑞安市專用)(含答案)
- 2025年浙江省杭州市拱墅區中考語文模擬試卷含答案
- WMS倉庫管理系統采購協議
- 2024國家數字化范式與路徑-公共政策立場-67正式版
- 路面工程安全專項施工方案
- 保障公路、公路附屬設施質量和安全的技術評價報告
- 酒駕案件辦理培訓課件
- 2022年10月自考06779應用寫作學試題及答案
- 《美在身邊》PPT課件.ppt
評論
0/150
提交評論