




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Web信息檢索技術信息檢索課程介紹寫在授課之前授課學時實驗學時-10學時-30學時2信息檢索課程介紹Quiz下面場景中,按回車鍵,會發生什么?瀏覽器地址欄里輸入之后Google搜索框里輸入”黑龍江大學”之后3信息檢索課程介紹本課程的內容(1)信息及信息資源信息檢索概述信息檢索模型信息檢索評價檢索的改進技術4信息檢索課程介紹本課程的內容(2)文本分類和聚類信息過濾Web信息檢索基于內容的圖像及音頻檢索問答系統及自動文摘5信息檢索課程介紹信息及信息資源信息的涵義信息的種類、特征信息資源電子信息資源電子信息資源的特征、類型6信息檢索課程介紹信息檢索概述概念及意義體系結構研究現狀與發展趨勢相關領域主要搜索引擎分類與評價信息檢索的應用7信息檢索課程介紹信息檢索模型布爾模型向量空間模型(VSM)概率模型8信息檢索課程介紹信息檢索評價相關性問題信息檢索性能評價信息檢索性能評價指標信息檢索評價試驗平臺TREC9信息檢索課程介紹檢索的改進詞(Term)處理Stemming(詞干提取)技術,詞法分析、形態還原,停用詞表的構建,語義詞典的構建,分詞、詞性標注和詞義消歧等索引技術倒排文檔(InvertedList),Signature文件,PAT樹等提問(Query)處理提問理解,提問的語義擴展(包括基于局部聚類的提問擴展,基于局部上下文分析的提問擴展,基于相似語義詞典的提問擴展,基于統計詞典的語義擴展)相關反饋(包括Term權重的重新計算,相關反饋策略的評價等)10信息檢索課程介紹文本分類和聚類特征詞抽取TFIDF信息增益方法文本表示文本相似度計算文本分類算法文本聚類算法11信息檢索課程介紹文本過濾過濾系統中的Profile的表示與管理各種匹配算法BruteForce算法Knuth-Morris-Pratt算法Boyer-Moore算法Karp-Rabin過濾系統在信息安全中的應用12信息檢索課程介紹Web信息檢索Web檢索的歷史與現狀WebInformationDiscovery
搜索技術(Crawling)排序算法PageRankHitsWebNoisesDetection13信息檢索課程介紹*基于內容的圖像及音頻檢索*圖像的特征表示圖像相似度計算相關反饋基于音頻的信息檢索計算14信息檢索課程介紹*問答系統及自動文摘*問答系統問題的理解與分類轉述(Paraphrasing)答案抽取問答式信息檢索的應用自動文摘自動摘錄基于理解的自動文摘基于信息抽取的自動文摘基于篇章結構的自動文摘15信息檢索課程介紹課程目的發現了什么問題?Web信息的數量,內容豐富程度(龐雜)↑人們訪問信息的效率↓課程目的介紹面對web信息過載問題挑戰的各種研究和嘗試,具體為大規模Web信息搜集、分析與處理方法與技術認識這個激動人心領域的導論16信息檢索課程介紹研究對象——Web1980年TimBerners-Lee負責的Enquire(EnquireWithinUponEverything的簡稱)項目。1990年11月,第一個Web服務器nxoc01.cern.ch開始運行,TimBerners-Lee在自己編寫的圖形化Web瀏覽器“WorldWideWeb”上看到了最早的Web頁面。1991年,CERN(EuropeanParticlePhysicsLaboratory)正式發布了Web技術標準。目前,與Web相關的各種技術標準都由著名的W3C組織(WorldWideWebConsortium)管理和維護。17信息檢索課程介紹Web的支撐技術用超文本技術(HTML)實現信息與信息的連接用統一資源定位技術(URI)實現全球信息的精確定位用新的應用層協議(HTTP)實現分布式的信息共享。這三個特點無一不與信息的分發、獲取和利用有關。TimBerners-Lee說:"Web是一個抽象的(假想的)信息空間。"也就是說,作為Internet上的一種應用架構,Web的首要任務就是向人們提供信息和信息服務。18信息檢索課程介紹Web技術的發展客戶端技術GIF第一次為HTML頁面引入了動感元素JavaApplets和JavaScript的支持CSS(CascadingStyleSheets)和DHTML(DynamicHTML)技術插件、ActiveX控件技術服務端技術CGI允許服務端的應用程序根據客戶端的請求,動態生成HTML頁面,動態信息交換Perl,PHP、ASP、JSP企業級開發平臺--J2EE和.NET19信息檢索課程介紹Web增長LoadonthefirstWebserver(info.cern.ch)1000timeswhatithasbeen3yearsearlier
20信息檢索課程介紹Web增長網站數目↑↑↑1993-1996,from130to600.000sitesNetcraftsaidthatithascounted85,541,228websitesatthebeginningof2006/06,Thenumberrepresentsagainof3.96millionsitesoverthepreviousmonth用戶數目↑↑↑Thenwhathappened?……21信息檢索課程介紹瀏覽器大戰1993,MarkAndreessen編寫Mosaic“ThegreatthingabouttheInternet--thethingthatcatalyzeditinthefirstplaceandrenewsiteveryday--isthattherearesomanypeopleabletouseit,abletodoamilliondifferentthings.It'sanopenplatformthatanybodycandevelopandcreateapplicationsfor.Alotofpeopleareabletoapplytheirenergy,andseeitbearfruit.”
22信息檢索課程介紹瀏覽器大戰1994,MarkAndreessen發布Netscape,成為當時的事實標準1995,Microsoft開始全面轉向Internet,發布InternetExplorer1.0,三個月后發布2.01997,IE4.0發布,引入DHTML,Winner1998,Netscape開放源碼2004,在Netscape源碼基礎上開發發布Firefox,比IE有更多新功能和更好安全性,開始了新一輪瀏覽器大戰。Why?
WebBrowser成為爭奪的焦點?23信息檢索課程介紹豐富的web應用(電子港灣):在線拍賣和購物1995年用戶:1.68億(維基百科):免費百科全書2001年用戶:每天91.2萬人次訪問(納帕斯特):音樂共享
1999年用戶:50萬個付費用戶
:視頻共享
2005年用戶:每天1億人次視頻瀏覽(博客網)
1999年用戶:1850萬固定訪客24信息檢索課程介紹豐富的web應用(友聚網):校友錄1999年用戶:1500萬(德拉吉報道):個人媒體1994年用戶:每天800萬到1000萬頁次瀏覽(我的空間):社交網絡
2003年用戶:1億(亞馬遜書店):網上書店
1994年用戶:超過250個國家和地區3500多萬用戶
:科技論壇
1997年用戶:每月5500萬25信息檢索課程介紹豐富的web應用(沙龍網):在線雜志
1995年用戶:每月2500萬至3500萬訪客(克雷格列表):分類廣告
1995年用戶:每月4萬億頁次瀏覽(谷歌):搜索引擎1998年用戶:每天10億個搜索請求(雅虎):門戶網站1994年用戶:4億(易航網):廉價航空1995年用戶:去年乘客3000萬人次26信息檢索課程介紹27信息檢索課程介紹Web的未來W3C:Web的未來是語義化的Web(SemanticWeb)-2001XML—信息本身的格式和數據內容SOAP協議,WSDL協議—WebServiceRDF(ResourceDescriptionFramework)元數據的存儲結構和相關的技術標準OWL(OWLWebOntologyLanguage)28信息檢索課程介紹Web1.0Web2.0DoubleClickGoogleAdSenseOfotoFlickrAkamaiBitTorrentNapster大英百科全書在線(BritannicaOnline)維基百科全書(Wikipedia)個人網站personalwebsites博客(blogging)evite和EVDB域名投機搜索引擎優化SEO頁面瀏覽數pageviews每次點擊成本costperclick屏幕抓取(screenscraping)網絡服務(webservices)發布publishing參與participation內容管理系統contentmanagement維基wikis目錄(分類)directories標簽(tagging,folksonomy)粘性stickiness聚合syndication29信息檢索課程介紹我們關心的角度Theworldwideweb(web)isanetworkofinformationresources.Web圖:節點代表webpages,邊是hyperlinks大規模、動態、分布式的圖反映了人們組織信息的方式研究人們訪問web的方式信息資源:主要關注文本資源(htmlwebpages)arecentstudyindicatedthat80%of
acompany’sinformationiscontainedintextdocuments.[1]如何更有效訪問這些信息資源?用戶信息:站點訪問日志反映了用戶訪問信息的方式30信息檢索課程介紹我們關注的中心…DragonmetaphorGatekeepersofoursociety’streasuretroveofinformationmagic,powerful,independent,andunpredictable.SearchEngine31信息檢索課程介紹TheSuperStarofWebApplicationis…SearchEngine!Google2005年8月19日上市,以85美元的價格籌集到了16.7億美元百度2005年8月5日晚在美國納斯達克上市,融資1.09億美元。發行價27美元,最高達151美元Microsoft,Yahoo,等公司對websearch的巨大投入國內門戶網站紛紛推出自己研發的searchengine,sohu,netease,qq…Googlesaysit’sgoalis“toorganizetheworld’sinformationandmakeituniversally
accessibleanduseful”32信息檢索課程介紹WhoWhosearchtheWeb?Everybody33信息檢索課程介紹WhereSearchEngineServiceSearchbox也成為網站的信息入口:Ebay,amazon,taobao,china-pub,…34信息檢索課程介紹WhatWhatarepeoplesearchingfor?15%for“agoodcollectionoflinksonasubject”25%for“aspecificWebsitethatalreadyhadinmind”36%for“intenttoperformsomeWeb-mediatedactivity”35信息檢索課程介紹HowHowdoesthesearchenginework?CrawlingPreprocess&indexingRetrievingwww36信息檢索課程介紹When1994年7月,MichaelMauldin將JohnLeavitt的蜘蛛程序接入到其索引程序中,創建了大家現在熟知的Lycos,成為第一個現代意義的搜索引擎。ExciteYahooInfoseekInktomiAltavista
->Overture->yahooAskJeevesGoogle國內1997北大天網搜索,清華指南針搜索,華南木棉搜索2000年baidu37信息檢索課程介紹Pre-GoogleFirstTrulyGoodSearchEngine:AltavistaLouisMonier@DEC’sWesternLab1995,10M網頁;1995/12/15發布時已經索引了16M網頁1997,25Mqueries/day,$50Mrevenue核心技術大規模資源搜集crawling:效率、存儲、組織從keyword怎樣找到相關的網頁?(信息檢索)38信息檢索課程介紹GoogleGoogleLarryPageandSergeyBrin@StandfordSpamskillthesearchengine,so…2005年索引80Billions網頁,每日查詢1Billion!核心技術基于鏈接分析的排序技術:pagerank基于搜索的廣告:AdWords,AdSense海量數據處理基礎設施:tensofthousandsofpcs39信息檢索課程介紹FutureoftheSearchIsGoogleperfect?搜索數據資源種類不斷增加SearchEverywhereMp3,pictures,bbs,forum,literature,blog…本地化、個性化Local&PersonalClickstream!Y!Q面向特定領域的垂直搜索酷訊,愛幫,(信息提取)結果可視化Vivisimo,(結果聚類)QuestionAnswer百度知道,IBMWebFountain,WebDigest……????40信息檢索課程介紹Morethansearch?QueryLikethis:“GivemeallthedocumentsonthewebthathaveatleastonepageofcontentinArabic,arelocatedintheMidwest,andareconnectedtoatleasttwosimilardocumentsbutarenotconnectedtotheofficialAlJazeeraWe
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 日用品銷售合同
- 企業股權轉讓協議合同
- 堤防工程施工合同
- 擋土墻工程勞務分包合同
- 房屋買賣居間協議和合同
- 承包合同公司承包合同
- 務工付款合同協議書
- 應屆畢業生簽合同協議書
- 買賣魚合同協議
- 超市帶貨裝讓合同協議書
- 2025年中國工業X射線檢測設備行業市場集中度、企業競爭格局分析報告-智研咨詢發布
- 職工維權知識培訓課件
- 《制作七巧板》教學設計-2024-2025學年五年級上冊勞動浙教版
- 2024銀行春招招聘解析試題及答案
- 第15課《青春之光》課件-2024-2025學年統編版語文七年級下冊
- 獨立儲能電站項目運維管理方案
- 青島市2025年高三語文一模作文題目解析及范文:成見與主見
- (二模)晉中市2025年高三高考二模 語文試卷(含A+B卷答案詳解)
- 2020年1月浙江省普通高校招生選考科目考試政治試題及答案
- 70歲老年人三力測試能力考試題庫及答案
- 慢性心功能不全護理查房
評論
0/150
提交評論