畢業(yè)設(shè)計(jì)論文搜索引擎

上傳人：上*** IP屬地：江蘇上傳時(shí)間：2015-06-07 格式：DOC 頁數(shù)：67 大小：764.50KB 積分：7.2 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩62頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄第一章課題背景知識 . (1) 第一節(jié) 搜索引擎原理 . (1) 第二節(jié) 搜索引擎分類 . (2) 第三節(jié) 搜索引擎技術(shù)的發(fā)展歷史 . (4) 第四節(jié) 搜索引擎現(xiàn)狀 . (5) 第五節(jié) 搜索引擎展望 . (6) 第二章技術(shù)詮釋 . (10) 第一節(jié) HTTP 及 HTML . (10) 第二節(jié) 網(wǎng)絡(luò)蜘蛛 . (11) 第三節(jié) 網(wǎng)頁噪聲 . (13) 第四節(jié) 頁面分析 . (13) 第五節(jié) 中文分詞 . (16) 第六節(jié) 布爾代數(shù) . (19) 第七節(jié) CGI. (19) 第八節(jié) SOCKECT 網(wǎng)絡(luò)編程 . (20) 第三章 TOKING 海量網(wǎng)頁搜索系統(tǒng)體系結(jié)構(gòu) 及實(shí)現(xiàn) . (21) 第一節(jié) 結(jié)構(gòu)設(shè)計(jì) . (21) 第二節(jié) 數(shù)據(jù)流圖 . (22) 第三節(jié) 網(wǎng)頁抓取部分 . (31) 第四節(jié) 網(wǎng)頁預(yù)處理部分 . (35) 第五節(jié) 信息查詢服務(wù)部分 . (42) 第六節(jié) 用戶反饋 . (46) 第七節(jié) 功能拓展 . (46) 第八節(jié) 優(yōu)化用戶感受 . (50) 第四章系統(tǒng)測評 . (52) 第一節(jié) 抓取速度 . (52) 第二節(jié) 分詞效率 . (52) 第三節(jié) 搜索評價(jià) . (53) 參考文獻(xiàn) . (54) 致謝 . (55) 附錄 . (56) 本科生畢業(yè)設(shè)計(jì) 1 第一章課題背景知識 70 年代中期，美國國防部高級研究計(jì)劃局 DARPA (Defense Advanced Research Projects Agency)開始了互聯(lián)網(wǎng)技術(shù)的研究。而 WWW (World Wide Web)自 1989 年誕生以來，近二十年來發(fā)展迅猛，它已成為人類社會信息資源中的一個(gè)重要組成部分，越來越多的社會信息資源實(shí)體開始選擇 Web 作為其載體。著名的 netcraft(via Digg)剛剛完成了最新的互聯(lián)網(wǎng)調(diào)查，結(jié)果顯示到 2006 年 3月 31 日止，互聯(lián)網(wǎng)上一共有 80655993 個(gè)網(wǎng)站。而單是在 06 年 3 月這一個(gè)月里，世界上的網(wǎng)站數(shù)量就增長了 310 萬個(gè)。而在 2003 年 8 月所得的調(diào)查結(jié)果為 4000 萬個(gè)，這說明了互聯(lián)網(wǎng)上的網(wǎng) 站數(shù)量在過去的 3 年里就已經(jīng)翻了一番，增長速度十分驚人。著名的網(wǎng)站排名的國際網(wǎng)站在 2007 年 4 月更是收錄了全球大約有34762836735 個(gè)網(wǎng)址。由此，人們在信息海洋中搜索自己所需要的信息的能力顯得愈發(fā)重要，搜索引擎成了人們在網(wǎng)上檢索信息的必要工具。第一節(jié) 搜索引擎原理搜索引擎，應(yīng)該被定位成一個(gè)計(jì)算機(jī)應(yīng)用軟件系統(tǒng)，或者一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng)。從網(wǎng)絡(luò)用戶的角度看，它根據(jù)用戶提交的類自然語言查詢詞或者短語，返回一系列很可能與該查詢相關(guān)的網(wǎng)頁信息，供用戶進(jìn)一步判斷和選取。為了有效地做到這一點(diǎn)，它大致上被分成三個(gè)子系統(tǒng)；即網(wǎng)頁搜集，網(wǎng)頁預(yù)處理和查詢服務(wù)。網(wǎng)頁搜集主要負(fù)責(zé)網(wǎng)頁的抓取，由 URL 服務(wù)器、爬行器、存儲器、分析器和URL 解析器組成，爬行器是該部分的核心；網(wǎng)頁預(yù)處理主要負(fù)責(zé)對網(wǎng)頁內(nèi)容進(jìn)行分析，對文檔進(jìn)行標(biāo)引并存儲到數(shù)據(jù)庫里，由標(biāo)引器和分類器組成，該模塊涉及許多文件和數(shù)據(jù)，有關(guān)于桶的操作是該部分的核心；查詢服務(wù) 主要負(fù)責(zé)分析用戶輸入的檢索表達(dá)式，匹配相關(guān)文檔，把檢索結(jié)果返回給用戶，由查詢器和網(wǎng)頁級別評定器組成，其中網(wǎng)頁等級的計(jì)算是該部分的核心。搜索引擎的主要工作流程是：首先從蜘蛛開始，蜘蛛程序每隔一定的時(shí)間自動(dòng)啟動(dòng)并讀取網(wǎng)頁 URL服務(wù)器上的 URL列表，按深度優(yōu)先或廣度優(yōu)先算法，抓取各 URL所指定的網(wǎng)站，將抓取的網(wǎng)頁分配一個(gè)唯一文檔，存入文檔數(shù)據(jù)庫。并將當(dāng)前頁上的所的超連接存入到 URL服務(wù)器中。在進(jìn)行抓取的同時(shí)，切詞器和索引器將已經(jīng)抓取的網(wǎng)頁文檔進(jìn)行切詞處理，并按詞在網(wǎng)頁中出現(xiàn)的位置和頻率計(jì)算權(quán)值，然后將切詞結(jié)果存入索引數(shù)據(jù)庫。整個(gè)抓取工作和索引工作完成后更新整個(gè)索引數(shù)據(jù)庫和文檔數(shù)據(jù)庫，這樣用戶就可以查詢最新的網(wǎng)頁信息。查詢器首先對用戶輸入的信息本科生畢業(yè)設(shè)計(jì) 2 進(jìn)行切詞處理，并檢索出所有包含檢索詞的記錄，通過計(jì)算網(wǎng)頁權(quán)重和級別對查詢記錄進(jìn)行排序并進(jìn)行集合運(yùn)算，最后從文檔數(shù)據(jù)庫中提取各網(wǎng)頁的摘要信息反饋給查詢用戶。 U R L 服務(wù)器爬行器存儲服務(wù)器資源庫頁級別評定器 U R L 解析器標(biāo)引器查詢器分類器錨庫詞典庫索引庫鏈接庫桶桶桶桶桶桶 Web頁搜索標(biāo)引入庫用戶查詢圖 1-1-1 搜索引擎通用總體系統(tǒng)結(jié)構(gòu)圖第二節(jié) 搜索引擎分類搜索引擎按其工作方式主要可分為三種，分別是全文搜索引擎（ Full Text Search Engine）、目錄索引類搜索引擎（ Search Index/Directory）和元搜索引擎（ Meta Search Engine）。一、全文搜索引擎全文搜索引擎是名副其實(shí)的搜索引擎，國外具代表性的有 Google、Fast/AllTheWeb、 AltaVista、 Inktomi、 Teoma、 WiseNut 等，國內(nèi)著名的有百度（ Baidu）。它們都是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息（以網(wǎng)頁文字為主）而建立的數(shù)據(jù)庫中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶，因此他們是真正的搜索引擎。本科生畢業(yè)設(shè)計(jì) 3 圖 1-2-1 全球著名全文搜索引擎 LOGO 二、目錄索引目錄索引雖然有搜索功能，但在嚴(yán)格意義上算不上是真正的搜索引擎，僅僅是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以不用進(jìn)行關(guān)鍵詞（ Keywords）查詢，僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo 雅虎。其他著名的還有 Open Directory Project（ DMOZ）、 LookSmart、 About等。國內(nèi)的搜狐、新浪、網(wǎng)易搜索也都屬于這一類。圖 1-2-2 全球著名目錄索引 LOGO 三、元搜索引擎 (META Search Engine) 元搜索引擎在接受用戶查詢請求時(shí)，同時(shí)在其他多個(gè)引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有 InfoSpace、 Dogpile、 Vivisimo 等，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來源引擎排列搜索結(jié)果，如 Dogpile，有的則按自定的規(guī)則將結(jié)果重新排列組合，如 Vivisimo。四、其他除上述三大類引擎外，還有以下幾種非主流形式：（一）集合式搜索引擎：如 HotBot 在 2002 年底推出的引擎。該引擎類似 META搜索引擎，但區(qū)別在于不是同時(shí)調(diào)用多個(gè)引擎進(jìn)行搜索，而是由用戶從提供的 4 個(gè)引擎當(dāng)中選擇，因此叫它 “集合式 ”搜索引擎更確切些。（二）門戶搜索引擎：如 AOL Search、 MSN Search 等雖然提供搜索服務(wù)，但自身即沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫，其搜索結(jié)果完全來自其他引擎。（三）免費(fèi)鏈接列表（ Free For All Links，簡稱 FFA）：這類網(wǎng)站一般只簡單地滾動(dòng)排列鏈接條目，少部分有簡單的分類目錄，不過規(guī)模比起 Yahoo 等目錄索引來要小得多。（四）垂直搜索引擎：有針對性的搜索引擎。一次搜索的結(jié)果可能有成千上萬條，而在這過于龐大的信息群中，有用信息只是其中的小部分。通用搜索引擎的弊端在網(wǎng)絡(luò)信息的急劇膨脹下突顯起來，搜索越來越難以控制，用戶需求和市場服務(wù)間的巨大反差產(chǎn)生了強(qiáng)大的 “搜索噪音 ”，垂直搜索引擎的應(yīng)運(yùn)而生，成為搜索引擎本科生畢業(yè)設(shè)計(jì) 4 發(fā)展史上的一塊里程碑。第三節(jié) 搜索引擎技術(shù)的發(fā)展歷史在互聯(lián)網(wǎng)發(fā)展初期，網(wǎng)站相對較少，信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展，普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針，這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。現(xiàn)代意義上的搜索引擎的祖先，是 1990 年由蒙特利爾大學(xué)學(xué)生 Alan Emtage 發(fā)明的 Archie。雖然當(dāng)時(shí) World Wide Web 還未出現(xiàn)，但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的，而且由于大量的文件散布在各個(gè)分散的 FTP 主機(jī)中，查詢起來非常不便，因此Alan Emtage 想到了開發(fā)一個(gè)可以以文件名查找文件的系統(tǒng)，于是便有了 Archie。 Archie 工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近，它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件，然后對有關(guān)信息進(jìn)行索引，供使用者以一定的表達(dá)式查詢。由于 Archie 深受用戶歡迎，受其啟發(fā)，美國內(nèi)華達(dá) System Computing Services 大學(xué)于 1993 年開發(fā)了另一個(gè)與之非常相似的搜索工具，不過此時(shí)的搜索工具除了索引文件外，已能檢索網(wǎng)頁。當(dāng)時(shí)， “機(jī)器人 ”一詞在編程者中十分流行。電腦 “機(jī)器人 ”（ Computer Robot）是指某個(gè)能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的 “機(jī)器人 ”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去，因此，搜索引擎的 “機(jī)器人 ”程序也被稱為 “蜘蛛 ”程序。世界上第一個(gè)用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的 “機(jī)器人 ”程序是 Matthew Gray開發(fā)的World wide Web Wanderer。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來則發(fā)展為能夠檢索網(wǎng)站域名。與 Wanderer相對應(yīng)， Martin Koster 于 1993 年 10月創(chuàng)建了 ALIWEB，它是 Archie的 HTTP 版本。 ALIWEB 不使用 “機(jī)器人 ”程序，而是靠網(wǎng)站主動(dòng)提交信息來建立自己的鏈接索引，類似于現(xiàn)在我們熟知的 Yahoo。隨著互聯(lián)網(wǎng)的迅速發(fā)展，使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難，因此，在 Matthew Gray 的 Wanderer 基礎(chǔ)上，一些編程者將傳統(tǒng)的 “蜘蛛 ”程序工作原理作了些改進(jìn)。其設(shè)想是，既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接，那么從跟蹤一個(gè)網(wǎng)站的鏈接開始，就有可能檢索整個(gè)互聯(lián)網(wǎng)。到 1993 年底，一些基于此原理的搜索引擎開始紛紛涌現(xiàn)，其中以 JumpStation、 The World Wide Web Worm（ Goto 的前身，也就是今天 Overture），和 Repository-Based Software Engineering (RBSE) spider最負(fù)盛名。本科生畢業(yè)設(shè)計(jì) 5 然而 JumpStation 和 WWW Worm 只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果，因此毫無信息關(guān)聯(lián)度可言。而 RBSE 是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。最早現(xiàn)代意義上的搜索引擎出現(xiàn)于 1994 年 7 月。當(dāng)時(shí) Michael Mauldin 將 John Leavitt 的蜘蛛程序接入到其索引程序中，創(chuàng)建了大家現(xiàn)在熟知的 Lycos。同年 4 月，斯坦福（ Stanford）大學(xué)的兩名博士生， David Filo 和美籍華人楊致遠(yuǎn)（ Gerry Yang）共同創(chuàng)辦了超級目錄索引 Yahoo，并成功地使搜索引擎的概念深入人心。從此搜索引擎進(jìn)入了高速發(fā)展時(shí)期。目前，互聯(lián)網(wǎng)上有名有姓的搜索引擎已達(dá)數(shù)百家，其檢索的信息量也與從前不可同日而語。比如 Yahoo 號稱收錄的網(wǎng)頁達(dá)到 200 億。隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹，一家搜索引擎光靠自己單打獨(dú)斗已無法適應(yīng)目前的市場狀況，因此現(xiàn)在搜索引擎之間開始出現(xiàn)了分工協(xié)作，并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商。象國外的 Inktomi（已被 Yahoo 收購），它本身并不是直接面向用戶的搜索引擎，但像包括 Overture（原 GoTo，已被 Yahoo 收購）、LookSmart、 MSN、 HotBot 等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜索服務(wù)。國內(nèi)的百度也屬于這一類，搜狐和新浪用的就是它的技術(shù)。因此從這個(gè)意義上說，它們是搜索引擎的搜索引擎。第四節(jié) 搜索引擎現(xiàn)狀隨著網(wǎng) 絡(luò)信息內(nèi)容的爆炸式增長和形式的不斷翻新，搜索引擎越來越不能滿足網(wǎng)絡(luò)使用者的各種信息需求。從 1996 年起，搜索引擎技術(shù)開始注重網(wǎng)頁質(zhì)量與相關(guān)性的結(jié)合，這主要是通過三種手段：是對網(wǎng)上的超鏈結(jié)構(gòu)進(jìn)行分析，如 INFOSEEK 和 GOOGLE；是對用戶的點(diǎn)擊行為進(jìn)行分析，如 DIRECTHIT(被 ASK JEEVES 收購 )；是與網(wǎng)站目錄相結(jié)合。最新的趨勢則是搜索的個(gè)性化、本地化和垂直化。個(gè)性化：入門網(wǎng)站的個(gè)性化已經(jīng)比較成熟了，但是搜索引擎的個(gè)性化并沒有得到解決，不同的人使用相同的檢索詞得到的結(jié)果是相同的。也就是說搜索引擎沒有考慮人的地域、性別、年齡等方面的差別。 DIRECTHIT 等公司一年前開始了個(gè)性化方面的研發(fā)工作，但至今沒有推出任何產(chǎn)品。垂直化：垂直搜索引擎這種高度目標(biāo)化、專業(yè)化的搜索引擎的優(yōu)勢在于 :針對性強(qiáng)，對特定范圍的網(wǎng)絡(luò)信息的覆蓋率相對較高，具有可靠的技術(shù)和信息資源保障，有明確的檢索目標(biāo)定位，有效地彌補(bǔ)了通用綜合性搜索引擎對專門領(lǐng)域及特定主題信息覆蓋率過低的問題。根據(jù) CNNIC 的調(diào)查結(jié)果， 2005 年，使用百度和 Google 的本科生畢業(yè)設(shè)計(jì) 6 用戶達(dá)到總量的 90%；而 2006 年這一數(shù)值下降到 87.4%，這其中就有垂直搜索的分流作用。本地化：本地化是一個(gè)比個(gè)性化更明顯的趨勢。隨著互聯(lián)網(wǎng)在全球的迅速普及，綜合性的搜索引擎已經(jīng)不能滿足很多非美國網(wǎng)民的信息需求。近來， YAHOO!、INKTOMI、 LYCOS 等公司不斷推出各國、各地區(qū)的本地搜索網(wǎng)站，搜索的本地化已經(jīng)是勢不可擋。第五節(jié) 搜索引擎展望一、技術(shù)展望各大公司都把下一代搜索引擎的查詢方式的創(chuàng) 新性，作為自己競爭的籌碼，以下是對下一代搜索引擎技術(shù)的一些構(gòu)想。未來，搜索引擎技術(shù)將重點(diǎn)發(fā)展在以下幾個(gè)方面：（一）自然語言理解技術(shù) 自然語言理解是計(jì)算機(jī)科學(xué)中的一個(gè)富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)特別是從人工智能的觀點(diǎn)看，自然語言理解的任務(wù)是建立一種計(jì)算機(jī)模型，這種計(jì)算機(jī)模型能夠給出像人那樣理解、分析并回答自然語言。以自然語言理解技術(shù)為基礎(chǔ)的新一代搜索引擎，我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識 (或概念 )層面，對知識有一定的理解與處理能力，能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征，允許網(wǎng)民采用自然語言進(jìn)行信息的檢索，為他們提供更方便、更確切的搜索服務(wù)。（二） P2P P2P 是 peer-to-peer 的縮寫，意為對等網(wǎng)絡(luò)。其宗旨在于加強(qiáng)網(wǎng)絡(luò)上人與人的交流、在文件交換、分布計(jì)算等方面大有前途。長久以來，人們習(xí)慣的互聯(lián)網(wǎng)是以服務(wù)器為中心，人們向服務(wù)器發(fā)送請求，然后瀏覽服務(wù)器回應(yīng)的信息。而 P2P 所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換，但數(shù)據(jù)是存儲在每臺電腦里，而不是存儲在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價(jià)值的東西，這將使互聯(lián)網(wǎng)上信息的價(jià)值得到極大的提升。（三）移動(dòng)搜索引擎隨著手機(jī)接入互聯(lián)網(wǎng)的能力越來越強(qiáng)，以及移動(dòng)業(yè)務(wù)日益傾向于內(nèi)容驅(qū)動(dòng)，搜索引擎的移動(dòng)化也成為不可避免的趨勢。許多運(yùn)營商已經(jīng)在其內(nèi)容網(wǎng)站上使用當(dāng)?shù)乇究粕厴I(yè)設(shè)計(jì) 7 搜索引擎來幫助消費(fèi)者找到所需信息，一些主要的搜索引擎公司如 Google、百度、愛問等已著力于移動(dòng)搜索，其搜索引擎的移動(dòng)化版本已經(jīng)問世并開始運(yùn)營。（四）垂直搜索服務(wù)及本地化垂直搜索引擎的搜索器只搜索特定的主題信息，按預(yù)先己經(jīng)定義好的專題有選擇地收集相關(guān)的網(wǎng)頁。這樣大大降低了收集信息的難度，提高了信息的質(zhì)量。由于所收集的學(xué)科領(lǐng)域小，信息量相對較少，可以采用 “專家分類標(biāo)引 ”的方法對收集到的信息進(jìn)行組織整理，進(jìn)一步提高信息的質(zhì)量，建立一個(gè)高質(zhì)量的、專業(yè)信息收集全的數(shù)據(jù)庫。每一種行業(yè) 都可以做一個(gè)垂直搜索。目前搜索領(lǐng)域才剛剛起步，尤其是垂直搜索，還有很大的空間。比如說家電、建材、家居、醫(yī)療健康等等方面，甚至還可以在更細(xì)的領(lǐng)域做更加深的搜索。美國去年第四季度出現(xiàn)了專門給老年人服務(wù)的搜索引擎。本地搜索前景也很好，面臨的挑戰(zhàn)就是把全中國所有的店家信息收集上來需要很多投入。賽迪顧問執(zhí)行總裁李峻預(yù)測，垂直搜索、本地搜索等未來搜索引擎市場仍將保持 30%左右的增長速度。一些垂直搜索將會成為值得深度挖掘的方向，如旅游搜索、求職搜索等行業(yè)細(xì)分的搜索引擎，而且搜索引擎技術(shù)和渠道的創(chuàng)新核心還在于商業(yè)模式的不斷完善。（五）多媒體搜索引擎隨著寬帶技術(shù)的發(fā)展，未來的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代。開發(fā)出可查尋圖像、聲音、圖片和電影的搜索引擎是一個(gè)新的方向。目前瑞典一家公司已經(jīng)研制推出被稱作 “第五代搜索引擎 ”的動(dòng)態(tài)的和有聲的多媒體搜索引擎。圖像、視頻將很快取代文本成為互聯(lián)網(wǎng)上主要的信息。二、市場展望 iResearch 預(yù)測到 2007 年中國搜索引擎市場規(guī)模將達(dá)到 56.2 億元人民幣，未來3 年的年增長率平均保持在 55%以上 1。中國本土的搜索引擎：百度、中搜、搜狗、一搜等相繼推出后，都取得了不錯(cuò)的反響，特別是百度在 2005 年 8 月 5 日正式在納斯達(dá)克上市，上市首日股票瘋狂上漲：最高達(dá) 151 美元，把搜索引擎的市值推到了高潮。微軟對搜索引擎的研發(fā)也伴隨著大規(guī)模的招兵買馬，微軟亞洲研究院也成立了專門的搜索小組。李開復(fù)先生加盟 Google 后，讓很多人預(yù)測 Google 一定會吃掉中文搜索引擎這個(gè) 巨大的市場。而李開復(fù)先生在閃電加盟后，在 “開復(fù)學(xué)生網(wǎng) ”上發(fā)表了一篇題為 “Google和中國 -追隨我心的選擇 ”， Google 的搜索文化對技術(shù)人員的吸引可見一斑，等等數(shù)字和事件表明，搜索引擎在互聯(lián)網(wǎng)上有著強(qiáng)勁的生命力和發(fā)展?jié)摿Γ瑫r(shí)也是互聯(lián) 網(wǎng)公司豐厚利潤的來源之一。本科生畢業(yè)設(shè)計(jì) 8 圖 1-5-1 2002-2006 年中國搜索引擎市場規(guī)模及增長 2 2005 年 8 月，法國總統(tǒng)希拉克大張旗鼓地發(fā)布了 “Quaero”計(jì)劃，它很快被顯現(xiàn)為一種歐洲的決心推出與 Google 搜索競爭的相同產(chǎn)品。這款名為 “Quaero”的搜索引擎，不僅能搜索文本，而且還能搜索圖片和視頻。 Quaero 的拉丁文語義是 “我搜索 ”，該項(xiàng)目獲得了 2.5 億歐元資助 (3.3 億美元 )，法德兩國主要技術(shù)公司參加了開發(fā)。而在德國，一些德國企業(yè)將參加另外的德國版搜索引擎 “Theseus”的開發(fā)，該引擎更加集中于文本分析。法德兩國開發(fā)商將在合作、競爭及互補(bǔ)的環(huán)境下實(shí)施歐洲新一代搜索引擎的開發(fā)計(jì)劃。和其他許多國家一樣，在日本提起搜索引擎，人們首先想到的是谷歌，此外還有雅虎和微軟麾下的 MSN。根據(jù)今年 3 月的一項(xiàng)調(diào)查，在日本檢索服務(wù)利用率排名中居首位的是雅虎，其利用率達(dá) 64.5%，其次是谷歌和 MSN，日本開發(fā)的 GOO 雖然名列第四，但實(shí)際利用率只有 5.5%，與前三名的差距很明顯。中國百度也已經(jīng)進(jìn)入日本市場，欲與群雄共逐鹿。其實(shí)日本著手開發(fā)搜索引擎要早于美國，日本電信電話公司、日本電氣公司和東芝公司等都曾擁有過各自獨(dú)立的搜索引擎。直到 20 世紀(jì) 90 年代后期，這些日本國產(chǎn)搜索引擎還在相互競爭。但隨著美國谷歌的出現(xiàn)，互聯(lián)網(wǎng)信息檢索業(yè)界的格局在 2000 年前后發(fā)生了劇變。谷歌高精確度的檢索服務(wù)使日本眾多門戶網(wǎng)站形成了這樣的共識 “搜索引擎依靠谷歌就足夠了 ”，因此日本國產(chǎn)搜索引擎全線敗退。搜索引擎是遨游網(wǎng)絡(luò)世界的必備工具，而其中的基干技術(shù)掌握在外國企業(yè)手中。一些日本業(yè)界專家認(rèn)為，長此以往日本互聯(lián)網(wǎng)搜索業(yè)務(wù)未來有可能被外國企業(yè)控制。抱著同樣的危機(jī)感，日本政府把國產(chǎn)下一代搜索引擎項(xiàng)目提上了議事日程。經(jīng)濟(jì)產(chǎn)業(yè)省 2005 年 12 月設(shè)立了企業(yè)、研究機(jī)構(gòu)和政府部門共同參與的網(wǎng)絡(luò)搜索引擎研究小組，負(fù)責(zé)整理與搜索技術(shù)開發(fā)相關(guān)的資料， 2006 年 7 月末由大學(xué)和 52 家企業(yè)參與本科生畢業(yè)設(shè)計(jì) 9 的合作項(xiàng)目 “信息大航海計(jì)劃 ”正式啟動(dòng)，準(zhǔn)備用 3 年時(shí)間開發(fā)出下一代互聯(lián)網(wǎng)搜索引擎，挑戰(zhàn)谷歌等搜索引擎的市場霸主地位，并打算在 2007 年度預(yù)算中申請 50 億日元 (約合 4300 萬美元 )作為研發(fā)費(fèi)用，爭取 5年后使下一代搜索引擎進(jìn)入實(shí)用階段。據(jù)日本媒體報(bào)道，日本下一代搜索引擎不僅能像現(xiàn)在一樣依靠關(guān)鍵詞從互聯(lián)網(wǎng)上的信息海洋中提取所需信息，運(yùn)用現(xiàn)在逐漸普及的電子標(biāo)簽，還可以及時(shí)掌握有關(guān)全球產(chǎn)品的信息，或者以從視頻資料中剪輯的錄音為基礎(chǔ)，檢索音頻資料。日本下一代搜索引擎的終端設(shè)備不僅有電腦，還可能是電視機(jī)、手機(jī) 、汽車導(dǎo)航儀等。今后只要操縱遙控器就能通過新搜索引擎找到電視節(jié)目中出現(xiàn)過的人物或某個(gè)地區(qū)的資料，查詢并購買電視中出現(xiàn)過的某款商品等。業(yè)內(nèi)人士指出，雅虎、谷歌、 MSN 每年分別投資數(shù)億美元用于技術(shù)研發(fā)，這帶來問題是在目前體制下怎樣才能超越上述企業(yè)的技術(shù)水準(zhǔn)。谷歌等搜索引擎霸主的戰(zhàn)略也包含將檢索對象從文本擴(kuò)展到視頻和音頻資料，此外日本及歐洲大型企業(yè)的不少資深技術(shù)人員常跳槽到谷歌和雅虎，這可能有助于谷歌等開發(fā)下一代搜索引擎終端設(shè)備。因此像法國的 “Quaero”計(jì)劃和日本的 “信息大航海計(jì)劃 ”等等的實(shí)施能否取得預(yù)期效果現(xiàn)在很難準(zhǔn)確預(yù)料。但不可否認(rèn)的是：搜索引擎市場將進(jìn)入一個(gè)群雄逐鹿的瘋狂競爭時(shí)代。隨著搜索經(jīng)濟(jì)的崛起，人們開始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日流量。作為企業(yè)，會根據(jù)搜索引擎的知名度以及日流量來選擇是否要投放廣告等。對于消費(fèi)者而言，使用互聯(lián)網(wǎng) 搜索引擎是進(jìn)入網(wǎng)絡(luò)世界的一個(gè)重要入口，這意味著巨大的商機(jī)。微軟將 2007 財(cái)政年度的研發(fā)開支預(yù)算調(diào)高至 75 億美元，較預(yù)期高出約 13 億美元，此舉顯示出微軟與 Google、雅虎在互聯(lián)網(wǎng)搜索市場上一決高下的決心。搜索引擎也將不再是技術(shù)，而是經(jīng)濟(jì)。本科生畢業(yè)設(shè)計(jì) 10 第一章技術(shù)詮釋第一節(jié) HTTP 及 HTML 超文本傳輸協(xié)議（ HTTP）是應(yīng)用層協(xié)議，由于其簡捷、快速的方式，適用于分布式和合作式超媒體信息系統(tǒng)。自 1990 年起， HTTP 就已經(jīng)被應(yīng)用于 WWW 全球信息服務(wù)系統(tǒng)。客戶進(jìn)程建立一條同服務(wù)器進(jìn)程的 TCP 連接，然后發(fā)出請求并讀取服務(wù)器進(jìn)程的應(yīng)答。服務(wù)器進(jìn)程關(guān)閉連接表示本次響應(yīng)結(jié)束。服務(wù)器進(jìn)程返回的內(nèi)容包含兩個(gè)部分，一個(gè) “應(yīng)答頭 ”（ response header），一個(gè) “應(yīng)答體 ”（ response body），后者通常是一個(gè) HTML 文件，我們稱之為 “網(wǎng)頁 ”。通常 HTTP 消息包括客戶機(jī)向服務(wù)器的請求消息和服務(wù)器向客戶機(jī)的響應(yīng)消息。這兩種類型的消息由一個(gè)起始行，一個(gè)或者多個(gè)頭域，一個(gè)只是頭域結(jié)束的空行和可選的消息體組成。 HTTP 的頭域包括通用頭，請求頭，響應(yīng)頭和實(shí)體頭四個(gè)部分。每個(gè)頭域由一個(gè)域名，冒號（ :）和域值三部分組成。域名是大小寫無關(guān)的，域值前可以添加任何數(shù)量的空格符，頭域可以被擴(kuò)展為多行，在每行開始處，使用至少一個(gè)空格或制表符。 HTTP 協(xié)議采用了請求 /響應(yīng)模型。客戶端向服務(wù)器發(fā)送一個(gè)請求，請求頭包含請求的方法、 URI、協(xié)議版本、以及包含請求修飾符、客戶信息和內(nèi)容的類似于 MIME的消息結(jié)構(gòu)。服務(wù)器以一個(gè)狀態(tài)行作為響應(yīng)，相應(yīng)的內(nèi)容包括消息協(xié)議的版本，成功或者錯(cuò)誤編碼加上包含服務(wù)器信息、實(shí)體元信息以及可能的實(shí)體內(nèi)容。 Web 服務(wù)器的 HTTP 應(yīng)答一般由以下幾項(xiàng)構(gòu)成：一個(gè)狀態(tài)行，一個(gè)或多個(gè)應(yīng)答頭，一個(gè)空行，內(nèi)容文檔。設(shè)置 HTTP 應(yīng)答頭往往和設(shè)置狀態(tài)行中的狀態(tài)代碼結(jié)合起來。典型的請求消息： GET http:/class/download.microtool.de:80/somedata.exe Host:download.microtool.de Accept:*/* Pragma:no-cache Cache-Control:no-cache Referer:http:/class/download.microtool.de/ User-Agent:Mozilla/4.04en(Win95；I；Nav) Range:bytes=554554- 典型的響應(yīng)消息： HTTP/1.0200OK 本科生畢業(yè)設(shè)計(jì) 11 Date:Mon,31Dec200104:25:57GMT Server:Apache/1.3.14(Unix) Content-type:text/html Last-modified:Tue,17Apr200106:46:28GMT Etag:a030f020ac7c01:1e9f Content-length:39725426 Content-range:bytes554554-40279979/40279980 一個(gè)完整的 HTML 文檔以開始，以結(jié)束。大部分的 HTML命令都像這樣成對出現(xiàn)。 HTML 文檔含有以開始、以結(jié)束的首部和以開始、以結(jié)束的主體部分。標(biāo)題通常由客戶程序顯示在窗口的頂部。第二節(jié) 網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛即 Web Spider，是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng)，那么 Spider 就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站某一個(gè)頁面（通常是首頁）開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁，這樣一直循環(huán)下去，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站，那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。首先蜘蛛讀取抓取站點(diǎn)的 URL 列表，取出一個(gè)站點(diǎn) URL，將其放入未訪問的URL 列表（ UVURL 列表）中，如果 UVURL 不為空剛從中取出一個(gè) URL 判斷是否已經(jīng)訪問過，若沒有訪問過則讀取此網(wǎng)頁，并進(jìn)行超鏈分析及內(nèi) 容分析，并將些頁存入文檔數(shù)據(jù)庫，并將些 URL 放入已訪問 URL 列表（ VURL 列表），直到 UVRL為空為止，此時(shí)再抓取其他站點(diǎn)，依次循環(huán)直到所有的站點(diǎn) URL 列表都抓取完為止。對于搜索引擎來說，要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的，從目前公布的數(shù)據(jù)來看，容量最大的搜索引擎也不過是抓取了整個(gè)網(wǎng)頁數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸，無法遍歷所有的網(wǎng)頁，有許多網(wǎng)頁無法從其它網(wǎng)頁的鏈接中找到；另一個(gè)原因是存儲技術(shù)和處理技術(shù)的問題，如果按照每個(gè)頁面的平均大小為 20K 計(jì)算（包含圖片）， 100 億網(wǎng)頁的容量是 1002000G 字節(jié)，即使能夠存儲，下載也存在問題（按照一臺機(jī)器每秒下載 20K 計(jì)算，需要 340 臺機(jī)器不停的下載一年時(shí)間，才能把所有網(wǎng)頁下載完畢）。同時(shí)，由于數(shù)據(jù)量太大，在提供搜索時(shí)也會有效率方面的影響。因此，許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁，而在抓取的時(shí)候評價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁的鏈接深度。本科生畢業(yè)設(shè)計(jì) 12 在抓取網(wǎng)頁的時(shí)候，網(wǎng)絡(luò)蜘蛛一般有兩種策略：廣度優(yōu)先和深度優(yōu)先（如下圖所示）。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁，然后再選擇其中的一個(gè)鏈接網(wǎng)頁，繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng) 頁。這是最常用的方式，因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理，提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始，一個(gè)鏈接一個(gè)鏈接跟蹤下去，處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁，繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁的時(shí)候，經(jīng)常會遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題，有些網(wǎng)頁是需要會員權(quán)限才能訪問。當(dāng)然，網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓取，但對于一些出售報(bào)告的網(wǎng)站，他們希望搜索引擎能搜索到他們的報(bào)告，但又不能完全免費(fèi)的讓搜索者查看，這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進(jìn)行網(wǎng)頁抓取，從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁的時(shí)候，同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁，不同于一般的訪問，如果控制不好，則會引起網(wǎng)站服務(wù)器負(fù)擔(dān)過重。有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進(jìn)行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來自哪兒，做了些什么，另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁不應(yīng)該抓取，哪些網(wǎng)頁應(yīng)該更新。每個(gè)網(wǎng)絡(luò)蜘蛛都有自己的名字，在抓取網(wǎng)頁的時(shí)候，都會向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁的時(shí)候會發(fā)送一個(gè)請求，這個(gè)請求中就有一個(gè)字段為 User agent，用于標(biāo)識此網(wǎng)絡(luò)蜘蛛的身份。例如 Google 網(wǎng)絡(luò)蜘蛛的標(biāo)識為 GoogleBot，Baidu 網(wǎng)絡(luò)蜘蛛的標(biāo)識為 BaiDuSpider， Yahoo 網(wǎng)絡(luò)蜘蛛的標(biāo)識為 Inktomi Slurp。如果在網(wǎng)站上有訪問日志記錄，網(wǎng)站管理員就能知道，哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過來過，什么時(shí)候過來的，以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個(gè)蜘蛛有問題，就通過其標(biāo)識來和其所有者聯(lián)系。網(wǎng)絡(luò)蜘蛛進(jìn)入一個(gè)網(wǎng)站，一般會訪問一個(gè)特殊的文本文件 Robots.txt，這個(gè)文件一般放在網(wǎng)站服務(wù)器的根目錄下，如： /robots.txt 。網(wǎng)站管理員可以通過 robots.txt 來定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問，或者哪些目錄對于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時(shí)文件目錄不希望被搜索引擎搜索到，那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt 語法很簡單，例如如果對目錄沒有任何限制，可以用以下兩行來描述： User-agent: * Disallow: 當(dāng)然， Robots.txt 只是一個(gè)協(xié)議，如果網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)者不遵循這個(gè)協(xié)議，網(wǎng)站管理員也無法阻止網(wǎng)絡(luò)蜘蛛對于某些頁面的訪問，但一般的網(wǎng)絡(luò)蜘蛛都會遵循這些協(xié)議，而且網(wǎng)站管理員還可以通過其它方式來拒絕網(wǎng)絡(luò)蜘蛛對某些網(wǎng)頁的抓取。本科生畢業(yè)設(shè)計(jì) 13 第三節(jié) 網(wǎng)頁噪聲當(dāng) Web 中獲取所需信息的同時(shí)，會常常看見大量和所關(guān)心內(nèi)容無關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問卷等，稱之為 “噪聲 ”內(nèi)容。在某些情況下，可能從這些噪音內(nèi)容中得到一些意外的驚喜；但多數(shù) 時(shí)候，因這些噪聲消耗掉了很多的注意力。同時(shí)，噪聲內(nèi)容通常伴隨著相關(guān)的超鏈。因此，噪聲會導(dǎo)致相互鏈接的網(wǎng)頁常常并無內(nèi)容相關(guān)性。這樣，網(wǎng)頁內(nèi)容的混亂不僅給基于網(wǎng)頁內(nèi)容的研究工作帶來困難，也給基于網(wǎng)頁超鏈指向的研究工作帶來困難。另外，隨著 Web 各種研究與應(yīng)用的深入發(fā)展，僅僅是原始網(wǎng)頁內(nèi)容已經(jīng)不能滿足需求，還要求能夠提供便于計(jì)算機(jī)處理的元數(shù)據(jù)信息，例如關(guān)鍵詞、摘要、網(wǎng)頁內(nèi)容類別等。然而，現(xiàn)在大部分網(wǎng)頁仍然是普通 HTML 網(wǎng)頁，并不包含必要的元數(shù)據(jù)。因此，本節(jié)討論一個(gè)網(wǎng)頁表示模型建立和實(shí)現(xiàn)的方法，這一方面使我們能夠自動(dòng)從網(wǎng)頁中提取相關(guān)的元數(shù)據(jù)，另一方面也去除了和網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容，進(jìn)而在原始 Web 上搭建一個(gè)噪聲小、描述清晰、更易于處理和利用的網(wǎng)頁信息平臺。在網(wǎng)頁分類領(lǐng)域，由于噪聲內(nèi)容與主題無關(guān)，訓(xùn)練集中的噪聲內(nèi)容會導(dǎo)致各個(gè)類別的特征不夠明顯，而待分類網(wǎng)頁中的噪聲內(nèi)容則會導(dǎo)致該網(wǎng)頁類別不明確，因而影響了網(wǎng)頁自動(dòng)分類的效果。因此提出了通過去掉網(wǎng)頁中的噪聲內(nèi)容來提高網(wǎng)頁分類質(zhì)量的方法。在網(wǎng)頁信息提取領(lǐng)域，自動(dòng)識別模式的方法必須要從整個(gè)網(wǎng)頁中提取模式，而不是只針對主題內(nèi)容提取。因此，在凈化后的網(wǎng)頁上作信息提取不僅可以排除噪聲信息對信息提取的干擾，提高信息提取的準(zhǔn)確性，而且可以使得網(wǎng)頁中的結(jié)構(gòu)簡單化，提高信息提取的效率。上述分析我們看到，網(wǎng)頁噪聲對基于網(wǎng)頁的研究工作的影響是普遍而嚴(yán)重的，雖然各個(gè)領(lǐng)域采用的方法各不相同，但處理的目的都是為了去除網(wǎng)頁中的噪聲內(nèi)容，得到真正的主題內(nèi)容。第四節(jié) 頁面分析由于 WWW網(wǎng)上的信息主要是以 HTML文檔的形式存放的，因此要根據(jù) HTML文檔的特點(diǎn)，對其進(jìn)行掃描分析，以提取信息。 HTML文檔有五個(gè)定義好的組件 : 、文本本科生畢業(yè)設(shè)計(jì) 14 、注釋、簡單標(biāo)簽、起始標(biāo)簽、結(jié)束標(biāo)簽文本就是在 HTML頁面上看到的詞句的內(nèi)容。除了腳本代碼， HTML文檔中的所有數(shù)據(jù)，只要不是標(biāo)簽的組成部分，都被認(rèn)為是文本。文本是格式化的，并且受包圍它的標(biāo)簽的控制。就像前面所提到的那樣，如果數(shù)據(jù)位于文本之外，將不會被看作文本。但是程序在理解 HTML頁面時(shí)，腳本代碼具有與文本相似的特性。腳本代碼包含在標(biāo)簽之間。確保搜索引擎程序不會將腳本代碼與文本數(shù)據(jù)混淆是很重要的。文本實(shí)際上就是顯示在瀏覽器中的文字，其顯示方式由包圍它的標(biāo)簽來網(wǎng)以決定。根據(jù)本課題的要求，文本無疑是我們所需要的重要的信息源之一。頁相關(guān)的主題是通過文本來表達(dá)的，所以文本信息必須被完全提取出來，便進(jìn)一步處理。注釋表示 HTML文檔中不會顯示給用戶的那部分內(nèi)容。他們通常是 HTML程序員所做的說明，這些說明通常是表達(dá)編程思路的，所以這類數(shù)據(jù)對本課題來說是毫無用處。因此在解析 HTML文檔時(shí)，將注釋忽略。簡單標(biāo)簽是由單個(gè)表示的 HTML標(biāo)簽。最普遍的簡單標(biāo)簽是行中斷符 ()標(biāo)簽和圖像標(biāo)簽 ( )，它們都沒有相應(yīng)的結(jié)束標(biāo)簽。簡單標(biāo)簽主要是用來控制顯示格式或使用圖像美化界面用的。大多數(shù) HTML標(biāo)簽都是由開始標(biāo)簽和結(jié)束標(biāo)簽組成的。開始標(biāo)簽非常像簡單標(biāo)簽。開始標(biāo)簽與簡單標(biāo)簽直接的唯一區(qū)別是 :開始標(biāo)簽有一個(gè)相應(yīng)的結(jié)束標(biāo)簽，該結(jié)束標(biāo)簽出現(xiàn)在后面。開始標(biāo)簽和結(jié)束標(biāo)簽用來控制其所包含的 HTML代碼的功能。在所有的開始和結(jié)束標(biāo)簽中，標(biāo)簽是最有用的。標(biāo)簽在 HTML中叫做鏈接標(biāo)簽，它決定了當(dāng)在瀏覽器中點(diǎn)擊該標(biāo)簽的文本時(shí)所要打開的網(wǎng)頁的 URL。下面是一個(gè)例子 : Click Here 從上面的例子中我們可以看出，標(biāo)識它所鏈接的 URL是該標(biāo)簽的 href屬性決定，href的值就代表了一個(gè) URL. Href屬性值有兩種表達(dá)方式 :一種是絕對路徑，也就是說它的值是一個(gè)完整的 URL，程序可以直接使用它；另一種相對路徑，它的表示方式只有目錄或文件名，表示相對于木網(wǎng)頁的所在目錄的位置。使用相對路徑的目的是提高網(wǎng)頁的可移植性。標(biāo)簽中的鏈接并不是唯一將用戶帶到其它頁面的基礎(chǔ)結(jié)構(gòu)標(biāo)簽。 Web站點(diǎn)還能建立圖像映像，當(dāng)用戶點(diǎn)擊它們時(shí)，也能將用戶帶到相應(yīng)的新頁面。圖像映像由客戶端和服務(wù)器圖像映像組成，但是服務(wù)器圖像映像幾乎完全被客戶端所取代。這是因?yàn)榉?wù)器端的圖像映像，需要一個(gè)服務(wù)器插件來注冊用戶本科生畢業(yè)設(shè)計(jì) 15 點(diǎn)擊的圖像區(qū)域。而這在客戶端圖像映像中是完全包含在 HTML文件中 3。客戶端圖像映像不需要服務(wù)器端的腳本表示來解釋可多處點(diǎn)擊的圖像的 hot”區(qū)。實(shí)際上，客戶端圖像映像比服務(wù)器端圖像映像更為有效，而且還允許訪問者在Web瀏覽器的狀態(tài)區(qū)中看到映像區(qū)域真正關(guān)聯(lián)的 URL。該狀態(tài)文本還會在用戶鼠標(biāo)在圖像映像區(qū)域移動(dòng)的時(shí)候出現(xiàn)。客戶端映像圖像將包含一個(gè)如下所示的映像。該映像將每個(gè)圖像區(qū)域鏈接到一個(gè) URL: 在該 HTML文件的后面，該映像以類似于下面的方式使用 : 通過以上分析圖像映像當(dāng)中的超級鏈接可以由圖像的簡單標(biāo)簽中的 href屬性得到。除了以上兩種情況外，框架中的 src屬性也可以設(shè)置超級鏈接。框架標(biāo)簽屬于開始標(biāo)簽和結(jié)束標(biāo)簽，下面是一個(gè)例子。在上面的例子中可以看出，該標(biāo)簽中有一個(gè)名為 src的屬性，代表了該框架中應(yīng)顯示的網(wǎng)頁鏈接，在網(wǎng)頁中搜索鏈接時(shí)，不應(yīng)遺漏此類鏈接。需要說明的是，窗體、腳本語言代碼和網(wǎng)頁中嵌入式對象也可以提供鏈接功能。但是，它們主要是提供一些特殊領(lǐng)域的特殊功能的應(yīng)用。窗體主要是用來收集用戶信息，用戶信息是瀏覽網(wǎng)頁的人根據(jù)自己的實(shí)際情況填寫，例如，用戶名和密碼等。在這些用戶信息不全的情況下，返回的網(wǎng)頁通常顯示的是錯(cuò)誤的信息的頁面。這對本文所研究的垂直搜索引擎來說是毫無意義的，因此，我們對表單不作處理。至于腳本語言代碼，通常是網(wǎng)頁編寫者按照自己的意愿和邏輯，用腳本

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

畢業(yè)設(shè)計(jì)論文搜索引擎

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

畢業(yè)設(shè)計(jì)論文 搜索引擎

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

畢業(yè)設(shè)計(jì)論文搜索引擎