




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 基于結構化數據的搜索引擎 姜恩波 覃琳Summary:目的/意義搜索引擎作為互聯網的核心技術與應用之一,代表了互聯網發展的水平。了解當前搜索引擎的發展情況,有利于更好地把握技術前沿動態。方法/過程文章首先闡述搜索引擎的發展歷史,然后重點介紹基于結構化數據的搜索引擎的原理、應用場景,揭示這一類搜索引擎的特征。結果/結論基于數據的搜索引擎是互聯網發展過程中的必然結果,也是互聯網發展的一個亮點。搜索引擎會繼續將互聯網的精英技術和理念收攬其中,在人們的學習、生活中發揮更加突出的作用。Key:搜索引擎;結構化數據;知識實體;互聯網DOI:10.3969/j.issn.1008-0821.2019.02
2、.008G254.9A1008-0821(2019)02-0066-07數據是一個變化的概念。之前的數據主要是指在自然科學、社會科學研究上從自然界采集、在實驗室產生的一手數據以及基于一手數據分析、統計產生的二手數據,也就是我們所說的科學數據。這可以算是數據的狹義概念。大數據時代,數據所包括的范圍更加廣泛,除了科學數據之外,還包括但不限于文本、音頻、視頻、圖片、表格等。數據無處不在,萬物皆是數據。而本文提到的基于數據的搜索引擎是指以結構化、細粒度的信息單元為基礎,進行知識組織和語義搜索的搜索引擎。1搜索引擎發展簡史搜索引擎作為第一代互聯網的核心技術和成功應用,已經和我們的學習和研究密不可分。人們
3、幾乎已經把谷歌、百度、必應這些搜索引擎作為查找東西的代名詞,論文、天氣、股票、疾病、專家、旅游等等,都可以從搜索引擎里信手拈來。然而,就是這普通得再也不能普通的“你提問我回答”的行為背后卻蘊含著搜索引擎領域不斷發展、不斷演變,從分類導航到基于知識庫服務的歷史軌跡。當前,搜索引擎領域已經形成了一個極為龐大的產業,搜索引擎優化(SEO)成為人們推廣成果的重要途徑。大型的商業企業、學術出版商、信息服務、人工智能等領域都在為有一個功能強大,且方便易用的“搜索核”而努力探索和研究。而搜索引擎其自身也在不斷地和最新的技術相結合,滿足著大數據時代,用戶不斷攀升的需求。搜索引擎的發展就是互聯網進步的標志。第一
4、代搜索引擎是以雅虎、DMOZ為代表的分類導航搜索引擎。在那個階段,互聯網信息的數量和類型都遠不能和現在相比。雅虎還能通過人工來篩選網頁,建立元數據信息,也就是給網頁“編目”,再放到合適的類別之下。而Open Directory Project(又稱Directory of Mozilla,簡稱DMOZ)是互聯網上最大的目錄社區。嚴格來說,第一代搜索引擎的核心服務是“組織”而不是“搜索”。隨著互聯網快速發展,信息量也迅猛增長。更多、更快地匯聚信息,并提供準確的檢索結果,是第二代搜索引擎的目標。第二代搜索引擎的核心技術是“采集”和“關聯”。每個搜索引擎都會有采集組件。這個組件周期性地遍歷互聯網。人
5、們形象地把它們稱作網絡蜘蛛(Spider)、網絡爬蟲(Crawler)等。評價第二代搜索引擎的一個重要指標就是采集和索引網頁的速度和數量。比如谷歌一般是28天。而網絡爬蟲的性能、并發性、智能性都是研究的熱點。采集回了眾多的網頁,如何才能把內容更加準確地反饋給用戶呢?也就是說在搜索引擎內部,如何更好地組織這些頁面。谷歌是NSF資助的眾多搜索引擎項目之一。其PageRank算法的主要核心就是不僅計算文本相似度,還計算網頁之間的關聯度。兩個維度的疊加讓用戶不再需要頻繁翻頁就能找到自己真正的目標。這一段時間里出現了很多具有實際意義的搜索引擎:Alta Vista、Lycos、Infoseek、Yaho
6、o等,谷歌成為第二代搜索引擎中的翹楚,并且不斷推出新的功能,影響著整個互聯網。搜索引擎也從單一的信息組織服務發展到電子商務、新聞信息服務、個人免費電子信箱服務等多種網絡服務的綜合體。2搜索引擎向精準服務的發展二代Internet飛速發展應該歸功于Internet的商業化。商業機構踏入Internet這一陌生世界后,很快發現了它在通信、資料檢索、客戶服務等方面的巨大潛力1。商業機構的加入,從各個方面推動了互聯網的普及以及人們對互聯網的更進一步的依賴。對于搜索引擎,人們不再滿足于僅僅提供一大堆Summary和鏈接,希望能夠得到更為精準的服務。而這正是二代搜索引擎的不足。20世紀90年代,Tim B
7、erners Lee等人提出了“語義WEB”的概念,認為互聯網發展的方向是由“文檔網絡(Web of Document)”向“數據網絡(Web of Data)”進化。在“Web of Document”環境下,Html頁面是搜索引擎采集、處理和服務于用戶的基本單元。我們知道,Html頁面是一種半結構化的組織方式,內容和顯示模式放在一起。其次,URL兩端所關聯的是網頁,而頁面包含的內容很多,不易準確指向。另外,每一個頁面都可能和很多其他的頁面建立關聯。而這些頁面之間具體的關聯關系在URL里也是無法直接體現的。而“Web of Data”則是要在互聯網現有的內容層面上進行改造、優化和重構。改造和
8、優化是指對Html頁面內容增加描述、標注信息,形成結構化的元數據及Summary內容。重構,則是指以結構化的形式發布海量的信息,并且逐漸成為互聯網的基礎。至此,互聯網進入了第3個發展階段。在這個階段,語義標注、知識庫、知識組織、關聯數據和自然語言處理成為其突出特征。對于搜索引擎,它以互聯網內容作為處理和服務的基礎。前者發生了變化,自然會導致后者的跟隨。“Web of Data”的思想讓“搜索”的概念發生了翻天覆地的變化,由“搜索信息”向“理解搜索”轉變2。人們開始基于結構化數據的信息來改造搜索引擎。2.1語義標注(Semantic Annotation)與S語義標注是采用類RDF形式,對HTM
9、L頁面內容進行描述,并以“鍵值對”的方式嵌套到HTML標簽中的一種技術手段。語義標注實質是一種隱形的內容片段,旨在為搜索引擎的語義檢索和富文本Summary的顯示提供支持。搜索引擎在處理特定網頁的時候,除了對正文進行例行處理外,重點是要對這些語義信息進行識別。實現語義標注的技術有微數據(谷歌推薦使用)、微格式、RDFa。它們的區別在于所使用的標簽不一樣或者所嵌入的地點不一致,并且三者不能彼此兼容。S是由谷歌、雅虎、必應(Bing)和Yandex聯合推出的可用來描述互聯網上結構化數據的語義標注體系。簡而言之,它提供了描述紛繁事物的統一框架。S的目標是“改善搜索引擎的有效性,讓人們更容易地找到需要
10、的網頁”3。S以Thing作為根節點,子標簽分為4級。第一級8大類,分別是Creative Works、Intangible、MedicalEntity、Event、Organization、Person、Place、Product。第2、3、4級都是對其父級別的內容進行細化。每一類事物有若干屬性以及對應的數據類型,隨著標簽級別的加深,事物的屬性也在繼承的基礎上,增加本級特有的屬性。在技術上,S采用微數據作為唯一的技術實現方案,希望統一HTML標注技術。下面的例子來自于S中文網站4。通過對標簽的分析,搜索引擎可以準確地了解網頁主要是對一部電影(http:/Movie)進行描述。電影有兩個屬性:
11、電影名字(Name)和導演(Director)。阿凡達Director:詹姆斯卡梅隆 (出生于1954年8月16日)語義標注是互聯網發展的一個方向,它為搜索引擎精準服務提供基礎素材。從目前的應用情況來看,語義標注在國外宣傳和應用的情況較好。國內總體來說還處于理論研究和小范圍使用階段。一些機構制定了語義標注體系,例如cnSS是一個基于社區維護的開放的知識圖譜Schema標準,由來自北大、清華等若干高校和研究機構共同制定與維護。2.2RDF搜索引擎基于Tim Berners-Lee的“Web of Data”理念,眾多的機構開始以關聯開放數據(Linked Open Data,LOD)作為一種最佳
12、實踐來發布信息。這包括維基百科、大英圖書館書目信息、紐約時報等等。關聯數據的特征之一就是采用RDF來對信息進行描述和組織,通過多個RDF實例來形成一個概念的數據模型。而每一個RDF實例則是由資源、屬性類型、屬性值構成的結構化的三元組(Triple)。三元組的架構準確地展現了主、賓之間的關系(謂語),為搜索引擎“理解”用戶意圖,提供精準服務打下了基礎。基于此,互聯網上出現了眾多RDF知識庫,如Yago、Freebase、DBpedia、musicBrainz等,也出現了基于RDF的搜索引擎。與傳統搜索引擎不一樣,這些搜索引擎的采集對象不是網頁,而是RDF三元組,如Swoogle、Falcons和
13、Sindice等。然而,RDF搜索引擎存儲的是結構化的三元組信息,是用非常簡潔的形式表達對象之間的關系。因此,這種搜索引擎的用戶主要不是面向普通用戶,而是機器。機器通過SPARQL語句發出請求,搜索引擎執行查詢語句,并將結果以JSON-LD、RDF/XML、Turtle等格式返回。SPARQL是一種功能強大的查詢語言,允許應用程序對RDF數據庫進行復雜的查詢。但是它畢竟是一種面向底層的查詢語言,普通用戶掌握起來有很大的困難。因此,最開始的RDF搜索引擎存在搜索界面不友好、結果顯示界面信息不豐富和欠美觀的情況,并未走入尋常百姓家。隨著語義網的發展,RDF數據庫越來越多,人們希望能夠充分發揮RDF
14、三元組精準描述的特性,因此,逐漸出現了一些能夠提供基于半自然語言提問的問答型搜索引擎(Question and Answer Search Engine)。2.3知識圖譜(Knowledge Graph)與谷歌、必應作為互聯網搜索引擎巨頭,谷歌不斷推出新的理念、標準和產品。2012年5月,谷歌發布“知識圖譜(Knowledge Graph,KG)”,并且將知識圖譜加入到谷歌搜索中。知識圖譜的概念來自于上世紀60年代,知識圖譜的本質是描述真實世界中存在的各種實體或概念及其關系的網絡圖。它能夠極大改進搜索引擎的效率和效果,為智能應用奠定基礎。知識實體的建設是基于數據搜索引擎的基石。實體又被稱作概念
15、(Concept)、事物(Thing)或知識元。知識實體的數量、準確性以及詳細程度決定搜索引器服務質量的基礎。谷歌知識圖譜的實體信息內容豐富,包括且不限于CIA的世界概況,Freebase和維基百科6等。2012年谷歌知識圖譜已經包含了超過5.70億個經常被搜索的人、地名和事物7。它服務的方式類似于維基百科(Wikipedia)的InfoBox,在搜索結果頁面的右邊欄,加上了針對Key的一些結構化描述內容。與谷歌進行競爭的是微軟的必應(Bing)搜索引擎。必應同樣也是基于細粒度知識單元的搜索來提供服務。微軟稱之為“實體搜索”(Entity Engine),其知識庫叫做Satori。與谷歌不同的
16、是,微軟知識庫建設的方式是靠微軟自身以及眾多第三方加入3。2014年,必應在其Satori中加入了關于出租車8、歷史名人時間履歷(Timelines)9和關于醫生、律師、牙醫以及房地產的約1.5億個實體和關系的內容10。后續,必應又陸續加入了TED演講、大學排名、歷史事件、大學開放課程以及地名與人名的關聯等等11。而通過加入第三方的實體,必應希望在為用戶提供檢索結果的同時,幫助觸發第三方的應用,從而讓搜索引擎給用戶的服務能夠更加深入一步,因此,必應也叫做執行搜索引擎(Do Engine)12。谷歌知識圖譜和必應實體搜索的發展,是知識圖譜技術經過多年的積累在互聯網領域的應用。這也引發了國內外各個
17、領域對知識圖譜、知識庫技術與應用的研究,例如大規模知識圖譜的命名實體識別與關聯構建、知識表示與知識融合、海量知識庫的數據存儲等等。國內也出現了一些基于知識圖譜的典型應用,如搜狗知立方、百度知心等。2.4問答型搜索引擎問答型搜索引擎是一種特殊的搜索引擎。谷歌、必應、百度等搜索引擎給用戶提供的還是以提供相關網頁概要及鏈接為主。其背后的原理是根據Key,幫助用戶篩選出可靠的答案可能在的網頁。而問答型搜索引擎則以為用戶提供精準答案為目標。需要說明的是,問答型搜索引擎與問答型網站是兩種不同的產品。前者如Wolfram Research、Ask Jeeves、QUERIX,是理解問題,自動計算并回答。而后
18、者則是由產品管理人員或者用戶回答,屬于UGC模式的一種產品類型,如Yahoo Answers、百度知道、知乎、AnswerBag等。問答型搜索引擎底層在搜索界面上屏蔽了之前RDF搜索引擎的技術細節,讓使用過程更加人性化。另外,問答型搜索引擎集成了自然語言(NLP)的研究成果,讓用戶的檢索過程更加方便。一些問答型搜索引擎為了更為準確地理解用戶輸入的內容,設置了一些句式模板。以圖3 QUERIX為例,它在用戶的提問方式上進行了一些限制,要求用戶要以特定的詞匯開始提問,例如What、Which、How Many、Give Me等等。接收到用戶的輸入后,搜索引擎首先會對語句進行結構分析、語詞依賴性分析
19、、實體識別,力圖“理解”用戶的真實意圖,再轉換為內部檢索指令。以DBpedia的SPARQL Endpoint服務為例,如果我們要從維基百科中查詢“有哪些人出生在柏林”,轉換成SPARQL語句就是:“select ?p where?p dbpprop:birthPlaceBerlinen.”。 筆者認為,當前最為杰出的問答型搜索引擎是由沃爾夫勒姆研究公司(Wolfram Research)開發的WolframAlpha搜索引擎。有人認為,WolframAlpha其實是一個計算知識引擎,而不是搜索引擎。例如,如果想了解美國主要農產品的信息,只需要輸入:What Are the Main Agri
20、cultural Products of U.S.,WolframAlpha給出的答案由以下幾部分組成:美國12種主要農產品的名稱、美國農業基本信息片段,包括2015年的農產品附加值;主要農產品類型、年度耕地面積以及氣候類型、主要肉類產品2006年的產量、主要畜牧種群特定年份的數量。圖4是其中的2個部分:通過對搜索結果分析,我們不難發現這么幾個特征:1)WolframAlpha能夠比較好地理解用戶問題,并且可做自動聯想,實現了“模糊語義識別”;2)返回給用戶的搜索結果不再是一堆網頁鏈接,而是一些很“干凈”的、經過計算的數據;3)圍繞問題的核心答案之外,還給出了與問題相關的答案,互相補充;4)每
21、一部分答案,WolframAlpha都給出了信息的來源“Source”,方便用戶進一步閱讀與核對。WolframAlpha之所以能夠提供這么直接和準確的服務,其核心組成部分是龐大的知識庫和基于知識的編程Wolfram語言。與其他搜索引擎一樣的是,WolframAlpha也擁有一個積累了30年的、從公眾的和獲得授權的資源中,發掘、建立起一個異常龐大的經過組織,高度結構化、關聯化的數據庫14。目前已經有上千個領域的數據。在這個知識庫中,資源被抽取、處理成“符號”。符號表達表示所有數據、公式、代碼、圖形、文檔、界面等,都可以被計算15。圖5是Wolfram知識庫的領域與數據類型。而Wolfram語言
22、則是操作這些知識和符號的強大工具。Wolfram語言是一種基于知識、符號編程、自然語言風格的編程語言,其結果則表現為一系列函數17。每個函數從不同的角度來處理信息,形成不同的效果。例如獲取西歐各個國家的首都函數是:在WolframAlpha系統中,“世界是可表示的,世界是可計算的”18。據統計,在其產品Mathematica中就有約5 000個函數。不僅如此,Wolfram面向互聯網開放其編程語言,提供培訓課程和知識庫接口。用戶通過Wolfram語言獲取知識庫反饋的相應結果,并嵌到自己的頁面中來,“使得對任何信息的計算在任何地方都變成可能”19。3結論從分類目錄導航到海量網頁關聯再到細粒度的知
23、識實體抽取,伴隨著互聯網的發展,搜索引擎也從第一代進化到了第三代。在這個過程中,搜索引擎變得越來越龐大,需要囊括的輔助性內容也越來越多:知識實體抽取與攝入、結構化知識的組織、自然語言理解、海量內容的存儲等等。簡簡單單的檢索框后面蘊含了極其復雜的機制。“搜索”一詞似乎已經不能很好地概括搜索引擎的核心特征了。搜索引擎的服務也從互聯網初創時候的“求全”發展到大數據時代的“求準”。我們無法判斷在下一個十年里,搜索引擎會以什么方式出現,但是我們可以知道的是搜索引擎的發展不會停歇,而是會以更加“鯨吞”的態勢將互聯網的精英技術和理念收攬其中,如人工智能、語音識別、知識計算等。搜索引擎將在人們的學習、生活中發
24、揮更加突出的作用,融合地也更加緊密。Reference1百度知道.互聯網的發展歷程是怎樣的?EB/OL.https:/question/43968610.html,2018-06-12.2外電精選.Bing推實體搜索:理解+執行EB/OL.http:/20140331/n397476194.shtml,2018-06-12.3ReadWriteW.Google、微軟和雅虎宣布合作推出SEB/OL.https:/article/2011-06-08/299399,2018-06-12.4S中文.S 開始指南EB/OL.https:/docs/getstarted.html#microdata_w
25、hy,2018-06-12.5Swoogle網站.Swoogle 檢索結果EB/OL.http:/2006/index.php?option=com_frontpage&service=search&queryType=search_swd_ontology&searchString=nano&searchStart=1,2018-06-12.6維基百科.Google知識圖譜EB/OL.https:/wiki/Google知識圖譜,2018-06-12.7果殼包果核.知識圖譜:讓搜索通往答案本身EB/OL.https:/article/436628/,2018-06-12.8Barry Sch
26、wartz.Bing Improves Tax Related Search Results Before April 15thEB/OL.https:/bing-improves-tax-related-search-results-april-15th-185155,2018-06-12.9Matt McGee.Bings Satori Adds Timeline Data For About 500k Famous PeopleEB/OL.https:/bings-satori-adds-timeline-data-500k-famous-people-184969,2018-06-12.10Barry Schwartz.Bing Snapshot Adds 150 Million New Entities & Relationships To Search EngineEB/OL.https:/bing-snapshot-adds-150-million-new-entities-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 一次性供應合同
- 陳哥的離婚協議及財產分割合同
- 微生物檢驗業務流程的優化與改進試題及答案
- 商鋪轉手租賃合同范例
- 通過率提升技巧分享試題及答案
- 自科課題申報書
- 2025年財務估值技術試題及答案
- 輟學課題開題申報書
- 證券從業資格證法律知識的新進展試題及答案
- 項目實施過程中的分析工具使用試題及答案
- GB/T 233-2000金屬材料頂鍛試驗方法
- 全新版大學進階英語第二冊-Unit-4-Study-Abroad課件
- 機械識圖基礎培訓-課件
- 成人still病參考課件
- 我們畢業啦畢業季通用模板課件
- 建設工地治保維穩工作專項檢查表
- 高國卿《項脊軒志》說課
- 產品召回控制程序
- 《手機短視頻:策劃拍攝剪輯發布》第4章 手機短視頻的拍攝方法
- Q∕SY 1134-2014 產品駐廠監造規范
- 堤防工程設計規范
評論
0/150
提交評論