北京語料庫檢索使用說明_第1頁
北京語料庫檢索使用說明_第2頁
北京語料庫檢索使用說明_第3頁
北京語料庫檢索使用說明_第4頁
北京語料庫檢索使用說明_第5頁
免費預覽已結束,剩余3頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、北京語料庫檢索使用說明首頁一關于CCL語料庫及其檢索系統二關于查詢表達式2.1特殊符號2.2基本項2.3簡單項2.4復雜項2.5過濾項2.6子旬2.7查詢表達式三關于查詢結果四在結果中查找五舉例一關于CCL語料庫及其檢索系統(1)CCL語料庫及其檢索系統為純學術非盈利性的。不得將本系統及其產生的檢索結果用于任何商業目的。CC口承擔由此產生的一切后果。(1)本語料庫僅供語言研究參考之用。語料本身的正確性需要您自己加以核實(1)語料庫中所含語料的基本內容信息可以在“高級搜索”頁面上, 點擊相應的鏈接查看。比如:“作者列表”:列出語料庫中所包含的文件的作者“篇名列表”:列出語料庫中所包含的篇目名“類

2、型列表”:列出語料庫中文章的分類信息“路徑列表”:列出語料庫中各文件在計算機中存放的目錄“模式列表”:列出語料庫中可以查詢的模式(1)語料庫中的中文文本未經分詞處理。(1)檢索系統以漢字為基本單位。(1)主要功能特色:支持復雜檢索表達式(比如不相鄰關鍵字查詢,指定距離查詢,等等);支持對標點符號的查詢(比如查詢”可以檢索語料庫中所有疑問句);支持在“結果集”中繼續檢索;用戶可定制查詢結果的顯示方式(如左右長度,排序等);用戶可從網頁上下載查詢結果(text文件);二關于查詢表達式本節對CCL語料庫檢索系統目前支持的查詢表達式加以說明。特殊符號查詢表達式中可以使用的特殊符號包括7個:|$#+-!

3、這些符號分為三組:Operator1:|Operator2:$#+-Operaotr3:!符號的含義如下:(一)Operator1:Operator1是二元操作符,它的兩邊可以出現“基本項”(關于“基本項”的定義見2.2)|相當于邏輯中的“或”關系。(二)Operator2:Operator2是二元操作符,它的兩邊可以出現“簡單項”(關于“簡單項”的定義見2.3)$表示它兩邊的“簡單項”按照左邊在前、右邊在后的次序出現于同一句中。兩個“簡單項”之間相隔字數小于或等于Number#表示它兩邊的“簡單項”出現于同一句中,不考慮前后次序。兩個“簡單項”之間相隔字數小于或等于Number+表示它兩邊的

4、“簡單項”按照左邊在前、右邊在后的次序出現于同一句中。兩個“簡單項”之間相隔字數剛好等于Number-表示它左邊的“簡單項”出現于句子中,并且,在右邊相隔Number個字的范圍內,-號右邊的“簡單項”不出現。表示它左邊的“簡單項”出現于句子中,并且,在左邊相隔Number個字的范圍內,號右邊的“簡單項”不出現。(三)Operators:Operators是一元操作符。!表示它后面的“簡單項”是本次查詢的主關鍵字符串,顯示查詢結果時以該“簡單項”作為中心來進行定位。注意:Operator2后面的Number是必須的,不能省略。Number=0表示相鄰,Number=1表示間隔1個單位,其余依此類

5、推。基本項指不包含特殊符號和空格的連續字符串簡單項簡單項可以由以下三種形式的序列組成基本項基本項1Operatori基本項2Operatori.(3)(基本項1Operator1基本項2Operator1.)注意:在實際表達式中,Operator1前后不能有空格復雜項復雜項可以由以下三種形式的序列組成簡單項簡單項1Operator2Number簡單項2簡單項1Operator2NumberOperators簡單項2其中第二種形式,等價于Operators簡單項1Operator2Number簡單項2,換句話說,如果以第一個簡單項作為查詢結果的顯示中心,!可以省略。注意:Number為0和正整數

6、。Operator2,Operators前后均不能有空格過濾項過濾項可以包含以下表達式:author:簡單項name簡單項path:簡單項type:簡單項pattern:簡單項(author:簡單項”的含義是指“author:后面跟的表達式是上面2.3”簡單項”所定義的字符串,其余類推)注意:通過指定過濾項中author(作者),name(篇名),path(文件路徑),type(文章類型) ,用戶可以縮小查詢語料的范圍。其中過濾項pattern專門用于查詢漢語中的各種模式,比如“AABB這樣的重疊形式,“AB不AB這樣的反復問形式,等等。比如:想查詢“老舍”的語料,在查詢表達式中輸入“auth

7、or:老舍”即可;想查詢唐代語料,在查詢表達式中輸入“path:08唐”即可(唐代語料均放在包含“08唐”目錄下)。想查詢唐代語料中“給”的使用情況,可以在查詢表達式中輸入“path:唐給。(“path:唐”跟關鍵字“給”之間需有空格隔開)想查詢“老舍”先生的文章中“A來A去”的用法,在查詢表達式中輸入“author:老舍pattern:A來A去”即可。各過濾項的具體取值,用戶可以在“高級搜索”頁而中杳到(參見上文1.2)。下面是古代漢語語料一級目錄列表:01周02春秋03戰國04西漢05東漢06六朝07隋08唐09五代10北宋11南宋12元13明14清15民國全元曲全唐詩全宋詞大藏諸子百家子

8、旬子句可以是以下兩類表達式:復雜項過濾項查詢表達式查詢表達式可以是以下形式的序列:(1)子旬子旬1子旬2.(子旬和子句之間需要以空格隔開,表示邏輯“AND關系)三關于查詢結果1每次查詢,網頁上最多列出5000條結果(分頁列出,每頁50條)。2用戶可以將查詢所得結果保存到自己本地計算機的磁盤上。在查詢結果顯示網頁上,用戶可以根據需要指定下載結果的條數(缺省為500條),點擊“下載”按鈕,查詢結果即以txt文件形式保存到本地磁盤上。每句之后在【】內注明了該句的出處、作者、路徑等信息。(如果條數較多,文件會比較大,下載速度緩慢,請耐心等待,不要重復提交下載請求)。3查詢結果以“旬”為單位輸出顯示,

9、用戶可以指定查詢結果的顯示長度 (左右n個字范圍) 。小提示:如果想顯示查詢關鍵字所在的整句,可以通過指定足夠大的顯示長度(比如1000)來實現。當用戶指定的顯示長度超過句長時,以句長為限顯示結果。4關于查詢結果的“標亮”和“定位”顯示標亮詞:在句子中以紅顏色標出的詞,可以有多個;中心詞:是一個特殊的標亮詞,顯示查詢結果的每個句子時,以“中心詞”為網頁中心位置對齊。小提示:查詢表達式中的“復雜項”和“過濾項”中的pattern項目都可以作為“標亮詞”。這里“標亮詞”是指跟“標亮詞”匹配的句子片斷。默認的中心詞是第一個“標亮詞”,即在用戶沒有用Operator2指定“中心詞”的情況下,系統自動把

10、第一個“標亮詞”當作“中心詞”。如果用戶用Operator2指定了“中心詞”,那么該詞為用戶指定的“中心詞”。5關于查詢結果的“排序”用戶可以指定按照“中心詞”左邊字符串排序,或按照“中心詞”右邊字符串排序。排序方式為字符內碼(GB碼)降序。四在結果中查找對于復雜的查詢要求,可以嘗試通過多次查詢完成,即利用“在結果中查找”功能,逐次逼近檢索目標。比如:您想查找“寧可,也”的例句,同時不希望“也”后面出現“不”這樣的否定詞。您可以先輸入查詢表達式“寧可$10也”,返回的結果是包含“寧可”和“也”,且二者相隔10字以內的句子,然后您再輸入查詢表達式“也-4不”,這樣就可以把“也”后面4字范圍內有“

11、不”的句子剔除掉了。五舉例查詢式例子1:計算機硬件意思是:查出所有包含“計算機硬件”的句子。查詢式例子2:把被意思是:查出所有包含“把”,同時也包含“被”的句子,即兩個關鍵字之間無次序限制,無距離限制,只需要在一句范圍內。查詢式例子3:把|被意思是:查出含有“把”或“被”的句子,兩個關鍵字只需有一個在旬中出現,就作為查詢結果輸出。查詢式例子4:把-4不意思是:查出含有“把”,但在“把”右邊4個字范圍內不含“不”的句子。注意:-號屬于opertaor2,其后必須有數字,且不能有空格。查詢式例子5:給4把意思是:查出含有“給”,但在“給”左邊4個字范圍內不含“把”的句子。注意:號屬于operato

12、r2,其后必須有數字,且不能有空格。查詢式例子6:與其$10不如意思是: 查出同時含有“與其”和“不如”的句子, 并且“與其”在先,“不如”在后出現,間隔10字以內。查詢式例子7:能力#3大意思是:查出同時含有“能力”和“大”的句子,且“能力”和“大”之間的問隔在3個字之內,二者的先后次序不受限制。查詢式例子8:吃+3虧意思是:查出同時含有“吃”和“虧”的句子,并且“吃”在先,“虧”在后出現,二者之間剛好間隔3個字。查詢式例子9:被$10!給意思是:查出同時含有“被”和“給”的句子,并且“被”在先,“給”在后出現,二者之間間隔10個字以內。顯示查詢結果時,以“給”為“中心詞”,即“給”居中對齊。查詢式例子10:(把|被)$10給意思是:查出同時含有“把”和“給”的句子,并且“把”在先,“給”在后出現,二者之間間隔10個字以內。或者,查出同時含有“被”和“給”的句子,并且“被”在先,“給”在后出現,二者之間間隔10個字以內。查詢式例子11:(把|被)$10!給意思是:查出同時含有“把”和“給”的句子,并且“把”在先,“給”在后出現,二者之間間隔10個字以內。或者,查出同時含有“被”和“給”的句子,并且“被”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論