wordsmith_中文_說明_第1頁
wordsmith_中文_說明_第2頁
wordsmith_中文_說明_第3頁
wordsmith_中文_說明_第4頁
wordsmith_中文_說明_第5頁
已閱讀5頁,還剩12頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 i. wordsmith tools 簡介: wordsmith tools 是一個在window下運行的用來觀測文字在文本中的表現的功能強大的綜合軟件包。它共包含 concord (語境共現檢索工具)、wordlist (詞頻列表檢索工具)、keywords(關鍵詞檢索工具)、splitter(文本分割工具)、text converter (文本替換工具)、viewer(文本瀏覽工具)等六個程序,其中前面三個程序是主要的文本檢索工具,后面三個程序屬于輔助性工具。這六個程序的各項設置由一個叫wordsmith tools controller(文字匠工具控制器)的程序來控制。ii各個工具的操

2、作和主要功能介紹:1concord1)基本操作過程:u 在wordsmith tools controller窗口中選擇tools選項。當該選項打開,你就會看到concord。單擊它,concord的窗口將打開。u 按下按鈕,將出現一個對話框,選擇將進行語境共現檢索的文本文件。u 確定一個檢索詞或短語。u 如果要改變設置,按horizons etc按鈕,對缺省的設置值進行修改。u 按 start concordance 按鈕,檢索開始。窗口上出現檢索進行的狀態條。檢索結束,結果顯示在concord 的窗口。u 如果要保留語境共現檢索的結果,按按鈕存盤。 2)主要的功能:u 語境共現(conco

3、rdance):l 語境共現(concordance)的窗口顯示:語境共現(concordance)的窗口包括六個縱列,例如:a. n 列:顯示檢索項的數目。b. concordance 列:顯示語境共現檢索的結果。c. set 列:在這一列,用戶可以使用任何字母對條目進行分類。例如,如果你想對檢索詞的動詞和名詞用法進行歸類,你可以鍵入字母v或n。要清除鍵入的字母,按0(零)。d. tag 列:顯示最接近的標記符號。e. word no. 列:顯示檢索詞在文本中的位置。例如,上面例子中條目1 的檢索詞good 是文本的2,265個單詞。f. file 列:顯示源文本的文件名。g. % 列:以百

4、分比的形式顯示檢索詞在文本中的位置。l 要想得到有關語境共現檢索的結果的更多的信息,按下面的按鈕: 按 按鈕 ,可增加語境共現檢索的結果每行的顯示量,按按鈕 ,可減少語境共現檢索的結果每行的顯示量。 按()按鈕,可啟動文本瀏覽工具(viewer),對源文本進行查看。 按按鈕,可查看檢索詞在規定的語境范圍內的搭配詞的情況。例如,下圖是在上例中檢索詞good在左右各五個詞的語境范圍內的搭配詞的情況。從圖中可以知道,搭配詞very共出現29次,其中在good的左邊26次,右邊3次,而在左邊的26次中有23次是作為左邊的第一個單詞出現。 按()按鈕,可打開檢索詞分布圖窗口。檢索詞分布圖窗口顯示的內容如

5、下:file源文本文件名words源文本文件中單詞的數目hits找到的檢索詞的數目per 1,000每千字檢索詞的數目plot檢索詞分布圖顯示檢索詞在文本中出現的位置 按按鈕,concord將檢索語境共現檢索的結果中的句子,找出重復出現的字串(word clusters)。字串的大小的推薦值一般為24個字,最低出現率為3個。例如: 按()按鈕,打開用詞類型(patterns)窗口,顯示臨近檢索詞的單詞的統計資料。這些單詞按出現頻率的高低從高到低排列。例如:u 取消檢索詞 按空格鍵或選擇窗口view選項中的blanked out, 語境共現檢索的結果中的檢索詞將被一行星號代替。要恢復檢索詞,重復

6、一次前面的操作。u 對語境共現檢索的結果重新排序 語境共現檢索進行時,檢索的結果是以語境在文本中的出現順序排列的。當語境共現檢索一完成,它就會以當時的缺省設置進行重新排序。如果不想重新排序,將缺省值設定在file, file 位置。語境共現檢索的結果重新排序有以下幾種方式:a. 根據檢索詞的左或右的某個位置的單詞進行排序。b. 根據檢索詞本身進行排序。c. 如果有語境詞,可根據語境詞進行排序。d. 根據最近的標碼符號進行排序。e. 根據與最近的標碼符號的距離進行排序。f. 根據用戶自己的分類進行排序。g. 根據在文本中的出現順序排序。 語境共現檢索結果的重新排序,可以根據三重標準同時進行。這三

7、重標準分別在main sort, then by, finally by 三個對話框中設定。另外,重新排序時,可以設置區分或不區分大小寫,按升序還是降序排列,既可以將所有的檢索項重新排序,也可以設定將一定范圍內的檢索項重新排序。u 保存和打印語境共現檢索結果 可以將語境共現檢索的結果保存為文本文件或是可以在concord再打開的文件。按下f3 或選擇file 的print選項,將打印語境共現檢索的結果。3)參數設置:u 檢索詞(search word):a. 檢索詞可以是一個單詞,一個短語或是一個包含許多檢索詞的文本文件。b. 按照缺省設置,concord進行的是不區分大小寫的整詞檢索。格式如

8、下:檢索詞結果bookbook or book or bookbookbook, books, booking, booked*booktextbook (but not textbooks)bo* inbook in, books in, booking in (but not book into)book * hotelbook a hotel, book the hotel, book my hotelbo* in*book in, books in, booking in, book intobook?book, books, book; book.bookbook, booksbkb

9、ook, back, bank, etc.=book=book (but not book or book)book/paperbackbook or paperback符號意義例子*代表多個任意字符book*?代表單個任意字符(包括標點符號)engl?代表單個任意字母frnc=區分大小寫=french=fr*=:表示一個可包含多達500 個檢索詞的文本文件 (參看幫助中的 file-based search words)c:textfrd.txt/分隔多個檢索詞。你可以選擇多達15個檢索詞,但字符的總數不能超過80。may/can/will如果要使用 *, ? , = , , : or /

10、作為檢索詞中的一個字符,要將這些符號放到雙引號內,例如:*why?and/or:u 語境詞(context word):a. 為了限制語境共現的檢索,可以指定一個語境詞在檢索詞的規定的語境范圍內出現或不出現。b. 語境詞的輸入格式與檢索詞的相同,只有一個不同的符號 。表示該詞在規定的語境范圍內不出現。例如:當search word是book 而 context word是 hotel* 時, concord將只會找到hotel or hotels 出現在其語境范圍內的book 。當search word是book 而 context word是 paper* 時, concord將只會找到pa

11、per or papers 不出現在其語境范圍內的book 。u 語境范圍(horizons): 語境范圍設置限定在語境共現中檢索詞的左右兩邊各可以出現多少個單詞。最高值是 左右兩邊各可出現25個單詞。u 檢索項的數目(entries wanted): 語境共現中檢索項的數目的最大值可達16,368 行。 但用戶可以在 controller 的adjust settings | concord選項中對檢索項的數目自行定義,還可以設定concord 對檢索項進行隨機抽取。u 搭配詞(collocate): 搭配詞的最短長度為一個字母,最低出現頻率為一次。但是在語境共現中出現一兩次的搭配詞是不能說

12、明什么問題的。用戶可以在 controller 的adjust settings | concord選項中對搭配詞的最短長度和最低出現頻率自行定義。2wordlist1) 基本操作過程:u 在wordsmith tools controller窗口中選擇tools選項。當該選項打開,你就會看到wordlist。單擊它,wordlist的窗口將打開。u 按下按鈕,將出現一個對話框,選擇一個或多個文本文件。u 按 make a word list now 按鈕,檢索開始。窗口上出現檢索進行的狀態條。檢索結束,wordlist出現三個窗口顯示檢索結果。這三個窗口分別顯示以字母為序的詞頻列表,以頻率為

13、序的詞頻列表以及綜合統計數據。u 如果要保留詞頻列表的結果,按按鈕存盤。 2) 主要的功能:u 創建詞頻列表(word lists):l 詞頻列表(word lists)的窗口顯示: 以字母為序的詞頻列表的窗口(部分)顯示如下: 以頻率為序的詞頻列表的窗口(部分)顯示如下: 綜合統計數據的窗口(部分)顯示如下: u 創建單詞索引列表(index lists): 單詞索引列表的作用是記錄所有單詞在文本中的位置,以便了解每個詞在文本的那一部分出現。另一作用是加快對列表中單詞的檢索處理,例如,如果選擇列表中一個或多個單詞,按下按鈕,就會得到快速的語境共現檢索的結果。另外,在單詞索引列表中,還可以計算

14、單詞與那些詞搭配以及與搭配詞的相關值( “mutual information” scores)l 建立單詞索引列表 打開 controller, 選擇adjust settings | indexing 選項,進行以下的設置:a. 確定單詞索引列表的路徑和文件名。b. 激活actitated對話框。c. 激活file order too對話框(非必選)。d. 選擇出現多少次的高頻詞要被刪除。e. 按ok按鈕。 打開wordlist, 選擇菜單index的new index 選項, 指定要進行操作的文本文件,再選擇index的new index 選項。檢索結束,將在指定的路徑生成三個擴展名分別

15、是*.wdx, *.xfo, 和*.xal的文件。l 瀏覽建立的單詞索引列表: 打開wordlist, 選擇菜單index的 alphabetical list 選項或file order list 選項。選定要打開的單詞索引列表文件,就可以瀏覽建立的單詞索引列表。例如: l 計算相關值(mutual information):a. 要計算相關值,單詞索引列表必須是在激活了 “file order too” 復選框的情況下建立的。b. 選擇菜單index的 alphabetical list 選項,打開建立的單詞索引列表。c. 按按鈕,選擇要計算相關值的詞條,然后按按鈕。如果沒有選擇任何詞條,

16、按按鈕將計算單詞索引列表的所有詞條的相關值。例如,在上圖中,詞條answer在文本的最常見的搭詞是know,它們的相關值4.48。u 詞頻列表的批處理 用戶可以一次選擇多個文本進行詞頻列表的創建。例如,選擇10個文本同時進行詞頻列表,既可以得出一個基于10個文本的大的詞頻列表,也可以得出十個分別基于10個文本的的詞頻列表。u 字串的詞頻列表: 詞頻列表不必一定以單詞為單位,也可以以2-8個單詞的字串為單位創建詞頻列表。選擇wordlist 主菜單的 settings | min. & max. frequencies 選項,激活復選框,選擇字串的大小,就可以進行字串的詞頻列表。u 對詞頻列表的

17、編輯:l 合并詞條到同一詞類(lemmatisation): 例如,你可以將屬于不同類型(type)的詞條want; wants; wanting; wanted 合并到同一詞類(lemma) want中。 手動合并:a. 使用 f5 選定要合并的詞條, 第一個被選定的詞條將成為詞類(lemma)的名稱(head)。b. 使用 f4 可將所有選定的詞條合并。 基于文件的合并: 建立一個將屬于同一詞類的不同類型(type)的詞分組歸類的文本文件(例如,be-was, is ,were, am, are go-goes, going, went, gone)。按按鈕,wordlist將根據文本文件

18、的分類為標準對當前詞頻列表的所有詞條進行詞類(lemma)合并。l 詞類(lemma)合并結束后,按按鈕,將顯示重新計算的綜合數據。u 詞頻列表的排序:l 按按紐或f6,可對詞頻列表重新排序。l 選擇正確的語言:許多語言有自己特殊的字母排列順序,所以在排序或重新排序之前,應檢查是否在語言選項選擇了正確的語言。另外,在缺省值中,某些語言中的帶重讀符號的字母與不帶重讀符號的同一字母是同等對待的。l 按單詞結尾排序:選擇反向排序選項(reverse sort), 可以按單詞的結尾的字母順序排序。這樣,就能將以某種后綴結尾的單詞,例如,-ing 形式結尾的單詞列在一起。u 比較兩個詞頻列表:選擇wor

19、dlist中 comparison菜單下的 compare 2 wordlists 選項,選中兩個要進行對比的詞頻列表,就可以對兩個詞頻列表進行比較。這一功能可以幫助進行文體方面的比較。例如,比較一篇文章的不同譯本中對某個詞的不同翻譯。u 簡單一致性分析:consistency analysis (simple)這一功能可以對超過五十個詞頻列表一次性進行比較分析,然后生成一個基于所有文本的詞頻列表。這一功能可以幫助找出哪些詞是在大量的某一特定類型的文本中一貫出現的。u 詳細一致性分析:consistency analysis (detailed)這一功能與簡單一致性分析的功能完全一樣,只是提供

20、的分析更為詳細,而且進行分析的詞頻列表不能超過五十個。這一功能可以幫助進行文體方面的比較。3keywords1)主要功能:u keywords 主要作用是確定某個文本的關鍵詞是什么以及它們在文本中的位置。要實現著這一目的,必須先用wordlist 工具建立兩個單詞列表。這兩個單詞列表中,一個是根據要考察的文本建立的,而另一個作為參照的單詞列表,必須是根據較大型的由同類文本組成的語料庫建立的。大的單詞列表將為比較提供背景數據。u 文本中的關鍵詞(key words),是指在兩個單詞列表的比較中得出的那些在所考察文本中出現頻率突出的詞。得出的關鍵詞以它們在文本中的出現頻率的突出程度由高到低排列。u

21、 keywords 的潛在用途包括:語言教學,文體研究,文本內容分析,文本歸檔等。2)keywords 的參數設置在controller中的adjust settings/keywords 選項下,可以對以下的參數進行設置:a 最大的p值。b 關鍵詞列表的最大數目。(缺省值是500)c 關鍵詞在所考察文本中的最低出現頻率。(缺省值是3次)3) 基本操作過程:u 在wordsmith tools controller窗口中選擇tools選項。當該選項打開,你就會看到keywords。單擊它,keywords的窗口將打開。u 按下按鈕,將出現一個對話框,在對話框選擇一個要進行研究的單詞列表和一個作

22、為參照的單詞列表。 u 按 ok 按鈕,檢索開始。窗口上出現檢索進行的狀態條。檢索結束,keywords出現一個窗口顯示關鍵詞列表。 u 如果要保留關鍵詞列表的結果,按 按鈕存盤。u 關鍵詞列表的顯示窗口包括以下內容(見下圖):a 每個關鍵詞。b 關鍵詞在所考察的文本中的出現頻率。c 要考察的文本的文件名及百分比。d 關鍵詞在參照文本中的出現頻率。e 參照文本的文件名及百分比。f 關鍵詞的關鍵值。g p 值。4)對關鍵詞列表的結果的編輯:u 按窗口中的按紐,將會顯示關鍵詞在文本中的分布圖。u 每按一次按紐,關鍵詞列表的結果將會按照下面的順序循環排序:以關鍵值為序,以字母為序,以在考察文本中的關鍵詞的頻率為序,以在參照文本中的關鍵詞的頻率為序。iii三個輔助工具主要功能簡紹:4splitter(文本分割工具)splitter的用途是為了文本分析的目的將大的文件分割成小的文本。它通過在大的文本中插入某個符號,例如 , splitter將自動識別這些符號,將大的文本分割成若干個小文本。5t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論