




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔傾情為你奉上精選優質文檔傾情為你奉上專心專注專業專心專注專業精選優質文檔傾情為你奉上專心專注專業3.5語料庫常用統計方法第3章前幾節對語料庫應用中的幾種主要技術做了介紹。通過語料檢索、詞表和主題詞表的生成,可以得到一定數量的句子、詞匯或結構。為能更好說明所得到的結果的真正意義,常常需要對它們加以統計學分析。本章主要介紹語料分析中的一些常用統計方法。3.5.1 語料庫與統計方法介紹相關統計方法之前,首先需要了解為什么語料庫應用中需要運用統計方法。在2.1節講到文本采集時,我們知道文本或會話構成了最終的語料庫樣本。這些樣本是通過一定的抽樣方法獲得的。研究中,我們需要描述這些樣本的出現和
2、分布情況。此外,我們還經常需要觀察不同語言項目之間在一定語境中共同出現(簡稱共現)的概率;以及觀察某個(些)語言項目在不同文本之間出現多少的差異性。這些需要借助統計學知識來加以描寫和分析。理論上說,幾乎所有統計方法都可以用于語料庫分析。本章只擇其中一些常用方法做一介紹。我們更注重相關統計方法的實際應用,不過多探討其統計學原理。這一章我們主要介紹語料分析中的頻數標準化(normalization)、頻數差異檢驗和搭配強度的計算方法。3.5.2 頻數標準化基本原理通常語料檢索、詞表生成結果中都會報告頻數(frequency, freq或raw frequency)。那么某詞(如many)在某語料庫
3、中出現頻數為100次說明什么呢?這個詞在另一個語料庫中出現頻數為105次,是否可以說many在第二個語料庫中更常用呢?顯然,不能因為105大于100,就認定many在第二個語料庫中更常用。這里大家很容易想到,兩個語料庫的大小未必相同。按照通常的思維,我們可以算出many在兩個語料庫中的出現百分比,這樣就可比了。這種情況下,我們是將many在兩個語料庫中的出現頻數歸到一個共同基數100之上,即每100詞中出現多少個many。這里通過百分比得到的頻率即是一種標準化頻率。有些文獻中標準化頻率也稱歸一頻率或標稱頻率,即基于一個統一基準得出的頻率。實例及操作頻數標準化,首先需要用某個(些)檢索項的實際觀
4、察頻數(原始頻數,raw frequency)除以總體頻數(通常為文本或語料庫的總詞數),這樣得到每一個單詞里會出現該檢索項多少次。在頻數標準化操作中,我們通常會在此基礎上乘以1千(1萬、1百萬)得到平均每千(萬、百萬)詞的出現頻率。即:(注:觀測頻數即檢索詞項實際出現的次數;總體頻數即語料庫的大小或總形符數。)例如,more在中國學生的作文里出現251次,在英語母語者語料中出現475次。兩個語料庫的大小分別為37,655詞次和174,676詞次。我們可以根據上面的公式很容易計算出251和475對應的標準化頻率。另外,我們還可以利用Excel或SPSS等工具來計算標準化頻率。比如,可以將實際觀
5、察頻數和語料庫大小如圖3.5.1輸入相應的單元格,然后在C1單元格里輸入=(A1/B1)*1000即可得到中國學生每千詞使用more約為6.67次。要得到母語者more使用的每千詞頻率,只需點擊C1單元格,將光標移至單元格右下角直至光標變為黑+時,按住鼠標左鍵,順勢下拉至C2格即可得到母語者每千詞使用more的次數約為2.72次。如有更多頻數數據需要標準化處理,可依同樣方法求得。圖3.5.1 頻數標準化3.5.3 頻數差異檢驗上節,我們通過將頻數歸到一個共同的基數,從而可以對不同頻數加以比較。然而,在統計學中,常常需要對參與比較的數據之間的差異是否具有顯著性加以綜合檢驗。在語料庫數據分析中,最
6、常用的是卡方檢驗(chi-square或2)和對數似然比(log-likelihood ratio,常簡寫為LL)。兩種檢驗方法的作用和實際操作類似,以下我們重點講解卡方檢驗。這兩種檢驗方法也可以用作搭配強度計算。基本原理與頻數標準化不同,卡方檢驗除了考慮到某個檢索項在兩個不同語料庫中的出現頻數和語料庫大小外,還考慮到檢索項在語料庫不出現的情況。例如,在1000詞的文本中the出現50次,那么它不出現的情況就是余下的950次。類似的頻數數據,我們用到的是22連列表(contingency table)方法的卡方檢驗。在統計學上,綜合該檢索項在兩個語料庫中出現和不出現的情況,統計學家提出了該檢索
7、項理論上的預期頻數,其算法是:表3.5.1 22連列表某檢索項出現頻數所有詞出現頻數合計語料庫A語料庫Bacbda +bc + d合計a +cb + da +b + c + d其中:a = 檢索項X在語料庫A中的實際頻數b = 檢索項X在語料庫A中的不出現的頻數c = 檢索項X在語料庫B中的實際頻數d = 檢索項X在語料庫B中的不出現的頻數N = a + b +c + d = 各項頻數總和,即兩個語料庫累計大小而卡方檢驗的基本公式為:卡方檢驗的具體計算公式為: = 實例及操作研究問題:有兩個語料庫,一個為口語語料庫,總詞數為1,714,443,另一個為書面語語料庫,總詞數2,593,452。其
8、中填充停頓(filled pause)詞er分別出現9,589次和9,307次。那么9,589和9,307是否存在顯著性差異呢?這里可以采用卡方檢驗的方法(參見圖3.5.2)。在配套光盤中,找到名為X2的Excel文件。在打開的工作表中,按界面提示,分別輸入Corpus 1的總字數1,714,443和Corpus 2的總字數2,593,452。然后,在主體數據表框中Freq in Corpus 1和Freq in Corpus 2分別輸入er分別的次數9,589和9,307。這時,Chi-square列會自動出現相應的卡方值,這里是949.5474。卡方值(自由度為1時)如果大于臨界值3.83
9、, 6.64和10.83,則表明該值在顯著性水平0.05, 0.01和0.001的情況下是有意義的,即參與比較的兩個數值(9,589和9,307)具有顯著性差異。為便于辨識和解讀卡方值,我們將所得的卡方值對應的顯著性水平的p值也同時提供,并按所處的置信區間標定星號(*),在0.05, 0.01和0.001顯著性水平下分別標為*、*和*。表格最后一列的“+”表明er在Corpus 1中使用頻數要多于其在Corpus 2中的頻數,即我們常說的頻數過多使用(overuse);反之,“-”號為使用不足(underuse)。回到我們的問題,er一詞在兩個語料庫中的使用頻數具有顯著性差異,且er明顯在第一
10、個口語語料庫較多使用,可理解為屬于口語特征詞。為方便批量實施卡方檢驗,判別詞項在兩個語料庫中出現頻數的差異。該卡方檢驗計算器支持一次完成多個卡方檢驗運算。操作方法是,先輸入Corpus 1的總字數和Corpus 2的總字數,然后將某組詞項在Corpus 1和Corpus 2中的出現頻數分別拷貝到Freq in Corpus 1和Freq in Corpus 2列中,即可得到所有詞項跨語料庫差異的卡方值和顯著性水平。圖3.5.2 卡方檢驗計算器界面配套光盤中同時附有對數似然比計算工具(Log-likelihood Ratio Calculator),文件名為LL.xls。也是檢驗詞項跨語料庫差異
11、顯著性的常用方法。其操作步驟與卡方檢驗計算器相同,數據的解讀方法也一樣。在此不贅述。3.5.4 搭配強度計算基本原理搭配分析的計算方法在實際應用中主要有兩種處理方法:以Mike Scott的WordSmith為代表的經典搭配計算法,以及以Stefan Evert提出的BNCweb的搭配計算方法。兩種方法的主要不同在于是否將跨距作為搭配的核心考查要素(WordSmith計算Z值時用到跨距,BNCweb的算法中多數都用到跨距)。計算搭配強度的主要算法包括:互信息(MI,mutual information和MI3)、Z值(Z score)、T值(T score)、Log-Log值、卡方值(2)、對
12、數似然比(Log-likelihood)、Dice系數等。這些方法各有優劣。需要略加說明的是,卡方和對數似然比既可用作檢驗單個詞項跨語料庫頻數差異的顯著性。也可作為檢驗兩個詞在同一個語料庫中,一定跨距內的共現強度。以下對不同搭配強度計算方法的適用性做一簡介(這里以BFSU Collocator工具為例)。更多相關介紹可參閱本章結尾處提供的相關參考文獻和網絡上有關collocation的討論。以下是利用BFSU Collocator工具提取的but一詞的搭配情況。在下面的示例中,我們選用的是光盤中NS_writtenraw文件夾下的TEXT001.txt。【Settings】中【Set Data
13、 Type】選的是【Raw】。點擊【Collocate】選項卡后,跨距設為左5右5。點擊【Run】即可得結果。圖3.5.3顯示的結果是以搭配詞的實際出現頻數排序的。雙擊搭配結果的每一行,界面窗口下方即會顯示含節點詞和搭配詞的索引行。本節所舉實例使用的檢索詞(節點詞)為but。搭配強度值小于0的情況,在BFSU Collocator工具里都歸為零。圖3.5.3 按搭配詞頻數高低排序的搭配結果從圖3.5.3可以看出BFSU Collocator工具運行后可以一次同時得到MI、MI3、Z值、T值、Log-log值和對數似然比。如果我們需要得到按互信息值排序的搭配詞時,只需點擊MI(或MI3列的標題行
14、即可,如果點擊第一次所列結果為升序排列,再點擊一次,則可獲得降序排列的結果)。圖3.5.3中的結果顯示的是以第3列f(c),即搭配詞(collocates)的頻數降序排列的,界面下方窗口顯示的是含but和最高頻搭配詞the的索引行。互信息(MI,mutual information和MI3)圖3.5.4 按互信息值高低排序的搭配結果互信息值體現的是節點詞和搭配詞之間的互相吸引關系。互信息值越大,說明兩個詞之間的搭配強度越高。互信息值可能為正值或負值。如互信息值為負,則表明兩詞之間出現互相排斥的現象,即兩詞不傾向于在一定語境內共現。Hunston(2002:71)提出在實際操作中以互信息值3作為
15、臨界值,即互信息值大于3的搭配詞視作強搭配詞。然而,從圖3.5.4中的結果可以看出,互信息值算法存在一個明顯不足,即互信息容易將低頻詞(如出現2次的cannon和出現一次的數字詞255等)視作強搭配。為了降低低頻詞在經典互信息算法中的權重,有學者將低頻詞同節點詞的共現頻數做了立方處理,經過取對數后,最終的互信息值大大降低了。這即是下面看到的互信息3(MI3)值的算法。MI3圖3.5.5 按互信息3值高低排序的搭配結果從圖3.5.5中可以看到,高頻詞the、of、a,以及標點符號(,)。這些本身在語料庫中的總體頻數很高,同時也與節點詞but共現頻數非常高的詞被提到前面。這些詞項被認定為強搭配詞比
16、經典互信息算法所得的搭配詞似乎更符合but的語言使用實際。Z值圖3.5.6 按Z值高低排序的搭配結果雖然同互信息算法和原理不一樣,但Z值計算出的搭配詞結果與經典互信息得出的結果有些相似,依然有偏重低頻詞的問題。T值圖3.5.7 按T值高低排序的搭配結果在我們這個例子中(見圖3.5.7),出現的搭配詞以高頻詞為主。文獻中一般認為T值搭配計算有偏重高頻詞的問題。T值的約定俗成的臨界值是2。Log-log值為避免搭配計算中偏重高頻詞(以功能詞居多靠前)的問題,英國學者Adam Kilgarriff提出了搭配log-log計算公式,主要是在公式中增加了節點詞和搭配詞共現頻數的對數值,將高頻詞的權重降低
17、,從而使其他實詞搭配詞的權重得以提高。從圖3.5.8可以看到,排在前面的搭配詞是以實義詞為主。如果我們要借助搭配詞進行內容分析的話,那么log-log似乎更適合。圖3.5.8 按log-log值高低排序的搭配結果對數似然比圖3.5.9 按對數似然比高低排序的搭配結果對數似然比是被認為比較好的一種搭配發現方法。然而,一般認為各種搭配統計方法,很難說哪種方法是最合理或最正確。我們建議一方面可根據研究實際選擇搭配統計方法;另一方面,還可以兼顧不同的統計方法,關注不同統計方法中都排在前面的一些詞。3.5.5 小結不同工具(WordSmith、AntConc、BNCweb、Co-occurrence、C
18、ollocate、BFSU Collocator等)得出的MI值、Z值、T值、2值、對數似然比值常常有差別。這些差別一種情況是由公式不同引起的,即我們上面提到的以Mike Scott的WordSmith為代表的經典搭配計算法和以Stefan Evert提出的BNCweb的搭配計算方法。在相同計算公式下,如果出現數值差別,可能有如下原因:各軟件對形符或單詞的定義不一致,比如BFSU Collocator中,我們將數字和不同的標點符號視作單獨的形符。再有,含有連字符的單詞(如255)視作一個單詞,而不是兩個。有些工具中會將所有的阿拉伯數字都歸并成一個#。這些都是造成最后的搭配統計值不一致的一些可能因素。所得的不同搭配強度值,一般來說無對錯之虞,只是我們需要弄清產生數值差異的主要原因。另外,我們應該在同一個課題中堅持用同一種搭配計算工具,并在報告結果時言明。從搭配信息的結果呈現方式來說,有兩種,一種是基于整個語料庫中每個詞項的所有強
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025電梯租賃合同詳解
- 2025勞動合同大全范文
- 電影項目股權合同協議
- 皮具合作合同協議書范本
- 畜牧人養殖服務合同協議
- 電瓶車店鋪轉讓合同協議
- 環衛補充合同協議書范本
- 甲乙丙方擔保合同協議
- 特斯拉二手車協議合同
- 電纜廢品收購合同協議
- 發熱病人中醫護理
- 捕鼠公司合同協議
- 工程審計面試題及答案
- 鋰電行業異物管控
- 2025年全民國家安全教育日(4.15)知識測試競賽題庫(含答案)
- 2025春季學期國開電大本科《人文英語3》一平臺在線形考綜合測試(形考任務)試題及答案
- 提高四級手術術前多學科討論完成率實施方案
- 2024年共青團團校考試入團考試題庫及答案
- 中國食物成分表2018年(標準版)第6版
- 刑事案件模擬法庭劇本
- 2023年《移動式壓力容器充裝質量管理手冊》
評論
0/150
提交評論