




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
(優選)常見語料庫使用入門ppt目前一頁\總數五十八頁\編于十五點PPT模板下載:行業PPT模板:節日PPT模板:素材下載:PPT背景圖片:圖表下載:優秀PPT下載:教程:Word教程:教程:資料下載:課件下載:范文下載:試卷下載:教案下載:論壇:
主要部分第一節
語料庫及其分類第二節公共語料庫檢索第三節
個人語料庫創建0目前二頁\總數五十八頁\編于十五點第一節語料庫及其分類目前三頁\總數五十八頁\編于十五點語料庫及其分類1語料庫(corpus):存放語言材料的倉庫。現代的語料庫是指存放在計算機里的原始語料文本或經過加工后帶有語言學信息標注的語料文本的匯集。三點基本認識:A.必須是實際使用中真實出現過的語言材料;B.須以計算機為必要載體;C.材料分析加工后才有用。目前四頁\總數五十八頁\編于十五點語料庫及其分類2目前五頁\總數五十八頁\編于十五點語料庫及其分類3目前六頁\總數五十八頁\編于十五點第二節公共語料庫檢索目前七頁\總數五十八頁\編于十五點公共語料庫檢索4統計頻率
查找例句驗證分析參數設置帶著問題收集證據基于檢索目前八頁\總數五十八頁\編于十五點公共語料庫檢索5我國21個知名語料庫01.中央研究院近代漢語標記語料:02.中央研究院漢籍電子文獻:03.國家現代漢語語料庫:1:8080/04.國家語委現代漢語語料庫:05.樹圖數據庫:06.語料庫語言學在線:07.北京大學CCL語料庫:目前九頁\總數五十八頁\編于十五點公共語料庫檢索6我國21個知名語料庫08.北京大學《人民日報》標注語料庫:09.北京語言大學的語料庫:10.清華大學TH-ACorpus:11.山西大學語料庫:12.臺灣南島語典藏:13.閩南語典藏:14.香港城市大學LIVAC共時語料庫:目前十頁\總數五十八頁\編于十五點公共語料庫檢索7我國21個知名語料庫15.浙江師范大學的歷史文獻語庫:16.中科院計算所語料庫:17.中文語言資源聯盟:18.SKETCHENGINE多語言語料庫:19.LIVAC共時語料庫:20.紅樓夢漢英平行語料庫:21.北京語言大學BCC語料庫:目前十一頁\總數五十八頁\編于十五點公共語料庫檢索8國外18個知名英語語料庫01.國際英語語料庫(ICE):02.美國國家語料庫(ANC):/03.美國當代英語語料庫(COCA):/04.美國近當代英語語料庫(COHA):http://05.英國國家語料庫(BNC):http://06.柯林斯英語語料庫(BOE):http://www./wordbanks/07.英國英語語料庫(SEU):08.澳大利亞英語語料庫(ACE):09.新規范語料庫(NMC):http://www.s目前十二頁\總數五十八頁\編于十五點公共語料庫檢索9國外18個知名英語語料庫10.LLC口語語料庫:.uib.no/icame/manuals/11.COBUILD語料庫:http://www.12.ICE東非等分庫:13.ARCHER語料庫:14.CEECS語料庫:l.htm15.SCTS語料庫:http://www./16.VOICE語料庫:17.ELFA語料庫:18.朗曼語料庫:http://www.long-/dictionaries/corpus/index.html目前十三頁\總數五十八頁\編于十五點公共語料庫檢索10小問題:
一種語言現象我們至少得收集多少條語料呢?徐杰教授認為,語料多多益善,至少應收集500條。大數定律(LawofLargeNumbers):
指在隨機試驗中,每次出現的結果不同,但是大量重復試驗出現的結果的平均值卻幾乎總是接近于某個確定的值。目前十四頁\總數五十八頁\編于十五點公共語料庫檢索11由收集驗證到實證分析需要學點統計學抽樣與調查離散與連續頻率與分布描述與圖示樣本與總體估計與檢驗統計置信區間T檢驗目前十五頁\總數五十八頁\編于十五點公共語料庫檢索12由收集驗證到實證分析需要學點統計學集中趨勢的特征數:平均數、眾數、中位數、調和平均數、幾何平均數變異程度的特征數:極差、四分位差、平均差、方差、標準差參數估計與假設檢驗——以樣本對總體的推斷一般步驟(1)明確問題(2)收集信息(3)提出假設(4)構建模型(5)模型求解(6)分析檢測目前十六頁\總數五十八頁\編于十五點公共語料庫檢索13由收集驗證到實證分析需要學點統計學在自然現象和社會現象中,大量的隨機變量都服從或近似地服從正態分布。大部分參數檢驗,比如t檢驗,方差分析,回歸分析等,要求數據符合正態分布。三個基本點:1)呈鐘形,形態如左圖;2)兩個參數,均值和標準差;3)圖象大致表示:平均數周圍的屬性值在總體上占到大多數。正態分布目前十七頁\總數五十八頁\編于十五點公共語料庫檢索14公共語料庫的檢索說明——以BCC語料庫為例初階的進階的僅輸入關鍵字查找關鍵字特殊符號檢索式搜索語料庫檢索≠百度一下目前十八頁\總數五十八頁\編于十五點公共語料庫檢索15公共語料庫的檢索說明——以BCC語料庫為例統計目前十九頁\總數五十八頁\編于十五點公共語料庫檢索16公共語料庫的檢索說明——以BCC語料庫為例檢索式說明檢索式可以是字串、詞串、詞性的組合而成的查詢模式。例如:如果檢索“我想吃”后面緊接著一個名詞的語言實例,檢索式為:我想吃n,這里n是詞性符號,表示名詞。目前二十頁\總數五十八頁\編于十五點公共語料庫檢索17公共語料庫的檢索說明——以BCC語料庫為例檢索式示例目前二十一頁\總數五十八頁\編于十五點公共語料庫檢索18公共語料庫的檢索說明——以BCC語料庫為例檢索式示例目前二十二頁\總數五十八頁\編于十五點公共語料庫檢索19公共語料庫的檢索說明——以BCC語料庫為例特殊含義符號目前二十三頁\總數五十八頁\編于十五點公共語料庫檢索20公共語料庫的檢索說明——以BCC語料庫為例特殊含義符號目前二十四頁\總數五十八頁\編于十五點公共語料庫檢索21公共語料庫的檢索說明——以BCC語料庫為例詞性列表目前二十五頁\總數五十八頁\編于十五點公共語料庫檢索22公共語料庫的檢索說明——以BCC語料庫為例構詞目前二十六頁\總數五十八頁\編于十五點公共語料庫檢索23公共語料庫的檢索說明——以BCC語料庫為例構詞合成詞目前二十七頁\總數五十八頁\編于十五點公共語料庫檢索24公共語料庫的檢索說明——以BCC語料庫為例搭配目前二十八頁\總數五十八頁\編于十五點公共語料庫檢索25公共語料庫的檢索說明——以BCC語料庫為例離合目前二十九頁\總數五十八頁\編于十五點公共語料庫檢索26公共語料庫的檢索說明——以BCC語料庫為例句型目前三十頁\總數五十八頁\編于十五點公共語料庫檢索27公共語料庫的檢索說明——以BCC語料庫為例定界目前三十一頁\總數五十八頁\編于十五點公共語料庫檢索28公共語料庫的檢索說明——以BCC語料庫為例構式目前三十二頁\總數五十八頁\編于十五點公共語料庫檢索29公共語料庫的檢索說明——以BCC語料庫為例構式目前三十三頁\總數五十八頁\編于十五點公共語料庫檢索30公共語料庫的檢索說明——以BCC語料庫為例自定義搜索目前三十四頁\總數五十八頁\編于十五點公共語料庫檢索31公共語料庫的檢索說明——以BCC語料庫為例檢索結果目前三十五頁\總數五十八頁\編于十五點公共語料庫檢索32公共語料庫的檢索說明——以BCC語料庫為例歷時檢測目前三十六頁\總數五十八頁\編于十五點公共語料庫檢索33公共語料庫的檢索說明——以BCC語料庫為例檢索統計目前三十七頁\總數五十八頁\編于十五點公共語料庫檢索34公共語料庫的檢索說明——以BCC語料庫為例篩選查看上下文如果想對檢索結果進一步篩選,可以使用篩選功能,對檢索結果進一步剔除或者僅僅保留符合篩選檢索式的實例。目前三十八頁\總數五十八頁\編于十五點公共語料庫檢索35公共語料庫的檢索說明——以BCC語料庫為例下載高級設置目前三十九頁\總數五十八頁\編于十五點公共語料庫檢索36公共語料庫的檢索說明——以BCC語料庫為例句法樹目前四十頁\總數五十八頁\編于十五點注意檢索格式多摸索多使用
依據調查需要設置調查項目學點兒統計學學點編程語言
公共語料庫檢索37目前四十一頁\總數五十八頁\編于十五點第三節
個人語料庫創建目前四十二頁\總數五十八頁\編于十五點個人語料庫創建38材料/工具準備階段1、電腦、辦公軟件2、語料的選取標準3、語料庫大小設定4、已收好集的語料5、采取txt格式保存生語料庫熟語料庫加工標注詞性標記句法標記詞義標記篇章指代標記韻律標記……若只是要詞頻數據,則生語料庫足夠,word/wps或txt記事本都可以建立word/wps的“查找替換”工具即可,txt記事本的“編輯-查找”工具也行。“宏”目前四十三頁\總數五十八頁\編于十五點個人語料庫創建39熟語料庫加工階段需要工具/材料:1、電腦、辦公軟件2、語料庫加工工具2、語料的選取標準3、語料庫大小設定4、已存的生語料庫5、采取txt格式保存目前四十四頁\總數五十八頁\編于十五點個人語料庫創建40熟語料庫加工階段可以采用這個工具雙擊打開軟件目前四十五頁\總數五十八頁\編于十五點個人語料庫創建41熟語料庫加工階段需要說明的是:自己找到的語料庫必須是已經集中放好到“語料庫”這樣的文件夾中。點擊打開文件目前四十六頁\總數五十八頁\編于十五點個人語料庫創建42熟語料庫加工階段打開“語料庫”文件夾目前四十七頁\總數五十八頁\編于十五點個人語料庫創建43熟語料庫加工階段比如,選擇“癡人”這個語料目前四十八頁\總數五十八頁\編于十五點個人語料庫創建44熟語料庫加工階段然后,點擊“切分標注”即可目前四十九頁\總數五十八頁\編于十五點個人語料庫創建45熟語料庫加工階段然后,點擊全選,復制到新建的一個txt文檔,保存文件,得到一個熟語料然后,把新存的那個熟語料文件保存到一個新建的“熟語料庫”文件夾中依據此法,逐一對生語料庫中的單個語料進行“詞性標注”,然后逐一保存到“熟語料庫”中。這時,初加工的自建熟語料庫的完成了。目前五十頁\總數五十八頁\編于十五點個人語料庫創建46語料庫的檢索階段雙擊該軟件進入界面推薦使用的軟件AntConc目前五十一頁\總數五十八頁\編于十五點個人語料庫創建47語料庫的檢索階段接下來,英語不好的話,可以設置語言,點擊“GlobalSettings”菜單,找到“LanguageEncodings”,點擊該菜單,再點擊右手邊的“Edit”,這時會彈出一些選項,選擇“ChineseEncodings”,在選擇該項目右邊的“Chinese(euc-cn),最后點擊右下方的“Apply”。目前五十二頁\總數五十八頁\編于十五點個人語料庫創建48語料庫的檢索階段這時,會自動回到這個界面目前五十三頁\總數五十八頁\編于十五點個人語料庫創建49語料庫的檢索階段點擊“File”選項,再選擇“openfiles”,然后得找到“熟語料庫”文件夾,點擊。目前五十四頁\總數五十八頁\編于十五點個人語料庫創建50語料庫的檢索階段選中全部語料
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多維度評估工作效果與效率計劃
- 與作者合作合同標準文本
- 農場定制招商加盟合同標準文本
- 書加工合同樣本
- 農行按揭合同標準文本
- 上海品質營銷咨詢合同樣本
- 代購夫妻詐騙合同標準文本
- 代運營傭金合同標準文本
- 企業業務提成合同標準文本
- 2025青島勞動合同范文
- 江西省鷹潭市2023-2024學年六年級下學期數學期中試卷(含答案)
- 2024年全國職業院校技能大賽中職(食品藥品檢驗賽項)考試題庫(含答案)
- 化糞池清掏協議書范本
- 2024-2025學年九年級化學人教版教科書解讀
- 奶龍小組匯報模板
- 水利水電工程質量監督工作標準
- 2024年云南省昆明市五華區小升初數學試卷
- 化工原理完整(天大版)課件
- 2025年元明粉項目可行性研究報告
- 藝術色彩解讀
- 沖壓生產管理流程
評論
0/150
提交評論