




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:
信息分析實(shí)驗(yàn)教程分析編PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:
信息分析基礎(chǔ)知識(shí)
信息分析概述信息分析定義以社會(huì)用戶的特定需求為依托,以定性和定量研究方法為手段,通過對(duì)信息的收集、整理、鑒別、評(píng)價(jià)、分析、綜合等系列化加工過程,轉(zhuǎn)換為新的、增值的知識(shí)產(chǎn)品,最終為不同層次的科學(xué)決策服務(wù)的一項(xiàng)具有科研性質(zhì)的智能活動(dòng)要素成因:存在社會(huì)需求方法:情報(bào)學(xué)和軟科學(xué)研究方法過程:程序化的環(huán)節(jié)成果:新的增值信息產(chǎn)品目的:為科學(xué)決策服務(wù)基礎(chǔ)知識(shí)
信息分析概述大數(shù)據(jù)背景下的信息分析大數(shù)據(jù)一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,特征如下:大量化快速化多樣化價(jià)值化大數(shù)據(jù)對(duì)信息分析的影響研究范式的演進(jìn)研究方法論的更新研究質(zhì)量的提升基礎(chǔ)知識(shí)
信息分析概述信息分析流程基礎(chǔ)知識(shí)
信息分析概述信息分析應(yīng)用領(lǐng)域經(jīng)濟(jì)信息分析科技信息分析社會(huì)信息分析基礎(chǔ)知識(shí)
信息分析常用方法基礎(chǔ)知識(shí)
信息分析常用方法方法的有監(jiān)督與無監(jiān)督之分有監(jiān)督方法有監(jiān)督的分析方法中,數(shù)據(jù)集是有標(biāo)簽的,也就是說對(duì)于給出的樣本我們是知道答案的分類是預(yù)測(cè)某一樣本所對(duì)應(yīng)的類別(離散的)回歸是預(yù)測(cè)某一樣本所對(duì)應(yīng)的實(shí)數(shù)輸出(連續(xù)的)基礎(chǔ)知識(shí)
信息分析常用方法方法的有監(jiān)督與無監(jiān)督之分有監(jiān)督方法基礎(chǔ)知識(shí)
信息分析常用方法方法的有監(jiān)督與無監(jiān)督之分無監(jiān)督方法在無監(jiān)督的方法中,數(shù)據(jù)集是完全沒有標(biāo)簽的,依據(jù)相似樣本在數(shù)據(jù)空間中一般距離較近這一假設(shè),將樣本分類。關(guān)聯(lián)分析是指發(fā)現(xiàn)不同事物之間同時(shí)出現(xiàn)的概率聚類是指將相似的樣本劃分為一個(gè)簇,與分類問題不同,聚類問題預(yù)先并不知道類別,自然訓(xùn)練數(shù)據(jù)也沒有類別的標(biāo)簽維度約減顧名思義是指在不丟失有意義信息的前提下,減少數(shù)據(jù)維度基礎(chǔ)知識(shí)
信息分析常用方法方法的有監(jiān)督與無監(jiān)督之分無監(jiān)督方法軟件工具
編號(hào)工具名稱開發(fā)者技術(shù)特性功能簡(jiǎn)述類型1IBMSPSSStatisticsIBM圖形化界面;需要Java環(huán)境用于線性回歸等統(tǒng)計(jì)分析工作商業(yè)收費(fèi)2IBMSPSSModelerIBM用于聚類、決策樹等數(shù)據(jù)挖掘建模工作商業(yè)收費(fèi)3KNIMEMichaelBerthold團(tuán)隊(duì)圖形化界面;需要Java環(huán)境提供較為完備的數(shù)據(jù)挖掘方法,并支持第三方工具、資源庫的集成開源免費(fèi)4Weka懷卡托大學(xué)跨平臺(tái);圖形化界面;需要Java環(huán)境用于文本相似度計(jì)算,并實(shí)現(xiàn)文本聚類開源免費(fèi)5SnowNLPRuiWangPython包,需要Python環(huán)境;跨平臺(tái)用于中文文本分詞、詞性標(biāo)注、情感分析、文本分類、提取文本關(guān)鍵詞、提取文本摘要、文本相似度計(jì)算等開源免費(fèi)6pandaspandas團(tuán)隊(duì)Python包,需要Python環(huán)境;跨平臺(tái)pandas豐富的功能,支持構(gòu)建共現(xiàn)矩陣開源免費(fèi)7書目共現(xiàn)分析系統(tǒng)BICOMB中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系圖形化界面;需要Excel生成報(bào)表和AdobeFlashPlayer的支持用于字段抽取、字段統(tǒng)計(jì)、共現(xiàn)分析、聚類分析、網(wǎng)絡(luò)分析等文獻(xiàn)記錄處理工作免費(fèi)8UCINETSteveBorgatti等圖形化界面,處理矩陣格式的數(shù)據(jù)社會(huì)網(wǎng)絡(luò)分析軟件包,提供了大量數(shù)據(jù)管理和轉(zhuǎn)化工具試用免費(fèi)常見的信息分析軟件實(shí)驗(yàn)8:時(shí)間序列分析實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理時(shí)間序列是同一現(xiàn)象在不同時(shí)間上的相繼觀察值排列而成的序列,用于描述現(xiàn)象隨時(shí)間發(fā)展變化的特征在信息分析活動(dòng)中,時(shí)間是很重要的維度,通過時(shí)間窗口的逐次推進(jìn),人們可以動(dòng)態(tài)直觀地認(rèn)識(shí)到同一事物的變化過程,能夠更為全面地了解過去、把握現(xiàn)狀甚至預(yù)測(cè)/感知未來,而缺失時(shí)間信息,則僅能宏觀反映事物的基本情況,難以細(xì)粒度感知采集含有時(shí)間維度信息的文本數(shù)據(jù)將文本數(shù)據(jù)按時(shí)間維度歸納到合適的粒度對(duì)文本進(jìn)行統(tǒng)計(jì)匯總(基于詞頻、主題等)可視化呈現(xiàn)與解讀本實(shí)驗(yàn)的核心工作流程實(shí)驗(yàn)8:時(shí)間序列分析實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)數(shù)據(jù)獲取過程中,如果擬獲取的數(shù)據(jù)包含有時(shí)間維度信息,不論后續(xù)分析是否用到,建議將包含時(shí)間維度信息的數(shù)據(jù)一并采集回來,避免因遺漏對(duì)時(shí)間維度信息相關(guān)數(shù)據(jù)的采集而限制后續(xù)分析活動(dòng)和深度,并由此帶來返工等。互聯(lián)網(wǎng)數(shù)據(jù)的半衰期本來就短、易消失,在獲取該類數(shù)據(jù)時(shí),事先須考慮全面(如第1點(diǎn)的時(shí)間信息等),避免給信息分析活動(dòng)帶來不可逆的影響,在網(wǎng)絡(luò)中數(shù)據(jù)的“刪除”“修改”是極其常見的事情。常見的時(shí)間維度信息包括事物的題錄特征信息(發(fā)表時(shí)間、更新時(shí)間、轉(zhuǎn)載時(shí)間等)和事物內(nèi)部的描述信息(文本描述中所蘊(yùn)含的時(shí)間)。前者需要在數(shù)據(jù)采集時(shí)一并選擇采集(易獲取、易忽視),而后者則需要利用命名實(shí)體識(shí)別方法或工具進(jìn)行提取(難獲取)。兩類時(shí)間維度信息,均值得引起注意。實(shí)驗(yàn)9:關(guān)聯(lián)規(guī)則實(shí)驗(yàn)操作流程詳見教材
實(shí)驗(yàn)9:關(guān)聯(lián)規(guī)則實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理其中,典型的關(guān)聯(lián)規(guī)則算法是由R.Agrawal等人于1994年提出的Apriori算法,算法核心包括兩部分,即:找出所有頻繁數(shù)據(jù)項(xiàng)集,即找出所有支持度超過指定閾值的數(shù)據(jù)項(xiàng)集利用頻繁數(shù)據(jù)項(xiàng)集,生成侯選的關(guān)聯(lián)規(guī)則,并驗(yàn)證其可信度,同時(shí)如果可信度超過指定閾值,則該侯選關(guān)聯(lián)規(guī)則為要找的關(guān)聯(lián)規(guī)則實(shí)驗(yàn)9:關(guān)聯(lián)規(guī)則實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)除了Apriori算法,關(guān)聯(lián)規(guī)則挖掘的常用算法還有FP-growth。對(duì)于SPSSModeler,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則是比較消耗時(shí)間和計(jì)算機(jī)性能的步驟。如果計(jì)算機(jī)的內(nèi)存足夠大,Apriori節(jié)點(diǎn)對(duì)話框“模型”選項(xiàng)卡下的“優(yōu)化”設(shè)置應(yīng)保持默認(rèn)不變(即選中“速度”單選框),反之則選中“內(nèi)存”單選框。實(shí)驗(yàn)10:回歸分析實(shí)驗(yàn)操作流程詳見教材
實(shí)驗(yàn)10:回歸分析實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理1、確定自變量(解釋變量)和因變量(被解釋變量)2、確定回歸模型,從樣本數(shù)據(jù)出發(fā)確定變量之間的數(shù)學(xué)關(guān)系式3、建立回歸方程,對(duì)回歸方程的各個(gè)參數(shù)進(jìn)行估計(jì)4、對(duì)回歸方程進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)5、利用回歸方程進(jìn)行預(yù)測(cè)本實(shí)驗(yàn)的核心工作流程實(shí)驗(yàn)10:回歸分析實(shí)驗(yàn)操作流程詳見教材
實(shí)驗(yàn)10:回歸分析實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理一元線性回歸模型最小二乘法(OLS)評(píng)估模型的方法:擬和優(yōu)度檢驗(yàn)(判定系數(shù)R2):體現(xiàn)了回歸方程所能解釋的因變量變差的比例;它是評(píng)價(jià)兩個(gè)變過量之間線性相關(guān)關(guān)系強(qiáng)弱的一個(gè)重要指標(biāo)t檢驗(yàn):檢驗(yàn)自變量對(duì)因變量的線性影響是否顯著F檢驗(yàn):檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著,即是否可用線性模型來表示實(shí)驗(yàn)10:回歸分析實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)缺失值和異常值都會(huì)對(duì)回歸計(jì)算結(jié)果產(chǎn)生影響,應(yīng)當(dāng)特別重視計(jì)算之前的文本處理工作。其中具體處理思路與方法,可以參考實(shí)驗(yàn)3、4。實(shí)驗(yàn)11:文本聚類實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理文本聚類:根據(jù)同類的文本相似度較大、異類文本相似度較小的假設(shè),通過一些針對(duì)文本比對(duì)的規(guī)則對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的處理,將文本集中相似度較大的文本劃分至同一個(gè)容器中儲(chǔ)存,而將文本集中相似度較小的文本分配至不同的容器中儲(chǔ)存文本聚類是一種無監(jiān)督的方法,聚類算法是不必進(jìn)行“訓(xùn)練”的,包括:基于劃分的方法(如K-MEANS算法)、基于層次的方法(如BIRCH算法)、基于密度的方法(如DBSCAN算法)、基于網(wǎng)格的方法(如WAVE-CLUSTR算法)、基于模型的方法(如關(guān)聯(lián)規(guī)則方法、決策樹方法等)實(shí)驗(yàn)11:文本聚類實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理文本聚類的過程:將同一類的文本指派到同一類簇中,指派的依據(jù)是文本中詞的語義關(guān)系或相似性的關(guān)系文本聚類的前提:文本結(jié)構(gòu)化,包括文本預(yù)處理、特征降維和文本表示模型等文本聚類的實(shí)質(zhì):將各份文本以高維空間點(diǎn)的形式展現(xiàn)出來,通過計(jì)算哪些點(diǎn)的距離比較近,來將這些點(diǎn)聚成一個(gè)簇。簇的中心叫做簇心,好的聚類要保證簇內(nèi)點(diǎn)的距離盡可能近,但簇與簇之間的點(diǎn)要盡可能遠(yuǎn)文本預(yù)處理文本分詞詞頻統(tǒng)計(jì)特征降維特征項(xiàng)選取文本表示相似度計(jì)算文本聚類聚類結(jié)果聚類評(píng)估本實(shí)驗(yàn)的核心工作流程實(shí)驗(yàn)11:文本聚類實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)本實(shí)驗(yàn)主要演示了在Ucinet軟件中進(jìn)行文本聚類(層次聚類法)的過程,而文本聚類的方法,本身還有很多,如:基于劃分的方法(K-Means算法、K-MEDOIDS算法、CLARANS算法等)、基于密度的方法(DBSCAN算法、OPTICS算法、DENCLUE算法等)、基于網(wǎng)格的方法(STING算法、CLIQUE算法、WAVE-CLUSTER算法等)和基于模型的方法(關(guān)聯(lián)規(guī)則方法、決策樹方法等),需要結(jié)合文本特征和實(shí)際使用場(chǎng)景,綜合選擇(或自編)工具完成。實(shí)驗(yàn)12:文本情感分析實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理文本情感分析是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程文本情感分析的三大主要任務(wù):情感信息抽取、情感信息分類、情感信息的檢索與歸納當(dāng)前大多數(shù)文本情感分析都是針對(duì)一段文本判斷其總體的情感極性。主要是對(duì)文本中的情感詞語進(jìn)行提取與歸納匯總,多依賴于情感字典(積極、中性、消極等情感詞匯)、特征數(shù)據(jù)(表情符號(hào)、否定詞等特征)完成。文本預(yù)處理分詞去停用詞加載詞典情感信息抽取情感詞語評(píng)價(jià)對(duì)象情感信息分類計(jì)算詞語權(quán)重計(jì)算情感指數(shù)情感信息檢索與歸納本實(shí)驗(yàn)的核心工作流程實(shí)驗(yàn)12:文本情感分析實(shí)驗(yàn)操作流程詳見教材注意事項(xiàng)如果同學(xué)們不希望在計(jì)算機(jī)中部署的Python3環(huán)境占用過多磁盤空間,則可以選擇使用較為精簡(jiǎn)的Python發(fā)行版——Miniconda3(官方下載頁面:https://docs.conda.io/en/latest/miniconda.html)。使用pip工具的命令安裝SnowNLP時(shí),可能會(huì)因安裝源位于國(guó)外而導(dǎo)致傳輸速度慢、安裝耗時(shí)長(zhǎng)。此時(shí)可以嘗試在命令中添加參數(shù)“-i[源地址]”,將安裝源地址更換為國(guó)內(nèi)的鏡像源以快速下載安裝。以使用清華鏡像為例,完整的SnowNLP安裝命令如下:
pipinstallsnownlp–i/simple實(shí)驗(yàn)13:詞共現(xiàn)分析實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理詞共現(xiàn)反映的是有關(guān)兩事物的描述在同一樣本中出現(xiàn)的現(xiàn)象,用于識(shí)別事物間親疏遠(yuǎn)近關(guān)系基本原則先統(tǒng)計(jì)一組關(guān)鍵詞中任意兩個(gè)詞在一組文檔里某一篇中是否共同出現(xiàn)再統(tǒng)計(jì)這種共同出現(xiàn)情況的次數(shù)并構(gòu)建對(duì)稱關(guān)鍵詞共現(xiàn)矩陣實(shí)驗(yàn)13:詞共現(xiàn)分析實(shí)驗(yàn)操作流程詳見教材實(shí)驗(yàn)原理基本原則在共現(xiàn)矩陣中關(guān)鍵詞共現(xiàn)次數(shù)可能相差較大不利于數(shù)據(jù)分析,還可根據(jù)需要把關(guān)鍵
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025家庭裝修合同書簡(jiǎn)化版裝飾工程合同書
- 藥品經(jīng)營(yíng)質(zhì)量管理規(guī)范
- 2025中文借款合同模板
- 幼兒園數(shù)學(xué)教育:?jiǎn)螖?shù)與雙數(shù)
- 水滸傳之魯智深人物解析
- 鐘祥幼兒園面試真題及答案
- 無人機(jī)操控員面試題及答案
- 護(hù)理暑期社會(huì)實(shí)踐:青春擔(dān)當(dāng)與健康守護(hù)
- 全髖關(guān)節(jié)置換術(shù)護(hù)理查房
- HALO酒吧街圣誕微醺季活動(dòng)策劃方案
- 數(shù)字減影血管造影(DSA)X射線設(shè)備質(zhì)量控制檢測(cè)規(guī)范
- 《從零到卓越- 創(chuàng)新與創(chuàng)業(yè)導(dǎo)論》教案
- 2024年中國(guó)塑料酸奶瓶市場(chǎng)調(diào)查研究報(bào)告
- 15J403-1-樓梯欄桿欄板(一)
- 新版申請(qǐng)銀行減免利息的申請(qǐng)書
- 2024年上海駕駛員客運(yùn)從業(yè)資格證模擬考試題庫及答案
- 2024-2030年中國(guó)地鐵通信行業(yè)發(fā)展分析及發(fā)展前景與趨勢(shì)預(yù)測(cè)研究報(bào)告
- 無工作單位個(gè)人承諾書模板
- 2024年江蘇南通蘇北七市高三三模高考化學(xué)試卷試題(含答案詳解)
- DL∕T 5554-2019 電力系統(tǒng)無功補(bǔ)償及調(diào)壓設(shè)計(jì)技術(shù)導(dǎo)則
- 道德與法治賽課一等獎(jiǎng):《勿忘國(guó)恥》教學(xué)課件(五下)
評(píng)論
0/150
提交評(píng)論