第11章 大數(shù)據(jù)調(diào)查法_第1頁
第11章 大數(shù)據(jù)調(diào)查法_第2頁
第11章 大數(shù)據(jù)調(diào)查法_第3頁
第11章 大數(shù)據(jù)調(diào)查法_第4頁
第11章 大數(shù)據(jù)調(diào)查法_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第十一章大數(shù)據(jù)調(diào)查法

第一節(jié)

大數(shù)據(jù)調(diào)查概述

一、大數(shù)據(jù)的概念

大數(shù)據(jù)(Bigdata或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。

大數(shù)據(jù)的特征

4V—

體量巨大(Volume);—

種類繁多(Variety);—

流動(dòng)速度快(Velocity);—

價(jià)值密度低(Value)。浩如煙海的大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的比較大數(shù)據(jù)不是通過抽樣調(diào)查所獲取的樣本數(shù)據(jù),通過互聯(lián)網(wǎng)存儲(chǔ)、獲取、交換和分析,克服抽樣調(diào)查數(shù)據(jù)帶來的許多隨機(jī)和非隨機(jī)誤差。要確保抽樣調(diào)查的隨機(jī)性,需要建立總體的抽樣框;大數(shù)據(jù)對(duì)于特定的群體所收集的數(shù)據(jù)一般就是該群體的總體數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)的產(chǎn)生過程是“搜集”,設(shè)計(jì)問卷后進(jìn)行調(diào)查,問卷的針對(duì)性強(qiáng),但應(yīng)用范圍受到限制;大數(shù)據(jù)分析重在“挖掘”,客觀數(shù)據(jù)并不為任何一個(gè)課題而產(chǎn)生,而是對(duì)真實(shí)世界的自然記錄,有利于研究者充分發(fā)揮想象力,可供研究的領(lǐng)域沒有邊界。

二、大數(shù)據(jù)的種類

人為數(shù)據(jù)移動(dòng)數(shù)據(jù)機(jī)器和傳感器數(shù)據(jù)交易數(shù)據(jù)大數(shù)據(jù)平臺(tái)能夠獲取時(shí)間跨度更大、更海量的結(jié)構(gòu)化交易數(shù)據(jù),這樣就可以對(duì)更廣泛的交易數(shù)據(jù)類型進(jìn)行分析,包括POS或電子商務(wù)購物數(shù)據(jù)和行為交易數(shù)據(jù),例如Web服務(wù)器記錄的互聯(lián)網(wǎng)點(diǎn)擊流數(shù)據(jù)日志。非結(jié)構(gòu)數(shù)據(jù)廣泛存在于電子郵件、文檔、圖片、音頻、視頻,以及通過博客、維基,尤其是社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)為使用文本分析功能進(jìn)行分析提供了豐富的數(shù)據(jù)源泉。移動(dòng)數(shù)據(jù)庫是能夠支持移動(dòng)式計(jì)算環(huán)境的數(shù)據(jù)庫。隨著能夠上網(wǎng)的智能手機(jī)和平板越來越普及,這些移動(dòng)設(shè)備上的App都能夠追蹤和溝通無數(shù)事件,從App內(nèi)的交易數(shù)據(jù)到個(gè)人信息資料或狀態(tài)報(bào)告。機(jī)器和傳感器數(shù)據(jù)包括功能設(shè)備創(chuàng)建或生成的數(shù)據(jù),例如智能電表、智能溫度控制器、工廠機(jī)器和連接互聯(lián)網(wǎng)的家用電器。從數(shù)據(jù)來源和數(shù)據(jù)形式兩個(gè)角度看:a.按數(shù)據(jù)來源分類b.按數(shù)據(jù)形式分類結(jié)構(gòu)化數(shù)據(jù),通常是指用關(guān)系數(shù)據(jù)庫方式記錄的數(shù)據(jù),數(shù)據(jù)按表和字段進(jìn)行存儲(chǔ),字段之間相互獨(dú)立。比如企業(yè)ERP、財(cái)務(wù)系統(tǒng),教育一卡通,政府行政審批等。結(jié)構(gòu)化數(shù)據(jù)01半結(jié)構(gòu)化數(shù)據(jù)02半結(jié)構(gòu)化數(shù)據(jù),是指以自描述的文本方式記錄的數(shù)據(jù),自描述數(shù)據(jù)無需滿足關(guān)系數(shù)據(jù)庫上那種非常嚴(yán)格的結(jié)構(gòu)和關(guān)系。很多網(wǎng)站和應(yīng)用訪問日志都采用這種格式,網(wǎng)頁本身也是這種格式。非結(jié)構(gòu)化數(shù)據(jù)03非結(jié)構(gòu)化數(shù)據(jù),通常是指語音、圖片、視頻等格式的數(shù)據(jù)。這類數(shù)據(jù)一般按照特定應(yīng)用格式進(jìn)行編碼,數(shù)據(jù)量非常大,且不能簡單地轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。三、大數(shù)據(jù)調(diào)查法概念及特點(diǎn)

大數(shù)據(jù)調(diào)查法是指調(diào)查者有目的、有計(jì)劃地運(yùn)用計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)采集、處理、存儲(chǔ)和分析實(shí)時(shí)記錄社會(huì)現(xiàn)象及其活動(dòng)而形成的海量數(shù)據(jù)的調(diào)查方法。

大數(shù)據(jù)調(diào)查法的特點(diǎn):(1)從“大型數(shù)據(jù)”到“大數(shù)據(jù)”。大型數(shù)據(jù)可以拆分成為一系列小型數(shù)據(jù)集合用傳統(tǒng)方法處理。大數(shù)據(jù)則不同,傳統(tǒng)調(diào)查統(tǒng)計(jì)方法無法處理,必須使用新的模型、算法及新的計(jì)算機(jī)集成技術(shù)才能進(jìn)行有效的采集與處理。大數(shù)據(jù)調(diào)查需要應(yīng)對(duì)數(shù)據(jù)的異構(gòu)性和質(zhì)量的不一致性問題。(2)從“隨機(jī)抽樣”到“觀察總體”。其他調(diào)查方法往往運(yùn)用隨機(jī)抽樣調(diào)查方法,通過樣本調(diào)查的統(tǒng)計(jì)量去推斷總體的參數(shù)值。大數(shù)據(jù)調(diào)查法采集、處理的數(shù)據(jù),一般都不是個(gè)別的、局部的,也不是抽樣的,而是對(duì)總體信息進(jìn)行海量的抓取,通過海量數(shù)據(jù)直接觀察總體,所以調(diào)查結(jié)果能更加貼近調(diào)查對(duì)象的總體特征,規(guī)避了抽樣調(diào)查推斷總體時(shí)經(jīng)常出現(xiàn)的抽樣誤差等問題。(3)從“精確測量”到“總體真實(shí)”。其他調(diào)查方法一般要求測量精確,強(qiáng)調(diào)“寧缺勿爛”,因?yàn)閭鹘y(tǒng)小數(shù)據(jù)分析的數(shù)據(jù)量本身并不大,任何一個(gè)錯(cuò)誤數(shù)據(jù)都有可能對(duì)結(jié)果產(chǎn)生相對(duì)較大的負(fù)面影響,對(duì)錯(cuò)誤數(shù)據(jù)必須花大精力去清除。大數(shù)據(jù)時(shí)代的原則變成了“要效率不要精確”,大數(shù)據(jù)的規(guī)模龐大,數(shù)據(jù)的精確性沒有那么重要。因?yàn)楹A繑?shù)據(jù)可以更好地反映總體的真實(shí),從而大大降低了錯(cuò)誤信息造成的誤差。(4)從“因果關(guān)系”到“相關(guān)關(guān)系”。其他調(diào)查方法通常把揭示、驗(yàn)證社會(huì)現(xiàn)象之間的“因果關(guān)系”作為目標(biāo)。大數(shù)據(jù)調(diào)查法通過海量數(shù)據(jù)揭示社會(huì)現(xiàn)象之間的相關(guān)關(guān)系,并據(jù)此成功做出預(yù)測。大數(shù)據(jù)調(diào)查法與網(wǎng)絡(luò)調(diào)查法的區(qū)別網(wǎng)絡(luò)調(diào)查雖通過網(wǎng)絡(luò)收集數(shù)據(jù),但其數(shù)據(jù)處理依然沿用傳統(tǒng)方法。而大數(shù)據(jù)調(diào)查法,由于數(shù)據(jù)海量,傳統(tǒng)技術(shù)和方法不可能采集和處理,因而在數(shù)據(jù)采集層面要依賴更高級(jí)的網(wǎng)絡(luò)技術(shù),在數(shù)據(jù)處理層面要依賴人們創(chuàng)造出的新算法及更高性能的計(jì)算機(jī)。大數(shù)據(jù)調(diào)查法是比網(wǎng)絡(luò)調(diào)查法更高一個(gè)層次的計(jì)算機(jī)調(diào)查方法。

第二節(jié)大數(shù)據(jù)調(diào)查的步驟大數(shù)據(jù)調(diào)查法的一般步驟是:甄別與分類數(shù)據(jù);采集與提取數(shù)據(jù);審讀和清理數(shù)據(jù);分析和挖掘數(shù)據(jù);從數(shù)據(jù)到結(jié)論。

一、甄別與分類數(shù)據(jù)(一)數(shù)據(jù)的甄別數(shù)據(jù)的甄別,就是對(duì)大數(shù)據(jù)進(jìn)行研究鑒別,明確調(diào)查課題需要什么樣的大數(shù)據(jù),如何獲得、如何分析這些大數(shù)據(jù)。數(shù)據(jù)的甄別,主要包括以下內(nèi)容:一是,研究鑒別調(diào)查課題與數(shù)據(jù)類型、數(shù)據(jù)規(guī)模的關(guān)系。二是,研究鑒別數(shù)據(jù)的來源和搜集數(shù)據(jù)中可能存在的問題。三是,研究鑒別數(shù)據(jù)存儲(chǔ)、處理和分析中可能存在的問題。(二)數(shù)據(jù)的分類根據(jù)人們活動(dòng)的類別,可以將目前常用的大數(shù)據(jù)分為以下四類:一是,關(guān)于日常生活的數(shù)據(jù)。二是,關(guān)于主觀態(tài)度的數(shù)據(jù)。三是,關(guān)于交通出行的數(shù)據(jù)。四是,關(guān)于空間分布的數(shù)據(jù)。二、采集與提取數(shù)據(jù)(一)探針采集法探針采集法是一種采集數(shù)據(jù)的物理方法。探針是一種從路由器、交換機(jī)上把數(shù)據(jù)采集過來的專有設(shè)備。根據(jù)探針放置的位置不同,可分為內(nèi)置探針和外置探針。此外,還需要Tap/分光器。(二)網(wǎng)頁采集法網(wǎng)頁采集是指從網(wǎng)頁中獲取數(shù)據(jù)。采集互聯(lián)網(wǎng)上的數(shù)據(jù),需要網(wǎng)頁爬蟲技術(shù)(利用編程語言編寫腳本,模擬人的瀏覽行為,自動(dòng)獲取網(wǎng)頁上的數(shù)據(jù),形成一個(gè)網(wǎng)頁備份,作為采集數(shù)據(jù)的載體)。爬蟲系統(tǒng)采集,抓取策略的設(shè)計(jì)(如抓取URL隊(duì)列設(shè)計(jì),即先抓取哪個(gè)頁面,后抓取哪個(gè)頁面,等)和硬件設(shè)備水平,往往決定著抓取數(shù)據(jù)的最終質(zhì)量。(三)日志收集法任何一個(gè)計(jì)算機(jī)系統(tǒng),在運(yùn)行過程中都會(huì)產(chǎn)生大量日志文件,其中蘊(yùn)含著豐富的有價(jià)值的信息。大數(shù)據(jù)技術(shù)可以將這些日志文件收集起來加以研究。(四)應(yīng)用程序接口法通常情況下,不同軟件之間都會(huì)預(yù)先設(shè)定一個(gè)接口(如函數(shù)或HTTP接口),讓使用者可在無需訪問源碼、無需理解內(nèi)部工作機(jī)制的情況下,調(diào)用他人可共享的功能或資源。這種設(shè)定,對(duì)于獲取數(shù)據(jù)的研究者來說是非常方便的。調(diào)查者通過應(yīng)用程序接口,就能非常方便地采集、提取大量所需的數(shù)據(jù)。(五)數(shù)據(jù)采集軟件收集法在大數(shù)據(jù)調(diào)查過程中,數(shù)據(jù)量會(huì)從TB級(jí)上升至FB級(jí),甚至EB量級(jí),這是傳統(tǒng)數(shù)據(jù)采集、存儲(chǔ)方式無法完成的。目前,市場上有許多數(shù)據(jù)采集軟件平臺(tái)和公司,能夠?yàn)樯鐣?huì)科學(xué)不同領(lǐng)域的調(diào)查研究者,提供各種個(gè)性化的數(shù)據(jù)采集服務(wù)。

三、審讀和清理數(shù)據(jù)(一)判斷數(shù)據(jù)結(jié)構(gòu)審讀數(shù)據(jù),首先要判斷數(shù)據(jù)的結(jié)構(gòu)。按照結(jié)構(gòu)化程度,數(shù)據(jù)可分為三類:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(1)結(jié)構(gòu)化數(shù)據(jù),是指按表格、問卷方式記錄的數(shù)據(jù)。它的每個(gè)字段都有固定語義和長度規(guī)范,并通過關(guān)系型數(shù)據(jù)庫存儲(chǔ)和管理。例如,企業(yè)管理系統(tǒng)、醫(yī)療信息系統(tǒng)、教育一卡通、行政審批數(shù)據(jù)庫里的數(shù)據(jù)。(2)半結(jié)構(gòu)化數(shù)據(jù),是指有一定結(jié)構(gòu),但結(jié)構(gòu)不固定、不容易模式化的數(shù)據(jù)。例如,訪談?dòng)涗洝⑷罩疚募ML(制作網(wǎng)頁等用的文本結(jié)構(gòu)標(biāo)記系統(tǒng))等。其內(nèi)容大都用文字記錄,沒有嚴(yán)格的結(jié)構(gòu)和關(guān)系,無法直接錄入數(shù)據(jù)庫。(3)非結(jié)構(gòu)化數(shù)據(jù),是指結(jié)構(gòu)不規(guī)則、不完整,不能用規(guī)范格式記錄的數(shù)據(jù)。例如,語音、圖片、視頻等格式的數(shù)據(jù)。這類數(shù)據(jù)一般按照特定應(yīng)用格式編碼,數(shù)據(jù)量非常大,而且不能簡單轉(zhuǎn)換成為結(jié)構(gòu)化數(shù)據(jù)。(二)數(shù)據(jù)結(jié)構(gòu)化過程在分析和挖掘數(shù)據(jù)之前,必須對(duì)采集、提取的數(shù)據(jù)進(jìn)行審讀和清理,即將半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為成結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)化過程,主要有三個(gè)環(huán)節(jié):(1)數(shù)據(jù)集成,就是對(duì)不同來源、不同結(jié)構(gòu)的數(shù)據(jù),通過審讀、調(diào)整、翻譯和創(chuàng)建等方法,融合、集成為統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)。對(duì)結(jié)構(gòu)化過程前后的數(shù)據(jù),應(yīng)建立一定的對(duì)應(yīng)關(guān)系,以便在后續(xù)程序中訪問和操作,使結(jié)構(gòu)化過程成為可追溯的過程。此外,數(shù)據(jù)集成還應(yīng)處理隱私問題,努力避免在集成數(shù)據(jù)中泄露某些隱私信息。(2)數(shù)據(jù)準(zhǔn)備,就是將融合、集成為統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù),轉(zhuǎn)換成為符合分析和挖掘技術(shù)所要求的格式數(shù)據(jù),為計(jì)算機(jī)讀取和操作做好準(zhǔn)備。例如,使用自然語義處理技術(shù),進(jìn)行文本分類、情感分析和意圖識(shí)別,挖掘出許多有定性價(jià)值的材料;或通過圖像識(shí)別技術(shù),處理各種圖片、視頻數(shù)據(jù)。(3)數(shù)據(jù)檢驗(yàn),就是通過清理形成一份“干凈整齊”的數(shù)據(jù)后,通常還應(yīng)做一些探索性檢驗(yàn)。通過檢驗(yàn),進(jìn)一步發(fā)現(xiàn)數(shù)據(jù)中可能的重復(fù)值、缺損值,甚至奇異值。這些數(shù)據(jù),通常沒有記錄,或被錯(cuò)誤記錄。如果出現(xiàn)這種情況,就得回過頭去,采集更多數(shù)據(jù),或花更多時(shí)間清理數(shù)據(jù)。這就是說,審讀和清理數(shù)據(jù)并非是一次完成的,清理辦法并非是一次確定的,往往需要不斷檢查、不斷改變清理策略,才能逐步完成。四、分析和挖掘數(shù)據(jù)(一)“分類”分類,就是根據(jù)某些規(guī)則或?qū)傩詫⒂^察結(jié)果劃分為預(yù)定義組的方法。其中,決策樹、支持向量機(jī)和樸素貝葉斯分類器都是相對(duì)成熟的分類算法。(二)“聚類”聚類,是一種將相似或相關(guān)數(shù)據(jù)聚集在一起、實(shí)現(xiàn)“組內(nèi)相似,組間不同”的分析方法。基于大數(shù)據(jù)的聚類方法,主要用于獲取不同類別的數(shù)據(jù),而不特別關(guān)注所獲取類別數(shù)據(jù)的意義。聚類技術(shù)用于區(qū)分“無標(biāo)簽”數(shù)據(jù)比較有優(yōu)勢。(三)“回歸”回歸,是一種確定兩個(gè)或兩個(gè)以上變量之間相互關(guān)系的分析方法。其中,線性回歸和邏輯回歸是使用最廣泛的兩種算法。回歸分析法,主要用于事物之間因果關(guān)系的分析和預(yù)測,具有降維、信息提取、估計(jì)和預(yù)測等功能。(四)“關(guān)聯(lián)規(guī)則分析”關(guān)聯(lián)規(guī)則分析,是一種用于發(fā)現(xiàn)事物間相關(guān)性或相互依賴性的方法。其中,“Apriori”和“灰色關(guān)聯(lián)”是兩種廣泛使用的算法。關(guān)聯(lián)規(guī)則分析法,可基于某些事件的發(fā)生推測其他事件的出現(xiàn),并確定事物之間的影響程度,發(fā)現(xiàn)有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)性,也可以用于分析遙感數(shù)據(jù)、社交媒體數(shù)據(jù),研究城市擴(kuò)張與城市活力之間的關(guān)系,等等。(五)“社交網(wǎng)絡(luò)分析”社交網(wǎng)絡(luò)分析,是一種用來查看節(jié)點(diǎn)、連接邊之間社會(huì)關(guān)系的一種分析方法。節(jié)點(diǎn)是社交網(wǎng)絡(luò)里的每個(gè)參與者,連接邊則表示參與者之間的關(guān)系。節(jié)點(diǎn)之間可以有很多種連接。社交網(wǎng)絡(luò)是一張地圖,可以標(biāo)示出所有與節(jié)點(diǎn)間相關(guān)的連接邊。五、從數(shù)據(jù)到結(jié)論數(shù)據(jù)不可能自動(dòng)形成結(jié)論。調(diào)查者只有在分析和挖掘數(shù)據(jù)的基礎(chǔ)上,以唯物史觀基本原理為指導(dǎo),進(jìn)行去粗取精、去偽存真、由此及彼、由表及里的思維加工,才能做出結(jié)論。這就是說,大數(shù)據(jù)調(diào)查法的實(shí)施,既要重視各種數(shù)據(jù)采集、分析技術(shù)和算法的應(yīng)用,又要重視唯物史觀基本原理的指導(dǎo),并努力把二者有機(jī)結(jié)合起來。只有如此,才能科學(xué)驗(yàn)證現(xiàn)有理論,或提出新的科學(xué)理論。第三節(jié)

大數(shù)據(jù)調(diào)查的技術(shù)和工具

一、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)(一)數(shù)據(jù)挖掘大數(shù)據(jù)方法或者說大數(shù)據(jù)分析技術(shù)的核心是“數(shù)據(jù)挖掘”(datemining)。數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中,提取能揭示有意義的潛在規(guī)律和人們感興趣的知識(shí)的處理過程。因此,數(shù)據(jù)挖掘又被稱為“爬梳”或KDD(KnowledgeDiscoverinDatabase)。1.基于內(nèi)容信息的數(shù)據(jù)挖掘語言是社會(huì)媒體最重要的表現(xiàn)形式,文本是社會(huì)媒體中用戶表達(dá)信息的最重要的方式。基于內(nèi)容信息的數(shù)據(jù)挖掘包括網(wǎng)絡(luò)搜索技術(shù)與實(shí)體關(guān)聯(lián)分析等主要研究內(nèi)容。社會(huì)媒體的出現(xiàn)為互聯(lián)網(wǎng)信息搜索提出了新的挑戰(zhàn),研究的熱點(diǎn)從傳統(tǒng)的海量數(shù)據(jù)抓取、索引結(jié)構(gòu)優(yōu)化和用戶查詢分析等轉(zhuǎn)移到了排序?qū)W習(xí)算法,專注于提高檢索質(zhì)量。此外,社會(huì)媒體需要關(guān)注數(shù)據(jù)的短文本特征、對(duì)簡短關(guān)鍵詞表達(dá)的深入理解和分析,掌握用戶真實(shí)的查詢意圖。2.基于結(jié)構(gòu)信息的社會(huì)計(jì)算社會(huì)網(wǎng)絡(luò)是以社會(huì)媒體中的用戶為節(jié)點(diǎn)、用戶間的關(guān)系為連邊而構(gòu)建的網(wǎng)絡(luò)。它既是用戶間社會(huì)關(guān)系的反映,也是用戶間進(jìn)行信息交互的載體。社會(huì)網(wǎng)絡(luò)具有關(guān)系的異質(zhì)性、結(jié)構(gòu)的多尺度性以及網(wǎng)絡(luò)的動(dòng)態(tài)演化性三方面特性。在社會(huì)網(wǎng)絡(luò)中,個(gè)體因血緣關(guān)系或興趣愛好等因素而形成了連接緊密的圈子,這種內(nèi)部關(guān)系緊密而對(duì)外關(guān)系相對(duì)稀疏的結(jié)構(gòu)被稱為社區(qū)。社區(qū)結(jié)構(gòu)是社會(huì)網(wǎng)絡(luò)所普遍具有的結(jié)構(gòu)特征,社區(qū)結(jié)構(gòu)的存在對(duì)于網(wǎng)絡(luò)的高效搜索、網(wǎng)絡(luò)演化、信息擴(kuò)散等具有重要意義。針對(duì)社區(qū)結(jié)構(gòu)的研究可分為社區(qū)發(fā)現(xiàn)、社區(qū)結(jié)構(gòu)演化等方面。(二)機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí),是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。簡單地說,機(jī)器學(xué)習(xí)就是讓計(jì)算機(jī)根據(jù)歷史數(shù)據(jù)自己去學(xué)習(xí),以適應(yīng)新的環(huán)境,模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。目前,熱門的“神經(jīng)網(wǎng)絡(luò)”和“深度學(xué)習(xí)”,都屬于“機(jī)器學(xué)習(xí)”范疇。

二、大數(shù)據(jù)調(diào)查的常用工具(一)入門級(jí)工具(1)Excel。它是許多學(xué)者比較熟悉的數(shù)據(jù)處理軟件,一般辦公系統(tǒng)中都備有這款軟件。它容易上手,資源豐富,可以完成一些簡單的建模、可視化、圖表等工作,可做一些簡單的方差分析和回歸分析。(2)R軟件。這是統(tǒng)計(jì)分析和大數(shù)據(jù)分析中使用較多的一款軟件,功能上能滿足相當(dāng)部分大數(shù)據(jù)調(diào)查需求。(3)Python。這是一款需要編程的數(shù)據(jù)分析工具。與R軟件一樣,它也是免費(fèi)開源的。有一些常用的庫,如BeautifulSoup、Scrapy等,可以幫助用戶更快速、高效地采集網(wǎng)頁數(shù)據(jù)。不同的是,R是專門用于數(shù)據(jù)分析的軟件,而Python除數(shù)據(jù)分析外,還可用于計(jì)算機(jī)領(lǐng)域,比如web頁面開發(fā)、系統(tǒng)后端開發(fā)等。它在大數(shù)據(jù)管理中可以起非常重要的作用。(二)高級(jí)工具(1)Hadoop。這是一套公認(rèn)的大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件。Hadoop框架最核心的設(shè)計(jì)是:HDFS和MapReduce,能夠處理PB級(jí)數(shù)據(jù),從而為Hadoop提供了海量數(shù)據(jù)的存儲(chǔ)和計(jì)算功能,而且對(duì)硬件的要求不高。與只作為一種編程語言存在的Python不同,Hadoop是真正意義上的大數(shù)據(jù)處理軟件。(2)RapidMiner。這是主要用于數(shù)據(jù)挖掘的工具。它的最大好處是無需編程,從而避免了大量的編程工作。調(diào)研者可用RapidMiner連接其中算子形成數(shù)據(jù)處理流程,實(shí)現(xiàn)對(duì)大數(shù)據(jù)文件的挖掘,并獲得對(duì)挖掘流程的理解。(3)Storm。這是一個(gè)免費(fèi)開源、分布式、高容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng),它是基于hadoop研發(fā)的。可以使持續(xù)不斷的計(jì)算變得容易,彌補(bǔ)了Hadoop不擅長實(shí)時(shí)計(jì)算的缺陷。所以,在大數(shù)據(jù)處理中,Storm經(jīng)常被用于實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、持續(xù)計(jì)算、分布式遠(yuǎn)程調(diào)用等領(lǐng)域。第四節(jié)

大數(shù)據(jù)調(diào)查的關(guān)鍵問題

一、技術(shù)依賴性問題大數(shù)據(jù)調(diào)查法從甄別、獲取、采集、提取、清理、分析、挖掘,直至得出調(diào)查結(jié)論,都高度依賴于軟件和計(jì)算機(jī)技術(shù)。采集、處理的數(shù)據(jù)盡管是具有很大客觀性、真實(shí)性、可靠性的自在數(shù)據(jù),但卻是非實(shí)體性的存在。研究者依賴的是計(jì)算機(jī)和軟件,缺乏實(shí)際的調(diào)查體驗(yàn),如同文獻(xiàn)調(diào)查、遺存調(diào)查、網(wǎng)絡(luò)調(diào)查等間接調(diào)查方法一樣。這一特征雖然可以有效避免“價(jià)值有涉”的問題,但也會(huì)降低調(diào)查者對(duì)社會(huì)現(xiàn)象和社會(huì)問題的認(rèn)知程度。自然語言的細(xì)微和豐富可以提供有價(jià)值的深度。然而,機(jī)器分析算法期望同構(gòu)數(shù)據(jù),并且不能理解細(xì)微差別。因此,數(shù)據(jù)分析時(shí)必須在數(shù)據(jù)分析之前(或在分析的第一步)仔細(xì)地將數(shù)據(jù)結(jié)構(gòu)化。即使在數(shù)據(jù)清理和糾錯(cuò)之后,數(shù)據(jù)中的一些不完整性和一些錯(cuò)誤也可能保留下來。數(shù)據(jù)分析期間必須管理這些不完整性和這些錯(cuò)誤。同時(shí),依賴技術(shù)獲取的大數(shù)據(jù),往往難以分清與目標(biāo)總體間的差異。從理論上看,作為“全體數(shù)據(jù)”的大數(shù)據(jù)可以徹底消除隨機(jī)性抽樣誤差,如果綜合考慮系統(tǒng)性抽樣偏差,特別是覆蓋偏差,那么大數(shù)據(jù)在代表性上可能存疑,誤差問題比傳統(tǒng)抽樣調(diào)查更復(fù)雜,也更隱蔽。大數(shù)據(jù)的數(shù)據(jù)量極大,這使得研究者可以使用大數(shù)據(jù)進(jìn)行非常精細(xì)的事后分層并基于事后分層對(duì)原始計(jì)算結(jié)果進(jìn)行統(tǒng)計(jì)調(diào)整。二、大數(shù)據(jù)調(diào)查的多學(xué)科配合問題大數(shù)據(jù)調(diào)查一般都要涉及到廣闊的調(diào)查空間,眾多的調(diào)查對(duì)象,海量的調(diào)查數(shù)據(jù),多方面的調(diào)研資料,要使用多學(xué)科的調(diào)研方法和技術(shù),其工作量往往十分巨大,并有一定的時(shí)間要求,單靠個(gè)別調(diào)研人員是很難完成的。一般地說,大數(shù)據(jù)調(diào)查課題,都應(yīng)該組建一個(gè)多學(xué)科合作的、有一定規(guī)模的團(tuán)隊(duì)來承擔(dān)。一個(gè)理想的大數(shù)據(jù)調(diào)查團(tuán)隊(duì),至少應(yīng)該由四類學(xué)科的學(xué)者和一個(gè)核心組成。四類學(xué)科的學(xué)者是,社會(huì)學(xué)學(xué)者、計(jì)算機(jī)學(xué)學(xué)者、統(tǒng)計(jì)學(xué)學(xué)者和社會(huì)調(diào)查學(xué)學(xué)者;團(tuán)隊(duì)的核心應(yīng)該是一個(gè)具有跨學(xué)科知識(shí)背景的人才,不僅需要熟悉馬克思主義哲學(xué)和社會(huì)學(xué)理論,還應(yīng)當(dāng)了解計(jì)算機(jī)軟件工程和統(tǒng)計(jì)學(xué)知識(shí),且具有豐富社會(huì)調(diào)查學(xué)知識(shí)和實(shí)踐經(jīng)驗(yàn),并善于組織協(xié)調(diào)的具有綜合素質(zhì)的研究者。此外,若希望能夠更好的完成大數(shù)據(jù)調(diào)查,團(tuán)隊(duì)最好與具有物理學(xué)、電子信息專業(yè)背景的電子數(shù)據(jù)取證分析師進(jìn)行合作,即從事電子數(shù)據(jù)的收集提取、數(shù)據(jù)恢復(fù)及取證分析的人員,其任務(wù)是:(1)針對(duì)各類電子數(shù)據(jù)的現(xiàn)場及在線提取固定;(2)分析基于物理修復(fù)或數(shù)據(jù)特征等的電子數(shù)據(jù)恢復(fù)技術(shù);(3)提取分析不同介質(zhì)和智能終端電子數(shù)據(jù);(4)提取分析服務(wù)器、數(shù)據(jù)庫及公有云電子數(shù)據(jù);(5)提取分析物聯(lián)網(wǎng)、工程控制系統(tǒng)電子數(shù)據(jù);(6)設(shè)計(jì)建立電子數(shù)據(jù)取證可視化分析模型;(7)分析計(jì)算機(jī)及其他智能終端應(yīng)用程序功能。三、隱私與信息安全問題互聯(lián)網(wǎng)的發(fā)展使數(shù)據(jù)更加容易產(chǎn)生和傳播,數(shù)據(jù)隱私問題越來越嚴(yán)重。一是隱性的數(shù)據(jù)暴露。互聯(lián)網(wǎng),尤其是社交網(wǎng)絡(luò)的出現(xiàn),使得人們?cè)诓煌牡攸c(diǎn)產(chǎn)生越來越多的數(shù)據(jù)足跡。如果有辦法將某個(gè)人的很多行為從不同的獨(dú)立地點(diǎn)聚集在一起,他的隱私就很可能會(huì)暴露。二是數(shù)據(jù)公開與隱私保護(hù)的矛盾。如果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論