




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1大數據與統(tǒng)計學大數據與統(tǒng)計學浙江工商大學浙江工商大學李金昌李金昌2v引言v 作為歸納分析的科學,統(tǒng)計學可以從亞里士多德的作為歸納分析的科學,統(tǒng)計學可以從亞里士多德的“城邦城邦政情政情”算起,但作為一門數據分析的科學則應從配第的算起,但作為一門數據分析的科學則應從配第的政治政治算術算術算起。算起。 300300多年來,統(tǒng)計學圍繞如何收集、整理和分析數據這一主多年來,統(tǒng)計學圍繞如何收集、整理和分析數據這一主線而發(fā)展,構建起了龐大、多元、融合的應用方法體系,幫助線而發(fā)展,構建起了龐大、多元、融合的應用方法體系,幫助解決了各個領域大量復雜的現實問題。解決了各個領域大量復雜的現實問題。 統(tǒng)計學的發(fā)展,
2、是根據數據的型態(tài)和問題的本質來改變的,統(tǒng)計學的發(fā)展,是根據數據的型態(tài)和問題的本質來改變的,不是因為我們會做他背后的數學而發(fā)展的。不是因為我們會做他背后的數學而發(fā)展的。不要因為不要因為( (統(tǒng)計的統(tǒng)計的) )問題困難而去做它;也不要因為它難而不做。問題困難而去做它;也不要因為它難而不做。( (賀吉士賀吉士J.L.Hodges, 1922-2000)J.L.Hodges, 1922-2000) R.C. RaoR.C. Rao:統(tǒng)計的分析形式隨時代的推移而變化著,但是統(tǒng)計的分析形式隨時代的推移而變化著,但是“從數據中提取一切信息從數據中提取一切信息”或者或者 “歸納和揭示歸納和揭示”作為統(tǒng)計分析作
3、為統(tǒng)計分析的目的卻一直沒有改變。的目的卻一直沒有改變。 大數據時代的來臨,迫使統(tǒng)計學站在一個新的起點上。大數據時代的來臨,迫使統(tǒng)計學站在一個新的起點上。3v 1998年,科學雜志刊登的一篇介紹計算機軟件HiQ的文章大數據的處理程序中第一次正式使用了大數據(big data)一詞。2008年9月自然雜志出版“big data”???。v 最近幾年,關于大數據的文獻迅速增加,但絕大多數出于計算機領域的學者之手,較少有基于統(tǒng)計學視角的深度學術討論。4一、對大數據的認識v 最早與大數據概念有關的學科:天文學、氣象學和基因學,一開始就依賴于海量數據分析方法。v 但從現代意義上看,大數據可以說是計算機與互聯(lián)
4、網相結合的產物,前者實現了數據的數字化,后者實現了數據的網絡化。v 大數據的本意是,所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊。 v 4V特點:Volume、Velocity、Variety、Value。5v大數據自古有之?大數據自古有之?v人類曾經開展過的人口普查、產業(yè)普查等數據,是否人類曾經開展過的人口普查、產業(yè)普查等數據,是否屬于大數據?屬于大數據?v在計算機技術與網絡化未得到充分發(fā)展以前,人們自在計算機技術與網絡化未得到充分發(fā)展以前,人們自然難以聯(lián)想出大數據這個概念。然難以聯(lián)想出大數據這個概念。v從統(tǒng)計
5、學的角度看,大數據不是主要基于人工設計而從統(tǒng)計學的角度看,大數據不是主要基于人工設計而獲得有限、固定、不連續(xù)、不可擴充的結構型數據,獲得有限、固定、不連續(xù)、不可擴充的結構型數據,而是主要基于現代信息技術與工具自動記錄、儲存、而是主要基于現代信息技術與工具自動記錄、儲存、能連續(xù)擴充、大大超出傳統(tǒng)統(tǒng)計記錄與儲存能力的一能連續(xù)擴充、大大超出傳統(tǒng)統(tǒng)計記錄與儲存能力的一切類型的數據,最大特征是數字化基礎上的數據化。切類型的數據,最大特征是數字化基礎上的數據化。v一定程度上看,大數據并不是一個嚴格的概念,而是一定程度上看,大數據并不是一個嚴格的概念,而是一個比喻式的稱呼。一個比喻式的稱呼。6(一)如何理解
6、大數據的“大”v一是“全體”的意思,即大數據就是全體數據,并且數據量必須達到一定的規(guī)模。v二是“可擴充”的意思,即大數據就是可以不斷擴充容量的數據,任何數據一旦發(fā)生就可以被記錄、被吸收。v三是“有待挖掘”的意思,即大數據就是有待挖掘的數據。大數據可能包含著豐富的、具有大價值的信息,但被超大量的數據所掩蓋、所分散而導致價值密度低,只有挖掘才能發(fā)現。7(二)如何理解大數據的“數據”v歷史告訴我們,數據的含義是隨著人類認識社會與自然現象的視野的變化、以及認識能力與技術水平的提升而改變的,經歷了從傳統(tǒng)運算型數據到現代數字化數據的變化過程。v把一切信息都看成數據是當今社會的一個特征,是一個自然進化的結果
7、。大數據中的數據其實就是一切可以通過數字化手段記錄的信息。v大數據除了結構型數據與非結構型數據的分類外,還可作以下分類:8v如果從大數據產生的途徑或渠道來看,大數據可以分為社交網絡數據、人機交換數據和感應數據(機器數據)。v如果從功能上看,大數據可以分為交易型數據、流程型數據和交互型數據。v需要特別指出的是,網絡數據在大數據中占有特殊的份量,又可分為自媒體數據、日志數據和富媒體數據三類。從時間維度上,還可以把網絡大數據分為以用戶數據、日志數據為代表的歷史數據,以及以視頻監(jiān)控數據和流媒體數據等為代表的流式數據,其中歷史數據蘊含著大量有價值的信息。v基于數據的分類,儲存數據與管理的方式數據庫也有兩
8、種類型:關系型數據庫(SQL接口)和非關系型數據庫(NOSQL接口)。9(三)大數據是不是好數據?v首先,大數據不會自動產生好的分析結果,不會自動把隱藏其中的秘密呈現出來,如果數據不完整、取舍不當或遭受破壞,那么就會產生錯誤的結論。v其次,大數據是動態(tài)的,具有階段性特征,同樣的關聯(lián)詞在不同時段可能具有不同的含義,圍繞關聯(lián)詞的話題會隨著時間的推移而會發(fā)生某些偏離,從而導致有偏的結論。v第三,對于我們所關心的研究主題,可能會受到大量沒有實際意義、實際內容甚至虛假信息的干擾,讓我們面對一堆數據無從下手,大數據變成了大迷惑,甚至變成了大錯誤。v第四,大數據中有很多小數據問題,這些問題并不會隨著數據的增
9、加而消失,反而可能更嚴重。10二、數據的變化與統(tǒng)計分析方法的發(fā)展(一)數據的變化v回顧歷史可以發(fā)現,數據的變化與統(tǒng)計分析方法的發(fā)展呈現高度吻合的關系。有一種觀點認為,數據的變化過程可以分為三大階段:數據的產生、科學數據的形成和大數據的誕生。11v數據的產生:數據的產生: 數的產生基于以下三個要素,一是數,二是量,三是計量單位。 數起源于人類祖先對“多”或“少”的認識,阿拉伯數字的產生實現了數的抽象性和可計算性。 數的概念及數的基本邏輯關系形成以后,人們將數的神秘性作為探尋與研究的目標之一,不斷建立起更加完備的、抽象的數的體系。 以數為基礎,測量、計量和比較事物就有了精確表達的語言,這在實踐中就
10、表現為量,它是客觀事物所具有的能體現差異程度的一種屬性,是事物可以用數來表現的規(guī)定性,包括量的規(guī)模、量的關系、量的變化、量的界限與量的規(guī)律。 在以數來表示事物的特征并采用了科學的計量單位后,就產生了真正意義上的數據有根據的數。12v科學數據的形成:科學數據的形成: 科學數據的形成得益于對數據的科學研究,是在科學研究過程中基于科學設計、通過有針對的觀察和測量獲得的、用以認知自然現象和社會現象的變化規(guī)律或用以驗證已有理論假設的數據。 哲學家培根所倡導的“實驗觀察-歸納分析”的方法思想和笛卡爾所倡導的數理演繹方法,將數據的使用提高到了科學方法論的地位,使數據成為了科學研究的基本要素,并使如何科學收集
11、數據成為了研究課題。 近代科學將數據融于自然科學研究范式的實踐,不僅提高了人類認識事物的精確性,更為重要的是其逐步形成的數學化思維與方程表達式解決了不同物理量之間的數值關系表達問題,從而為開展相關事物之間的定量研究提供了途徑。13 17世紀的自然哲學家開普勒對第谷大量的天文觀察數據的使用,推導出了行星運動三大定律;伽利略對地球表面物體運動的數據測量建立了自由落體運動規(guī)律;牛頓利用大量的天文觀察數據和實驗測量數據,創(chuàng)立了牛頓力學體系。 科學數據因其所具有的共享性與精確性等特點而成為了科學研究的普適語言。 在自然科學對數據進行科學研究的同時,社會科學領域也對數據進行了科學范式的研究,并發(fā)現了例如平
12、均人、恩格爾系數、基尼系數等定律。 就統(tǒng)計學而言,它的產生與發(fā)展過程就是對科學數據進行研究的過程,每一種統(tǒng)計分析方法都是在對科學數據進行科學研究的基礎上形成的。14v大數據的誕生: 20世紀中期開始的生物基因測序研究所積累的大量數據,面臨著如何理解和處理的新挑戰(zhàn)。同樣的問題逐漸蔓延到各個學科領域,包括天文學研究,基本粒子研究,氣象學研究和社會學研究等。 1966年,國際科技數據委員會(CODATA)成立,旨在促進全球科技數據的共享。面對海量數據、快速增加的數據,人們開始重新審視和定義數據。如果說計算機技術等的快速發(fā)展,是大數據產生的基礎因素,那么人類對數據理念的深化、對數據多樣性的追求、對信息
13、的永不滿足,是大數據產生的內在因素。 以非結構化數據為主體的大數據,正在改變著一切,而以大數據為研究對象,通過挖掘、提取等手段探尋現象內在規(guī)律的學科數據科學也應運而生。15 總結:數據產生之初,其根本的功能就是體現事物或現象的量的大小或多少,便于計數與比較,數據大多自然獲得、被動利用;科學數據以研究與管理為目的,一般是主動獲得、主動利用;而大數據的特征則是豐富的數據資源與主動獲得數據相結合,數據類型多樣化。當然,數據的演變是一個漸進的過程,它不是簡單的一種形式代替另一種形式,而是一個由簡單到復雜的各種形式相互包容、不斷豐富的過程。16(二)統(tǒng)計分析方法的發(fā)展v如果說數據是表現事物特征的精確語言
14、、認知世界的重要工具、治理國家的必備依據和科學研究的必備條件,那么數據分析則是讓數據充分說話、最大限度發(fā)揮功能、有效滿足不同需要的根本要求。在科學數據研究基礎上形成的具有通用性質的方法就是統(tǒng)計方法。v縱觀統(tǒng)計學發(fā)展史,統(tǒng)計數據大體上經歷了這樣一個過程:只能收集到少量的數據盡量多地收集數據科學利用樣本數據綜合利用各類數據選擇使用大數據,而統(tǒng)計分析經歷了不同階段,相應地產生了大量觀察法、統(tǒng)計分組法、綜合指標法、歸納推斷法、模型方程法和數據挖掘法等分析方法,并且借助計算機及其軟件的程度也越來越深。17v配第的政治算術和格朗特的關于死亡表的自然觀察和政治觀察,開啟了社會經濟現象數據分析的先河。但他們所
15、能運用的數據資源非常有限,只能算是最初級形態(tài)的數據而非真正意義上的科學數據。 他們的分析方法現在看來十分簡單,但在當時非常了不起,其數據加方法的思想影響至今,特別是他們所倡導的大量觀察法、統(tǒng)計分組法成為了統(tǒng)計學最基本的研究方法。 特別是,格朗特通過不完整但足夠量的登記數據初步發(fā)現了大數法則,提出了數據簡約的概念,通過推算方法初創(chuàng)了生命表,探討了數據的可信性問題,并提出了人口數的推算公式。 沒有他們這種將數據與方法相結合的“形”,就不可能產生統(tǒng)計的“學”。18v隨著數據分析意義的顯現,以及受到大量觀察法的影響,人們開始盡可能多地收集數據,包括登記數據、普查數據、測量數據、實驗數據和觀察數據。統(tǒng)計
16、學也進入到了科學數據研究階段。 社會經濟領域的數據一般都是登記數據與調查數據,為了科學表明數據的意義,實現數據表現與現象內涵的統(tǒng)一,就產生了用統(tǒng)計指標來表現數據特征的方法,即統(tǒng)計指標法。 隨著分工細化、記錄數據增加,在社會經濟領域出現了成組、成群相關的數據,以及專門調查獲得的數據(例如人口調查、產業(yè)調查等),逐漸產生了各種運用統(tǒng)計指標體系進行綜合分析的方法,例如綜合評價法、主成分分析法、聚類評判法等。19 為了從數量上弄清楚經濟運行過程中各部門、各環(huán)節(jié)之間的關系,人們研究發(fā)明了投入產出分析法。 為了科學核算經濟活動成果,掌握經濟總產出的構成與去向,在經濟學原理和科學指標內涵的基礎上,產生和發(fā)展
17、了國民經濟核算法。 為了掌握物價的綜合變動,反映復雜現象的發(fā)展方向,產生了綜合指數分析法。 為了掌握社會經濟現象變動規(guī)律、預測未來發(fā)展趨勢,產生了時間序列分析法。20v基于實驗數據,統(tǒng)計學產生了概率論、分布理論、回歸分析方法、小樣本分布理論和假設檢驗方法。 眾所周知,14世紀歐洲以骰子為工具的賭博非常盛行,圍繞骰子可能出現的情況和賭本分配問題,再加上取球、拋擲硬幣等實驗,帕斯卡、費馬、惠更斯、伯努利、狄莫弗等人共同研究建立了概率論,發(fā)明了大數定律,發(fā)現了二項分布與超幾何分布,并為正態(tài)分布理論的建立奠定了基礎。 隨著概率論被引入到統(tǒng)計學中,幫助解決了人口推算、壽命保險、生命表編制、產品質量控制等
18、諸多比賭博更為復雜的現實問題。21 同樣,高爾頓通過對遺傳學實驗數據(甜豌豆種植的實驗數據)以及抽樣觀察數據(親子身高的觀察數據),發(fā)現了回歸現象,發(fā)明了在各個領域得到廣泛應用的回歸分析法并提出了相關系數的初步概念(相關指數),奠定了模型方程法的基礎,極大地提高了人們開展統(tǒng)計分析的能力。 戈賽特則利用釀酒公司僅有的小樣本實驗數據,發(fā)明了著名的小樣本“t”分布理論,推進了推斷統(tǒng)計方法的發(fā)展。 費歇爾基于人為的女士品茶的實驗數據和達爾文關于施肥方法影響作物高度的實驗數據的研究,構建了假設檢驗的基本方法并得到了廣泛的應用。22v基于觀察數據,統(tǒng)計學產生了誤差正態(tài)分布和最小平方法。 對天文觀察數據研究
19、而形成的誤差正態(tài)分布和最小平方法在統(tǒng)計學中具有極重要的地位。開普勒的觀察數據,經過伽利略、辛普森、拉普拉斯等人的探求,最終由高斯導出了著名的誤差正態(tài)分布。 凱特勒等統(tǒng)計學家及時地將拉普拉斯的中心極限定理與高斯的誤差正態(tài)理論運用于社會數據的研究,使正態(tài)分布的應用盛行一時。 在誤差理論基礎上,高斯、勒讓德等人發(fā)現了最小平方法,并迅速從天文學和測地學的數據研究應用擴展到其他領域,尤其是與回歸分析相結合后成為了統(tǒng)計分析最常用的方法,至今仍為主流。 皮爾遜對生物觀察數據的研究,形成了皮爾遜分布族,提出了參數估計矩法,發(fā)展了相關分析法。23v數據的獲得需要投入,并且有些數據難以得到全體數據。人們自然想到:
20、能否通過總體中部分個體的數據來達到認識總體特征、繼而進行統(tǒng)計分析的目的?隨著概率論、中心極限定理與正態(tài)分布理論的產生與發(fā)展,這種愿望成為了可能。 經過拉普拉斯、凱爾、馬哈拉諾比斯、鮑萊、費歇爾、尼曼等人的抽樣實踐與理論探求,隨機抽樣理論在20世紀得到了迅速發(fā)展,并產生了多種具體的抽樣方式。 基于樣本數據的歸納推斷方法包括參數估計與假設檢驗在實踐中得到了廣泛的應用,抽樣調查數據一度成為了統(tǒng)計分析的主要數據來源,如何用盡量小的樣本得到盡量精確的推斷成為了抽樣研究的核心問題。 用抽樣法獲取數據已得到了100年的充分肯定。24v如今,人類邁入了智能化的時代,數據的產生有了新的方式電子化、數字化、多樣化
21、、可保存、可擴充、可兼容的大數據。這是一種基于科學技術而產生的、既具有科學數據的特征又超越于科學數據的、完全不一樣的數據。 2007 年,已故圖靈獎獲得者吉姆 格雷(Jim Gray)在題為第四科學研究范式:密集型數據挖掘的演講中提到,科學經歷幾千年的歷史演變形成了四個關鍵性的科學范式,第四個就是近幾年出現的數據挖掘或eScience范式。 顯然,從第二個研究范式開始都依賴于數據的研究。新的研究范式需要新的數據研究方法,這對統(tǒng)計學來說既是機遇又是挑戰(zhàn)。25 總結:之前,我們手中的數據量相對不足,對數據的研究是“由薄變厚”,把“小”數據變“大”,而在“數據大爆炸”時代,我們要做的是把數據“由厚變
22、薄”,去冗分類、去粗存精。大數據時代,將呈現出“一方面數據很豐富、但另一方面信息又很匱乏”的現象,迫使人們對數據分析產生強烈的需求。 所以,大數據分析實際上可以理解為兩個過程,一是把數據由大變小的過程,比喻為物理過程;二是從處理過的數據中提取價值的過程,比喻為化學過程。26三、統(tǒng)計學的新發(fā)展大數據分析(一)大數據分析是數據科學賦予統(tǒng)計學的新任務v目前,人們對大數據的研究主要是將其作為一種研究方法或一種新的知識發(fā)現工具,還沒有把數據本身作為主要的研究目標。v大數據分析的目的就是要通過對歷史數據的分析和挖掘,科學總結與發(fā)現其中蘊藏的規(guī)律和模式,并結合源源不斷的動態(tài)數據去預測事物未來的發(fā)展趨勢。如果
23、說從商業(yè)的角度看,大數據要求我們改變數據思維、重視數據資產、實現數據價值(數據變現),那么統(tǒng)計學的任務就是通過大數據分析去幫助實現這個目的。27v對于統(tǒng)計學來說,開展大數據分析就是積極投身于數據科學研究之中。 數據科學(data science 或dataology)一詞早在1960年就由彼得諾爾提出。1996年,在日本東京召開的題為“數據科學,分類和相關方法”的分類國際聯(lián)合會上,第一次將數據科學作為會議的主題詞。 2001年,美國統(tǒng)計學教授威廉.S.克利夫蘭首次將數據科學作為一門獨立的學科,認為數據科學是統(tǒng)計學領域擴展到與以數據作為先進計算對象相結合的部分,并建立了數據科學的6個技術領域。
24、2001年以后,國際科技數據委員會,以及有關學者創(chuàng)辦的了關于數據科學的刊物,發(fā)表以統(tǒng)計應用方法研究所有與數據有關的成果。2012年由springer出版集團創(chuàng)辦了“EPJ Data Science”。28 可以預見,數據科學的產生將催生一批新的研究方向,如地理信息科學、生物信息科學、生命組學等。 數據科學的重點是數據處理技術問題還是數據分析問題?v開展大數據分析、發(fā)展數據科學并不是要否定原來的統(tǒng)計分析方法,而是要補充、完善和創(chuàng)新統(tǒng)計分析方法。事實上,統(tǒng)計學業(yè)已形成的一些思想與方法在大數據分析中仍有用武之地,只是要求統(tǒng)計學者具有更加廣闊的視野,更加重視統(tǒng)計分布背后的知識和規(guī)律。29(二)大數據分
25、析面臨的挑戰(zhàn)v對于習慣于結構化數據研究的統(tǒng)計學來說,大數據分析顯然是一種嶄新的挑戰(zhàn)。挑戰(zhàn)來自于大數據的復雜性、不確定性和涌現性,其中復雜性最為根本。v復雜性是大數據區(qū)別于傳統(tǒng)數據的根本所在,它主要表現為類型復雜性、結構復雜性和內在模式復雜性三個方面,從而使得大數據的存儲與分析產生多方面的困難。另外,網絡大數據通常是高維的。30v復雜性必然帶來不確定性。大數據的不確定性表現為數據本身的不確定性、模型的不確定性和學習的不確定性,從而給大數據建模和學習造成困難。 大數據的不確定性與傳統(tǒng)數據的不確定性有何不同? 是否存在“可能世界模型”?在一定的結構規(guī)范下將數據的每一種狀態(tài)都加以刻畫? 針對學習的不確
26、定性,非參模型方法的提出為自動學習提供了一種思路,但如何分布式、并行地應用到網絡大數據的處理上?31v涌現性是網絡大數據有別于其它數據的關鍵特性,是大數據動態(tài)變化、擴展、演化的結果,表現為模式的涌現性、行為的涌現性和智慧的涌現性,其在度量、研判與預測上的困難使得網絡數據難以被駕馭。v 模式的涌現性社會網絡模型的變化v 行為的涌現性有較大相似性的個體之間容易建立社會關系,使得網絡在演化過程中自發(fā)地形成相互分離的連通塊。v 智慧的涌現性對來自大量自發(fā)個體的語義進行互相融合和連接而形成通用語義,整個過程隨著數據的變化而持續(xù)演進。32 總結:在大數據環(huán)境下,傳統(tǒng)的高維表達、結構描述和群體行為分析方法不
27、能準確表示網絡大數據在異構性、交互性、時效性、突發(fā)性等方面的特點,傳統(tǒng)的“假設-模型-檢驗”的統(tǒng)計方法受到了質疑,而從“數據”到“數據”的第四范式還沒有真正建立,急需一個新的理論體系來指導,建立新的分析模型。33(三)大數據分析的突破口v大數據分析涉及三個維度時間、空間和數據本身,其中時間維度又包含生命周期、數據的時間態(tài)、流化與增量、時效等元素,空間維度又包含三元空間、粒度、數據傳輸與遷移、數據空間等元素,數據維度則體現為多源、異質、異構。v如何從三個維度的整體上對大數據的特性與復雜性進行深入的解析,系統(tǒng)掌握大數據的不確定性特征,繼而構建高效的大數據計算模型,成為了大數據分析的突破口,具體表現
28、為以下幾個方面:34v首先,要系統(tǒng)了解大數據的基礎性問題。大數據的基礎性問題包括:大數據的內在機理大數據的演化與傳播規(guī)律、生命周期,數據科學與社會學、經濟學等之間的互動機制,以及大數據的結構與效能的規(guī)律性等等。將與計算機科學、統(tǒng)計學、人工智能、數學、社會科學等有關,離不開對相關學科領域知識與研究方法的借鑒。v 同時,由于大數據往往以獨特的、復雜關聯(lián)的網絡形式出現,因此還必須對大數據背后的網絡進行深入的分析,例如能刻畫出大數據背后網絡共性的網絡平均路徑長度、度分布、聚集系數、核數、介數等性質和參數,這是開展復雜網絡數據分析的基礎。35v其次,要深入研究大數據的復雜性規(guī)律。包括數據的時間規(guī)律、空間
29、規(guī)律和數據本身規(guī)律。再復雜的數據也有規(guī)律可循。只有掌握數據的復雜性規(guī)律,才能找到大數據分析的切入口,才能理解大數據復雜模式的本質特征和生成機理,進而簡化大數據的表征,指導大數據計算模型和算法的設計。v 就統(tǒng)計學而言,就是要研究大數據在時空維度上的數據分布、內在結構、動態(tài)變化和相關相聯(lián)的復雜性規(guī)律,對表現多元變量分布規(guī)律的方法加以改進,關注大數據處理的可擴展性,探索多型態(tài)關聯(lián)數據之間的多維、異構、隱性的關聯(lián)特征,并基于統(tǒng)計設想和大數據驅動相結合的方式去探索大數據復雜模式的生成機理及其背后的物理意義,最終形成大數據計算與分析的方法論。36v再次,要科學度量大數據的復雜性特征。數據分析的前提是研究對
30、象特征的度量與計算,但大數據的復雜性導致了大數據分析計算的復雜程度猛烈激增,單靠傳統(tǒng)的數據計算模式基本不行,亟需建立面向大數據計算分析的復雜性度量理論,探索大數據高效計算模型和方法。因此,我們要尋找科學度量復雜性特征的方法。v 就統(tǒng)計學而言,需要運用各種統(tǒng)計方法剖析異構關聯(lián)大數據的復雜性特征的基本因素,以及這些因素之間的內在聯(lián)系、外在指標和度量方法,進而研究基于先進計算技術的數據復雜性度量模型,尋求近似計算理論和優(yōu)化算法框架,構建尋找面向計算的數據內核或者數據邊界的基本方法??傊芯坑行б仔械臄祿硎痉椒ㄊ情_展大數據分析必須解決的技術難題之一。37v第四,大膽創(chuàng)新大數據的計算模式。大數據計算
31、模式即數據密集型計算模式。面對大數據,傳統(tǒng)的“假設采樣驗證”的模式已經難以有效分析大數據的內在規(guī)律、提取其蘊含的真實價值,因為數據的可計算性與可度量性基礎已經發(fā)生了很大的變化,需要重新定義和構建。為此,需要突破傳統(tǒng)的“數據圍繞機器轉”的計算模式,發(fā)展以數據為中心的、推送式的大數據計算理論與模式,設計可行的、有利于深度分析的計算算法。v 就統(tǒng)計學而言,需要研究針對大數據的非確定性理論,突破傳統(tǒng)的“獨立同分布”假設,在探討分布式、流式算法的基礎上,構建大數據分析的計算框架??傊?,要基于數據的智能方法,著力研究解決復雜問題的“海量數據+簡單邏輯”的方法。38(四)需要達成的幾點共識v要把數據處理技術
32、的突破與統(tǒng)計分析方法的創(chuàng)新相結合。v要把碎片化數據處理與整體統(tǒng)計分析相結合。v要把大數據分析與小數據研究相結合。v要把時空維度和數據維度相結合。v要把相關關系的發(fā)現與因果規(guī)律的研究相結合。v要把探索性分析與驗證性分析、抽樣分析與全數據分析相結合。39四、改變統(tǒng)計思維四、改變統(tǒng)計思維v統(tǒng)計思維的變化應該統(tǒng)計思維的變化應該以一個永恒不變的主題以一個永恒不變的主題為前提,那就是通過數據分析揭示事物的真為前提,那就是通過數據分析揭示事物的真相相,這個真相就是事物的生存規(guī)律、聯(lián)系規(guī),這個真相就是事物的生存規(guī)律、聯(lián)系規(guī)律和發(fā)展規(guī)律。也就是說要以數據背后的數律和發(fā)展規(guī)律。也就是說要以數據背后的數據去還原事物
33、的本來面目,達到求真的目的據去還原事物的本來面目,達到求真的目的。40首先,認識數據的思維要變化首先,認識數據的思維要變化 從來源上看從來源上看,傳統(tǒng)的數據收集具有很強的針對,傳統(tǒng)的數據收集具有很強的針對性,數據的提供者大多確定,身份特征可識別,有性,數據的提供者大多確定,身份特征可識別,有的還可以進行事后核對;的還可以進行事后核對; 但大數據通常來源于物聯(lián)網,不是為了特定的但大數據通常來源于物聯(lián)網,不是為了特定的數據收集目的而產生,而是人們一切可記錄的信號,數據收集目的而產生,而是人們一切可記錄的信號,并且身份識別十分困難。從某種意義上講,大數據并且身份識別十分困難。從某種意義上講,大數據來
34、源的微觀基礎是很難追溯的。來源的微觀基礎是很難追溯的。 41v 從類型上看從類型上看,傳統(tǒng)數據基本上是結構型數,傳統(tǒng)數據基本上是結構型數據,格式化、有標準;據,格式化、有標準;v 但大數據更多的是非結構型數據或異構數但大數據更多的是非結構型數據或異構數據,包括了一切可記錄、可存儲的標識,多樣據,包括了一切可記錄、可存儲的標識,多樣化、無標準,并且不同的網絡信息系統(tǒng)有不同化、無標準,并且不同的網絡信息系統(tǒng)有不同的數據識別方式,相互之間也沒用統(tǒng)一的數據的數據識別方式,相互之間也沒用統(tǒng)一的數據分類標準。而且,現在有的數據庫是非關系型分類標準。而且,現在有的數據庫是非關系型的數據庫,不需要預先設定記錄
35、結構。的數據庫,不需要預先設定記錄結構。 42v結構化數據結構化數據,可用二維表結構來邏輯表達實現的,可用二維表結構來邏輯表達實現的數據,如數字、符號。可直接計數、計量、計算數據,如數字、符號??芍苯佑嫈?、計量、計算的數據。特點:先有結構、再有數據;的數據。特點:先有結構、再有數據; v非結構化數據非結構化數據,不方便用數據庫二維邏輯表來表,不方便用數據庫二維邏輯表來表現的數據,包括所有格式的辦公文檔、文本、圖現的數據,包括所有格式的辦公文檔、文本、圖片、片、XMLXML、HTMLHTML、各類報表、圖像和音頻、各類報表、圖像和音頻/ /視頻信視頻信息等等,特點:先有數據、再有結構;息等等,特
36、點:先有數據、再有結構;v半結構化數據半結構化數據,介于完全結構化數據和完全無結,介于完全結構化數據和完全無結構的數據(如聲音、圖像文件等)之間的數據,構的數據(如聲音、圖像文件等)之間的數據,例如例如HTMLHTML文檔。它一般是自描述的,數據的結構文檔。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區(qū)分。和內容混在一起,沒有明顯的區(qū)分。43v 從量化方式上看從量化方式上看,傳統(tǒng)數據的量化處理方式已,傳統(tǒng)數據的量化處理方式已經較為完善,但大數據中大量的非結構化數據如何經較為完善,但大數據中大量的非結構化數據如何量化、如何從中提取信息、如何與結構化數據對接量化、如何從中提取信息、如何與
37、結構化數據對接是一個嶄新的問題。是一個嶄新的問題。v 可以說,大數據是雜亂的、不規(guī)整、良莠不齊可以說,大數據是雜亂的、不規(guī)整、良莠不齊的,但我們不能因此而回避它、拒絕它,只能接納的,但我們不能因此而回避它、拒絕它,只能接納它,要將統(tǒng)計研究的對象范圍從結構型數據擴展到它,要將統(tǒng)計研究的對象范圍從結構型數據擴展到一切數據,要重新思考數據的定義和分類方法,并一切數據,要重新思考數據的定義和分類方法,并以此為基礎發(fā)展和創(chuàng)新統(tǒng)計分析的方法。從某種意以此為基礎發(fā)展和創(chuàng)新統(tǒng)計分析的方法。從某種意義上講,義上講,沒有無用的數據,只有未被欣賞的數據。沒有無用的數據,只有未被欣賞的數據。 44其次,收集數據的思維
38、要變化其次,收集數據的思維要變化 v沒有黏土,如何做磚?以往,找黏土,投入大而數據量沒有黏土,如何做磚?以往,找黏土,投入大而數據量有限;現在,備選有限;現在,備選“黏土黏土”的體量與種類都極大地豐富,的體量與種類都極大地豐富,所要做的最重要工作就是比較與選擇。所要做的最重要工作就是比較與選擇。v由于數據來源與種類的多樣性,以及數據增加的快速性,由于數據來源與種類的多樣性,以及數據增加的快速性,我們在享受數據的豐富性的同時也面臨這樣的困境:電我們在享受數據的豐富性的同時也面臨這樣的困境:電子存儲能力能否跟得上數據增加的速度?子存儲能力能否跟得上數據增加的速度?如果自動更新如果自動更新數據,就有可能失去一些寶貴的數據信息,因此人們不數據,就有可能失去一些寶貴的數據信息,因此人們不得不有選擇地去刪除那些不重要的數據。得不有選擇地去刪除那些不重要的數據。45v如果說以前有針對地獲得數據叫做收集,那么今后如果說以前有針對地獲得數據叫做收集,那
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2找春天(教學設計)-2024-2025學年語文二年級下冊統(tǒng)編版
- Starter Module 4Unit 3教學設計-2023-2024學年外研版七年級英語上冊
- 8 燈光 教學設計 -2024-2025學年語文六年級上冊(統(tǒng)編版)
- 九年級體育 走 基本體操教學設計1
- 《五 變廢為寶》(教學設計)-2023-2024學年三年級上冊綜合實踐活動粵教版
- 4《試種一粒籽》第一課時 教學設計-2023-2024學年道德與法治二年級下冊統(tǒng)編版
- 2017-2018學年北師大版七年級生物下冊12.3 激素調節(jié) 教學設計
- 2023八年級物理下冊 第八章 力與運動第1節(jié) 牛頓第一定律 慣性第1課時 牛頓第一定律教學設計 (新版)教科版
- 22《讀不完的大書》第一課時 教學設計-2024-2025學年語文三年級上冊統(tǒng)編版
- 供水特許經營權協(xié)議書5篇
- 2024年中國資源循環(huán)集團有限公司招聘筆試真題
- 2025年全國國家版圖知識競賽(中小學組)題庫及答案
- 課件-DeepSeek從入門到精通
- 帝豪EV450維修手冊
- 未被列入違法失信名單承諾書
- JGT266-2011 泡沫混凝土標準規(guī)范
- 交通安全設施擺放圖
- 上海名師應彩云_大班綜合活動+百家姓
- (精選)研學旅行安全措施預案
- 外周動脈檢測分析術
- ProE5.0全套教程(完整版)
評論
0/150
提交評論