大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第11章 大數(shù)據(jù)分析平臺_第1頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第11章 大數(shù)據(jù)分析平臺_第2頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第11章 大數(shù)據(jù)分析平臺_第3頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第11章 大數(shù)據(jù)分析平臺_第4頁
大數(shù)據(jù)分析與實踐-社會研究與數(shù)字治理第11章 大數(shù)據(jù)分析平臺_第5頁
已閱讀5頁,還剩75頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第11章大數(shù)據(jù)分析平臺QQ:81505050楊武劍周蘇大數(shù)據(jù)分析與實踐——社會研究與數(shù)字治理一、政府類1.國家數(shù)據(jù)(統(tǒng)計局)/國家統(tǒng)計局提供的《進度統(tǒng)計數(shù)據(jù)》是個一應俱全的最新宏觀經(jīng)濟數(shù)據(jù),一個寶貴的來源。如果想要從數(shù)據(jù)收集之日起的完整國民經(jīng)濟核算資料,權(quán)威的來源是國家統(tǒng)計局國民經(jīng)濟核算司出版的《中國國內(nèi)生產(chǎn)總值核算歷史資料》(1952-1995)和《中國國內(nèi)生產(chǎn)總值核算歷史資料》(1996-2002)。在這兩本年鑒里,提供了核算中國GDP的詳實數(shù)據(jù)。特別是《中國國內(nèi)生產(chǎn)總值核算歷史資料》(1996-2002)提供了電子版,電子版數(shù)據(jù)不僅提供1996-2002年的詳實數(shù)據(jù),還大致回溯了1952-1995年間的數(shù)據(jù),非常好用。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源如果你想要從數(shù)據(jù)收集之日起的較為完整的宏觀經(jīng)濟數(shù)據(jù),《新中國五十年統(tǒng)計資料匯編》和《新中國55年統(tǒng)計資料匯編》是一個不錯的選擇。遺憾的是,它們都沒有提供電子版,但后者可以在中國資訊行下載。2.工業(yè)和信息化部較多數(shù)據(jù)在此發(fā)布,尤其是有關(guān)工業(yè)運行及信息化相關(guān)數(shù)據(jù)。3.中國人民銀行/中國金融市場政策及運行相關(guān)數(shù)據(jù)。4.銀監(jiān)會銀行金融相關(guān)數(shù)據(jù)。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源5.中國海關(guān)中國進出口相關(guān)數(shù)據(jù)。6.國家知識產(chǎn)權(quán)局專利相關(guān)查詢。7.中國證監(jiān)會相關(guān)政策及招股書披露平臺,以及擬上市公司排隊每周披露。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源8.上海市政府數(shù)據(jù)服務網(wǎng)/gds/home!toHome.action上海市政府數(shù)據(jù)服務網(wǎng)集中發(fā)布政府部門及第三方機構(gòu)的數(shù)據(jù)產(chǎn)品以及數(shù)據(jù)應用,數(shù)據(jù)將涉及經(jīng)濟、教育、衛(wèi)生、交通、地理、法律、規(guī)劃等。上海市政府數(shù)據(jù)服務網(wǎng)中,政府部門提供的數(shù)據(jù)產(chǎn)品目前都是免費的,保留收費的權(quán)利。所有的數(shù)據(jù)與服務都是無需注冊可以直接使用的。搜索到需要的數(shù)據(jù)標題后,點擊進入詳細頁面,可以看到下載圖標。就可以按照需求來下載。9.上海公共研發(fā)平臺/可以注冊,人工審核,內(nèi)包含較多數(shù)據(jù)庫。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源二、綜合類1.中國經(jīng)濟數(shù)據(jù)庫/zh-hans/countries/china司爾亞司數(shù)據(jù)信息有限公司(CEIC)成立于1992年,由經(jīng)濟學家和分析師組成,提供有關(guān)世界發(fā)達經(jīng)濟和發(fā)展中經(jīng)濟的最廣泛、最精確的信息。作為歐洲貨幣機構(gòu)投資公司的一個產(chǎn)物,我們已經(jīng)成為世界各地經(jīng)濟學家、分析師、投資者、企業(yè)以及院校經(jīng)濟和投資研究的首選。2.中國經(jīng)濟信息網(wǎng)有較多行業(yè)研究報告,宏觀數(shù)據(jù)較全。中國經(jīng)濟信息網(wǎng)簡稱中經(jīng)網(wǎng),是國家信息中心組建的、以提供經(jīng)濟信息為主要業(yè)務的專業(yè)性信息服務網(wǎng)絡(luò)。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源3.中國資訊行數(shù)據(jù)庫/indexShow.do?method=index收費宏觀經(jīng)濟數(shù)據(jù)。4.國研網(wǎng)/DRCNet.OLAP.BI/web/default.aspx數(shù)據(jù)較為權(quán)威,有些報告可以一看。5.中國國家圖書館/第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源三、證券交易類1.上海證券交易所/其中研究出版欄目中有些研究報告。2.深圳證券交易所/其中研究/刊物中有研究報告。3.全國中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)(新三板)/新三板掛牌公司的轉(zhuǎn)讓及信息披露。4.新加坡證券交易所/5.紐約證券交易所6.納斯達克證券交易所第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源四、金融類1.萬德數(shù)據(jù)庫/中國領(lǐng)先的金融數(shù)據(jù)、信息和軟件服務企業(yè),Wind資訊的客戶包括超過90%的中國證券公司、基金管理公司、保險公司、銀行和投資公司等金融企業(yè);在國際市場,已經(jīng)被中國證監(jiān)會批準的合格境外機構(gòu)投資者(QFII)中75%的機構(gòu)是Wind資訊的客戶。同時國內(nèi)多數(shù)知名的金融學術(shù)研究機構(gòu)和權(quán)威的監(jiān)管機構(gòu)也是我們的客戶,大量中英文媒體、研究報告、學術(shù)論文等經(jīng)常引用Wind資訊提供的數(shù)據(jù)。定位:高端機構(gòu)客戶。機構(gòu)市場占有率:80%。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源優(yōu)勢:(1)數(shù)據(jù)表結(jié)構(gòu)還是比較科學,而且還有很多不同工具,例如WACC計算小插件、貝塔計算小插件、另外還有直接在EXCEL估值的模板。(2)用戶體現(xiàn)非常好,界面體驗一流,符合中國人的使用習慣。(3)特色數(shù)據(jù)庫有中國A\B股數(shù)據(jù)、基金數(shù)據(jù)、債券數(shù)據(jù)和期貨數(shù)據(jù)都非常突出。(4)資訊內(nèi)容結(jié)構(gòu)嚴重模仿BLOOMBERG。(5)支持API插件。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源2.恒生聚緣/這個數(shù)據(jù)庫其實也是定位為機構(gòu)的,還有一套完全的信息技術(shù)系統(tǒng)解決方法。但是這個數(shù)據(jù)庫不太出名,但是這是我用過價格便宜然后質(zhì)量非常高的數(shù)據(jù)庫。優(yōu)點:(1)界面設(shè)計雖然沒有萬德那么花哨,但是非常實在,非常實用,而且很方便。數(shù)據(jù)結(jié)構(gòu)也科學,不會出現(xiàn)過多冗余的狀況。(2)價格比萬德便宜,但是性價比挺高的。(3)A\B股數(shù)據(jù)是強項。(4)研究報告更新速度比較快,比較全面、質(zhì)量比萬德好。(5)數(shù)據(jù)質(zhì)量過硬。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源3.CSMAR數(shù)據(jù)庫/定位:中國80%的學術(shù)機構(gòu)和高校都是使用CSMAR,美國大部分的大學例如沃頓等是使用CSMAR數(shù)據(jù)庫。優(yōu)點:(1)公司金融數(shù)據(jù)是強項,非常強大和齊全,我經(jīng)常使用哈哈。(2)數(shù)據(jù)庫做學術(shù)還是比較全面的。年份比較早的數(shù)據(jù)都會有收錄。(3)高頻數(shù)據(jù)是全國第二好。(4)公司治理數(shù)據(jù)比較好,詳細,包括公司控制鏈圖均有收錄。由于是學術(shù)數(shù)據(jù)庫關(guān)系,更新速度不夠快。機構(gòu)是絕對不會使用的。行業(yè)數(shù)據(jù)是更新速度是所有數(shù)據(jù)庫中最慢的,建議不要使用行業(yè)數(shù)據(jù)庫。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源4.銳思數(shù)據(jù)庫/cn/定位:學術(shù)機構(gòu)。特點:基本上是拷貝外國的數(shù)據(jù)庫結(jié)構(gòu),而且數(shù)據(jù)字段不夠豐富,建議不要使用。5.巨潮數(shù)據(jù)庫(金融)/深交所旗下的一個數(shù)據(jù)庫公司,有這個得天獨厚的。優(yōu)勢:(1)交易所的公告、董事會決議總是最快可以知道。(2)異動數(shù)據(jù)庫中的異動記錄肯定不止前十名,獲取還能看到前15名。第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源6.清科數(shù)據(jù)庫/清科研究數(shù)據(jù)庫包含風險投資、私募股權(quán)、創(chuàng)業(yè)者相關(guān)投資、并購、上市數(shù)據(jù)庫,范圍涉及投資機構(gòu)、企業(yè)、投資人物相關(guān)TMT、傳統(tǒng)行業(yè)、清潔技術(shù)、生技健康等行業(yè)市場事件用得比較少,專做Pe風險投資數(shù)據(jù)的。7.人大經(jīng)濟論壇/forum-5-1.html和/forum-55-1.html有許多數(shù)據(jù)叫賣,提供大量的可供下載的經(jīng)濟學資源,而且還有許多有用的連接。當然,這是一個免費的網(wǎng)站,但下載某些資源時,說不定要求一定的所謂積分限制。這個強力推薦~~第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源五、互聯(lián)網(wǎng)類1.淘寶指數(shù)/2.互聯(lián)網(wǎng)TMT數(shù)據(jù)/3.百度指數(shù)(綜合)/第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源六、自然衛(wèi)生類1.中國氣象局http://wwwNaN/2011qxfw/2011qsjcx/2.中國氣象科學數(shù)據(jù)共享服務網(wǎng)http://cdcNaN/home.do在http://cdcNaN注冊為用戶后(密碼會發(fā)送至你的郵箱)登錄,選擇數(shù)據(jù)種類(共14大類),在每類中選擇你所關(guān)心的數(shù)據(jù)集,這時彈出每個數(shù)據(jù)集的元數(shù)據(jù)信息頁面。頁面正中有檢索方式,選臺站或空間、時間就可得到檢索結(jié)果,點擊下載即可。CDC網(wǎng)站的數(shù)據(jù)只要是共享的數(shù)據(jù),就是免費的。3.公共衛(wèi)生科學數(shù)據(jù)中心/Share/index.jsp第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源七、房地產(chǎn)克爾瑞/Data/DataPage/DataPageIndex中國最大、最先進的房地產(chǎn)數(shù)據(jù)庫,易居中國旗下。八、其他1.數(shù)據(jù)堂/2.數(shù)據(jù)熊貓(導航)/123/第11章導讀案例大數(shù)據(jù)分析的數(shù)據(jù)源目錄分布式分析預測分析架構(gòu)云計算中的分析現(xiàn)代SQL平臺1234分布式分析PART0111.111.1分布式分析在大數(shù)據(jù)分析的任務中,分析平臺也屬于分析工具的一部分。如今有很多分析平臺可供選擇,例如傳統(tǒng)的基于服務器的軟件、數(shù)據(jù)庫分析、內(nèi)存分析、云計算分析等,那么哪些是最好的分析平臺呢?數(shù)據(jù)是分析的原材料,而分析決定了數(shù)據(jù)的價值。任何分析架構(gòu)中最重要的一個方面都是如何使計算引擎與數(shù)據(jù)結(jié)合在一起。與數(shù)據(jù)源的整合不僅會影響分析師任務范圍和他們所需要的培訓,而且會影響一個分析項目的周期。11.1分布式分析在機器學習和大數(shù)據(jù)預測分析上可以運用分布式計算嗎?這個問題之所以關(guān)鍵其原因是:(1)大數(shù)據(jù)分析所需的源數(shù)據(jù)通常存儲在分布式數(shù)據(jù)平臺中,如MPPappliances或Hadoop。(2)很多情況下,需要用作分析的數(shù)據(jù)太過龐大,以至于不能存儲在一個機器的內(nèi)存中。(3)持續(xù)增長的計算量和復雜度超出了用單線程所能達到的處理能力。11.1.3數(shù)據(jù)并行與“正交”11.1.1關(guān)于并行計算11.1.4分布式的軟件環(huán)境11.1.2并行計算的、三種形式數(shù)據(jù)是分析的原材料,而分析決定了數(shù)據(jù)的價值。任何分析架構(gòu)中最重要的一個方面都是如何使計算引擎與數(shù)據(jù)結(jié)合在一起。11.1分布式分析11.1.1

關(guān)于并行計算與傳統(tǒng)的串行處理相對應,我們用并行計算這個術(shù)語來特指將一個任務分為更小的單元,并將其同時執(zhí)行的方式。在一個程序中獨立運行的程序片段叫作“線程”。所謂多線程處理,是指從軟件或者硬件上實現(xiàn)多個線程并發(fā)執(zhí)行(當具備相關(guān)資源時)的技術(shù);分布式計算是指將進程處理分布于多個物理或虛擬機器上的能力。

圖11-1串行處理(上)和并行處理(下)示意11.1.1

關(guān)于并行計算并行計算的主要效益在于速度和可擴展性。如果一個工人要花一個小時的時間去制造100個機器部件,那么在其他條件不變的情況下,100個工人在一個小時之內(nèi)可以制造10000個機器部件。多線程處理優(yōu)于單線程處理,但是共享內(nèi)存和機器架構(gòu)會對潛在的速度提升和可擴展性造成限制。大體上,分布式計算可以沒有限制地橫向擴展,并行處理一個任務的能力在于對任務本身的定義。11.1.2

并行計算的三種形式一些任務可以簡單地進行并行處理,因為每個分析節(jié)點處理的計算指令獨立于所有其他的分析節(jié)點,并且預期結(jié)果是每個分析節(jié)點所得結(jié)果的簡單組合。我們稱這些任務為高度并行。一個SQL的選擇查詢指令是高度并行的;評分模型也是;很多文本挖掘進程中的任務,如詞語過濾和單詞衍生形態(tài)查詢,也是高度并行的任務。第二類的任務需要更多的努力來進行并行計算。對于這些任務,每個分析節(jié)點執(zhí)行的計算也是獨立于所有其他的分析節(jié)點,但是預期結(jié)果是來自于每個分析節(jié)點所得結(jié)果的線性組合。例如,通過分別計算每個分析節(jié)點的均值和行數(shù),我們能夠并行計算一個分布式數(shù)據(jù)庫的均值,然后計算總平均值,作為分析節(jié)點均值的加權(quán)平均數(shù)。我們稱這些任務為線性并行。11.1.2

并行計算的三種形式第三類任務更難進行并行計算,因為分析師必須以有意義的方式來組織數(shù)據(jù)。如果每個分析節(jié)點執(zhí)行的計算獨立于所有其他的分析節(jié)點,只要每個分析節(jié)點都有一大塊“有意義”的數(shù)據(jù),我們稱這種任務為數(shù)據(jù)并行。假設(shè)我們要為每300個零售店建立獨立的時間序列預測模型,并且我們的模型沒有店與店之間的交叉效應。如果我們能夠?qū)?shù)據(jù)進行組織,保證每個分析節(jié)點僅擁有一家店的所有數(shù)據(jù),把問題轉(zhuǎn)化為一個高度并行問題,我們就能夠?qū)⒂嬎愎ぷ鞣峙浣o300個分析節(jié)點同時進行。11.1.3

數(shù)據(jù)并行與“正交”數(shù)據(jù)并行處理已經(jīng)成為使用MPP數(shù)據(jù)庫或Hadoop的一種標準處理方式,有兩類限制需要我們?nèi)タ紤]。為使任務能夠以數(shù)據(jù)并行的方式進行處理,分析師必須按照業(yè)務邏輯將數(shù)據(jù)進行分段組織。存儲在分布式數(shù)據(jù)庫中的數(shù)據(jù)很少會符合這種要求,所以,在分析進程處理之前必須重新整理數(shù)據(jù),這個過程將增加處理的延遲。第二類限制是最佳的分析節(jié)點數(shù)量取決于問題本身。在之前引用的有關(guān)預測的問題上,最佳的分析節(jié)點數(shù)量是300個,這很少能和在分布式數(shù)據(jù)庫或Hadoop集群中的節(jié)點數(shù)相匹配。11.1.3

數(shù)據(jù)并行與“正交”為了方便,我們用“正交”這個術(shù)語來形容一個完全無法并行計算的任務?!罢弧痹臼蔷€性代數(shù)的概念,如果能夠定義向量間的夾角,則正交可以直觀地理解為垂直。在物理中,運動的獨立性也可以用正交來解釋。在分析學中,基于案例的推論是描述正交的最好例子,因為這種推論方法要求按順序檢查每一個案例。大多數(shù)機器學習和預測分析算法處于復雜并行的中間地帶;數(shù)據(jù)可以被分段,交給分布式的分析節(jié)點處理,但分析節(jié)點之間必須互相通信,并可能需要多輪往復,預期結(jié)果是每個分析節(jié)點結(jié)果的復雜組合。11.1.4

分布式的軟件環(huán)境軟件開發(fā)者必須為分布式計算專門設(shè)計并建立機器學習軟件。盡管可以將開源軟件R或Python物理上安裝在分布的環(huán)境中,這些語言的機器學習包必須在集群的每個節(jié)點上本地運行。例如,如果你將開源軟件R安裝在一個Hadoop集群中的每個節(jié)點上,并進行邏輯回歸計算,會得到在每個節(jié)點運算出來的24個邏輯回歸模型。某種程度上你或許可以使用這些運算結(jié)果,但必須自己來決定這些結(jié)果如何組合。

圖11-2分布式計算環(huán)境11.1.4

分布式的軟件環(huán)境傳統(tǒng)的高級分析商業(yè)工具提供了有限的并行和分布式計算能力。SAS在它的傳統(tǒng)軟件包中有300多個程序,這其中只有一小部分支持在單機上進行多線程(SMP)處理。表11-1展示了部分預測分析的分布式平臺。11.1.4

分布式的軟件環(huán)境表11-1分布式預測分析軟件11.1.4

分布式的軟件環(huán)境分析可見:(1)目前為止,沒有任何一款分布式預測分析軟件可以在所有的分布式平臺上運行。(2)SAS可以在一些不同的平臺上部署其私有框架,但必須和平臺搭配使用,而且不能在MPP數(shù)據(jù)庫內(nèi)部運行。盡管SAS聲稱可以在Hadoop內(nèi)部支持HPA,但是少見成功的客戶案例。(3)一些產(chǎn)品,譬如NetezzaAnalytics和OracleDataMining,完全不能移植到其他平臺上。(4)理論上來講,MADLib可以運行在所有支持表功能的SQL環(huán)境中,但是PivotalDatabase看起來被應用得更廣泛。11.1.4

分布式的軟件環(huán)境總結(jié)一下要點:(1)一項任務是否能并行計算取決于任務本身。(2)在高級分析任務中,多數(shù)“學習型”任務是不能高度并行的。(3)在分布式平臺上運行一款軟件與將一款軟件運行在分布式模式中是不一樣的,除非開發(fā)者在設(shè)計軟件時就明確支持分布式處理,否則軟件將在單機本地運行,并且用戶不得不自己去弄明白如何組合來自不同分布式節(jié)點的結(jié)果。一些軟件商聲稱他們的分布式數(shù)據(jù)平臺不需要多余的編程就能利用開源軟件R或是Python包進行高級分析,這是他們將“學習型”預測模型與一些簡單任務(如分值運算或是SQL查詢指令)的概念混為一談的結(jié)果。預測分析架構(gòu)PART0211.211.2預測分析架構(gòu)預測分析工作流程中的任務是一個復雜序列,盡管任務的真正序列取決于問題本身,而且會隨著組織的不同而變化。當考慮整合分析和數(shù)據(jù)的實操選項時,有四種不同的架構(gòu)可以選擇,即獨立分析、部分集成分析、基于數(shù)據(jù)庫的分析和基于Hadoop的分析。11.2.3基于數(shù)據(jù)庫的分析11.2.1獨立分析11.2.4基于Hadoop分析11.2.2部分集成分析預測分析工作流程中的任務是一個復雜序列,盡管任務的真正序列取決于問題本身,而且會隨著組織的不同而變化。11.2預測分析架構(gòu)11.2.1

獨立分析“獨立分析”是指所有的分析任務在一個獨立于所有數(shù)據(jù)源的平臺上運行。在獨立分析架構(gòu)中,分析師會在一臺獨立于所有數(shù)據(jù)源的工作站或服務器上運行所有需要進行的任務。用戶從源數(shù)據(jù)中以原子形式抓取數(shù)據(jù),然后在分析環(huán)境下進行數(shù)據(jù)匯集和清理。準備好數(shù)據(jù)之后,用戶在分析環(huán)境下進行高級分析并保存預測模型。為了應用模型,用戶會再次抓取生產(chǎn)數(shù)據(jù),在分析引擎中對其評估打分,然后將模型評分返還到生產(chǎn)環(huán)境中,用于上傳和使用。

圖11-3獨立分析11.2.1

獨立分析多年來這個架構(gòu)都是唯一的方案,并且很多組織仍然將其作為標準做法。在獨立分析環(huán)境中,打分是一種非常耗費人力的活動,會花費分析團隊的大量時間,因此不適合對時效性要求高的應用。在某些情況下,這個架構(gòu)表現(xiàn)得相當好。例如一些只需要很少數(shù)據(jù)片段的應用,一些以報告和圖表而不是預測模型來體現(xiàn)分析洞察的應用,以及不需要確保生產(chǎn)實施的一次性項目。研究類的應用,譬如仿真或是復雜的敏感性分析經(jīng)常會歸為這一類,并從基于內(nèi)存的平臺中獲得更好的性能。譬如通過GPU輔助運算或是內(nèi)存數(shù)據(jù)庫的使用來提高性能,而不是通過數(shù)據(jù)集成本身來提高性能。11.2.2

部分集成分析“部分集成分析”是指模型開發(fā)任務運行在一個獨立的平臺上,但是數(shù)據(jù)準備和模型部署任務運行在數(shù)據(jù)源平臺上。在部分集成分析架構(gòu)中,用戶在源數(shù)據(jù)平臺執(zhí)行一些任務,其他的在獨立分析平臺執(zhí)行。通常用戶在數(shù)據(jù)源中執(zhí)行數(shù)據(jù)處理任務并將獲得的得分放到目標數(shù)據(jù)庫或決策引擎中,這種方法將任務和工具匹配起來以達到最大效率。

圖11-4部分集成分析11.2.2

部分集成分析關(guān)于數(shù)據(jù)源集成,分析師不再采取在原子水平上抓取所有數(shù)據(jù)并在分析環(huán)境中建立“自下而上”的分析數(shù)據(jù)集,而是在數(shù)據(jù)源中使用原生工具(例如SQL或ETL工具)來建立分析數(shù)據(jù)集。隨后,分析師對完成的數(shù)據(jù)集進行抓取并將其放入分析環(huán)境中,用來完成數(shù)據(jù)準備任務(使用在數(shù)據(jù)庫環(huán)境中無法支持的技術(shù))并執(zhí)行建模的操作。11.2.2

部分集成分析盡管分析師們可以用原生的工具直接執(zhí)行這些操作,但是很多分析師還是喜歡選擇偏愛的分析軟件商提供的接口,有兩種不同的數(shù)據(jù)源接口:穿過和下推。例如,SAS提供“穿過”式集成來使分析師可以將SQL、HiveQL、Pig或是MapReduce指令嵌入到SAS程序中;SAS控制執(zhí)行的整體過程,并以遠程用戶的身份登錄到目標數(shù)據(jù)源去執(zhí)行指令。這個方法具有很高的靈活性,但是用戶必須明確地寫出所用指令的正確語法格式,這要求用戶對相關(guān)編程語言有很深的理解。IBMSPSS、Alpine還有其他軟件商可以提供“下推”式集成服務,這種服務能將用戶請求翻譯為平臺特定的指令。下推式集成服務的使用更簡單,因為分析師不需要掌握編程語言的特定知識。由于界面本身僅支持有限的用例,這種服務本身缺少一些靈活性。11.2.3

基于數(shù)據(jù)庫的分析“基于數(shù)據(jù)庫的分析”是指所有的分析任務在一個大型的并行計算數(shù)據(jù)庫中運行。我們用基于數(shù)據(jù)庫的分析來描述這樣一種架構(gòu),在這種架構(gòu)中,預測分析引擎與數(shù)據(jù)庫運行在同一個物理平臺上。所有的任務運行在同一個物理環(huán)境中,并且數(shù)據(jù)不用從一個平臺傳遞到另外一個平臺。

圖11-5基于數(shù)據(jù)庫的分析11.2.3

基于數(shù)據(jù)庫的分析主流的關(guān)系型數(shù)據(jù)庫(譬如DB2、Oracle)和MPP數(shù)據(jù)庫(譬如IBMPureData和Tecradata)都提供了高級分析功能。例如1990年Oracle并購了數(shù)據(jù)挖掘軟件ThinkingMachine,并且在2003年將其整合到Oracle數(shù)據(jù)庫中。某些特定的用例能夠很好地適用于這種基于數(shù)據(jù)庫的架構(gòu),包括預測模型評分,需要利用全部數(shù)據(jù)的大數(shù)據(jù)集分析,還有對不能離開數(shù)據(jù)物理存儲地點的專業(yè)數(shù)據(jù)的分析等。最后一種情況的典型例子是關(guān)于臨床試驗數(shù)據(jù)的分析,相關(guān)組織對于數(shù)據(jù)安全的重視通常會通過數(shù)據(jù)物理移動的管控來實現(xiàn)。這樣的組織使用一個基于數(shù)據(jù)庫的分析架構(gòu)是十分有必要的。11.2.4

基于Hadoop分析“基于Hadoop分析”是指所有的分析任務在Hadoop環(huán)境中運行。盡管基于Hadoop的分析和基于數(shù)據(jù)庫的分析有相似的優(yōu)勢,但還是要將這兩者區(qū)別開來,因為在Hadoop中高級分析的技術(shù)選擇是完全不同的。圖11-6Hadoop模型11.2.4

基于Hadoop分析Hadoop非常適合作為分析平臺來使用。和MPP數(shù)據(jù)庫相比,Hadoop所需成本低,而且Hadoop的文件系統(tǒng)無需預先建模就能兼容不同的數(shù)據(jù)。正因為如此,在Hadoop中高級分析的方法正在變得越來越多。但是,Hadoop中的高級分析對用戶的使用技巧有更高的要求。大多數(shù)情況下,分析師必須不用MapReduce或其他編程語言來自己寫算法。云計算中的分析PART0311.311.3云計算中的分析除了在本地使用前面介紹的那些架構(gòu),企業(yè)也可以將其部署在“云端”。我們簡要地討論一下在一個整體的分析架構(gòu)中,云計算可以扮演怎樣的角色。云計算是基于資源池概念的分布式計算,最終用戶無需關(guān)注對于用來提供計算能力的物理硬件的控制,也就是說用戶只需把任務提交到云端。用于計算的云可以是公共云(如亞馬遜的AWS)或是專屬于企業(yè)的私有云。公共云服務可以僅包括在指定時間段租用的IT基礎(chǔ)設(shè)施,或是可以包含特定的應用(如在AmazonMarketplacc提供的一些應用程序)。私有云可能包括企業(yè)自己擁有的計算硬件、共享資源或是兩者的結(jié)合。11.3.2安全和數(shù)據(jù)移動11.3.1公有云和私有云云計算是基于資源池概念的分布式計算,最終用戶無需關(guān)注對于用來提供計算能力的物理硬件的控制,也就是說用戶只需把任務提交到云端。11.3云計算中的分析11.3.1

公有云和私有云創(chuàng)業(yè)公司和小型分析服務提供商一般都會利用公有云。在一些大型的公司,他們也會選擇私有云。對于那些有特殊安全或隱私要求的公司,比起公有云計算,他們更傾向于使用私有云。私有云是為一個客戶單獨使用而構(gòu)建的,因而提供對數(shù)據(jù)、安全性和服務質(zhì)量的最有效控制。該公司(客戶)擁有基礎(chǔ)設(shè)施,并可以控制在此基礎(chǔ)設(shè)施上部署應用程序的方式。私有云可部署在企業(yè)數(shù)據(jù)中心的防火墻內(nèi),也可以將它們部署在一個安全的主機托管場所,私有云的核心屬性是專有資源。11.3.1

公有云和私有云下面五種情況下更適合使用云服務的分析:(1)公司在IT基礎(chǔ)設(shè)施上能夠投入的資金有限。(2)分析服務提供商將成本作為賬單的一部分向客戶進行收取。(3)分析團隊所面臨的運算量變化很大且無法預測。(4)企業(yè)面臨可預測的峰值負載。(5)分析團隊的IT支持力量很弱。11.3.1

公有云和私有云創(chuàng)業(yè)公司在初期投資中經(jīng)常缺少足夠的預算去采購IT基礎(chǔ)設(shè)施。盡管云計算架構(gòu)的基礎(chǔ)設(shè)施平均來說成本可能更貴,但是云計算上的規(guī)模經(jīng)濟可以使小型、成長型企業(yè)快速發(fā)展。云計算架構(gòu)的方便性和靈活性可以讓公司專注于自己的核心業(yè)務。分析服務提供商包括咨詢公司、廣告公司、專業(yè)的分析服務商以及類似的其他公司。服務提供商還有另外一個問題,就是他們很難去預測工作量:僅僅增加一個用戶可能會造成分析計算量的翻倍。這些公司將費用計算到客戶身上,因此每一個工作單元都必須歸屬于一個明確的客戶。云計算平臺簡化了這種記賬和計費問題。11.3.1

公有云和私有云高級分析的計算量非常大,經(jīng)常會產(chǎn)生“波動的”和無法預測的計算量。如果公司提供專門的基礎(chǔ)設(shè)施用于支持分析團隊的高峰計算量,這些計算資源在大多數(shù)時間將保持空閑的狀態(tài)。因此,用私有云或公有云基礎(chǔ)設(shè)施來支持分析團隊是非常合理的。分析應用程序也會產(chǎn)生多變但可預測的計算量。例如,銀行每個月都要提交巴塞爾報告(一種銀行合規(guī)報告)。由于經(jīng)理需要將計劃和績效作對比,查詢和報告的計算量會在月底達到高峰。零售商的分析計算量在春季的計劃階段和圣誕的報告階段會有很大不同。同樣的道理,對企業(yè)來講,需要合理區(qū)分平時計算量和峰值計算量,并將峰值計算量放在云平臺上進行支持。11.3.1

公有云和私有云最后,云計算平臺對那些內(nèi)部IT支持較弱的分析團隊是非常有用的。想要尋求快速響應的業(yè)務部門分析師也許會和他們的IT支持團隊發(fā)生沖突,尤其是在以注重成本控制或流程制度為激勵的保守組織中。特別是市場部更傾向于快節(jié)奏的運營方式。這種情況下,分析團隊會發(fā)現(xiàn)公有云模式可以使他們更快地回應內(nèi)部客戶的需求。11.3.2

安全和數(shù)據(jù)移動有兩個主要顧慮限制了云計算分析的采用:安全和數(shù)據(jù)移動。安全方面的問題更多的是一個認知問題而不是實際問題——實際上本地系統(tǒng)也有可能被黑客攻擊——但是認知非常重要。比起私有云,這個問題對公有云影響更大。上傳數(shù)據(jù)的需求也會限制大數(shù)據(jù)集分析中云計算的使用。用來移動數(shù)據(jù)所需要的時間和成本可能會是難以接受的。當用于分析的源數(shù)據(jù)已經(jīng)在云計算平臺中的時候(一些公司已經(jīng)這樣),這將不再會成為一個問題。另一點需要記住的是,不管分析是在本地運行還是在云計算平臺中進行,可能都會需要移動數(shù)據(jù)。在這種情況下,將數(shù)據(jù)傳輸?shù)皆朴嬎闫脚_中不會比在本地將數(shù)據(jù)從一個系統(tǒng)傳輸?shù)搅硪粋€系統(tǒng)所花的時間長。11.3.2

安全和數(shù)據(jù)移動負載管理的邏輯表明,隨著分析師越來越多地使用密集型計算技術(shù),預測模型的開發(fā)將會更多地移動到云計算平臺中。高度并行并且I/O密集型的模型評分應用會選擇和源數(shù)據(jù)同樣的平臺。根據(jù)源數(shù)據(jù)存儲的具體情況,不管是在本地還是在云計算平臺中,公司都將保持這類任務盡可能地靠近源數(shù)據(jù)的存儲地點?,F(xiàn)代SQL平臺PART0411.411.4現(xiàn)代SQL平臺SQL(結(jié)構(gòu)化查詢語言)在20世紀70年代早期由IBM開發(fā)出來。在20世紀80年代初期,由于Oracle的大力推廣,SQL成為事實上普遍接受的數(shù)據(jù)庫語言。在這段時期,數(shù)據(jù)庫的設(shè)計初衷是用來創(chuàng)建并修改每一條交易本身,并逐步以線上交易處理(OLTP)而聞名。此時計算量的優(yōu)化主要針對每一條記錄的操作,因此主要用于捕捉交易數(shù)據(jù),而不是用于分析類型的計算量,分析類型的計算更多是針對匯總后的數(shù)據(jù),或按列進行計算。在過去的幾十年,SQL標準已經(jīng)延展,在語言中包含了基本計算功能,例如平均數(shù)、最小值、最大值和計數(shù)。11.4現(xiàn)代SQL平臺20世紀80年代早期,可以用于存儲大量數(shù)據(jù)的數(shù)據(jù)倉庫的普及給分析數(shù)據(jù)帶來了新的機會。20世紀90年代中期,數(shù)據(jù)庫分析首先被引入,開始了基于SQL的數(shù)據(jù)庫和分析的融合。數(shù)據(jù)庫分析讓數(shù)據(jù)庫用戶有機會將更多復雜的分析嵌入到數(shù)據(jù)庫中,可以對數(shù)據(jù)進行計算而無需將其從數(shù)據(jù)倉庫中提取出來。然而,編寫復雜的分析代碼是有挑戰(zhàn)的,直到21世紀頭十年中期,數(shù)據(jù)庫分析才開始普及。為了使數(shù)據(jù)庫用戶的使用更簡單,數(shù)據(jù)庫廠商開始將更加龐大的分析函數(shù)庫植入到數(shù)據(jù)庫平臺之中。盡管數(shù)據(jù)庫分析帶來了越來越多的好處,這項技術(shù)在市場上還是沒有被充分利用。11.4.3MPP數(shù)據(jù)庫11.4.1什么是現(xiàn)代SQL平臺11.4.4SQL-on-Hadoop11.4.2現(xiàn)代SQL平臺區(qū)別于傳統(tǒng)SQL平臺11.4.5NewSQL數(shù)據(jù)庫11.4.6現(xiàn)代SQL平臺的發(fā)展11.4現(xiàn)代SQL平臺11.4.1

什么是現(xiàn)代SQL平臺埃德加·考德首次引入了SQL這個概念,作為一種數(shù)據(jù)庫語言來使用戶能夠更方便地創(chuàng)建和操作關(guān)系型數(shù)據(jù)庫表。如今,SQL已經(jīng)成為數(shù)據(jù)庫領(lǐng)域最權(quán)威、成熟和廣泛接受的編程語言。盡管SQL平臺大部分具有交互能力,用戶可以進行查詢并得到結(jié)果,但很多的生產(chǎn)進程是通過批處理方式離線執(zhí)行的。通常來講,一般用途的數(shù)據(jù)庫被歸類為OLTP數(shù)據(jù)庫。自從20世紀70年代起,OLTP數(shù)據(jù)庫已經(jīng)普及并非常成熟。隨著OLTP數(shù)據(jù)的成熟,數(shù)據(jù)庫廠商重點推廣(基于行)關(guān)系型數(shù)據(jù)庫,以提供多種功能來保證數(shù)據(jù)庫中交易的可靠處理。今天我們把這套數(shù)據(jù)完整性屬性統(tǒng)稱為ACID(原子的、一致的、獨立的、持久的)規(guī)范。11.4.1

什么是現(xiàn)代SQL平臺數(shù)據(jù)倉庫是一種專業(yè)關(guān)系型數(shù)據(jù)庫,用來生成報表和在線分析(OLAP)。如今數(shù)據(jù)倉庫也已相當成熟,完全符合ACID的規(guī)范。2006年,隨著Hadoop的引入,傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫市場發(fā)生了巨大的改變。Hadoop是一種開源軟件框架,用于對廉價商業(yè)硬件上的大量非結(jié)構(gòu)化數(shù)據(jù)進行分布式存儲和處理。Hadoop被設(shè)計成具備跨服務器集群的彈性擴展和容錯。容錯處理是一種特性,用來使系統(tǒng)可以正確處理意外的軟硬件中斷,如斷電、斷網(wǎng)等。

圖11-8Hadoop多維分析平臺架構(gòu)圖11.4.1

什么是現(xiàn)代SQL平臺Hadoop為數(shù)據(jù)庫市場的創(chuàng)新創(chuàng)造了一個良好的開端,這場創(chuàng)新仍然在持續(xù)進行中。2009年左右,NoSQL數(shù)據(jù)庫出現(xiàn),它和傳統(tǒng)數(shù)據(jù)庫有如下幾個不同點:·非關(guān)系型分布式數(shù)據(jù)存儲·無SQL功能·不符合ACID規(guī)范NoSQL數(shù)據(jù)庫使用了不同的數(shù)據(jù)存儲架構(gòu),包括樹、圖和鍵值對。隨著NoSQL數(shù)據(jù)庫逐漸成熟,引進了一種“最終一致性”的數(shù)據(jù)完整性模型,能夠最終提供符合ACID規(guī)范的數(shù)據(jù)完整性。11.4.1

什么是現(xiàn)代SQL平臺盡管NoSQL數(shù)據(jù)庫一開始并沒有SQL功能,但是隨著NoSQL數(shù)據(jù)庫的發(fā)展,擁有了一種類似SQL的功能,NoSQL的名稱也逐步變?yōu)椤安粌H僅是SQL”(NotonlySQL)。這項技術(shù)最重大的貢獻之一是突破了傳統(tǒng)的OLTP和數(shù)據(jù)倉庫在水平拓展方面的局限性。水平拓展是一種能力,指通過在物理機器以外增加計算節(jié)點來提高數(shù)據(jù)庫處理能力,而不受任何限制。這個重大突破可以讓NoSQL數(shù)據(jù)庫利用廉價的商業(yè)硬件來進行計算能力的擴展,從而使數(shù)據(jù)庫和數(shù)據(jù)倉庫應用的成本顯著下降。NoSQL數(shù)據(jù)庫另外一個很關(guān)鍵的能力是容錯。11.4.1

什么是現(xiàn)代SQL平臺2011年,緊接著NoSQL數(shù)據(jù)庫的引入,行業(yè)又推出了NewSQL數(shù)據(jù)庫平臺,借鑒了傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫和NoSQL數(shù)據(jù)庫的功能?;緛碚f,NewSQL數(shù)據(jù)庫平臺提供了水平拓展、更快的交易進程處理、容錯能力、SQL界面,并符合ACID規(guī)范。11.4.2

現(xiàn)代SQL平臺區(qū)別于傳統(tǒng)SQL平臺一個現(xiàn)代SQL平臺在幾個重要方面是區(qū)別于傳統(tǒng)SQL平臺的,它們分別是:·在廉價商業(yè)化硬件上的水平拓展能力?!ず唵翁崛『吞幚砣魏螖?shù)據(jù)的能力?!ぴ诓樵兒头治鎏幚砟芰ι嫌懈叩男阅堋!?shù)據(jù)完整性和一致性。·用戶可以在分布式進程處理和容錯之間的平衡上進行調(diào)節(jié)。11.4.2

現(xiàn)代SQL平臺區(qū)別于傳統(tǒng)SQL平臺一個現(xiàn)代SQL平臺在商業(yè)化硬件上使用分布式進程架構(gòu),提供可以容錯的無限制的水平擴展能力。盡管現(xiàn)代SQL平臺提供了符合ACID規(guī)范的和更高的進程吞吐量,但是天下沒有免費的午餐。為了保障數(shù)據(jù)一致性,這些平臺需要鎖定數(shù)據(jù)來進行修改。每個平臺或者默認在性能和一致性中進行平衡,或者允許用戶去做平衡選擇?!錇榱四軌虺浞止芾頍o限制的長度可變的字符,現(xiàn)代化SQL平臺做出了很多的努力來支持大型字符和字符串數(shù)據(jù)。此外,現(xiàn)代SQL平臺針對巨型數(shù)據(jù)集——互聯(lián)網(wǎng)級別的數(shù)據(jù)集――而不是局限于數(shù)據(jù)子集,提供了更快的處理。11.4.2

現(xiàn)代SQL平臺區(qū)別于傳統(tǒng)SQL平臺如今,有三種主要的現(xiàn)代SQL平臺:(1)MPP(大規(guī)模并行處理)數(shù)據(jù)庫;(2)SQL-on~Hadoop;(3)NewSQL數(shù)據(jù)庫。11.4.2

現(xiàn)代SQL平臺區(qū)別于傳統(tǒng)SQL平臺每個現(xiàn)代SQL平臺支持一種或多種類型的分析查詢和處理任務,包括:·批處理SQL——在后臺執(zhí)行需要時間處理的靜態(tài)數(shù)據(jù)查詢。需要長時間處理的查詢通常所需的運行時間從20分鐘到20個小時不等。這種批處理方式一般用來進行大量的ETL處理、數(shù)據(jù)挖掘和預測模型建模。·交互式SQL——在線執(zhí)行靜態(tài)數(shù)據(jù)的查詢,用戶在線等待查詢結(jié)果。這種低延遲的查詢所需的運行時間從100毫秒到20分鐘不等。這種交互式SQL一般用作傳統(tǒng)的商務智能報表和可視化報表,即席查詢和固定報表。11.4.2

現(xiàn)代SQL平臺區(qū)別于傳統(tǒng)SQL平臺·實時或運營SQL——對靜態(tài)數(shù)據(jù)的大用戶量高并發(fā)交易數(shù)據(jù)查詢。這種低延遲查詢所需運行時間通常低于100毫秒。這種形式一般用作對大數(shù)據(jù)量(OLAP)的只讀操作、點查詢和針對小數(shù)據(jù)集的互聯(lián)網(wǎng)應用程序。·流式SQL——在一個時間窗口內(nèi),對動態(tài)數(shù)據(jù)進行實時連續(xù)查詢和分析處理(舉個例子,“在最近5分鐘有多少異?,F(xiàn)象被檢測出來?”)。這種延遲極低的查詢所需運行時間一般低于10毫秒。這種方式一般用作算法交易、實時個性化廣告、實時欺詐檢測和實時網(wǎng)絡(luò)入侵。11.4.2

現(xiàn)代SQL平臺區(qū)別于傳統(tǒng)SQL平臺SQL通過以下幾種機制來支持分析型任務:·SQL內(nèi)置函數(shù)——在SQL中實現(xiàn)的基本的描述性分析函數(shù),如平均數(shù)、計數(shù)、百分比、標準差及其他?!QL自定義函數(shù)(UDF)——它們提供一種機制,可以讓用戶自己編寫分析函數(shù),使用較低級的編程語言,如Java、C或C++?!QL分析庫——在SQL和SQL自定義函數(shù)中實現(xiàn)的分析功能。這些通常是第三方函數(shù)庫,可能包含統(tǒng)計、預測分析、機器學習和其他諸多功能。FuzzyLogix的DBLytix和開源軟件MadLib都是這種函數(shù)庫的典型例子。11.4.3MPP數(shù)據(jù)庫一個典型的大規(guī)模并行處理(MPP)數(shù)據(jù)庫會使用一種無共享架構(gòu),它把一個服務器的數(shù)據(jù)和工作量分配到許多獨立的計算節(jié)點中。將工作量分割完成提高了數(shù)據(jù)庫操作處理能力。在傳統(tǒng)的數(shù)據(jù)庫中,計算是集中進行的,所有數(shù)據(jù)被打包送到中央節(jié)點,然后進行計算。在MPP數(shù)據(jù)庫中,通過把查詢和計算發(fā)送到數(shù)據(jù)的位置進行,從而避免了數(shù)據(jù)移動的瓶頸。11.4.3MPP數(shù)據(jù)庫如今MPP數(shù)據(jù)庫是被廣泛接受的商業(yè)化數(shù)據(jù)倉庫。一體機概念:一體機是針對某一硬件優(yōu)化過的一種軟件和硬件的組

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論