




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)文獻(xiàn)綜述隨著以博客、社交網(wǎng)絡(luò)、基于位置的服務(wù)LBS為代表的新型信息發(fā)布方式的不斷涌現(xiàn),以及云計算、物聯(lián)網(wǎng)等技術(shù)的興起,數(shù)據(jù)正以前所未有的速度在不斷地增長和累積,國際數(shù)據(jù)公司(IDC)的數(shù)字宇宙研究報告稱[1]:2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量超過1.8ZB,且增長趨勢遵循新摩爾定律(全球數(shù)據(jù)量大約每兩年翻一番),預(yù)計2020年將達(dá)到35ZB.與此同時,數(shù)據(jù)復(fù)雜性也急劇增長,其多樣性、低價值密度、實時性等復(fù)雜特征日益顯著,大數(shù)據(jù)時代已經(jīng)來到。學(xué)術(shù)界、產(chǎn)業(yè)界甚至于政府機(jī)構(gòu)都已經(jīng)開始密切關(guān)注大數(shù)據(jù)問題,并對其產(chǎn)生濃厚的興趣。一、大數(shù)據(jù)國內(nèi)外發(fā)展現(xiàn)狀對于學(xué)術(shù)界,1989年在美國底特律召開的第11屆國際人工智能聯(lián)合會議專題討論會上,首次提出了“數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)”的概念。在1995年召開了第一屆知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議,隨著與會人員的增加,KDD國際學(xué)術(shù)成為年會。大數(shù)據(jù)的興起,主要是國際頂尖期刊《Nature》早在2008年推出了Bigdata專刊[2]。計算社區(qū)聯(lián)盟(computingcommunityconsortium)在2008年發(fā)表了報告“bigdatacomputing:creatingrevolutionarybreakthroughsincommerce,scienceandsociety”[3],闡述了在數(shù)據(jù)驅(qū)動的研究背景下,解決大數(shù)據(jù)問題所需的技術(shù)以及面臨的一些挑戰(zhàn)。《science》在2011年2月推出專刊“dealingwithdata”[4],主要圍繞著科學(xué)研究中大數(shù)據(jù)的問題展開討論,說明大數(shù)據(jù)對于科學(xué)研究的重要性.美國一些知名的數(shù)據(jù)管理領(lǐng)域的專家學(xué)者則從專業(yè)的研究角度出發(fā),聯(lián)合發(fā)布了一份白皮書《challengesandopportunitieswithbigdata》[5]。該白皮書從學(xué)術(shù)的角度出發(fā)介紹了大數(shù)據(jù)的產(chǎn)生,分析了大數(shù)據(jù)的處理流程,并提出大數(shù)據(jù)所面臨的若干挑戰(zhàn)。全球知名的咨詢公司麥肯錫(McKinsey)2011年6月份發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報告“bigdata:thenextfrontierforinnovation,competiton,andproductivity”[6],對大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。進(jìn)入2012年以來,大數(shù)據(jù)的關(guān)注度與日俱增1月份的達(dá)沃斯世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,該次會議還特別針對大數(shù)據(jù)發(fā)布了報告“bigdata,bigcompat:newpossibilitiesforinternationaldevelopment”[7],探討了新的數(shù)據(jù)產(chǎn)生方式下,如何更好地利用數(shù)據(jù)來產(chǎn)生良好的社會效益.該報告重點(diǎn)關(guān)注了個人產(chǎn)生的移動數(shù)據(jù)與其他數(shù)據(jù)的融合與利用.3月份美國奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”[8](bigdataresearchanddevelopmentinitiative),投資2億以上美元,正式啟動“大數(shù)據(jù)發(fā)展計劃”.計劃在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破.奧巴馬政府的這一計劃被視為美國政府繼信息高速公路計劃之后在信息科學(xué)領(lǐng)域的又一重大舉措.與此同時,聯(lián)合國一個名為“globalpulse”的倡議項目在今年5月發(fā)布報告“bigdatafordevelopment:challengesoropportunities”[9],該報告主要闡述大數(shù)據(jù)時代各國特別是發(fā)展中國家在面臨數(shù)據(jù)洪流(datadeluge)的情況下所遇到的機(jī)遇與挑戰(zhàn),同時還對大數(shù)據(jù)的應(yīng)用進(jìn)行了初步的解讀.《紐約時報》的文章“theageofbigdata”[10]。則通過主流媒體的宣傳使普通民眾開始意識到大數(shù)據(jù)的存在,以及大數(shù)據(jù)對于人們?nèi)粘I畹挠绊憽T诋a(chǎn)業(yè)界,經(jīng)濟(jì)利益成為主要的推動力,IBM、ORACLE、微軟、谷歌、亞馬遜、Facebook、Teradata、EMC、惠普等跨國巨頭也因大數(shù)據(jù)技術(shù)的發(fā)展而更加具有競爭力[11]。僅2009年一年,谷歌公司通過大數(shù)據(jù)業(yè)務(wù)對美國經(jīng)濟(jì)貢獻(xiàn)540億美元;2005年以來,IBM投資160億美元進(jìn)行30多次與大數(shù)據(jù)相關(guān)的收購,使業(yè)績穩(wěn)定高速增長,2012年,IBM股價每股突破200美元大關(guān),3年內(nèi)翻了3番;eBay通過數(shù)據(jù)挖掘精確計算出廣告中每個關(guān)鍵字帶來的回報,2007年以來,廣告費(fèi)降低了99%,同時頂級賣家占總銷售額的百分比上升至32%;2011年,F(xiàn)acebook首次公開新數(shù)據(jù)處理分析平臺PUMA,通過對數(shù)據(jù)多處理環(huán)節(jié)區(qū)分優(yōu)化,相比之前單純采用Hadoop和Hive進(jìn)行處理的技術(shù),數(shù)據(jù)分析周期從2天降到10秒以內(nèi),效率提高數(shù)萬倍。與國外相比,我國大數(shù)據(jù)的發(fā)展還稍落后。我國國家自然科學(xué)基金于1993年首次支持對數(shù)據(jù)挖掘領(lǐng)域的研究項目。1999年,在北京召開第三屆亞太地區(qū)知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議(PAKDD),收到論文158篇。2011年,第十五屆PAKDD在深圳舉辦,會議就數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、人工智能、機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域的主題進(jìn)行交流討論,反響熱烈。2012年5月,香山科學(xué)會議組織了以“大數(shù)據(jù)科學(xué)與工程——一門新興的交叉學(xué)科?”為主題的第424次學(xué)術(shù)討論會,來自國內(nèi)外35個單位橫跨IT、經(jīng)濟(jì)、管理、社會、生物等多個不同學(xué)科領(lǐng)域的43位專家代表參會,并就大數(shù)據(jù)的理論與工程技術(shù)研究、應(yīng)用方向以及大數(shù)據(jù)研究的組織方式與資源支持形式等重要問題進(jìn)行了深入討論。6月,中國計算機(jī)學(xué)會青年計算機(jī)科技論壇(CCFYOCSEF)舉辦了“大數(shù)據(jù)時代,智謀未來”學(xué)術(shù)報告會,決定成立大數(shù)據(jù)專家委員會,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘、體系架構(gòu)理論、大數(shù)據(jù)安全、大數(shù)據(jù)平臺開發(fā)與大數(shù)據(jù)現(xiàn)實案例進(jìn)行了全面的討論。2012年10月,成立了首個專門研究大數(shù)據(jù)應(yīng)用和發(fā)展的學(xué)術(shù)咨詢組織--中國通信學(xué)會大數(shù)據(jù)專家委員會,推動了我國大數(shù)據(jù)的科研與發(fā)展。2012年11月,“Hadoop與大數(shù)據(jù)技術(shù)大會”以“大數(shù)據(jù)共享與開放技術(shù)”為主題,總結(jié)了八個熱點(diǎn)問題:數(shù)據(jù)科學(xué)與大數(shù)據(jù)的學(xué)科邊界、數(shù)據(jù)計算的基本模式與范式、大數(shù)據(jù)的作用力和變換反對、大數(shù)據(jù)特性與數(shù)據(jù)態(tài)、大數(shù)據(jù)安全和隱私問題、大數(shù)據(jù)對IT技術(shù)架構(gòu)的挑戰(zhàn)、大數(shù)據(jù)的生態(tài)環(huán)境問題以及大數(shù)據(jù)的應(yīng)用及產(chǎn)業(yè)鏈。大會還成立了“大數(shù)據(jù)共享聯(lián)盟”,旨在搜集大數(shù)據(jù)、展示大數(shù)據(jù)、促進(jìn)大數(shù)據(jù)的研究與開發(fā)。在產(chǎn)業(yè)界,國內(nèi)主要以百度、騰訊、華為、淘寶、中國移動等企業(yè)為首的大數(shù)據(jù)布局與商業(yè)活動。百度作為中國最大的搜索引擎,在中國和中文互聯(lián)網(wǎng)領(lǐng)域各項排行中不是最大就是最多。2012年,百度日均抓取約10億網(wǎng)頁,處理超過100PB(1PB=1024TB)的數(shù)據(jù)。過去10年,百度網(wǎng)頁搜索庫已從500萬猛增到了500億個頁面。從公開的材料看,百度的大數(shù)據(jù)戰(zhàn)略往往與云計算綁定在一起,強(qiáng)調(diào)大數(shù)據(jù)儲存與處理能力。2011年8月,百度宣布將用三年的時間建立一個全國最大的數(shù)據(jù)中心,并且主打“綠色”。通過對大數(shù)據(jù)流量的把握,百度經(jīng)過設(shè)計,降低設(shè)備能耗、減少服務(wù)器、日間側(cè)重商業(yè)業(yè)務(wù)、夜間側(cè)重數(shù)據(jù)業(yè)務(wù),從而讓“百度的單體十萬臺服務(wù)器的數(shù)據(jù)中心,PUE每降低0.1,一年就可為百度節(jié)省上千萬元的成本。”騰訊自稱“目前中國最大的互聯(lián)網(wǎng)綜合服務(wù)提供商之一,也是中國服務(wù)用戶最多的互聯(lián)網(wǎng)企業(yè)之一”,擁有超過7.52億QQ即時通訊活躍賬戶,1億微信用戶、4.25億微博用戶和超過1億的視頻用戶。在積累了個人用戶多方面的海量數(shù)據(jù)后,2012年騰訊提出了“大數(shù)據(jù)營銷”的概念。騰訊網(wǎng)總編輯陳菊紅表示“將從這些海量數(shù)據(jù)中挖掘、分辨出用戶的行為模式、興趣偏好等,打造專屬于每個人的智慧門戶。”騰訊不僅在各大產(chǎn)品線中都設(shè)置了數(shù)據(jù)挖掘團(tuán)隊,還在和一些第三方數(shù)據(jù)挖掘公司、營銷公司展開合作洽談,充分挖掘用戶在網(wǎng)上的行為、關(guān)系、UGC(用戶產(chǎn)生的內(nèi)容)等數(shù)據(jù),“通過合理的方法找到對企業(yè)有幫助的數(shù)據(jù),并且將營銷預(yù)算合理的分配在為數(shù)眾多的數(shù)據(jù)來源平臺上”,從而提高營銷效率。2011年4月騰訊追加在天津的數(shù)據(jù)中心建設(shè)投資,欲建立亞洲最大的數(shù)據(jù)儲備處理中心。相比中國用戶最多的兩家互聯(lián)網(wǎng)企業(yè),淘寶在大數(shù)據(jù)方面的舉措絲毫不遜色,因為幾乎所有淘寶業(yè)務(wù)都依賴淘寶數(shù)據(jù)庫。每天大約有6000萬用戶登錄淘寶網(wǎng),約20億頁面瀏覽量(PV)。淘寶所使用的OceanBase分布式數(shù)據(jù)庫,在基準(zhǔn)數(shù)據(jù)和增量數(shù)據(jù)基礎(chǔ)上,實現(xiàn)不同部門對數(shù)千億條記錄、數(shù)百TB數(shù)據(jù)上的跨行跨表事務(wù)共同完成,并支持每天4000~5000萬的更新操作。早在2009年淘寶便自建大型數(shù)據(jù)庫,并通過對全國淘寶購買數(shù)據(jù)的挖掘發(fā)布了2011年淘寶中國地圖,對其掌握的大量用戶交易數(shù)據(jù)進(jìn)行了形象的展示。在利用大數(shù)據(jù)為提高用戶購物體驗的旗號下,淘寶根據(jù)長尾原理充分利用大數(shù)據(jù)挖掘技術(shù),建設(shè)開放平臺,提供各種增值服務(wù)。中國移動作為中國最大的移動通訊運(yùn)營商,截至2012年4月底,中國移動用戶數(shù)已經(jīng)達(dá)到6.7億。同時,中國移動正在謀求從移動運(yùn)營商的管道角色向客戶端制造和云端服務(wù)兩個方向發(fā)展。而大數(shù)據(jù)業(yè)務(wù)的投入,為此提供了機(jī)遇。2011年第四季度中國移動先后與內(nèi)蒙古自治區(qū)和黑龍江省簽署合作協(xié)議,在呼和浩特、哈爾濱建設(shè)全國規(guī)模最大、技術(shù)最先進(jìn)、能耗最低定在成都建立西部最大數(shù)據(jù)中心,完成了其在國內(nèi)數(shù)據(jù)中心的三大數(shù)據(jù)基地布局。通過對國內(nèi)外學(xué)術(shù)期刊SCI與SSCI檢索研究中發(fā)現(xiàn),目前國外對大數(shù)據(jù)的研究主要集中在如何進(jìn)行大數(shù)據(jù)的存儲、處理、分析以及管理的技術(shù)及軟件的應(yīng)用上,而關(guān)于大數(shù)據(jù)與管理科學(xué)的結(jié)合幾乎很少,國內(nèi)學(xué)者對大數(shù)據(jù)的研究主要集中大數(shù)據(jù)的商業(yè)模式的探討、大數(shù)據(jù)分析處理技術(shù)、大數(shù)據(jù)的應(yīng)用領(lǐng)域等,而對關(guān)于大數(shù)據(jù)與云計算結(jié)合的研究幾乎處于理論摸索階段。二、大數(shù)據(jù)的國內(nèi)外研究綜述對于大數(shù)據(jù)的定義,學(xué)術(shù)界和產(chǎn)業(yè)界目前尚未形成公認(rèn)的準(zhǔn)確定義。維基百科的定義[12]:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的信息。麥肯錫的定義[13]:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行采集、存儲、管理和分析的數(shù)據(jù)集合。權(quán)威IT研究將大數(shù)據(jù)定義為“在一個或多個維度上超出傳統(tǒng)信息技術(shù)的處理能力的極端信息管理和處理問題”[14]。美國國家科學(xué)基金會(NSF)則將大數(shù)據(jù)定義為“由科學(xué)儀器、傳感設(shè)備、互聯(lián)網(wǎng)交易、電子郵件、音視頻軟件、網(wǎng)絡(luò)點(diǎn)擊流等多種數(shù)據(jù)源生成的大規(guī)模、多元化、復(fù)雜、長期的分布式數(shù)據(jù)集”[15]。研究機(jī)構(gòu)Gartner的定義:大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。無論是哪一種定義,我們可以看出,均體現(xiàn)了大數(shù)據(jù)具有的四種特性:數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)種類繁多(Varity)、流動速度快(Velocity)、價值密度低(Value)。其實,對于大數(shù)據(jù)的4V特征其不僅僅是海量數(shù)據(jù),更追求的是實時性、動態(tài)性、全貌性。1.關(guān)于大數(shù)據(jù)的商業(yè)模式方面的研究“假如我們有了一個數(shù)據(jù)預(yù)報臺,就像為企業(yè)裝上了一個GPS和雷達(dá),企業(yè)的出海將會更有把握。”馬云在2012年網(wǎng)商大會上的演講中形象地表示了數(shù)據(jù)的重要性。在麥肯錫發(fā)布《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》報告之后,大數(shù)據(jù)的商業(yè)價值迅速受到銀行、零售等行業(yè)的關(guān)注。如今,銀行業(yè)中的實時欺詐監(jiān)測和風(fēng)險管理、電信業(yè)的客戶細(xì)分和業(yè)務(wù)波動分析、醫(yī)療業(yè)中的疾病診斷和分析、零售業(yè)的價格優(yōu)化和購買分析等已經(jīng)開始應(yīng)用大數(shù)據(jù)分析的結(jié)果,大數(shù)據(jù)已經(jīng)開始創(chuàng)造著價值。目前從管理學(xué)的角度應(yīng)用大數(shù)據(jù)技術(shù)以支持商業(yè)分析和決策,已經(jīng)成為商學(xué)院教育的熱點(diǎn)方向。國家自然科學(xué)基金委員馮芷艷從商務(wù)管理在大數(shù)據(jù)背景下所面臨的時代挑戰(zhàn)出發(fā),給出了社會化的價值創(chuàng)造、網(wǎng)絡(luò)化的企業(yè)運(yùn)作、實時化的市場洞察三個重要研究視角。同時,描述了社會化網(wǎng)絡(luò)環(huán)境中的行為機(jī)理與社會資本結(jié)構(gòu)、企業(yè)網(wǎng)絡(luò)生態(tài)系統(tǒng)及其協(xié)同共生機(jī)制、大數(shù)據(jù)環(huán)境下的顧客洞察與市場營銷策略、基于大數(shù)據(jù)的商業(yè)模式創(chuàng)新等研究方向[16]。此外國內(nèi)學(xué)者陳曉霞對大數(shù)據(jù)業(yè)務(wù)的商業(yè)模式進(jìn)行了探討,通過對大數(shù)據(jù)產(chǎn)業(yè)鏈自底向下的三層構(gòu)成提出了基于大數(shù)據(jù)的六種商業(yè)模式[17],(第一層是企業(yè)內(nèi)部交易數(shù)據(jù)和企業(yè)外部的用戶行為數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等,這一層次的主要任務(wù)是數(shù)據(jù)的采集、存儲和傳輸?shù)裙ぷ鳎坏诙哟问切畔樱ゴ秩【釤捄笮纬蓛r值密度更高的信息,這一層可以產(chǎn)生諸如數(shù)據(jù)包銷售、租賃等業(yè)務(wù)模式,也會誕生一批靠搜集各類數(shù)據(jù)為主業(yè)的公司,如區(qū)域數(shù)據(jù)提供商;第三個層次是知識層,對于知識的利用需要人工介入以外,主要還需要融合行業(yè)信息。)主要包括租售數(shù)據(jù)模式、租售信息模式、數(shù)字媒體模式、數(shù)據(jù)使能模式、數(shù)據(jù)空間出租模式、大數(shù)據(jù)技術(shù)提供商模式。就產(chǎn)業(yè)界而言,騰云天下數(shù)據(jù)挖掘總監(jiān)張夏天雖然大數(shù)據(jù)目前在國內(nèi)還處于初級階段,但是商業(yè)價值已經(jīng)顯現(xiàn)出來。首先,手中握有數(shù)據(jù)的公司如同站在金礦上,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;其次,基于數(shù)據(jù)挖掘會有很多商業(yè)模式誕生,定位角度不同,或側(cè)重數(shù)據(jù)分析。比如幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,或側(cè)重優(yōu)化,幫企業(yè)更精準(zhǔn)找到用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤。百分點(diǎn)的聯(lián)合創(chuàng)始人蘇萌表示,未來,數(shù)據(jù)可能成為最大的交易商品。大數(shù)據(jù)的價值是通過數(shù)據(jù)共享、交叉復(fù)用后獲取最大的數(shù)據(jù)價值。在他看來,未來大數(shù)據(jù)將會如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。目前,百分點(diǎn)所做的就是通過分析用戶在網(wǎng)絡(luò)上的消費(fèi)行為數(shù)據(jù),幫助電商企業(yè)實現(xiàn)“千人千面”精準(zhǔn)營銷。據(jù)了解,作為全球最大的中文搜索引擎,百度已經(jīng)覆蓋5億中國網(wǎng)民,擁有千億級用戶行為數(shù)據(jù),在分析消費(fèi)者行為與對接企業(yè)營銷階段需求方面,已經(jīng)構(gòu)建起相對完善的商業(yè)產(chǎn)品布局和藍(lán)圖。2.關(guān)于大數(shù)據(jù)分析處理的研究基于社交網(wǎng)絡(luò)、移動互聯(lián)、電子商務(wù)、物聯(lián)網(wǎng)等諸多應(yīng)用領(lǐng)域,數(shù)據(jù)量正在以極快的速度增長,包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù),其規(guī)模或復(fù)雜程度超出了常用傳統(tǒng)數(shù)據(jù)庫和軟件技術(shù)所能管理和處理的數(shù)據(jù)集范圍大數(shù)據(jù)廣泛存在,如企業(yè)數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、移動數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù),等等,并且各行各業(yè)都可得益于大數(shù)據(jù)的應(yīng)用按其應(yīng)用類型,可將大數(shù)據(jù)分為海量交易數(shù)據(jù)(企業(yè)OLTP應(yīng)用)、海量交互數(shù)據(jù)(社網(wǎng)、傳感器、GPS、Web信息)和海量處理數(shù)據(jù)(企業(yè)OLAP應(yīng)用)這3類為了分析和利用這些龐大的數(shù)據(jù)資源,必須依賴有效的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)管理系統(tǒng)。目前,Hadoop是最為流行的大數(shù)據(jù)處理平臺。Hadoop最先是DougCtting模仿GFS,MapReduce實現(xiàn)的一個云計算開源平臺,后貢獻(xiàn)給Apache.Hadoop已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(HBase、Cassandra)、數(shù)據(jù)處理(MapReduce)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)。對Hadoop改進(jìn)并將其應(yīng)用于各種場景的大數(shù)據(jù)處理已經(jīng)成為新的研究熱點(diǎn)。主要的研究成果集中在對Hadoop平臺性能的改進(jìn)、高效的查詢處理、索引構(gòu)建和使用、在Hadoop之上構(gòu)建數(shù)據(jù)倉庫、Hadoop和數(shù)據(jù)庫系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等。國內(nèi)學(xué)者王珊、王會舉等人通過提出了大數(shù)據(jù)分析平臺應(yīng)具備的特性(高度可擴(kuò)展性、高性能、高度容錯性、支持異構(gòu)環(huán)境、較低的分析延遲等特性),分析了并行數(shù)據(jù)庫、MapReduce技術(shù)、并行數(shù)據(jù)庫和MapReduce技術(shù)的混合架構(gòu)優(yōu)勢及不足。該團(tuán)隊提出了另一種思路,從數(shù)據(jù)的組織和查詢的執(zhí)行兩個核心層次入手,融合關(guān)系數(shù)據(jù)庫和MapReduce兩種技術(shù),設(shè)計高性能的可擴(kuò)展的抽象數(shù)據(jù)倉庫查詢處理框架.該框架在支持高度可擴(kuò)展的同時,又具有關(guān)系數(shù)據(jù)庫的性能[18]。團(tuán)隊嘗試過兩個研究方向:(1)借鑒MapReduce的思想,使OLAP查詢的處理能像MapReduce一樣高度可擴(kuò)(LinearDB原型);(2)利用關(guān)系數(shù)據(jù)庫的技術(shù),使MapReduce在處理OLAP查詢時,逼近關(guān)系數(shù)據(jù)庫的性能(Dumbo原型)。周傲英等人提出基于MapReduce的列存儲數(shù)據(jù)的連接優(yōu)化方法,極大地加快了連接的速度[19].除此之外,NoSQL是目前云環(huán)境下支持海量數(shù)據(jù)管理的新模式,NoSQL是指那些非關(guān)系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲系統(tǒng)。典型的NoSQL產(chǎn)品有Google的BigTable[20]、基于HadoopHDFS[21]的HBase[22]、Amazon的Dynamo[23]等。國內(nèi)學(xué)者申德榮等人提出了基于key-value數(shù)據(jù)模型的NoSQL數(shù)據(jù)管理系統(tǒng),解決了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)不具有的可擴(kuò)展性、彈性、容錯性等問題,提高了海量數(shù)據(jù)管理的效率[24]。國外學(xué)者DittrichJ等人,研究了非侵入式的MapReduce性能提升技術(shù),包括特洛伊索引(Trojanindex)和分區(qū)數(shù)據(jù)并置co-partition,即把需要連接的數(shù)據(jù)分區(qū)保存到同一個節(jié)點(diǎn)或者在網(wǎng)絡(luò)拓?fù)渖辖咏墓?jié)點(diǎn),以加快數(shù)據(jù)分區(qū)之間的Join操作)技術(shù)等[25]。IuMY等人通過對MapReduce執(zhí)行函數(shù)的分析,對MapReduce查詢進(jìn)行改寫,充分利用SQL數(shù)據(jù)庫的索引、聚集函數(shù)等功能,提高M(jìn)apReduce函數(shù)的執(zhí)行效率[26]。研究了MapReduce架構(gòu)下面向日志處理的連接操作的性能,在100個節(jié)點(diǎn)組成的Hadoop集群上進(jìn)行若干連接技術(shù)的性能研究,包括標(biāo)準(zhǔn)的重新分區(qū)連接方法(standardrepartitionjoin)、改進(jìn)的重新分區(qū)連接方法(improvedrepartitionjoin)、直接連接方法(directedjoin)、廣播連接方法(broadcastjoin)、半連接(semi-join)、基于分片的半連接(per-splitsemi-join)等,為不同應(yīng)用場景下使用不同的連接技術(shù)提供了參考在產(chǎn)業(yè)界,大數(shù)據(jù)在美國也是很前沿的技術(shù),OperaSolutionss公司2008年轉(zhuǎn)向大數(shù)據(jù)服務(wù),目前是典型的大數(shù)據(jù)融合服務(wù)性公司,他本身不擁有數(shù)據(jù),通過購買或者搜集用戶的行為信息為客戶的商業(yè)決策提供精準(zhǔn)的信息,并協(xié)助客戶設(shè)計新產(chǎn)品。SAS公司是全球商業(yè)智能和分析軟件與服務(wù)領(lǐng)袖。全球50000多家企業(yè)都在通過SAS軟件對數(shù)據(jù)進(jìn)行深入挖掘,幫助企業(yè)更快、更準(zhǔn)確地進(jìn)行業(yè)務(wù)決策。SAS在綜合的企業(yè)智能平臺內(nèi)提供一流的數(shù)據(jù)整合、存儲、分析和商業(yè)智能應(yīng)用。國內(nèi)企業(yè)在大數(shù)據(jù)處理技術(shù)上呈現(xiàn)良好勢頭,主要以華為、阿里巴巴、百度為首。華為提供了基于x86服務(wù)器的SmartVision大數(shù)據(jù)處理解決方案[11],催生數(shù)據(jù)基礎(chǔ)架構(gòu)的革新,。在“2012華為云計算大會”上,推出了OceanStorMVX大數(shù)據(jù)存儲解決方案[12],存儲系統(tǒng)是融合了Scale-outNAS、Scale-outDatabase和Scale-outBackup,實現(xiàn)存儲、分析、備份多位一體,面向大數(shù)據(jù)存儲的集群存儲系統(tǒng)。3、關(guān)于大數(shù)據(jù)的應(yīng)用領(lǐng)域2012年6~9月份的時候,IBM公商業(yè)價值研究院和牛津大學(xué)賽德商學(xué)院聯(lián)合開展研究,針對大數(shù)據(jù)的應(yīng)用,對全球95個國家、26個行業(yè)、1144名企業(yè)高管和專業(yè)人士做了調(diào)研。結(jié)果顯示,在全球各行各業(yè)中,企業(yè)高管都意識到自身需要更多地了解大數(shù)據(jù)、使用大數(shù)據(jù)。提到大數(shù)據(jù)的應(yīng)用,首先必須提到的就是阿里巴巴的金融微貸業(yè)務(wù),阿里金融拿到金融執(zhí)照短短幾年時間,到2012年6月份其微貸企業(yè)已經(jīng)達(dá)到12.9萬家企業(yè),貸款總額260億萬元,到2012年年底其服務(wù)的微小企業(yè)已經(jīng)超過20萬家。阿里金融利用網(wǎng)上的客戶信用數(shù)據(jù)與行為數(shù)據(jù),建立網(wǎng)絡(luò)數(shù)據(jù)模型及信用體系。借此給每一個商鋪、每一個店家做信用等級的評分,根據(jù)這個評分阿里金融去發(fā)放微貸,從500塊錢到100萬不等,并開發(fā)了很多業(yè)務(wù)產(chǎn)品,包括訂單貸款、信用貸款等等。阿里金融打破了銀行的傳統(tǒng)做法,不需要抵押,不需要擔(dān)保,只依賴于大數(shù)據(jù),通過大數(shù)據(jù)應(yīng)用和業(yè)務(wù)創(chuàng)新,改變了一個行業(yè),改變了游戲規(guī)則。大數(shù)據(jù)目前在全球已經(jīng)用于各行各業(yè),主要包括金融服務(wù)業(yè)、銀行業(yè)、計算機(jī)行業(yè)、國內(nèi)外的咨詢公司、電商企業(yè)、零售業(yè)等等。下面主要從四個方面闡述大數(shù)據(jù)在不同行業(yè)較成功的應(yīng)用。一是從傳感器、網(wǎng)絡(luò)日志、網(wǎng)上點(diǎn)擊流實時采集下來,制定一些業(yè)務(wù)規(guī)則,實時滿足業(yè)務(wù)規(guī)則的東西摘錄出來,實時判斷。比如某人在一天中打通了20個電話,但不到2分鐘就掛斷了,這個電話可能是欺詐電話,這就是業(yè)務(wù)規(guī)則,當(dāng)下一個電話的數(shù)據(jù)流發(fā)生時,就會自動判斷,這個是一個異常的話單,是一個欺詐的單位,這在電信企業(yè)中已經(jīng)應(yīng)用了。銀行也一樣,開展了信用卡的實時監(jiān)測。另外一種手段是內(nèi)容計算。傳統(tǒng)處理都是數(shù)據(jù)庫表格的方式,而現(xiàn)在要處理內(nèi)容。一是社交媒體跟輿情的分析。首先,從微博、社交媒體中把需要的文檔、文章,通過爬蟲從網(wǎng)上爬下來,放在非結(jié)構(gòu)化的數(shù)據(jù)平臺中,對內(nèi)容進(jìn)行分詞、句法分析、情感分析,同時做一些關(guān)系實體的識別,通過這些內(nèi)容、關(guān)系分析企業(yè)聲譽(yù)度、品牌、服務(wù)質(zhì)量,跟蹤產(chǎn)品評價和市場動態(tài),做企業(yè)層面輿情的監(jiān)控。二是利用360度全景客戶視圖開展?fàn)I銷、銷售。傳統(tǒng)的客戶視圖基于客戶在本企業(yè)的交易數(shù)據(jù),但是新的技術(shù)手段出現(xiàn)后,很多企業(yè)考慮全景的客戶視圖,除了企業(yè)本身的交易數(shù)據(jù)以外,把客戶在社交網(wǎng)絡(luò)上、媒體、交互數(shù)據(jù)上的一些信息集成起來,和原來傳統(tǒng)的數(shù)據(jù)集中在一起,做全景的客戶視圖,全面了解客戶。目前在銀行、電信行業(yè),很多企業(yè)都在做這個事情。360度全景視圖怎么做?利用外部的社交網(wǎng)絡(luò)數(shù)據(jù),對客戶社交網(wǎng)絡(luò)進(jìn)行畫像,對客戶在網(wǎng)絡(luò)上的信息進(jìn)行歸類,有些是客戶的評價討論,有些是客戶的傾向性信息,還有客戶情緒的信息、行為的數(shù)據(jù),全面整合,對客戶進(jìn)行網(wǎng)絡(luò)的畫像。基于這個畫像,企業(yè)可以實現(xiàn)微觀的客戶細(xì)分、營銷活動管理、信譽(yù)風(fēng)險的評估以及競爭對手的分析。三是通過大數(shù)據(jù)開展關(guān)聯(lián)企業(yè)、交易對手風(fēng)險暴露分析和事件監(jiān)測。將交易所、證監(jiān)會、銀監(jiān)會、安全部門、公安部門的監(jiān)管文件,以及新聞、出版物、社交媒體數(shù)據(jù)爬下來,刻畫企業(yè)的社交網(wǎng)絡(luò)圖,實時展示企業(yè)與外界的聯(lián)系。四是客戶的信用風(fēng)險評估。比如花旗銀行本身掌握客戶的很多交易的數(shù)據(jù),同時也會采集客戶的一些外部信息,以及交易對手信息、市場信息、新聞評論,并且把這些數(shù)據(jù)關(guān)聯(lián)起來。當(dāng)客戶貸款時,系統(tǒng)通過模型能自動判斷貸款利率(因為美國的利率是浮動的,這個利率會給信貸員提供參考)。這與阿里金融異曲同工。這方面的應(yīng)用還有很多,比如保險公司獲取客戶體檢的信息以及病歷,從而判斷客戶大概得了什么病,應(yīng)該用什么藥,并把這些結(jié)論提供給醫(yī)生做實時參考。4、大數(shù)據(jù)與云計算結(jié)合的研究云計算受到學(xué)術(shù)界和工業(yè)界的熱捧,隨后,大數(shù)據(jù)橫空出世,更是炙手可熱,經(jīng)常有人把大數(shù)據(jù)和云計算相提并論。大數(shù)據(jù)與云計算確實有一些相同之處。它們都是為數(shù)據(jù)存儲和處理服務(wù)的,都需要占用大量的存儲和計算資源,而且大數(shù)據(jù)用到的海量數(shù)據(jù)存儲技術(shù)、海量數(shù)據(jù)管理技術(shù)、MapReduce等并行處理技術(shù)也都是云計算的關(guān)鍵技術(shù)。但是,大數(shù)據(jù)與云計算也有很多方面的差異。云計算的目的是通過互聯(lián)網(wǎng)更好地調(diào)用、擴(kuò)展和管理計算及存儲資源和能力,以節(jié)省企業(yè)的IT部署成本,其處理對象是IT資源、處理能力和各種應(yīng)用。云計算從根本上改變了企業(yè)的IT架構(gòu),產(chǎn)業(yè)發(fā)展的主要推動力量是存儲及計算設(shè)備的生產(chǎn)廠商和擁有計算及存儲資源的企業(yè)。而大數(shù)據(jù)的目的是充分挖掘海量數(shù)據(jù)中的信息,發(fā)現(xiàn)數(shù)據(jù)中的價值,其處理對象是各種數(shù)據(jù)。大數(shù)據(jù)使得企業(yè)從“業(yè)務(wù)驅(qū)動”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動”,從而改變了企業(yè)的業(yè)務(wù)架構(gòu),其直接受益者不是IT部門,而是業(yè)務(wù)部門或企業(yè)CEO,產(chǎn)業(yè)發(fā)展的主要推動力量是從事數(shù)據(jù)存儲與處理的軟件廠商和擁有大量數(shù)據(jù)的企業(yè)。學(xué)者余從國認(rèn)為云計算和大數(shù)據(jù)實際上是工具與用途的關(guān)系,即云計算為大數(shù)據(jù)提供了有力的工具和途徑,大數(shù)據(jù)為云計算提供了很有價值的用武之地[]。大數(shù)據(jù)若與云計算相結(jié)合,將相得益彰,互相都能發(fā)揮最大的優(yōu)勢。云計算能為大數(shù)據(jù)提供強(qiáng)大的存儲和計算能力,更加迅速地處理大數(shù)據(jù)的豐富信息,并更方便地提供服務(wù);而來自大數(shù)據(jù)的業(yè)務(wù)需求,能為云計算的落地找到更多更好的實際應(yīng)用。評述:大數(shù)據(jù)是指一般的軟件工具難以捕捉、管理和分析的大容量數(shù)據(jù),一般以“太字節(jié)”為單位,大數(shù)據(jù)之“大”,并不僅僅在于“容量之大”,更大的意義在于:通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”。大數(shù)據(jù)大數(shù)據(jù)作為一種重要的戰(zhàn)略資產(chǎn),已經(jīng)不同程度地滲透到每個行業(yè)領(lǐng)域和部門,其深度應(yīng)用不僅有助于企業(yè)經(jīng)營活動,還有利于推動國民經(jīng)濟(jì)發(fā)展。目前,關(guān)于大數(shù)據(jù)的存儲處理技術(shù)研究中有6種數(shù)據(jù)管理技術(shù)普遍被關(guān)注,即分布式存儲與計算、內(nèi)存數(shù)據(jù)庫技術(shù)、列式數(shù)據(jù)庫技術(shù)、云數(shù)據(jù)庫、NoSQL、移動數(shù)據(jù)庫技術(shù)。其中分布式存儲與計算受關(guān)注度最高。參考文獻(xiàn):GantzJ,ReinselD.2011DigitalUniverseStudy:ExtractingValuefromChaos[M].IDCGo-to-MarketService,2011.Nature.BigData[EB/OL].[2012-10-02]./new/special/bigdata/index.htmlBryantRE,KatzRH,LazowskaED.Big-Datacomputing:Creatingrevolutionarybreakthroughsincommerce,science,andsociety[R].[2012-10-02]./ccc/docs/init/Big_Data.PdfScinece.Specicalonlinecollection:Dealingwithdata[EB/OL].[2012-10-02]./site/special/data/,2011AgrawalD,BernsteinP,BertinoE,etal.Challengesandopportunitieswithbigdata-AcommunitywhitepaperdevelopedbyleadingresearchersacrosstheUnitedStates[R/OL].[2012-10-02],/ccc/docs/init/bigdatawhitepaper.pdfManyikaJ,ChuiM,BrownB,etal.Biddata:Thenextfrontierforinnovation,competion,andproductivity[R/OL].[2012-10-02].http://www.M/Insights/MGI/Research/Technology_and_Innovation
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 非營利組織師德師風(fēng)的心得體會
- 汽車銷售公司二手車交易服務(wù)協(xié)議
- 農(nóng)業(yè)領(lǐng)域疫情防控下的廢物管理流程
- 安裝水管勞務(wù)協(xié)議
- 公司名稱變更函在不同領(lǐng)域的應(yīng)用范文
- 環(huán)保工程施工質(zhì)量檢驗計劃
- 2025年證券分析與咨詢服務(wù)項目發(fā)展計劃
- 藥品行業(yè)國際貿(mào)易進(jìn)出口流程標(biāo)準(zhǔn)
- 電力行業(yè)風(fēng)險識別與防范措施
- 2025蘇科版小學(xué)五年級英語口語訓(xùn)練計劃
- 2024年初級統(tǒng)計師《統(tǒng)計專業(yè)知識和實務(wù)》真題
- (新版)制絲操作工(二級)理論考試復(fù)習(xí)題庫-上(單選題匯總)
- 手術(shù)室實踐指南術(shù)中輸血操作護(hù)理課件
- 食品投訴處理培訓(xùn)課件
- 郵政快遞員工培訓(xùn)課件
- 《臨床營養(yǎng)學(xué)》課件
- 被執(zhí)行人生活費(fèi)申請書范文
- 2024年江蘇省鐵路集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 社區(qū)成人血脂管理中國專家共識2024(完整版)
- 老年健康照護(hù)課件
- 西師版小學(xué)三年級下冊數(shù)學(xué)半期試題
評論
0/150
提交評論