大數據技術與應用_第1頁
大數據技術與應用_第2頁
大數據技術與應用_第3頁
大數據技術與應用_第4頁
大數據技術與應用_第5頁
已閱讀5頁,還剩13頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據概論當移動通信和互聯網給我們帶來的生活方式、思維方式的巨大改變還沒有消退的時候,大數據時代以排山倒海之勢到來,什么是大數據?大數據能為人們帶來哪里益處?大數據如何改變人們的生活、工作和學習?大數據下的政府、企業和過去有什么不同?這一系列的問題困擾著很多人,甚至連一些專家學者也對此迷惘。在人人都談大數據的時代并不是每個人都真正理解大數據的精髓,因此本章給讀者簡單的介紹一下大數據的定義、原理、方法、應用及存在的問題。以后各章將介紹與大數據有關的技術、工具、商業模型及應用案例等,引導讀者逐步深入,了解和掌握大數據的基本知識和技能,為從事大數據及其相關產業打下基礎。1.1大數據的定義大數據(BigData)是指數據量大到用常規工具和方法無法進行處理的蘊含著大量價值的數據集合。因此大數據的核心是價值,數據量大只是大數據的表象,這也是為什么大數據引起業界廣泛關注的重要原因。由此可見,對于大數據的研究和應用主要集中于兩點:一、從技術層面研究大數據的模型及處理算法、開發相應的處理工具等;二、從商業模式層面尋找大數據的商業模型、盈利模式、產業發展等。維克托·邁爾-舍恩伯格和肯尼斯·庫克耶編寫的《大數據時代》中指出大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用對所有數據進行分析處理。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。從該定義看來大數據仍然體現在數據量大和價值兩方面。知名研究機構Gartner對大數據給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。Gartner的定義更多的傾向于大數據的決策優化作用。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有價值的數據進行專業化處理。換言之,如果把大數據比作一種產業,初級或者粗糙的大數據產業主要是提高對數據的“加工能力”,通過“加工”實現數據的“增值”;而更高層次的大數據產業將數據信息產生的價值應用到具體的行業,發揮行業價值,從而實現數據信息價值的倍增。這樣才能真正體現大數據的價值所在。1.2大數據與海量信息的關系在10年前,我們經常聽到一個名詞“海量信息”,用來描述大量數據,這是在信息技術飛速發展的大背景下,數據量增加帶來的現實問題,為此國家在“十一五”期間還加大的對海量信息及其相關技術的研究。下面是國家科技部“973”計劃對信息領域的項目資助指南。“十一五”期間,信息領域基礎研究的發展目標是根據國際信息技術的發展趨勢,結合我國的國情和發展狀況,著重從信息獲取、處理、傳輸、存儲、再現、安全、利用,信息系統的基礎元器件、信息處理環境、科學計算、人工智能、控制理論等方面開展系統深入的研究,為我國信息產業的跨越式發展奠定堅實的理論和技術基礎。

“十一五”期間,重點研究方向包括:

(1)微納集成電路、光電子器件和集成微系統的基礎研究;

(2)信息處理環境及科學計算的基礎研究;

(3)泛在、可控的下一代信息網絡的基礎研究;

(4)信息獲取的基礎研究;

(5)高可信、高效率軟件的基礎研究;

(6)智能信息處理、和諧人機交互的基礎研究;

(7)海量信息處理、存儲及應用的基礎研究;

(8)量子通信的基礎研究;

(9)信息安全的基礎研究從科技部973重大基礎研究計劃資助的領域中可以看出,國家加大了對海量信息的研究力度,這里就產生了一個疑問,大數據大還是海量數據大?二者有何聯系?又有什么區別?海量信息僅僅是從數據量上進行界定,海量數據指數據量巨大,用普通的方法和工具處理起來相對困難,其計算時間和運算量較大,需要開發新的存儲、處理和挖掘等技術才可以進行快速處理。大數據的數據量明顯遠大于海量數據,當然二者沒有嚴格的區分門限,通常意義上講,大數據的數據量要大于海量數據。海量數據的很多分析處理技術可以用于大數據的分析與處理,同樣大數據的相關理論和方法同樣可以用于海量數據。大數據不僅僅從量上進行了分析,而且從本質上進行了定義,突出了其核心價值。因此可以說大數據是海量數據的升級,大數據更突出了數據的本質。既然談到數據量的問題,這里有必要介紹關于數據量的一些常見數量單位。數據的最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(210)來計算:1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes1GB=1,024MB=1,048,576KB1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BB當前用的最多的關于大數據描述的數量級是TB和PB,一般行業或者政府機構的數據基本在PB級上,比如目前某省的農業數據大概有幾百TB到幾十個PB之間,全國的每天產生的交通數據大概是幾個到幾百個TB量級上。因此,如此大量的數據用傳統的數據庫存儲、查詢和處理方式無法實現數據的實時處理,導致時效性大打折扣,甚至不可用,例如在追擊逃犯的時候,需要快速查出犯罪分子的行動路線、推測他可能去的地方等,如果數據處理速度較慢,很容易錯過機會。同樣在商業領域,每天的電子商務交易記錄、顧客瀏覽記錄等都是大量的數據,因此這些數據的處理都需要快速。1.3大數據的來源與特點隨著電子信息技術和互聯網的飛速發展,各種電子設備和數據終端迅速走入尋常百姓家庭,以移動通信發展為代表的手機等客戶端產生大量的數據;以PC為代表的微機時代產生了大量的計算機數據;以數碼相機為代表的電子設備產生大量的視頻、圖片數據;以互聯網為代表的網絡應用產生大量的web數據。因此大數據的產生是源于信息技術的發展和普及。所以遍布全球的物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及各種各樣的傳感器,無一不是數據來源或者承載的方式。大數據的存在形式多種多樣,這也決定了大數據的處理非常困難,需要運用數學、統計學、物理學等知識進行全方位的研究。比如大數據可以是包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據,互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;大規模的電子商務等等。大數據分析相比于傳統的數據庫應用,具有數據量大、查詢分析復雜等特點。大數據的4個“V”是指大數據有四個層面特點:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。如網絡日志、視頻、圖片、音頻、文檔、地理位置信息等等。第三,處理速度快,極短的時間可從各種類型的數據中快速獲得具有較高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。第四,只要合理利用數據并對其進行正確、準確的分析,將會帶來很高的價值回報。因此業界將其歸納為4個“V”——Volume(數據體量大)、Variety(數據類型繁多)、Velocity(處理速度快)、Value(價值密度高)。從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點使該技術引起眾多企業的關注。大數據最核心的價值就是在于對于海量數據進行存儲和分析。相比起現有的其他技術而言,大數據的“廉價、迅速、優化”這三方面的綜合成本是最優的。1.4大數據的用途大數據可分成大數據技術、大數據工程、大數據科學和大數據應用幾個部分。每部分側重點不同,目前人們關注最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系。大數據的應用范圍非常廣,可以說,需要信息的地方就需要大數據。為了便于給讀者直觀的了解,下面簡單的介紹幾個大數據應用場景。第一,利用大數據探索實現信息庫的充實。客戶服務、保險、汽車、醫療、教育、交通和技術標準等行業需要儲備規模巨大的知識庫,而龐大繁雜手冊和知識系統會造成重復查詢,導致系統延遲和成本上升。例如,IBMInfoSphereDataExplore使某全球航空制造商中的技師、支持人員和工程師能夠即時通過單一訪問點查看位于不同應用程序中的信息。部署第一年,該公司全天候支持的呼叫時間從過去的50分鐘縮短為15分鐘,每年節約3600萬美元。第二,利用運營分析實現運營優化。制造、能源、公共事業、電信、旅行和運輸等行業需要時刻關注突發事件、通過大數據分析和視頻監控提升運營效率并預測潛在風險。巴基斯坦移動運營商Ufone部署了IBM大數據解決方案,通過實時識別用戶行為,開展應對特定目標的營銷活動,并使用預測分析來設計更好的營銷活動和電話推廣計劃,有效降低了客戶流失率。第三,利用數據倉庫擴充實現IT效率和規模效益提升。企業需要增強現有數據倉庫基礎架構,實現大容量數據傳輸、低時延、和實時查詢需求,確保有效利用預測分析和商業智能實現企業效益和管理水平的提升。某汽車制造商利用IBMInfoSphereBigInsights增強原有數據倉庫,實現快速部署并且更易于管理。第四,利用安全性和智能擴展實現犯罪防范,實現社會和諧穩定。政府、保險、銀行、消防、教育等行業亟待利用大數據技術補充和加強傳統的安全解決方案。重點人群的監控、重點領域的布防、重要事件的預防和應急燈都需要大數據來實現準確的預測、預防和定位等。秘密情報和監視傳感器系統供應商TerraEchos通過部署IBMInfoSphereStreams,能夠實時分析流式傳輸的聲學數據并對其進行分類,并將實時捕獲和分析275MB聲學數據所需的時間從數小時減少到十四分之一秒,同時大幅提升監控精確度。第五,利用大數據實現廣告的精準推送,由于用戶對垃圾郵件和煩人的廣告比較討厭反感,各國都在加大整治垃圾郵件和非法廣告的力度,而網絡廣告商在收取廣告費用的時候通常是按用戶的點擊數或者鏈接等,而不考慮廣告的效果。商家花出的廣告費卻沒有收到相應的效果,普通用戶收到不需要的廣告會反感,而需要廣告的人未必收到廣告信息。因此如果利用大數據技術,分析客戶的喜好和行為習慣,將廣告精準推送給需要的人,既不會產生垃圾信息,又能使客戶的費用得到合理的使用。由此可見,大數據可以為廣告行業提供精準的服務,提升數據價值。其他應用比如洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。google流感趨勢(GoogleFluTrends)利用搜索關鍵詞預測禽流感的散布。統計學家內特·西爾弗(NateSilver)利用大數據預測2012美國選舉結果。麻省理工學院利用手機定位數據和交通數據建立城市規劃。梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基于SAS的系統對多達7300萬種貨品進行實時調價。Tipp24AG針對歐洲博彩業構建的下注和預測平臺。該公司用KXEN軟件來分析數十億計的交易以及客戶的特性,然后通過預測模型對特定用戶進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉其長久以來在預測分析方面的劣勢。”Laney分析到。PredPolInc.公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數據來預測犯罪發生的幾率,可以精確到500平方英尺的范圍內。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分布下降了33%和21%。經典大數據案例-沃爾瑪經典營銷:啤酒與尿布“啤酒與尿布”的故事產生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難于理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過后續調查發現,這種現象出現在年輕的父親身上。在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來。當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關系的關聯算法,并根據商品之間的關系,找出客戶的購買行為。艾格拉沃從數學及計算機算法角度提出了商品關聯關系的計算方法——Aprior算法。沃爾瑪從上個世紀90年代嘗試將Aprior算法引入到POS機數據分析中,并獲得了成功,于是產生了“啤酒與尿布”的故事。1.5數據價值眾所周知,企業數據本身就蘊藏著價值,但是將有用的數據與沒有價值的數據進行區分看起來可能是一個棘手的問題。顯然,您所掌握的人員情況、工資表和客戶記錄對于企業的運轉至關重要,但是其他數據也擁有轉化為價值的力量。一段記錄人們如何在您的商店瀏覽購物的視頻、人們在購買您的服務前后的所作所為、如何通過社交網絡聯系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其他數據集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。但是屢見不鮮的是,很多公司仍然只是將信息簡單堆在一起,僅將其當作為滿足公司治理規則而必須要保存的信息加以處理,而不是將它們作為戰略轉變的工具。畢竟,數據和人員是業務部門僅有的兩筆無法被競爭對手復制的財富。在善用的人手中,好的數據是所有管理決策的基礎,帶來的是對客戶的深入了解和競爭優勢。數據是業務部門的生命線,必須讓數據在決策和行動時無縫且安全地流到人們手中。所以,數據應該隨時為決策提供依據。看看在政府公開道路和公共交通的使用信息這樣看起來甚至有點晦澀的數據時會發生什么:這些數據來源為一些私營公司提供了巨大的價值,這些公司能夠善用這些數據,創造滿足潛在需求的新產品和服務。企業需要向創造和取得數據方面的投入索取回報。有效管理來自新舊來源的數據以及獲取能夠破解龐大數據集含義的工具只是等式的一部分,但是這種挑戰不容低估。產生的數據在數量上持續膨脹;音頻、視頻和圖像等富媒體需要新的方法來發現;電子郵件、IM、tweet和社交網絡等合作和交流系統以非結構化文本的形式保存數據,必須用一種智能的方式來解讀。但是,應該將這種復雜性看成是一種機會而不是問題。處理方法正確時,產生的數據越多,結果就會越成熟可靠。傳感器、GPS系統和社交數據的新世界將帶來轉變運營的驚人新視角和機會。請不要錯過。有些人會說,數據中蘊含的價值只能由專業人員來解讀。但是澤字節經濟并不只是數據科學家和高級開發員的天下。數據的價值在于將正確的信息在正確的時間交付到正確的人手中。未來將屬于那些能夠駕馭所擁有數據的公司,這些數據與公司自身的業務和客戶相關,通過對數據的利用,發現新的洞見,幫助他們找出競爭優勢。1.6大數據主要分析和處理工具如此大量的數據,靠人工分析顯然是不可能的,統計學家和計算高手也無法完成如此巨大的任務,“工欲善其事,必先利其器”,因此對于大數據的分析和處理,必須有非常好的工具才行,而且不能指望一種工具可以解決所有問題,當前用于分析大數據的工具主要有開源與商用兩個生態圈。開源大數據生態圈:1、HadoopHDFS、HadoopMapReduce、HBase、Hive漸次誕生,早期Hadoop生態圈逐步形成。2、Hypertable是另類。它存在于Hadoop生態圈之外,但也曾經有一些用戶。3、NoSQL,membase、MongoDb商用大數據生態圈:1、一體機數據庫/數據倉庫:IBMPureData(Netezza),OracleExadata,SAPHana等等。2、數據倉庫:TeradataAsterData,EMCGreenPlum,HPVertica等等。3、數據集市:QlikView、Tableau、以及國內的YonghongDataMart。[主要的大數據分析工具有:在大數據處理領域,最耀眼的明星是hadoop,Hadoop已被公認為是新一代的大數據處理平臺,EMC、IBM、Informatica、Microsoft以及Oracle都紛紛投入了Hadoop的懷抱。對于大數據來說,最重要的還是對于數據的分析,從里面尋找有價值的數據幫助企業作出更好的商業決策。下面,我們就來看以下八大關于大數據分析的利器。EMC—Greenplum2010年EMC收購了Greenplum推出EMCGreenplum統一分析平臺(UAP),數據團隊和分析團隊可以在該平臺上無縫地共享信息、協作分析。正因為如此,UAP包括ECMGreenplum關系數據庫、EMCGreenplumHDHadoop發行版和EMCGreenplumChorus。EMC為大數據開發的硬件是模塊化的EMC數據計算設備(DCA),它能夠在一個設備里面運行并擴展Greenplum關系數據庫和GreenplumHD節點。DCA提供了一個共享的指揮中心(CommandCenter)界面,讓管理員可以監控、管理和配置Greenplum數據庫和Hadoop系統性能及容量。隨著Hadoop平臺日趨成熟,預計分析功能會急劇增加。IBM—InfoSphereBigInsights幾年前,IBM開始在其實驗室嘗試使用Hadoop,在2012年5月推出了InfoSphereBigInsights云版本的InfoSphereBigInsights使組織內的任何用戶都可以做大數據分析。云上的BigInsights軟件可以分析數據庫里的結構化數據和非結構化數據,使決策者能夠迅速將洞察轉化為行動。IBM隨后又在10月通過其智慧云企業(SmartCloudEnterprise)基礎架構,將BigInsights和BigSheets作為一項服務來提供。據IBM聲稱,客戶用不了30分鐘就能搭建起Hadoop集群,并將數據轉移到集群里面,數據處理費用是每個集群每小時60美分起價Informatica9.1Informatica公司在2012年10月推出了HParser,這是一種針對Hadoop而優化的數據轉換環境。據Informatica聲稱,軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發人員提供了即開即用的解析功能,以便處理復雜而多樣的數據源,包括日志、文檔、二進制數據或層次式數據,以及眾多行業標準格式(如銀行業的NACHA、支付業的SWIFT、金融數據業的FIX和保險業的ACORD)。正如數據庫內處理技術加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功能,不久會添加其他的數據處理代碼。InformaticaHParser是InformaticaB2BDataExchange家族產品及Informatica平臺的最新補充,旨在滿足從海量無結構數據中提取商業價值的日益增長的需求。去年,Informatica成功地推出了創新的Informatica9.1forBigData,是全球第一個專門為大數據而構建的統一數據集成平臺。惠普——Vertica數據分析平臺惠普Vertica5.0在大數據分析領域站穩腳跟,能提供高效數據存儲和快速查詢的列存儲數據庫實時分析平臺。該數據庫還支持大規模并行處理(MPP)。通過MPP的擴展性可以讓Vertica為高端數字營銷、電子商務客戶(比如AOL、Twitter、Groupon)分析處理的數據達到PB級。惠普展示了一款Vertica設備——VerticaAnalyticsAppliance,和小冰箱差不多大小。它是惠普融合基礎架構中的一款全集成技術棧。通過這款新設備“惠普可以真正打開這個市場,尤其是將分析作為一項服務的市場”。甲骨文—OracleBigDataAppliance甲骨文的BigDataAppliance集成系統包括Cloudera的Hadoop系統管理軟件和支持服務ApacheHadoop和ClouderaManager。甲骨文視BigDataAppliance為包括Exadata、Exalogic和ExalyticsIn-MemoryMachine的“建造系統”。Oracle大數據機(OracleBigDataAppliance),是一個軟、硬件集成系統,在系統中融入了Cloudera的DistributionIncludingApacheHadoop、ClouderaManager和一個開源R。該大數據機采用OracleLinux操作系統,并配備OracleNoSQL數據庫社區版本和OracleHotSpotJava虛擬機。BigDataAppliance為全架構產品,每個架構864GB存儲,216個CPU內核,648TBRAW存儲,每秒40GB的InifiniBand連接。BigDataAppliance售價45萬美元,每年硬軟件支持費用為12%。微軟SQLServer2011年初微軟發布的SQLServerR2ParallelDataWarehouse(PDW,并行數據倉庫),PDW使用了大規模并行處理來支持高擴展性,它可以幫助客戶擴展部署數百TB級別數據的分析解決方案。微軟目前已經開始提供HadoopConnectorforSQLServerParallelDataWarehouse和HadoopConnectorforSQLServer社區技術預覽版本的連接器。微軟在2012年推出了基于Azure云平臺的測試版Hadoop服務,2013年它推出與Windows兼容的基于Hadoop的大數據解決方案(BigDataSolution)。亞馬遜—MapReduce亞馬遜早在2009年就推出了亞馬遜彈性MapReduce(AmazonElasticMapReduce),彈性MapReduce是一項能夠迅速擴展的Web服務,運行在亞馬遜彈性計算云(AmazonEC2)和亞馬遜簡單存儲服務(AmazonS3)上。實現面對數據密集型任務,比如互聯網索引、數據挖掘、日志文件分析、機器學習、金融分析、科學模擬和生物信息學研究,用戶需要多大容量,立即就能配置到多大容量。TeradataTeradata是企業級數據倉庫(EDW)的領導者,在數據庫分析領域不斷推陳出新,該公司購AsterData—高級分析和管理各種非結構化數據領域的市場領導者和開拓者。Teradata日前宣布了一項AsterDataMapReduce產品的計劃,它建立在以往產品同樣的硬件平臺之上,而且在Teradata和AsterData之間新增了兩種集成方法。1.6.1大數據處理流程1、采集定義:利用多種輕型數據庫來接收發自客戶端的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作特點和挑戰:并發系數高使用的產品:MySQL,Oracle,HBase,Redis和MongoDB等,并且這些產品的特點各不相同2、統計分析定義:將海量的來自前端的數據快速導入到一個集中的大型分布式數據庫或者分布式存儲集群,利用分布式技術來對存儲于其內的集中的海量數據進行普通的查詢和分類匯總等,以此滿足大多數常見的分析需求特點和挑戰:導入數據量大,查詢涉及的數據量大,查詢請求多使用的產品:InfoBright,Hadoop(Pig和Hive),YunTable,SAPHana和OracleExadata,除Hadoop以做離線分析為主之外,其他產品可做實時分析3、挖掘定義:基于前面的查詢數據進行數據挖掘,來滿足高級別的數據分析需求特點和挑戰:算法復雜,并且計算涉及的數據量和計算量都大使用的產品:R,HadoopMahout1.7大數據的發展前景2013年5月10日,阿里巴巴集團董事局主席馬云在淘寶十周年晚會上,將卸任阿里集團CEO的職位,并在晚會上做卸任前的演講,馬云說:“大家還沒搞清PC時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了。”大數據正在改變著產品和生產過程、企業和產業,甚至競爭本身的性質。把信息技術看作是輔助或服務性的工具已經成為過時的觀念,管理者應該認識到信息技術的廣泛影響和深刻含義,以及怎樣利用信息技術來創造有力而持久的競爭優勢。無疑,信息技術正在改變著我們習以為常的商業模式,一場關系到企業生死存亡的技術革命已經到來。借著大數據時代的熱潮,微軟公司生產了一款數據驅動的軟件,主要是為工程建設節約資源提高效率。在這個過程里可以為世界節約40%的能源。拋開這個軟件的前景不看,從微軟團隊致力于研究開始,可以看他們的目標不僅是為了節約了能源,更加關注智能化運營。通過跟蹤取暖器、空調、風扇以及燈光等積累下來的超大量數據,捕捉如何杜絕能源浪費。“給我提供一些數據,我就能做一些改變。如果給我提供所有數據,我就能拯救世界。”微軟史密斯這樣說。而智能建筑正是他的團隊專注的事情。隨著全球范圍內個人電腦、智能手機等設備的普及和新興市場內不斷增長的互聯網訪問量,以及監控攝像機或智能電表等設備產生的數據爆增,使數字宇宙的規模在2012到2013兩年間翻了一番,達到驚人的2.8ZB。IDC預計,到2020年,數字宇宙規模將超出預期,達到40ZB。40ZB究竟是個什么樣的概念呢?地球上所有海灘上的沙粒加在一起估計有七萬零五億億顆。40ZB相當于地球上所有海灘上的沙粒數量的57倍。也就是說到2020年,數字宇宙將每兩年翻一番;到2020年,人均數據量將達5,247GB。該報告同時顯示,盡管個人和機器每天產生大量數據,使數字宇宙前所未有地不斷膨脹,但僅有0.4%的全球數據得到了分析。由此可見,大數據的應用幾乎是一塊未被開墾的處女地。云計算云計算(cloudcomputing)是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。云是網絡、互聯網的一種比喻說法。過去在圖中往往用云來表示電信網,后來也用來表示互聯網和底層基礎設施的抽象。因此,云計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這么強大的計算能力可以模擬核爆炸、預測氣候變化和市場發展趨勢。用戶通過電腦、筆記本、手機等方式接入數據中心,按自己的需求進行運算。對云計算的定義有多種說法。對于到底什么是云計算,至少可以找到100種解釋。現階段廣為接受的是美國國家標準與技術研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。念云計算(cloudcomputing)是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。(原文:CloudcomputingisastyleofcomputinginwhichdynamicallyscalableandoftenvirtualizedresourcesareprovidedasaserviceovertheInternet.)美國國家標準與技術研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。XenSystem,以及在國外已經非常成熟的Intel和IBM,各種“云計算”的應用服務范圍正日漸擴大,影響力也無可估量。由于云計算應用的不斷深入,以及對大數據處理需求的不斷擴大,用戶對性能強大、可用性高的4路、8路服務器需求出現明顯提速,這一細分產品同比增速超過200%。IBM在這一領域占有相當的優勢,更值得關注的是,浪潮僅以天梭TS850一款產品在2011實現了超過15%的市場占有率,以不到1%的差距排名IBM,HP之后,成為中國高端服務器三強。2012年浪潮斥資近十億元研發的32路高端容錯服務器天梭K1系統尚未面世,其巨大的市場潛力有待挖掘。原文:Cloudcomputingisamodelforenablingubiquitous,convenient,on-demandnetworkaccesstoasharedpoolofconfigurablecomputingresources(e.g.,networks,servers,storage,applications,andservices)thatcanberapidlyprovisionedandreleasedwithminimalmanagementeffortorserviceproviderinteraction.云計算常與網格計算、效用計算、自主計算相混淆。網格計算:分布式計算的一種,由一群松散耦合的計算機組成的一個超級虛擬計算機,常用來執行一些大型任務;效用計算:IT資源的一種打包和計費方式,比如按照計算、存儲分別計量費用,像傳統的電力等公共設施一樣;自主計算:具有自我管理功能的計算機系統。事實上,許多云計算部署依賴于計算機集群(但與網格的組成、體系結構、目的、工作方式大相徑庭),也吸收了自主計算和效用計算的特點。1983年,太陽電腦(SunMicrosystems)提出“網絡是電腦”(“TheNetworkistheComputer”),2006年3月,亞馬遜(Amazon)推出彈性計算云(ElasticComputeCloud;EC2)服務。2006年8月9日,Google首席執行官埃里克·施密特(EricSchmidt)在搜索引擎大會(SESSanJose2006)首次提出“云計算”(CloudComputing)的概念。Google“云端計算”源于Google工程師克里斯托弗·比希利亞所做的“Google101”項目。2007年10月,Google與IBM開始在美國大學校園,包括卡內基梅隆大學、麻省理工學院、斯坦福大學、加州大學柏克萊分校及馬里蘭大學等,推廣云計算的計劃,這項計劃希望能降低分布式計算技術在學術研究方面的成本,并為這些大學提供相關的軟硬件設備及技術支持(包括數百臺個人電腦及BladeCenter與Systemx服務器,這些計算平臺將提供1600個處理器,支持包括Linux、Xen、Hadoop等開放源代碼平臺)。而學生則可以通過網絡開發各項以大規模計算為基礎的研究計劃。2008年1月30日,Google宣布在臺灣啟動“云計算學術計劃”,將與臺灣臺大、交大等學校合作,將這種先進的大規模、快速將云計算技術推廣到校園。2008年2月1日,IBM(NYSE:IBM)宣布將在中國無錫太湖新城科教產業園為中國的軟件公司建立全球第一個云計算中心(CloudComputingCenter)。2008年7月29日,雅虎、惠普和英特爾宣布一項涵蓋美國、德國和新加坡的聯合研究計劃,推出云計算研究測試床,推進云計算。該計劃要與合作伙伴創建6個數據中心作為研究試驗平臺,每個數據中心配置1400個至4000個處理器。這些合作伙伴包括新加坡資訊通信發展管理局、德國卡爾斯魯厄大學Steinbuch計算中心、美國伊利諾伊大學香賓分校、英特爾研究院、惠普實驗室和雅虎。2008年8月3日,美國專利商標局網站信息顯示,戴爾正在申請“云計算”(CloudComputing)商標,此舉旨在加強對這一未來可能重塑技術架構的術語的控制權。2010年3月5日,Novell與云安全聯盟(CSA)共同宣布一項供應商中立計劃,名為“可信任云計算計劃(TrustedCloudInitiative)”。2010年7月,美國國家航空航天局和包括Rackspace、AMD、Intel、戴爾等支持廠商共同宣布“OpenStack”開放源代碼計劃,微軟在2010年10月表示支持OpenStack與WindowsServer2008R2的集成;而Ubuntu已把OpenStack加至11.04版本中。2011年2月,思科系統正式加入OpenStack,重點研制OpenStack的網絡服務。特點云計算是通過使計算分布在大量的分布式計算機上,而非本地計算機或遠程服務器中,企業數據中心的運行將與互聯網更相似。這使得企業能夠將資源切換到需要的應用上,根據需求訪問計算機和存儲系統。好比是從古老的單臺發電機模式轉向了電廠集中供電的模式。它意味著計算能力也可以作為一種商品進行流通,就像煤氣、水電一樣,取用方便,費用低廉。最大的不同在于,它是通過互聯網進行傳輸的。被普遍接受的云計算特點如下:(1)超大規模“云”具有相當的規模,Google云計算已經擁有100多萬臺服務器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬臺服務器。企業私有云一般擁有數百上千臺服務器。“云”能賦予用戶前所未有的計算能力。(2)虛擬化云計算支持用戶在任意位置、使用各種終端獲取應用服務。所請求的資源來自“云”,而不是固定的有形的實體。應用在“云”中某處運行,但實際上用戶無需了解、也不用擔心應用運行的具體位置。只需要一臺筆記本或者一個手機,就可以通過網絡服務來實現我們需要的一切,甚至包括超級計算這樣的任務。(3)高可靠性“云”使用了數據多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性,使用云計算比使用本地計算機可靠。(4)通用性云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應用,同一個“云”可以同時支撐不同的應用運行。(5)高可擴展性“云”的規模可以動態伸縮,滿足應用和用戶規模增長的需要。(6)按需服務“云”是一個龐大的資源池,你按需購買;云可以像自來水,電,煤氣那樣計費。(7)極其廉價由于“云”的特殊容錯措施可以采用極其廉價的節點來構成云,“云”的自動化集中式管理使大量企業無需負擔日益高昂的數據中心管理成本,“云”的通用性使資源的利用率較之傳統系統大幅提升,因此用戶可以充分享受“云”的低成本優勢,經常只要花費幾百美元、幾天時間就能完成以前需要數萬美元、數月時間才能完成的任務。云計算可以徹底改變人們未來的生活,但同時也要重視環境問題,這樣才能真正為人類進步做貢獻,而不是簡單的技術提升。(8)潛在的危險性云計算服務除了提供計算服務外,還必然提供了存儲服務。但是云計算服務當前壟斷在私人機構(企業)手中,而他們僅僅能夠提供商業信用。對于政府機構、商業機構(特別像銀行這樣持有敏感數據的商業機構)對于選擇云計算服務應保持足夠的警惕。一旦商業用戶大規模使用私人機構提供的云計算服務,無論其技術優勢有多強,都不可避免地讓這些私人機構以“數據(信息)”的重要性挾制整個社會。對于信息社會而言,“信息”是至關重要的。另一方面,云計算中的數據對于數據所有者以外的其他用戶云計算用戶是保密的,但是對于提供云計算的商業機構而言確實毫無秘密可言。所有這些潛在的危險,是商業機構和政府機構選擇云計算服務、特別是國外機構提供的云計算服務時,不得不考慮的一個重要的前提。[應用云物聯“物聯網就是物物相連的互聯網”。這有兩層意思:第一,物聯網的核心和基礎仍然是互聯網,是在互聯網基礎上的延伸和擴展的網絡;第二,其用戶端延伸和擴展到了任何物品與物品之間,進行信息交換和通信。物聯網的兩種業務模式:1.MAI(M2MApplicationIntegration),內部MaaS;2.MaaS(M2MAsAService),MMO,Multi-Tenants(多租戶模型)。隨著物聯網業務量的增加,對數據存儲和計算量的需求將帶來對“云計算”能力的要求:1.云計算:從計算中心到數據中心在物聯網的初級階段,PoP即可滿足需求;2.在物聯網高級階段,可能出現MVNO/MMO營運商(國外已存在多年),需要虛擬化云計算技術,SOA等技術的結合實現互聯網的泛在服務:TaaS(everyTHINGAsAService)。云安全云安全(CloudSecurity)是一個從“云計算”演變而來的新名詞。云安全的策略構想是:使用者越多,每個使用者就越安全,因為如此龐大的用戶群,足以覆蓋互聯網的每個角落,只要某個網站被掛馬或某個新木馬病毒出現,就會立刻被截獲。“云安全”通過網狀的大量客戶端對網絡中軟件行為的異常監測,獲取互聯網中木馬、惡意程序的最新信息,推送到Server端進行自動分析和處理,再把病毒和木馬的解決方案分發到每一個客戶端。十種方法1.密碼優先如果我們討論的是理想的情況的話,那么你的用戶名和密碼對于每一個服務或網站都應該是唯一的,而且要得到許可。理由很簡單:如果用戶名和密碼都是同一組,那么當其中一個被盜了,其它的帳戶也同樣暴露了。2.檢查安全問題在設置訪問權限時,盡量避開那些瞥一眼就能看出答案的問題,例如,Facebook頭像。最好的方法選擇一個問題,而這個問題的答案卻是通過另一個問題的答案。例如,如果你選擇的問題是“小時候住在哪里”,答案最好是“黃色”之類的。3.試用加密方法無論這種方法是否可行,它都不失為一個好的想法。加密軟件需要來自用戶方面的努力,但它也有可能需要你去搶奪代碼憑證,因此沒有人能夠輕易獲得它。4.管理密碼這里講的是,你可能有大量的密碼和用戶名需要跟蹤照管。所以為了管理這些密碼,你需要有一個應用程序和軟件在手邊,它們將會幫助你做這些工作。其中一個不錯的選擇是LastPass。5.雙重認證在允許用戶訪問網站之前可以會有兩中使用模式。因此除了用戶名和密碼之外,唯一驗證碼也是必不可少的。這一驗證碼可能是以短信的形式發送到你的手機上,然后進行登錄。通過這種方法,即使其它人得到了你的憑證,但他們得不到唯一驗證碼,這樣的他們的登錄就會遭到拒絕。6.不要猶豫,立刻備份當涉及到云中數據保護時,人們被告知在物理硬盤上進行數據備份時,這聽起來可能有些奇怪,但這確實是需要你去做的事。這就是為什么需要一遍一遍反復思考;你應該直接在你的外部硬盤上備份數據,并隨身攜帶。7.完成即刪除為什么有都無限的數據存儲選擇時,我們還要找麻煩去做刪除工作呢?原因在于,你永遠不知道有多少數據會變成潛在的危險。如果來自于某家銀行帳戶的郵件或警告信息時間太長,已經失去了價值,那么就刪除它。[4]8.注意登錄的地點有時我們從別人設備上登錄的次數,要比從自己設備上多得多。當然,有進我們也會忘記他人的設備可能會保存下我們的信息,保存在瀏覽器中。9.使用反病毒、反間諜軟件盡管是云數據,但使用這一方法的原因在于你第一次從系統中訪問云。因此,如果你的系統存在風險,那么你的在線數據也將存在風險。一旦你忘記加密,那么鍵盤監聽就會獲得你的云廠商密碼,最終你將失去所有。10.時刻都要管住自己的嘴巴永遠都不要把你的云存儲內容與別人共享。保持密碼的秘密性是必須的。為了附加的保護功能,不要告訴別人你所有使用的廠商或服務是什么。[4]云存儲云存儲是在云計算(cloudcomputing)概念上延伸和發展出來的一個新的概念,是指通過集群應用、HYPERLINK

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論