




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據Bigdata大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據的方法)大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、veracity(真實性)。大數據“大數據”作為時下最火熱的IT行業的詞匯,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。對于“大數據”(Bigdata)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。“大數據”這個術語最早期的引用可追溯到apacheorg的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著谷歌MapReduce和GoogleFileSystem(GFS)的發布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。大數據大數據早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“163大數據”才成為互聯網信息技術行業的流行詞匯。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。大數據大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘(SaaS),但它必須依托云計算的分布式處理、分布式數據庫(PaaS)和云存儲、虛擬化技術(IaaS)。大數據原理隨著云時代的來臨,大數據(Bigdata)也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據(Bigdata)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。大數據原理最小的基本單位是Byte,,
它們按照進率1024(2的十次方)來計算:
1Byte=8bit1KB=1,024Bytes1MB=1,024KB=1,048,576Bytes
1GB=1,024MB=1,048,576KB1TB=1,024GB=1,048,576MB1PB=1,024TB=1,048,576GB1EB=1,024PB=1,048,576TB1ZB=1,024EB=1,048,576PB1YB=1,024ZB=1,048,576EB1BB=1,024YB=1,048,576ZB1NB=1,024BB=1,048,576YB1DB=1,024NB=1,048,576BB大數據原理大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系。物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。有些例子包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務。大數據用途簡而言之,企業可以通過思考數據戰略的總體回報,來應對大數據的挑戰,抓住大數據的機會。Informatica所指的‘數據回報率’,是為幫助高級IT和業務部門領導者進行大數據基本的戰術和戰略含義的討論而設計的一個簡單概念。等式非常簡單:如果您提高數據對于業務部門的價值,同時降低管理數據的成本,從數據得到的回報就會增加--無論是用金錢衡量,還是更好的決策數據回報率=數據價值/數據成本在技術層面,數據回報率為數據集成、數據管理、商業智能和分析方面的投入提供了業務背景和案例。它還與解決業務的基礎有關:掙錢、省錢、創造機會和管理風險。它涉及對效率的考慮,同時推動了改變游戲規則的洞察力。大數據數據回報容量問題這里所說的“大容量”通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。在解決容量問題上,不得不提LSI公司的全新Nytro?智能化閃存解決方案,采用Nytro產品,客戶可以將數據庫事務處理性能提高30倍,并且超過每秒4.0GB1的持續吞吐能力,非常適用于大數據分析。延遲問題“大數據”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。有很多“大數據”應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態介質可擴展存儲系統通過高性能閃存存儲,自動、智能地對熱點數據進行讀/寫高速緩存的LSINytro系列產品等等都在蓬勃發展。大數據相關問題安全問題某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去并不會有這種數據混合訪問的情況,大數據應用催生出一些新的、需要考慮的安全性問題,這就充分體現出利用基于DuraClass?技術的LSISandForce®閃存處理器的優勢了,實現了企業級閃存性能和可靠性,實現簡單、透明的應用加速,既安全又方便。大數據相關問題成本問題對于那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現更高的“效率”,同時還要減少那些昂貴的部件。重復數據刪除等技術已經進入到主存儲市場,而且還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,這種錙銖必較的服務器也只有LSI推出的Syncro?MX-B機架服務器啟動盤設備都能夠獲得明顯的投資回報,當今,數據中心使用的傳統引導驅動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數據中心的獨立服務器引導驅動器,則能將可靠性提升多達100倍。并且對主機系統是透明的,能為每一個附加服務器提供唯一的引導鏡像,可簡化系統管理,提升可靠性,并且節電率高達60%,真正做到了節省成本的問題。大數據相關問題數據的積累許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基于時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。靈活性大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。大數據相關問題應用感知最早一批使用大數據的用戶已經開發出了一些針對應用的定制的基礎設施,比如針對政府項目開發的系統,還有大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025股權質押借款合同模板
- 2025華能海南核電有限公司核電站建設項目環境影響評價合同
- 勞務入股協議書范本合同
- 2025年關于合同訂立程序的兩個特點
- 餐飲部合作合同協議書
- 車子合同協議書模板圖片
- 鋼材采購合同解除協議書
- 理發師合同協議書
- 嵌入式軟件版本發布策略試題及答案
- 家電出售合同協議書范本
- 合同延期協議書的范本
- 2025年四川省成都市武侯區中考道德與法治模擬試卷
- 2024年四川西華師范大學招聘輔導員筆試真題
- 2025年市政工程地下管網試題及答案
- 2025年武漢鐵路局集團招聘(180人)筆試參考題庫附帶答案詳解
- 地球是人類共同的家園課件-地理商務星球版(2024)七年級下冊
- PHPstorm激活碼2025年5月13日親測有效
- 2025屆云南省曲靖市高三第二次教學質量檢測生物試卷(有答案)
- 2022年高考地理試卷(天津)(解析卷)
- 農產品供應鏈應急保障措施
- 《ISO 37001-2025 反賄賂管理體系要求及使用指南》專業解讀和應用培訓指導材料之4:6策劃(雷澤佳編制-2025A0)
評論
0/150
提交評論