




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一章 走進大數據時代主要內容引例何謂大數據大數據的4V特征大數據帶來的思維變革相關案例引例1-電影點球成金布拉德.皮特主演的點球成金是一部美國奧斯卡獲獎影片,所講述的是棒球隊總經理利用計算機數據分析,對球隊進行了翻天覆地的改造,讓一家不起眼的小球隊能夠取得巨大的成功。基于歷史數據,利用數據建模定量分析不同球員的特點,合理搭配,重新組隊。打破傳統思維,通過分析比賽數據,尋找“性價比”最高球員,運用數據取得成功。引例2喬布斯抗癌喬布斯早在20多歲時就已患癌癥并開始擴散,其元兇很可能是電子行業的有毒化學物質。而在他生命的末期,就曾經利用大數據嘗試為自己延長壽命。喬布斯在與癌癥斗爭的過程中采用了不同
2、的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。喬布斯為此支付了幾十萬美元的費用。醫生們可以根據喬布斯特定的DNA為他設計藥物,并觀察藥效,如果由于癌癥的病變導致藥物失效,醫生可以及時的更換藥物,以免延誤最佳治療期。實際上大數據在DNA領域的應用早已展開.谷歌搜索和Google Maps背后的Google Cloud平臺正和遺傳數據機構合作推廣成立Google Genomics項目,打造遺傳分析云服務。云服務的分析工具可以在基因組數據中預測疾病風險的DNA變異。未來,醫生可以定期進入云服務,了解病人基因信息引起各類疾病的風險,或者選擇適合病人的治療方案。引例3谷歌預測流感20
3、09年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,并建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區和州。引例4-Target懷孕預測指數美國一名男子闖入他家附近的一家美國零售連鎖超市Target店鋪(美國第三大零售商塔吉特)進行抗議:“你們竟然給我17歲的女兒發嬰兒尿片和童車的優惠券。”店鋪經理立刻向來者承認錯誤,但是其實該經理并不知道這一行為是總公司運行數據挖掘的結果。一個月后,這位父親來道歉,因為這時他才知道他的女兒的確懷孕了。Target比這位父親
4、知道他女兒懷孕的時間足足早了一個月。Target能夠通過分析女性客戶購買記錄,“猜出”哪些是孕婦。他們從Target的數據倉庫中挖掘出25項與懷孕高度相關的商品,制作“懷孕預測”指數。比如他們發現女性會在懷孕四個月左右,大量購買無香味乳液。以此為依據推算出預產期后,就搶先一步將孕婦裝、嬰兒床等折扣券寄給客戶來吸引客戶購買。 如果不是在擁有海量的用戶交易數據基礎上實施數據挖掘,Target不可能做到如此精準的營銷。何謂大數據何謂大數據何謂大數據何謂大數據大數據(big data)是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。從某種程度上說,大數據是數據分析的前沿技術。
5、維基百科:Big dataBig data is a broad term for data sets so large or complex that traditional data processing applications are inadequate. Challenges include analysis, capture, data curation, search, sharing, storage, transfer, visualization, querying and information privacy. 何謂大數據何謂大數據大數據的4V特征大數據的4V特征大量
6、化(Volume):企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。 大數據的4V特征價值密度低(Value) 價值密度的高低與數據總量的大小成反比。以視頻為例,一部1小時的視頻,在連續不間斷的監控中,有用數據可能僅有一二秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。 大數據的4V特征快速化(Velocity):高
7、速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。大數據的4V特征數據類型繁多(Variety) 這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求
8、。大數據帶來的思維變革大數據帶來的思維變革大數據時代,我們需要什么樣的“新理念”?在思考問題和解決問題的方法上有什么新的特點?大數據帶來的思維變革-數據思維量化決策整合量化思維:一切皆可量化“萬物皆數”是畢達格拉斯學派2000多前的一句名言。數據是指存儲在某種介質上能夠識別的物理符號,是對客觀事物性質和狀態的描述。“量化”就是用一種共性的語言來描述,標識和解釋世界將各種各樣的事,量化后轉換成統計的事,然后應用統計的方法給予解決。將具體的事數量化,這樣的思維就叫量化思維下面的問題測測你的量化思維的能力。一個老財主,臨死時對懷有身孕的老婆說:“將來如果生的是男孩,我的財產的三分之二給他,三分之一給
9、你;如果生的是女孩,三分之二給你,三分之一給她。”后來老婆生了一對龍鳳胎。你認為怎樣分割財產才能不違背老財主的意愿?量化思維:一切皆可量化量化思維:一切皆可量化量化思維:一切皆可量化量化思維:一切皆可量化量化思維:一切皆可量化科學研究范式:庫恩指出:“按既定的用法,范式就是一種公認的模型或模式。” 所謂科學發現的范式是,第一,實驗;第二,理論;第三,模擬;第四,數據挖掘。圖靈獎得主,關系型數據庫的鼻祖吉姆格雷(Jim Gray)也是一位航海運動愛好者。2007年1月28日,他駕駛帆船在茫茫大海中失聯了。而就是17天前的1月11日,在加州山景城召開的NRC-CSTB(National Resea
10、rch Council-Computer Science and Telecommunications Board)大會上,他發表了留給世人的最后一次演講“科學方法的革命”,提出將科學研究分為四類范式(Paradigm,某種必須遵循的規范或大家都在用的套路),依次為實驗歸納,模型推演,仿真模擬和數據密集型科學發現(Data-Intensive Scientific Discovery)。其中,最后的“數據密集型”,也就是現在我們所稱的“科學大數據”。量化思維:一切皆可量化第四科學研究范式幾千年前科學以實驗為主人類最早的科學研究,主要以記錄和描述自然現象為特征,稱為“實驗科學”(第一范式),從原
11、始的鉆木取火,發展到后來以伽利略為代表的文藝復興時期的科學發展初級階段,開啟了現代科學之門。過去數百年受當時實驗條件的限制,難于完成對自然現象更精細的理解。科學家們開始嘗試盡量簡化實驗模型,去掉一些復雜的干擾,只留下關鍵因素(這就出現了我們在學習物理學中“足夠光滑”、“足夠長的時間”、“空氣足夠稀薄”等令人費解的條件描述),然后通過演算進行歸納總結,這就是第二范式。第二研究范式以理論研究為主,這種研究范式一直持續到19世紀末,都堪稱完美,牛頓三大定律成功解釋了經典力學,麥克斯韋理論成功解釋了電磁學,經典物理學大廈美輪美奐。但之后量子力學和相對論的出現,則以理論研究為主,以超凡的頭腦思考和復雜的
12、計算超越了實驗設計,而隨著驗證理論的難度和經濟投入越來越高,科學研究開始顯得力不從心。量化思維:一切皆可量化第四科學研究范式過去數十年20世紀中葉,馮諾依曼提出了現代電子計算機架構,利用電子計算機對科學實驗進行模擬仿真的模式得到迅速普及,人們可以對復雜現象通過模擬仿真,推演出越來越多復雜的現象,典型案例如模擬核試驗、天氣預報等。隨著計算機仿真越來越多地取代實驗,逐漸成為科研的常規方法,即第三范式。今天將理論、實驗和計算模擬統一起來由儀器收集或者計算模擬產生數據由計算機存儲和處理數據科學家通過數據分析挖掘軟件分析數據,發現規律而未來科學的發展趨勢是,隨著數據的爆炸性增長,計算機將不僅僅能做模擬仿
13、真,還能進行分析總結,得到理論。數據密集范式理應從第三范式中分離出來,成為一個獨特的科學研究范式。也就是說,過去由牛頓、愛因斯坦等科學家從事的工作,未來完全可以由計算機來做。這種科學研究的方式,被稱為第四范式。思考:我們可以看到,第四范式與第三范式,都是利用計算機來進行計算,二者有什么區別呢?決策思維:讓數據說話決策模式:直覺驅動的決策:拍腦袋的決策,有隨意性邏輯驅動的決策:基于邏輯分析的推理經驗驅動的決策:用數據說話、用數據來管理、用數據來決策、用數據來創新現代生活中的很多決策在本質上是不確定的,例如,抽獎、保險和天氣預報等等,掌握概率知識,學會以概率的觀點來思考生活中與概率相關的問題,就不
14、會再問一件事是否會發生,而是問其發生的概率。決策思維:讓數據說話概率論和統計學將經驗變成了“科學”數據分布(均勻分布、高斯分布、泊松分布)數據抽樣假設檢驗大數定律決策思維:讓數據說話大數定律在隨機事件的大量重復出現中,往往呈現幾乎必然的規律,這個規律就是大數定律。通俗地說,這個定理就是,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似于它的概率。大數定律通俗一點來講,就是樣本數量很大的時候,樣本均值和真實均值充分接近。例如,在重復投擲一枚硬幣的隨機試驗中,觀測投擲了n次硬幣中出現正面的次數。不同的n次試驗,出現正面的頻率(出現正面次數與n之比)可能不同,但當試驗的次數n越來越大時,出現正面
15、的頻率將大體上逐漸接近于1/2。又如稱量某一物體的重量,假如衡器不存在系統偏差,由于衡器的精度等各種因素的影響,對同一物體重復稱量多次,可能得到多個不同的重量數值,但它們的算術平均值一般來說將隨稱量次數的增加而逐漸接近于物體的真實重量。決策思維:讓數據說話大數定律的假設獨立同分布試驗的次數非常大在很多情況下,這些假設不一定能滿足問題空間的參數太大,訓練數據對問題空間的覆蓋度不大試驗條件在變化,不能滿足獨立同分布決策思維:讓數據說話決策思維:讓數據說話整合思維:跨界的創新Integrative thinking(整合思維):別再只盯著你的一畝三分地,打開眼睛,尋找自己可用的各種資源,整合出解決問
16、題的新方式。“整合思維”就是在面臨困難問題時的應對之策,即運用發散思維,尋找新的解決方案,而非僅局限于從已有的“解決方案清單”中選擇。整合思維:跨界的創新數據孤島的形成技術的原因 歷史的原因 認識的原因比如,要辦一個證,時常就會出現“多部門跑腿”的現象,民眾要跑完這個部門再跑另一個部門。-數據孤島在大數據時代,傳統的政務查詢、社保查詢、醫療教育、水電煤等公共服務將被集成,各政務服務間的信息化壁壘、數據孤島將會消失,政府、企業、研究機構間的數據可實現安全的分享流通、交易交換。因此,隨著大數據的發展,政府首先要進一步把為人民服務的觀念和責任意識落實到實際工作中去,要有數據信息開放思維、數據信息整合
17、思維和數據信息分享思維。從互聯網的角度來看,政府服務優化是沒有止境的。也就是說,不同部門之間要加強服務融合,要加強信息的交換。我們需要用移動互聯網的思維去打造一個指尖上的政府服務體系。正如李克強總理強調的“要讓政府信息多跑路,群眾少跑腿”,我們各級政府應該按照方便辦事、就近服務的原則,充分利用大數據的功能,真正完成向服務型政府轉變的時代要求。整合思維:跨界的創新信息化進程整合思維:跨界的創新信息化3.0云計算解決了計算資源的共享問題大數據技術試圖解決數據的利用問題大數據是由于不同來源的數據匯集而帶來的“跨界”型創新應用云計算Cloud computing is a model for enab
18、ling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction.云計算是一個方便靈活的計算模式,它是按需,可
19、通過網絡進行訪問和使用的計算資源的共享池(例如,網絡、服務器、存儲、應用程序服務),它以用最少的管理付出,與服務供應商有最少的交互的前提下,可以達到將各種計算資源迅速地配置和推出。云計算的特點(1)超大規模。“云”具有相當的規模,Google云計算已經擁有100多萬臺服務器,Amazon、IBM、微軟和Yahoo等公司的“云”均擁有幾十萬臺服務器。“云”能賦予用戶前所未有的計算能力。(2)虛擬化。云計算支持用戶在任意位置、使用各種終端獲取服務。所請求的資源來自“云”,而不是固定的有形的實體。應用在“云”中某處運行,但實際上用戶無需了解應用運行的具體位置,只需要一臺筆記本或一個PDA,就可以通過
20、網絡服務來獲取各種能力超強的服務。(3)高可靠性。“云”使用了數據多副本容錯、計算節點同構可互換等措施來保障服務的高可靠性,使用云計算比使用本地計算機更加可靠。 (4)通用性。云計算不針對特定的應用,在“云”的支撐下可以構造出千變萬化的應用,同一片“云”可以同時支撐不同的應用運行。 (5)高可伸縮性。“云”的規模可以動態伸縮,滿足應用和用戶規模增長的需要。 (6)按需服務。“云”是一個龐大的資源池,用戶按需購買,像自來水、電和煤氣那樣計費。 (7)極其廉價。“云”的特殊容錯措施使得可以采用極其廉價的節點來構成云;“云”的自動化管理使數據中心管理成本大幅降低;“云”的公用性和通用性使資源的利用率
21、大幅提升;“云”設施可以建在電力資源豐富的地區,從而大幅降低能源成本。因此“云”具有前所未有的性能價格比。因此,用戶可以充分享受“云”的低成本優勢,需要時,花費幾百美元、一天時間就能完成以前需要數萬美元、數月時間才能完成的數據處理任務。整合思維:跨界的創新跨界應用比比皆是2014年7月22日,上海。阿里巴巴宣布,和中行、招行、建行等7家銀行深度合作,為中小企業提供基于網商信用的無抵押貸款,最高授信額度為1000萬元阿里將平臺擁有的數萬家企業交易數據開放給銀行,降低銀行貸款風控成本的同時,也為苦于無法自證信用的中小企業提供了第三方擔保。大數據帶來的思維變革-互聯網思維互聯網的發展大數據帶來的思維
22、變革-互聯網思維大數據帶來的思維變革-互聯網思維以客戶為中心:人本思維萬物皆有聯系:關聯思維反壟斷去中心化:平等思維人本思維傳統的信息系統是將業務邏輯作為最重要的內容互聯網應用將客戶作為信息系統最重要的組成部分互聯網應用的核心在于以用戶需求為主導,將用戶思考和用戶體驗做到極致是關鍵所在人本思維有數據顯示,高達92%的顧客相信朋友推薦,有75%的顧客決策前參考社會化評價,70%的顧客相信在線評論。口碑營銷:通過社會媒體各渠道塑造品牌形象,直接影響消費決策。互聯網應用中,最有價值的是社區。為用戶畫像,了解用戶的需求,提供個性化的服務 關聯思維大腦如何記憶:我們會把某種事物特征化,然后將事物與特征彼
23、此關聯。每個事物都關聯了很多個特征,每個特征也同時關聯了很多個事物。大腦會通過這種特征與事物的關聯來進行檢索和思考。其中,事物的特征是可以被編輯的。也就是說,我們對事物的認識越豐富,在事物中甄別出越多的特征,就會越有利于我們的思考與記憶。 例如,聽到下面兩個詞之后,你想到了什么。第一個詞“人行橫道”,第二個詞“非洲”。關聯思維強調數據之間的關聯也很有用,而不去追求數據之間的因果關系。因果關系是最深刻的一類聯系,但是我們很多時候并不能獲得。平等思維平等思維去中心化中心化(Centralization)和去中心化(Decentralization)就是集權與分權,在互聯網上,就是指從我說你聽的廣播模式,向人人有個小喇叭的廣場模式轉變。中心化的典型例子是門戶網站,去中心化的典型例子是blog、UGC、社交媒體等。建立和運維社區是大數據應用的關鍵。在社區中,成員都是平等的。平等思維壟斷vs反壟斷互聯網本質上是反壟斷的技術反壟斷:開源社區信息反壟斷:信息公開是反腐的利器資源反壟斷:開放和標準是有效的辦法平等思維壟斷vs反壟斷平等思維長尾效應從人們需求的角度來看,大多數的需求會集中在頭部,這部分我們可以稱之為流行;而分布在尾部的需求是個性化的、零散的、小
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權】 IEC 63211-3-2:2025 EN Durability test methods for electronic displays - Part 3-2: Mechanical tests - Static stress
- 2025年職場溝通與表達能力測試試卷及答案
- 2025年現代教育理念與實踐考試卷及答案
- 2025年新媒體傳播專業考試試卷及答案
- 2025年人類成長與發展心理學考試試題及答案
- 2025年安全生產管理與職業健康考試試卷及答案
- 2025年全國法律職業考試真題及答案
- 房產公關的社交媒體策略
- 出資合作合同協議書模板
- 招投標與合同管理專項考核試題
- 《紅高粱》典型人物形象分析與影視比較-課件
- 《霧化吸入療法合理用藥專家共識(2024版)》解讀
- 2024-2025學年新教材高中政治 第三單元 全面依法治國 9.1 科學立法教案 部編版必修3
- 2024年新北師大版一年級上冊數學課件 第四單元第7課時 可愛的企鵝
- 烘焙食品廠生產員工手冊
- 2023年湖北數學高考卷-理科(含答案)
- 農業現代化背景下智能種植基地建設方案
- 2024年福建泉州惠安縣互聯網網格員招考聘用(高頻重點復習提升訓練)共500題附帶答案詳解
- 醫院污水處理培訓教學
- 機務維修作風課件講解
- 垃圾清運服務投標方案技術方案
評論
0/150
提交評論