




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1章大數據時代
學習任務數據時代
大數據
大數據技術基礎
Clicktoaddtitleinhere123大數據的社會價值
大數據的商業應用45學習任務案例之一:男女嘉賓《非誠勿擾》牽手數據分析61.1數據時代1.1.1大數據時代的到來2012年以來,大數據(bigdata)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。“大數據”在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來互聯網和信息行業的發展而引起人們關注。1.1數據時代統計數據顯示,2015年我國大數據產業規模已達2800億元。截止至2017年我國大數據產業規模增長至4700億,同比增長是30.6%。初步測算2018年我國大數據產業規模達到5400億元左右,同比增長15%。預測在2020年我國大數據產業規模將突破萬億元。
1.1數據時代1.1.2數據、信息與知識的演進1.數據應用的四個步驟
數據里面包含一個很重要的東西,就是“信息(Information)”。信息會包含很多規律,我們需要從信息中將規律總結出來,稱為知識(Knowledge),而知識能改變命運。信息是很多的,但有人看到了信息相當于白看,但有人就從信息中看到了電商的未來,有人看到了直播的未來,所以人家就牛了。如果你沒有從信息中提取出知識,天天看朋友圈也只能在互聯網滾滾大潮中做個看客。1.1數據時代數據的應用分這四個步驟:數據、信息、知識、智慧。1.1數據時代2.數據如何升華為智慧數據的處理分幾個步驟,完成了才最后會有智慧。1.1數據時代(1)第一個步驟第一個步驟叫數據的收集,有兩種方式:
①第一個方式是拿,專業點的說法叫抓取或者爬取。例如搜索引擎就是這么做的:它把網上的所有的信息都下載到它的數據中心,然后你搜索相關內容才能搜索出來。②第二個方式是推送,有很多終端可以幫我收集數據。比如說小米手環,可以將你每天跑步的數據,心跳的數據,睡眠的數據都上傳到數據中心里面。1.1數據時代(2)第二個步驟第二個步驟是數據的傳輸。一般會通過隊列方式進行,因為數據量實在是太大了,數據必須經過處理才會有用。可系統處理不過來,只好排好隊,慢慢處理。(3)第三個步驟第三個步驟是數據的存儲。淘寶、京東、亞馬遜的網站怎么知道你想買什么?就是因為它有你過去的交易的數據,這個信息可不能給別人,十分寶貴,所以需要存儲下來。1.1數據時代(4)第四個步驟第四個步驟是數據的處理和分析。原始數據大多是雜亂無章的,有很多垃圾數據在里面,因而需要清洗和過濾,得到一些高質量的數據。對于高質量的數據,就可以進行分析,從而對數據進行分類,發現數據之間的相互關系,得到知識。比如盛傳的沃爾瑪超市的啤酒和尿布的故事,就是通過對人們的購買數據進行分析,發現了男人一般買尿布的時候,會同時購買啤酒,將啤酒和尿布的柜臺弄的很近,以便促銷相關商品。1.1數據時代(5)第五個步驟第五個步驟是對于數據的檢索和挖掘。檢索就是搜索,就象古書三國演義里描述的,現代社會是是所謂“外事不決問Google,內事不決問百度”。內外兩大搜索引擎都是將分析后的數據放入搜索引擎,因此人們想尋找信息的時候,搜一搜就有了。另外就是挖掘,僅僅搜索出來已經不能滿足人們的要求了,還需要從信息中挖掘出相互的關系。
1.1數據時代通過各種算法挖掘數據中的關系,形成知識庫,十分重要。整體來看,知識的演進層次,可以雙向演進。從噪音中分揀出來數據,轉化為信息,升級為知識,升華為智慧。這樣一個過程,是信息的管理和分類過程,讓信息從龐大無序到分類有序,各取所需。這就是一個知識管理的過程。反過來,隨著信息生產與傳播手段的極大豐富,知識生產的過程其實也是一個不斷衰退的過程,從智慧傳播為知識,從知識普及為信息,從信息變為記錄的數據。1.1數據時代知識、信息與數據的雙向演進1.1數據時代
需要明確的是,大數據分析處理的最終目標,是從復雜的數據集合中發現新的關聯規則,繼而進行深度挖掘,得到有效用的新信息。我們最終目的是從數據到知識,從知識到智慧型的決策,如何從數據中形成智慧是我們今天的目標,見下圖所示。1.1數據時代1.1.3數據時代1.數據的單位一個二進制位稱為一個比特,一般用小寫b表示;而8個二進制位稱一個字節,用大寫B表示。簡言之:1B=8b。計算數據量或數據所需存儲空間大小時,習慣用字節為單位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB約等于10億GB,而1ZB約等于1萬億GB。1.1數據時代假設有一首長為3分鐘的歌曲錄制成MP3文件(44K/320kbps音質),大小約為8MB,那么1ZB的數據存儲空間可存儲MP3格式的140萬億首歌曲,如果全部聽一遍,需要8億多年。計算網絡傳輸速率時習慣上用比特每秒為單位(用b/s表示)。1Pb/S和1Gb/S分別代表1秒鐘傳輸的數據是1P(1000萬億)比特和1G(10億)比特。網絡速率1Gb/S(此處是小寫b)的情況下,下載一個2GB(此處是大寫B)的電影,需要16秒;而網絡速率1Pb/S的情況下,僅需要0.016毫秒。1.1數據時代2.數據類型整體上我們將數據類型分為結構化數據、半結構化數據、非結構化數據。(1)結構化數據結構化數據能夠用數據或統一的結構加以表示,如數字、文字、符號。結構化數據嚴格地遵循數據格式與長度規范,可以是由二維表(有行有列,就像工資表、課程表)結構來邏輯表達和實現。主要通過關系型數據庫進行存儲和管理。1.1數據時代
比如我們做一個職工工資系統,要保存員工基本信息:工號、姓名、應付薪酬、代扣項目等等;我們就會建立一個對應的工資表。1.1數據時代(2)半結構化數據半結構化數據是介于完全結構化數據(如傳統數據庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據,網頁中使用的文檔就屬于半結構化數據。它一般是數據的結構和內容混在一起,沒有明顯的區分。比如存儲員工的簡歷。有的員工的簡歷很簡單,比如只包括教育情況;有的員工的簡歷卻很復雜,比如包括工作情況、婚姻情況、出入境情況、戶口遷移情況、黨籍情況、技術技能等等。還有可能有一些我們沒有預料的信息。1.1數據時代(3)非結構化數據非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括圖像和音頻/視頻信息等等。地圖、圖片、音頻和視頻數據就屬于非結構化數據。在很多知識庫系統中,為了查詢大量積累下來的文檔,需要從PDF、Word、Rtf、Excel和PowerPoint等格式的文檔中提取可以描述文檔的文字,這些描述性的信息包括文檔標題、作者、主要內容等等。這樣一個過程就是非結構化數據的采集過程。1.1數據時代
非結構化數據有如下幾個特點:①有大量的數據需要處理非結構化數據在任何地方都可以得到。這些數據可以在你公司內部的郵件信息、聊天記錄以及搜集到的調查結果中得到,也可以是你對個人網站上的評論、對客戶關系管理系統中的評論或者是從你使用的個人應用程序中得到的文本字段。而且也可以在公司外部的社會媒體、你監控的論壇以及來自于一些你很感興趣的話題的評論。1.1數據時代②蘊藏著大量的價值有些企業現在正投資幾十億美金分析結構化數據,卻對非結構化數據置之不理,在非結構化數據中蘊藏著有用的信息寶庫,利用數據可視化工具分析非結構化數據能夠幫助企業快速地了解現狀、顯示趨勢并且識別新出現的問題。1.1數據時代③不需要依靠數據科學家團隊分析數據不需要一個專業性很強的數學家或數據科學團隊,公司也不需要專門聘請IT精英去做。真正的分析發生在用戶決策階段,即管理一個特殊產品細分市場的部門經理,可能是負責尋找最優活動方案的市場營銷者,也可能是負責預測客戶群體需求的總經理。終端用戶有能力、也有權利和動機去改善商業實踐,并且視覺文本分析工具可以幫助他們快速識別最相關的問題,及時采取行動,而這都不需要依靠數據科學家。1.1數據時代④終端用戶授權正確的分析需要機器計算和人類解釋相結合。機器進行大量的信息處理,而終端客戶利用他們的商業頭腦,在已發生的事實基礎上決策出最好的實施方案。終端客戶必須清楚的知道哪一個數據集是有價值的,他們應該如何采集并將他們獲取的信息更好地應用到他們的商業領域。此外,一個公司的工作就是使終端用戶盡可能地收集到更多相關的數據并盡可能地根據這些數據中的信息做出最好的決策。1.2大數據1.2.1什么是大數據大數據(bigdata)是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新的處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據一般認可的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。1.2大數據
大數據具有4V特征:大量(Volume)、多樣(Variety)、高速(Velocity)、價值(Value)。Volume(數據體量巨大):大量交互數據被記錄和保存,數據規模從TB到PB數量級。Velocity(數據類型繁多):結構化數據、半結構化數據和非結構化數據。Variety(流動速度快):數據自身的狀態與價值隨著時空變化而不斷發生演變。Value(價值巨大但密度低):數據的價值沒有隨數據量的指數增長呈現出同比例上升。1.2大數據大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。據調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。
大數據就是互聯網發展到現今階段的一種表象或特征而已,在以“云計算”為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。1.2大數據
想要系統的認知大數據,必須要全面而細致的分解它,需要著手從三個層面來展開,見圖1.5所示:第一層面是理論,從大數據的特征定義來理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從大數據的現在和未來洞悉大數據的發展趨勢;從大數據隱私的視角審視人和數據之間的長久博弈。1.2大數據第二層面是技術,分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。第三層面是實踐,分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。1.2大數據大數據的三個層面
1.2大數據1.2.2大數據發展歷史與現狀在大數據整個發展過程當中,我們按照進程將它分為4個階段,分別是大數據的萌芽階段、突破階段、成熟階段、應用階段。1.大數據萌芽階段(1980--2008年)1980年[美]著名未來學家阿爾文·托夫勒著的《第三次浪潮》書中將“大數據”稱為“第三次浪潮的華彩樂章”;上世紀末,是大數據的萌芽期,處于數據挖掘技術階段。隨著數據挖掘理論和數據庫技術的成熟,一些商業智能工具和知識管理技術開始被應用。2008年9月英國《自然-Nature》雜志推出了名為“大數據”的封面專欄。1.2大數據2.大數據突破階段(2009--2011年)2009-2010年“大數據”成為互聯網技術行業中的熱門詞匯。2011年6月世界級領先的全球管理咨詢公司麥肯錫發布了關于“大數據”的報告,正式定義了大數據的概念,后逐漸受到了各行各業關注;這個階段非結構化的數據大量出現,傳統的數據庫處理難以應對,也稱非結構化數據階段。1.2大數據3.大數據成熟階段(2012--2016年)隨著2012年《大數據時代》一書出版,“大數據”這一概念乘著互聯網的浪潮在各行各業中扮演了舉足輕重的角色。2013年大數據技術開始向商業、科技、醫療、政府、教育、經濟、交通、物流及社會的各個領域滲透,因此2013年也被稱為大數據元年,大數據時代悄然開啟。1.2大數據4.大數據應用階段(2017--2022年)從2017年開始,大數據已經滲透到人們生活的方方面面,在政策、法規、技術、應用等多重因素的推動下,大數據行業迎來了發展的爆發期。全國至少有已有13個省成立了21家大數據管理機構,同時大數據也成為高校的熱門專業,申報數據科學與大數據技術本科專業的學校達到293所。近年來,數據規模呈幾何級數高速成長。據國際信息技術咨詢企業國際數據公司(IDC)的報告,2020年全球數據存儲量將達到44ZB,到2030年將達到2500ZB。1.2大數據
作為人口大國和制造大國,我國數據產生能力巨大,大數據資源極為豐富。預計到2020年,我國數據總量有望達到8000EB,占全球數據總量的21%,將成為名列前茅的數據資源大國和全球數據中心。據有關統計,截至2019年上半年,我國已有82個省級、副省級和地級政府上線了數據開放平臺,涉及41.93%的省級行政區、66.67%的副省級城市和18.55%的地級城市。1.2大數據1.2.3大數據能做和不能做的事1.大數據可以做到的事情(1)診斷分析
:我們每天都在做這個事情,機器更擅長做這個。當一個事件發生的時候,我們發現對尋找起因感興趣。比如,設想在沙漠A掛起了沙暴,我們有沙漠A地區的各種參數:溫度,氣壓,駱駝,道路,汽車等等。如果我們能將這些參數跟該地區的沙暴聯系起來,如果我們知道一些因果關系,我們可能就會避免沙暴。1.2大數據(2)預測分析:
我們經常做這個事情,預測分析是根植在我們的基因DNA里的。比如,我們在全球有一個酒店連鎖,現在我們需要找出那些酒店是沒有達到銷售目標的。如果我們查出來的話,我們就可以將盡力對它們進行整改。這成為了預測分析的經典問題。(3)在未知元素間尋找關聯:進行分析,在未知元素間尋找關聯。比方說銷售雇員的數量跟銷售額真的沒有關系嗎。你可能會減少一些雇員來看看是否真的對銷售額沒有損失。1.2大數據(4)規范的分析
:這是分析學的未來。比如說我們嘗試著預測一個以大眾為目標的恐怖襲擊,然后安全的將人們轉移的策略。做出這個預測,你需要做出在那個時候那個地點的游客人數,可能會被爆炸所影響到的地區等各種預測。(5)監控發生的事件
:行業中的大部分人都在做監控事件的工作。比如,你需要檢測一個活動的反饋找到強烈和不強烈的部分。這些分析成為運營一個企業的關鍵。1.2大數據2.大數據做不到的事情(1)預測一個確定的未來
:使用機器學習的工具我們可以達到90%的精度。但是我們無法達到100%的準確。如果我們可以做到的話,我可以確切的告訴你誰才是目標以及每一次100%的響應率。但可惜的是這絕不會發生。(2)無法擺脫無聊的數據分析
:在任何分析上,數據處理耗費了大部分時間。相信這就是你的創造力和商業理解的來源。可能的是,你無法擺脫在你的分析中最無聊的部分。1.2大數據(3)找到一個商業問題的創新的解決方案
:創造力是人類永遠的專利。沒有機器可以找到問題的創新的解決方法。這是因為即使是人工智能也是由人們去編碼的產物,創造力是不會從算法自己學習而來的。(4)找到定義不是很明確的問題的解決方法
:分析學最大的挑戰就是從業務問題中形成一個分析問題模型。如果你能做得很好,你正在成為一個分析明星。這種角色是機器無法取代你的。1.2大數據(5)數據管理/簡化新數據源的數據
:隨著數據量的增長,數據的管理正在成為一個難題。我們正在處理各種不同結構化的數據。比如,圖表數據可能更適合網絡分析但是對活動數據是沒用的。這部分信息也是機器無法分析的。1.2大數據1.2.4大數據產業大數據產業是現代新型服務業的一種,其主要內容主要分為三部分:1.數據軟、硬件制造業大數據產業可以認為是信息產業,其主要內容包括一些硬件制造、軟件開發、軟硬件相結合的相關數據服務業,涉及范圍為數據相關軟件制造到數據服務等一系列相關業務。1.2大數據2.數據服務業通常是指用專業知識和技能給客戶提供解決方案的服務業。3.數據內容業數據內容業主要指以信息為主,涉及到市場的各個領域,通常這些領域主要從事數據的整理、采集、加工、傳播等數據服務產業群。1.3大數據技術基礎概念1.3.1傳統的大數據處理流程具體的大數據處理方法其實有很多,但是根據長時間的實踐,總結了一個基本的大數據處理流程,并且這個流程應該能夠對大家理順大數據的處理有所幫助。整個處理流程可以概括為四步,分別是采集、導入和預處理、統計和分析,以及數據挖掘。1.3大數據技術基礎概念1.采集大數據的采集是指利用多個數據庫來接收發自客戶端的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,MongoDB這樣的NoSQL非傳統數據庫也常用于數據的采集。1.3大數據技術基礎概念在大數據的采集過程中,其主要特點和挑戰是并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作。比如火車票售票網站和淘寶,它們并發的訪問量在峰值時達到上百萬,所以需要在采集端進行部署大量數據庫才能支撐。并且要在如何在這些數據庫之間進行負載均衡和分片需要深入的思考和設計。1.3大數據技術基礎概念2.統計/分析統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到Oracle數據庫系統,以及基于MySQL的列式存儲等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。1.3大數據技術基礎概念3.導入/預處理雖然采集端的本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自推特(Twitter)的信息來對數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量通常會達到百兆,甚至千兆級別。1.3大數據技術基礎概念4.數據挖掘與前面統計和分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測的效果,從而實現一些高級別數據分析的需求。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,還有,常用數據挖掘算法都以單線程為主。1.3大數據技術基礎概念1.3.2大數據核心技術
今天我們常說的大數據技術,其實起源于Google在2004年前后發表的三篇論文,也就是我們經常聽到的“三駕馬車”,分別是分布式文件系統GFS、大數據分布式計算框架MapReduce和NoSQL數據庫系統BigTable,見下圖1.6。1.3大數據技術基礎概念大數據平臺1.3大數據技術基礎概念上圖中的所有這些框架、平臺以及相關的算法共同構成了大數據的技術體系,形成大數據技術原理和應用算法構建的完整的知識體系。“三駕馬車”其實就是一個文件系統、一個計算框架、一個數據庫系統。Google的思路是部署一個大規模的服務器集群,通過分布式的方式將海量數據存儲在這個集群上,然后利用集群上的所有機器進行數據計算。這樣,Google其實不需要買很多很貴的服務器,它只要把這些普通的機器組織到一起,就非常厲害了。1.3大數據技術基礎概念當時的天才程序員們啟動了一個獨立的項目專門開發維護大數據技術,這就是后來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統HDFS和大數據計算引擎MapReduce。2012年,美國加州大學伯克利分校開發的Spark開始嶄露頭角,Spark一經推出,立即受到業界的追捧,并逐步替代MapReduce在企業應用中的地位。1.3大數據技術基礎概念一般說來,像MapReduce、Spark這類計算框架處理的業務場景都被稱作批處理計算,因為它們通常針對以“天”為單位產生的數據進行一次計算,然后得到需要的結果,這中間計算需要花費的時間大概是幾十分鐘甚至更長的時間。因為計算的數據是非在線得到的實時數據,而是歷史數據,所以這類計算也被稱為大數據離線計算。1.3大數據技術基礎概念而在大數據領域,還有另外一類應用場景,它們需要對實時產生的大量數據進行即時計算,比如對于遍布城市的監控攝像頭進行人臉識別和嫌犯追蹤。這類計算稱為大數據流計算。流式計算要處理的數據是實時在線產生的數據,所以這類計算也被稱為大數據實時計算。在典型的大數據的業務場景下,數據業務最通用的做法是,采用批處理的技術處理歷史全量數據,采用流式計算處理實時新增數據。1.3大數據技術基礎概念除了大數據批處理和流處理,NoSQL系統處理的主要也是大規模海量數據的存儲與訪問,所以也被歸為大數據技術。2011年前后,NoSQL非常火爆,各種NoSQL數據庫也是層出不群。上面講的這些基本上都可以歸類為大數據引擎或者大數據框架。而大數據處理的主要應用場景包括數據分析、數據挖掘與機器學習。此外,大數據要存入分布式文件系統(HDFS),要有序調度MapReduce和Spark作業執行,并能把執行結果寫入到各個應用系統的數據庫,還需要有一個大數據平臺整合所有這些大數據組件和企業應用系統。1.3大數據技術基礎概念3.3大數據技術分類我們把大數據技術歸納為五大類,如表1.2中所示。(1)基礎架構支持主要包括為支撐大數據處理的基礎架構級數據中心管理、云計算平臺、云存儲設備及技術、網絡技術、資源監控等技術。大數據處理需要擁有大規模物理資源的云數據中心和具備高效的調度管理功能的云計算平臺的支撐。1.3大數據技術基礎概念(2)數據采集技術數據采集技術是數據處理的必備條件,首先需要有數據采集的手段,把信息收集上來,才能應用上層的數據處理技術。數據采集除了各類傳感設備等硬件軟件設施之外,主要涉及到的是數據的ETL(采集、轉換、加載)過程,能對數據進行清洗、過濾、校驗、轉換等各種預處理,將有效的數據轉換成適合的格式和類型。同時,為了支持多源異構的數據采集和存儲訪問,還需設計企業的數據總線,方便企業各個應用和服務之間數據的交換和共享。1.3大數據技術基礎概念(3)數據存儲技術數據經過采集和轉換之后,需要存儲歸檔.針對海量的大數據,一般可以采用分布式文件系統和分布式數據庫的存儲方式,把數據分布到多個存儲節點上,同時還需提供備份、安全、訪問接口及協議等機制。(4)數據計算
我們把與數據查詢、統計、分析、預測、挖掘、圖譜處理、BI商業智能等各項相關的技術統稱為數據計算技術.數據計算技術涵蓋數據處理的方方面面,也是大數據技術的核心。1.3大數據技術基礎概念(5)數據展現與交互
數據展現與交互在大數據技術中也至關重要,因為數據最終需要為人們所使用,為生產、運營、規劃提供決策支持。選擇恰當的、生動直觀的展示方式能夠幫助我們更好地理解數據及其內涵和關聯關系,也能夠更有效地解釋和運用數據,發揮其價值。在展現方式上,除了傳統的報表、圖形之外,我們還可以結合現代化的可視化工具及人機交互手段,甚至是基于最新的如Google眼鏡等增強現實手段,來實現數據與現實的無縫接口。1.3大數據技術基礎概念1.3大數據技術基礎概念1.3.4大數據分析的方法理論越來越多的應用涉及到大數據,這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以,大數據的分析方法是決定最終信息是否有價值的決定性因素。基于此,大數據分析的方法理論有五個基本方面:1.預測性分析能力(PredictiveAnalyticCapabilities)數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。1.3大數據技術基礎概念2.數據質量和數據管理(DataQualityandDataManagement)
數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。3.可視化分析(AnalyticVisualizations)
不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀眾聽到結果。1.3大數據技術基礎概念4.語義引擎(SemanticEngines)
我們知道由于非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。5.數據挖掘算法(DataMiningAlgorithms)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。1.4大數據的社會價值2015年9月,國務院發布《促進大數據發展行動綱要》,其中重要任務之一就是“加快政府數據開放共享,推動資源整合,提升治理能力”,并明確了時間節點:2017年跨部門數據資源共享共用格局基本形成;2018年建成政府主導的數據共享開放平臺,打通政府部門、企事業單位間的數據壁壘,并在部分領域開展應用試點;2020年實現政府數據集的普遍開放,見圖1.7所示。1.4大數據的社會價值1.4大數據的社會價值大數據技術的出現實現了巨大的社會價值,主要表現在如下幾個方面:1、能夠推動實現巨大經濟效益大數據技術的出現能夠推動社會實現巨大經濟效益,比如對中國零售業凈利潤增長的貢獻,降低制造業產品開發、組裝成本等。在2013年全球大數據直接和間接拉動信息技術支出達1200億美元。1.4大數據的社會價值2、能夠推動增強社會管理水平大數據在公共服務領域的應用,可有效推動相關工作開展,提高相關部門的決策水平、服務效率和社會管理水平,產生巨大社會價值。歐洲多個城市通過分析實時采集的交通流量數據,指導駕車出行者選擇最佳路徑,從而改善城市交通狀況。1.4大數據的社會價值3、如果沒有高性能的分析工具,大數據的價值就得不到釋放(1)由于各種原因,所分析處理的數據對象中不可避免地會包括各種錯誤數據、無用數據,加之作為大數據技術核心的數據分析、人工智能等技術尚未完全成熟,所以對計算機完成的大數據分析處理的結果,無法要求其完全準確。例如,谷歌通過分析億萬用戶搜索內容能夠比專業機構更快地預測流感暴發,但由于微博上無用信息的干擾,這種預測也曾多次出現不準確的情況。1.4大數據的社會價值(2)必須清楚定位的是,大數據作用與價值的重點在于能夠引導和啟發大數據應用者的創新思維,輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數據能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。1.5大數據的商業應用1.5.1商業大數據的類型和價值挖掘方法1、商業大數據的類型(1)傳統企業數據:包括CRMsystems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。(2)機器和傳感器數據:包括呼叫記錄,智能儀表,工業設備傳感器,物聯網傳感設備,設備日志,交易數據等。(3)社交數據(Socialdata):包括用戶行為記錄,反饋數據等。如推特(Twitter),臉書(Facebook)這樣的社交媒體平臺。1.4大數據的社會價值2、大數據挖掘商業價值的方法大數據挖掘商業價值的方法主要分為四種:(1)客戶群體細分,為每個群體量定制特別的服務。(2)模擬現實環境,發掘新的需求同時提高投資的回報率。(3)加強部門聯系,提高整條管理鏈條和產業鏈條的效率。(4)降低服務成本,發現隱藏線索進行產品和服務的創新。1.4大數據的社會價值3.傳統商業智能技術與大數據應用的比較傳統的傳統商業智能技術,包括數據挖掘,主要任務是建立比較復雜的數據倉庫模型、數據挖掘模型,來進行分析和處理不太多的數據。由于云計算模式、分布式技術和云數據庫技術的應用,我們不需要這么復雜的模型,不用考慮復雜的計算算法,就能夠處理大數據,對于不斷增長的業務數據,用戶也可以通過添加低成本服務器甚至是PC機也可以處理海量數據記錄的掃描、統計、分析、預測。1.4大數據的社會價值如果商業模式變化了,需要一分為二,那么新商業智能系統也可以很快地、相應地一分為二,繼續強力支撐商業智能的需求。大數據蘊含的商機見下圖。
1.4大數據的社會價值1.5.2大數據給中國帶來的十大商業應用場景在未來的幾十年里,大數據影響著每一個人。大數據沖擊著許多主要行業,包括零售業、金融行業、醫療行業等,大數據也在徹底地改變著我們的生活。1、智慧城市如今,世界超過一半的人口生活在城市里,到2050年這一數字會增長到75%。政府需要利用一些技術手段來管理好城市,使城市里的資源得到良好配置。大數據作為其中的一項技術可以有效幫助政府實現資源科學配置,精細化運營城市,打造智慧城市。1.4大數據的社會價值2、金融行業大數據在金融行業應用范圍較廣,很多金融行業建立了大數據平臺,對金融行業的交易數據進行采集和處理。大數據在金融行業的應用主要應用于精準營銷、風險管控、決策支持、效率提升、金融產品設計等五個方面。3、醫療行業醫療行業擁有大量病例、病理報告、醫療方案、藥物報告等。如果這些數據進行整理和分析,將會極大地幫助醫生和病人。在未來,借助于大數據平臺我們可以收集疾病的基本特征、病例和治療方案,建立針對疾病的數據庫,幫助醫生進行疾病診斷。1.4大數據的社會價值4、農牧業農產品不容易保存,合理種植和養殖農產品對農民非常重要。借助于大數據提供的消費能力和趨勢報告,政府將為農牧業生產進行合理引導,依據需求進行生產,避免產能過剩,造成不必要的資源和社會財富浪費。大數據技術可以幫助政府實現農業的精細化管理,實現科學決策。在數據驅動下,結合無人機技術,農民可以采集農產品生長信息,病蟲害信息。1.4大數據的社會價值5、零售行業零售行業可以通過客戶購買記錄,了解客戶關聯產品購買喜好,將相關的產品放到一起增加產品銷售額。零售行業還可以記錄客戶購買習慣,對于必備生活用品,在客戶即將用完之前,通過精準廣告的方式提醒客戶進行購買。或者定期通過網上商城進行送貨,既幫助客戶解決了問題,又提高了客戶體驗。利用大數據的技術,零售行業將至少會提高30%左右的銷售額,并提高客戶購買體驗。1.4大數據的社會價值6、大數據技術產業進入移動互聯網之后,非結構化數據和結構化數據呈指數方式增長。現在人類社會每兩年產生的數據將超過人類歷史過去所有數據的總量。這些大數據為大數據技術產業提供了巨大的商業機會。據估計全世界在大數據采集、存儲、處理、清晰、分析所產生的商業機會將會超過2000億美金,包括政府和企業在大數據計算和存儲,數據挖掘和處理等方面等投資。未來中國的大數據產業將會呈幾何級數增長,在5年之內,中國的大數據產業將會形成萬億規模的市場。1.4大數據的社會價值7、物流行業物流行業借助于大數據,可以建立全國物流網絡,了解各個節點的運貨需求和運力,合理配置資源,降低貨車的返程空載率,降低超載率,減少重復路線運輸,降低小規模運輸比例。通過大數據技術,及時了解各個路線貨物運送需求,同時建立基于地理位置和產業鏈的物流港口,實現貨物和運力的實時配比,提高物流行業的運輸效率。借助于大數據技術對物流行業進行的優化資源配置,至少可以增加物流行業10%左右的收入,其市場價值將在5000億左右。1.4大數據的社會價值8、房地產業借助于大數據,房地產業可以了解開發土地所在范圍常駐人口數量、流動人口數量、消費能力、消費特點、年齡階段、人口特征等重要信息。這些信息將會幫助房地商在商業地產開發、商戶招商、房屋類型、小區規模進行科學規劃。利用大數據技術,房地產行業將會降低房地產開發前的規劃風險,合理制定房價,合理制定開發規模,合理進行商業規劃。已經有房地產公司將大數據技術應用于用戶畫像、土地規劃、商業地產開發等領域,并取得了良好的效果。1.4大數據的社會價值9、制造業制造業過去面臨生產過剩的壓力,很多產品包括家電、紡織產品、鋼材、水泥、電解鋁等都沒有按照市場實際需要生產,造成了資源的極大浪費。利用電商數據、移動互聯網數據、零售數據,我們可以了解未來產品市場都需求,合理規劃產品生產,避免生產過剩。大數據技術還可以根據社交數據和購買數據來了解客戶需求,幫助廠商進行產品開發,設計和生產出滿足客戶需要的產品。1.4大數據的社會價值10、互聯網廣告業大數據技術可以將客戶在互聯網上的行為記錄下來,對客戶的行為進行分析,打上標簽并進行用戶畫像。利用移動互聯網大數據技術進行的精準營銷將會提高十倍以上的客戶轉化率,廣告行業的程序化購買正在逐步替代廣播式廣告投放。大數據技術將幫助廣告主和廣告公司直接將廣告投放給目標用戶,其將會降低廣告投入,提高廣告的轉化率。1.4大數據的社會價值1.5.3.成為“大數據企業”基于以上分析,企業內部大數據的焦點,在于業務流程信息與知識及溝通信息的融合;企業外部大數據的焦點,在于供應鏈信息與市場及社會環境信息的融合。進而,大數據時代企業組織的基本內涵,在于內部大數據與外部大數據的全方位融合。如下圖所示,大數據企業立足于內外部業務與社交媒體數據的集成交匯。1.4大數據的社會價值大數據企業的內外融合
1.4大數據的社會價值在這四大類型的數據之間,致力于大數據管理的企業可以有兩種不同的發展策略。第一種策略是以社交媒體與業務數據的融合為主導,以期快速發現并應對內外部環境中的變化和機遇。在這種策略下,面向高速數據流的實時數據采集和分析方法,將成為大數據管理的主要支撐手段。1.4大數據的社會價值第二種策略是以內外部數據融合為主導,以期通過全面匯集內外部信息,對中長期發展趨勢做出準確的預判,從而實現高度優化的業務決策,并通過對信息環境的掌控,獲取企業網絡生態系統中的領導地位。在這種策略下,大規模多源異構數據的采集、清洗和整合方法,將成為大數據管理的核心支撐。1.6大數據應用案例之一:
1.6大數據應用案例之一:男女嘉賓《非誠勿擾》牽手數據分析《非誠勿擾》是由中國大陸江蘇衛視制作的一檔以婚戀交友為核心的社會生活服務真人秀節目,于2010年1月15日開播,由江蘇電視臺的新聞節目主持人孟非主持。1.6大數據應用案例之一:
截止到2015年Q3為止,一共做了539期節目,至少1508名女嘉賓和2382名男嘉賓參與節目,成功促成了其中419對牽手男女嘉賓
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房產策劃銷售代理合同
- 小區物業服務合同補充協議
- 櫥柜定制合同范本模版
- 代收貨款合同范本
- 品牌特賣合同范本
- 農資網點合作合同范本
- 運營總監聘用合同范本
- 工地會議制度
- 農村發展對象培訓總結
- 2025文具用品購銷合同范本
- 藥物臨床試驗統計分析計劃書
- 人教版小學五年級數學下冊《第七單元 折線統計圖》大單元整體教學設計2022課標
- 資金支付計劃審批表
- 媒體行業社會責任現狀研究
- 英語-第一冊-第三版-Unit5
- 讀書分享平凡的世界
- 《嬰幼兒健康管理》課件-任務一 家庭對嬰幼兒健康的影響
- 甲狀腺手術甲狀旁腺保護
- 2024年山東濟南中考語文作文分析-為了這份繁華
- 醫院案例剖析之武漢協和醫院:護理人文關懷規范化實踐管理體系的構建與應用
- 帕金森病藥物治療 課件
評論
0/150
提交評論