




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
駕馭大數(shù)據(jù)
(中文版)
目錄
第一部分大數(shù)據(jù)的興起
第1章什么是大數(shù)據(jù),大數(shù)據(jù)為什么重要
1.1什么是大數(shù)據(jù)
1.2大數(shù)據(jù)中的“大”和“數(shù)據(jù)”哪個更重要
L3大數(shù)據(jù)有何不同
1.4大數(shù)據(jù)為何是數(shù)量更多的、相同類型的傳統(tǒng)數(shù)據(jù)
1.5大數(shù)據(jù)的風(fēng)險
1.6你為什么需要駕馭大數(shù)據(jù)
1.7大數(shù)據(jù)的結(jié)構(gòu)
L8探索大數(shù)據(jù)
L9很多大數(shù)據(jù)其實并不重要
1.10有效過濾大數(shù)據(jù)
1.11將大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)混合
1.12對大數(shù)據(jù)標(biāo)準(zhǔn)的需求
1.13今天的大數(shù)據(jù)將不再.是明天的大數(shù)據(jù)
1.14本章小結(jié)
第2章網(wǎng)絡(luò)數(shù)據(jù):原始的大數(shù)據(jù)
2.1網(wǎng)絡(luò)數(shù)據(jù)概觀
2.1.1你遺漏了什么
2.1.2想象各種可能性
2.1.3一個全新的信息來源
2.1.4應(yīng)當(dāng)收集什么數(shù)據(jù)
2.1.5關(guān)于隱私
2.2網(wǎng)絡(luò)數(shù)據(jù)揭示了什么
2.2.1購物行為
2.2.2顧客的購買路徑和偏好
2.2.3研究行為
2.2.4反饋行為
2.3行動中的網(wǎng)絡(luò)數(shù)據(jù)
2.3.1最優(yōu)的推薦商品
2.3.2流失模型
2.3.3響應(yīng)模型
2.3.4顧客分類
2.3.5評估廣告效果
2.4本章小結(jié)
第3章典型大數(shù)據(jù)源及其價值
3.1汽車保險業(yè):車載信息服務(wù)數(shù)據(jù)的價值
3.2多個行業(yè):文本數(shù)據(jù)的價值
3.3多個行業(yè):時間數(shù)據(jù)與位置數(shù)據(jù)的價值
3.4零售制造業(yè):RFID數(shù)據(jù)的價值
3.5電力行業(yè):智能電網(wǎng)數(shù)據(jù)的價值
3.6博彩業(yè):籌碼跟蹤數(shù)據(jù)的價值
3.7工業(yè)發(fā)動機和設(shè)備:傳感器數(shù)據(jù)的價值
3.8視頻游戲:遙測數(shù)據(jù)的價值
3.9電信業(yè)與其他行業(yè):社交網(wǎng)絡(luò)數(shù)據(jù)的價值
3.10本章小結(jié)
第二部分駕馭大數(shù)據(jù):技術(shù)、流程以及方法
第4章分析可擴展性的演進
4.1分析可擴展性的歷史
4.2分析與數(shù)據(jù)環(huán)境的關(guān)聯(lián)性
4.3海量并行處理系統(tǒng)
4.3.1使用MPP系統(tǒng)進行數(shù)據(jù)準(zhǔn)備與評分
4.3.2使用MPP系統(tǒng)進行數(shù)據(jù)準(zhǔn)備與評分小結(jié)
4.4云計算
4.4.1公有云
4.4.2私有云
4.4.3云計算小結(jié)
4.5網(wǎng)格計算
4.6MapReduce
4.6.1MapReduce工作原理
4.6.2MapReduce優(yōu)缺點
4.6.3MapReduce小結(jié)
4.7這不是一個單選題
4.8本章小結(jié)
第5章分析流程的演進
5.1分析沙箱
5.1.1分析沙箱:定義與范圍
5.1.2分析沙箱的好處
5.1.3內(nèi)部分析沙箱
5.L4外部分析沙箱
5.L5混合式分析沙箱
5.1.6不要僅僅使用數(shù)據(jù),而要豐富數(shù)據(jù)
5.1.7系統(tǒng)負載管理和容量規(guī)劃
5.2什么是分析數(shù)據(jù)集
5.2.1兩種分析數(shù)據(jù)集
5.2.2傳統(tǒng)的分析數(shù)據(jù)集
5.3企業(yè)分析數(shù)據(jù)集
5.3.1什么時候創(chuàng)建企業(yè)分析數(shù)據(jù)集
5.3.2企業(yè)分析數(shù)據(jù)集里有什么
5.3.3邏輯結(jié)構(gòu)與物理結(jié)構(gòu)
5.3.4更新企業(yè)分析數(shù)據(jù)集
5.3.5匯總表還是概要視圖
5.3.6分享財富
5.4嵌入式評分
5.4.1嵌入式評分集成
5.4.2模型與評分管理
5.5本章小結(jié)
第6章分析工具與方法的演進
6.1分析方法的演進
6.1.1組合建模
6.1.2簡易模型
6.1.3文本分析
6.1.4跟上分析方法的發(fā)展腳步
6.2分析工具的演進
6.2.1圖形化用戶界面的崛起
6.2.2單點解決方案的興起
6.2.3開源的歷史
6.2.4數(shù)據(jù)可視化的歷史
6.3本章小結(jié)
第三部分駕馭大數(shù)據(jù):人和方法
第7章如何提供優(yōu)質(zhì)分析
7.1分析與報表
7.1.1報表
7.1.2分析
7.2分析的G.R.E.A.T原則
7.2.1導(dǎo)向性(Guided)
7.2.2相關(guān)性(Relevant)
7.2.3可解釋性(Explainable)
7.2.4可行性(Actionable)
7.2.5及時性(Timely)
7.3核心分析方法與高級分析方法
7.4堅持你的分析
7.5正確地分析問題
7.6統(tǒng)計顯著性與業(yè)務(wù)重要程度
7.6.1統(tǒng)計顯著性
7.6.2業(yè)務(wù)重要程度
7.7樣本VS全體
7.8業(yè)務(wù)推斷與統(tǒng)計計算
1.9本章小結(jié)
第8章如何成為優(yōu)秀的分析專家
8.1哪些人是分析專家
8.2對分析專家常見的誤解
8.3每一位優(yōu)秀的分析專家都是獨特的
8.3.1教育
8.3.2行業(yè)經(jīng)驗
8.3.3當(dāng)心“人力資源清單”
8.4優(yōu)秀分析專家身上經(jīng)常被低估的特質(zhì)
8.4.1承諾
8.4.2創(chuàng)造力
8.4.3商業(yè)頭腦
8.4.4演講能力與溝通方法
8.4.5直覺
8.5分析認證有意義嗎,還是干擾視聽的噪音
8.6本章小結(jié)
第9章如何打造優(yōu)秀的分析團隊
9.1各個行業(yè)并非生而平等
9.2行動起來
9.3人才緊縮
9.4團隊組織結(jié)構(gòu)
9.4.1分布式組織結(jié)構(gòu)
9.4.2集中式組織結(jié)構(gòu)
9.4.3混合式組織結(jié)構(gòu)
9.5持續(xù)更新團隊技能
9.5.1矩陣式方法
9.5.2管理人員不能眼高手低
9.6應(yīng)該由誰來做高級分析工作
9.6.1前后矛盾的地方
9.6.2如何幫助剛剛從事分析工作的新手茁壯成長
9.79人員和分析專家為何相處不好
9.8本章小結(jié)
第四部分整合:分析文化
第10章促進分析創(chuàng)新
10.1商I需要更多創(chuàng)新
10.2傳統(tǒng)的方法阻礙了創(chuàng)新
10.3定義分析創(chuàng)新
10.4在創(chuàng)新分析中使用迭代方法
10.5考慮換個角度
10.6你是否為建立分析創(chuàng)新中心做好了準(zhǔn)備
10.6.1組件1:技術(shù)平臺
10.6.2組件2:第三方的產(chǎn)品和服務(wù)
10.6.3組件3:承諾和支持
10.6.4組件4:強大的團隊
10.6.5組件5:創(chuàng)新委員會
10.6.6分析創(chuàng)新中心的指導(dǎo)原則
10.6.7分析創(chuàng)新中心的工作范圍
10.6.8處理失敗
10.7本章小結(jié)
第11章營造創(chuàng)新和探索的文化氛圍
11.1做好準(zhǔn)備
11.LICrocs和Jibbitz的傳說
11.1.2推動創(chuàng)新
11.2關(guān)鍵原則概述
11.2.1原則1:打破思維定勢
11.2.2原則2:形成連鎖反應(yīng)
11.2.3原則3:統(tǒng)一行動目標(biāo)
11.3本章小結(jié)
第一部分
大數(shù)據(jù)的興起
第1章
什么是大數(shù)據(jù),大數(shù)據(jù)為什么重要
在未來幾年中,各種新的、強大的數(shù)據(jù)源會持續(xù)爆炸式地增長,它們將會對高級分析
產(chǎn)生巨大的影響。例如,僅僅依靠人口統(tǒng)計學(xué)和銷售歷史來分析顧客的時代已經(jīng)成為了歷
史。事實上,每一個行業(yè)中,都將出現(xiàn)或者已經(jīng)出現(xiàn)了至少一種嶄新的數(shù)據(jù)源。其中一些
數(shù)據(jù)源被廣泛應(yīng)用于各個行業(yè),而另外一些數(shù)據(jù)源則只對很小一部分行業(yè)和市場具有重大
意義。這些數(shù)據(jù)源都涉及了一個新術(shù)語,該術(shù)語受到人們越來越多的議論,這個術(shù)語便是
----大數(shù)據(jù)。
大數(shù)據(jù)如雨后春筍般地出現(xiàn)在各行各業(yè)中,如果能夠適當(dāng)?shù)厥褂么髷?shù)據(jù),將可以擴大
企業(yè)的競爭優(yōu)勢。如果一個企業(yè)忽視了大數(shù)據(jù),這將會為其帶來風(fēng)險,并導(dǎo)致在競爭中漸
漸落后。為了保持競爭力,企業(yè)必須積極地去收集和分析這些新的數(shù)據(jù)源,并深入了解這
些新數(shù)據(jù)源帶來的新信息。專業(yè)的分析人士將有很多的工作要做!將大數(shù)據(jù)和其他已經(jīng)被
分析了多年的數(shù)據(jù)結(jié)合在一起,并不是一件容易的事情。
本章首先介紹了大數(shù)據(jù)的背景、它的作用,然后從企業(yè)如何利用大數(shù)據(jù)的角度做了大
量介紹。如果讀者想要成功駕馭大數(shù)據(jù)浪潮,那么在理解本書其他部分的同時,需要更深
刻地理解本章內(nèi)容。
1.1什么是大數(shù)據(jù)
關(guān)于大數(shù)據(jù),業(yè)界并沒有一個統(tǒng)一的定義,但卻有幾個一致的觀點。有兩份資料很好
地詮釋了大數(shù)據(jù)的本質(zhì)。第一個定義來自于Gartner公司的MervAdrian在2011年第一
季度刊登在《TeradataMagazine》上的一篇文章。他說,“大數(shù)據(jù)超出了常用硬件環(huán)境和
軟件工具在可接受的時間內(nèi)為其用戶收集、管理和處理數(shù)據(jù)的能力。",另一個定義來自于
麥肯錫全球數(shù)據(jù)分析研究所(MckinseyGlobalInstitute)在2011年5月發(fā)表的一篇論文:
“大數(shù)據(jù)是指大小超出了典型數(shù)據(jù)庫軟件工具收集、存儲、管理和分析能力的數(shù)據(jù)集。
這些定義暗示著大數(shù)據(jù)的界定會隨著技術(shù)的進步而變化。以往的大數(shù)據(jù)或今天的大數(shù)
據(jù),在明天將不再是大數(shù)據(jù)。大數(shù)據(jù)的這個定義會使有些人感到不安。前面的定義又暗示
著大數(shù)據(jù)的界定會隨著行業(yè)甚至企業(yè)的不同而不同,因為它們所用工具和技術(shù)的處理能力
可能大相徑庭。我們將在本章的“今天的大數(shù)據(jù)將不再是明天的大數(shù)據(jù)"一節(jié)中對此展開更
詳細的討論。
麥肯錫的論文中列舉了一些有趣的事實,這些事實能夠幫助讀者認識今天的數(shù)據(jù)量是
多么龐大。
■在今天,花600美元可以買下一個存儲了全球所有音樂的硬盤。
■Facebook每個月都會有300億條新信息被分享。
■在美國17大行業(yè)中的15個行業(yè),每個企業(yè)的平均數(shù)據(jù)量都超過了美國國會圖書
館的數(shù)據(jù)量。,
大數(shù)據(jù)的“大”并不僅僅指容量
盡管大數(shù)據(jù)必然包含大國的數(shù)據(jù),但是大數(shù)格并不僅僅指數(shù)摳的彎里.與過去的數(shù)據(jù)海相比.大數(shù)據(jù)的速度(例如,數(shù)據(jù)傳輸和接收的速度)、4[雜度以及多樣性都有所增加,
大數(shù)據(jù)并不是僅僅指數(shù)據(jù)的容量即數(shù)據(jù)量的大小。根據(jù)GartnerGroup公司的定義,
大數(shù)據(jù)的"大"也涉及大數(shù)據(jù)源的其他特征。.這些特征不僅僅包括不斷增加的容量,還包
括不斷增加的速度和多樣性。當(dāng)然,這些因素也導(dǎo)致了額外的復(fù)雜度。這意味著當(dāng)你在處
理大數(shù)據(jù)時,你并不僅僅是拿到了一堆數(shù)據(jù)而已。大數(shù)據(jù)正在以復(fù)雜的格式,從不同的數(shù)
據(jù)源高速地朝你奔涌而來。
所以,不難理解為什么我們要用浪潮來比喻涌向我們的大數(shù)據(jù),以及為什么駕馭它們
是一個挑戰(zhàn)!企業(yè)的分析技術(shù)、流程和系統(tǒng)已經(jīng)接近或者超越處理的極限了。我們必須利
用最新的技術(shù)和方法開發(fā)更多的分析技術(shù)和流程,從而更加有效地分析和處理大數(shù)據(jù)。在
本書中,我們將討論所有這些主題,論證為什么駕馭大數(shù)據(jù)所付出的努力是值得的。
1.2大數(shù)據(jù)中的“大”和“數(shù)據(jù)”哪個更重要
現(xiàn)在讓我們先做一個小測驗!在你繼續(xù)閱讀之前,請先停下片刻,并思考這個問題:
術(shù)語"大數(shù)據(jù)"中,哪部分是最重要的?是(1)"大",(2)"數(shù)據(jù)",(3)二者同等重要,
還是(4)都不重要?請花一分鐘時間來思考這個問題,如果你已經(jīng)鎖定了自己的答案,
請繼續(xù)閱讀后面的內(nèi)容。同時,想象一下正在播放著“參賽者正在思考”音樂的游戲節(jié)目場
景。
好了,既然你已經(jīng)鎖定了答案,讓我們來看一下它是否正確。這個問題的答案應(yīng)該選
(4),其實“大”和"數(shù)據(jù)”都不是大數(shù)據(jù)中最重要的。根本而言,最重要的應(yīng)該是企業(yè)如
何來駕馭這些大數(shù)據(jù)。你的企業(yè)對大數(shù)據(jù)進行的分析,以及隨之采取的業(yè)務(wù)改進措施才是
最重要的。
無論如何,擁有大量的數(shù)據(jù)本身并不會增加任何價值。也許你擁有的數(shù)據(jù)比我擁有的
數(shù)據(jù)多,可那又如何?事實上,擁有任何一個數(shù)據(jù)集,無論它們多大或者多小,其自身都
不會帶來任何價值。被收集來的數(shù)據(jù)如果從不使用,不會比存放在閣樓或地下室的垃圾更
有價值。如果不投入具體的環(huán)境中并付諸使用,數(shù)據(jù)將毫無意義。對于任何大量或少量的
大數(shù)據(jù),大數(shù)據(jù)的威力體現(xiàn)在如何處理這些數(shù)據(jù)上。如何分析這些數(shù)據(jù)?基于這些洞察又
將采取怎樣的行動?如何利用這些數(shù)據(jù)來改變業(yè)務(wù)?
或許因為讀了很多炒作大數(shù)據(jù)的文章,很多人開始相信正是由于大數(shù)據(jù)的大容量、高
速和多樣性,才使得它們比其他數(shù)據(jù)更具有優(yōu)勢且更重要。但這并不正確。正如我們將在
本章后面“絕大多數(shù)大數(shù)據(jù)并不重要"一節(jié)中所討論的,在很多大數(shù)據(jù)中,毫無價值或者價
值很小的內(nèi)容所占的比例要比以往數(shù)據(jù)源中高得多。當(dāng)你把大數(shù)據(jù)精簡至實際需要的容量
時,它們將不再顯得如此龐大。但這并不重要,因為不管它是保持原始大小,還是被處理
后變得很小,容量并不重要,重要的是如何處理它。
重要的不是它的容量,而是你如何使用它!
當(dāng)然,我£1正在談?wù)摰氖谴笾缕冢∥覀儾⒉魂P(guān)注大數(shù)據(jù)的數(shù)據(jù)吊:很大這樣的平實,也不關(guān)注大致照確實會話來聞名內(nèi)在價(ft的事實,這些價值體現(xiàn)在你如何分析它們,井采取怎樣的措施來提開你的業(yè)務(wù),
當(dāng)我們開始閱讀本書時.,第一個關(guān)鍵點是要記住大數(shù)據(jù)的數(shù)據(jù)量很大,而且大數(shù)據(jù)是
數(shù)據(jù)。然而,這并不是使你和你的企業(yè)為之興奮的原因。令人激動的部分在于,使用這些
數(shù)據(jù)時采用的所有新的、強大的分析方法。后邊我們將討論到大量全新的分析方法。
1.3大數(shù)據(jù)有何不同
大數(shù)據(jù)具有一些區(qū)別于傳統(tǒng)數(shù)據(jù)源的重要特征。并非每個大數(shù)據(jù)源都具備所有這些特
征,但是大多數(shù)大數(shù)據(jù)源都會具備其中的一些特征。
首先,大數(shù)據(jù)通常是由機器自動生成的。在新數(shù)據(jù)的產(chǎn)生過程中,并不會涉及人工參
與,它們完全由機器自動生成。如果你分析一下傳統(tǒng)的數(shù)據(jù)源,它們通常會涉及人工的因
素。例如,零售業(yè)和銀行交易、電話呼叫的詳細記錄、產(chǎn)品出貨,或是發(fā)票付款。以上這
些都會涉及某個人做某些事情,從而記錄或生成一些數(shù)據(jù)。有人需要儲蓄,有人需要采購,
還有人需要打電話、發(fā)貨和進行支付等。在每種情形中,總有一個人參與到新數(shù)據(jù)的生成
流程中。在很多情況下,大數(shù)據(jù)并不是這樣產(chǎn)生的。大量大數(shù)據(jù)源的產(chǎn)生根本不涉及與人
的互動。例如,引擎中內(nèi)置的傳感器,即使沒有人觸摸或下達指令,它也會自動地生成關(guān)
于周圍環(huán)境的數(shù)據(jù)。
其次,大數(shù)據(jù)通常是一種全新的數(shù)據(jù)源,并非僅僅是對已有數(shù)據(jù)的擴展收集。例如,
通過使用互聯(lián)網(wǎng),顧客可以與銀行或零售商進行在線交易。然而,這些交易和傳統(tǒng)的交易
方式并沒有本質(zhì)上的差別,顧客僅僅是通過一種不同的渠道進行交易。企業(yè)可以收集網(wǎng)絡(luò)
交易數(shù)據(jù),但是同他們多年來擁有的傳統(tǒng)交易數(shù)據(jù)相比,這些數(shù)據(jù)僅僅是數(shù)量更多的相同
類型數(shù)據(jù)而已。然而,對顧客在進行交易時的瀏覽行為進行收集,卻產(chǎn)生了一種本質(zhì)上全
新的數(shù)據(jù),我們將在第2章中對這類數(shù)據(jù)進行詳細的討論。
有時,"數(shù)量更多的相同類型數(shù)據(jù)"也可以達到另一個極端,從而變成一種新的數(shù)據(jù)。
例如,或許很多年來都是人工方式讀取你的電表。可以這樣說,一個每隔15分鐘自動讀
取用電數(shù)據(jù)的智能電表所產(chǎn)生的僅僅是更多“相同類型的數(shù)據(jù)”。然而,我們也有理由認為
這種“數(shù)量更多的相同類型數(shù)據(jù)“已經(jīng)不同于以前人工讀取的數(shù)據(jù),因為它可以使用一種全
新的、更深層次的分析,所以它確實是一種新數(shù)據(jù)源。我們將在第3章討論這種數(shù)據(jù)源。
再次,很多大數(shù)據(jù)源的設(shè)計并不友好。事實上,一些數(shù)據(jù)源根本沒有被設(shè)計過!以社
交媒體網(wǎng)站上的文本流為例,我們不可能要求用戶使用一定標(biāo)準(zhǔn)的語法、語序或是詞匯表。
當(dāng)人們發(fā)布信息時.,你可以獲得這些數(shù)據(jù)。處理這些時而規(guī)范,時而丑陋的數(shù)據(jù)是非常困
難的事情。我們將在第3章和第6章中討論文本數(shù)據(jù)。大多數(shù)傳統(tǒng)數(shù)據(jù)源在設(shè)計之初都
會盡量使其友好。例如,用于收集交易信息的系統(tǒng)通常會以整潔的、預(yù)先規(guī)范好的模板方
式來生成數(shù)據(jù),以確保數(shù)據(jù)容易被加載和使用。部分原因在于曾經(jīng)對空間高效利用的需求,
以前并沒有空間記錄其他的繁文緡節(jié)。
大數(shù)據(jù)可能是凌亂而丑陋的
傳統(tǒng)數(shù)據(jù)臊通常在最開始就被嚴格她定義.數(shù)據(jù)的每?介比特都有函要的價值,否則就不會包含這個數(shù)據(jù)比特,隨著存儲空間的開悄變得微乎浜微,大數(shù)摳源在址開始通常不會被嚴格地定義,而是去收集所有
可使使用到的各種愷息,Wit,在分析大數(shù)推時,可能會?刎各種雜亂無章、充斥新垃圾的數(shù)據(jù),
最后,大量數(shù)據(jù)可能并不蘊含大量的價值。事實上,大部分數(shù)據(jù)甚至毫無價值。一篇
網(wǎng)頁日志中會含有非常重要的數(shù)據(jù),但其中也包含了很多根本沒有價值的數(shù)據(jù)。對其進行
提煉,從而保留有價值的部分是非常必要的。傳統(tǒng)數(shù)據(jù)源在定義之初,就被要求所有的數(shù)
據(jù)要百分之百有用。這主要是由于當(dāng)時可擴展性的限制,在數(shù)據(jù)中包含一些不重要信息的
代價是非常昂貴的。不僅數(shù)據(jù)記錄的格式被預(yù)先定義過了,而且數(shù)據(jù)中的每一部分都包含
了重要價值。而如今,存儲空間已不再是主要的瓶頸。因此,大數(shù)據(jù)會默認收集所有可能
使用到的信息,后面再去考慮這種做法可能帶來的麻煩。這樣可以保證所有信息都不會被
遺漏,但同時也導(dǎo)致了分析大數(shù)據(jù)變得更加棘手和令人頭痛。
1.4大數(shù)據(jù)為何是數(shù)量更多的、相同類型的傳統(tǒng)數(shù)據(jù)
作為一個獲得了大量關(guān)注的新熱點,各種關(guān)于大數(shù)據(jù)的言論接踵而至:大數(shù)據(jù)如何從
根本上改變完成分析和使用大數(shù)據(jù)的方法。如果花一些時間去思考這個問題,你會發(fā)現(xiàn)事
實并不是這樣的。這又是一個被炒作得遠離了事實的例子。
大數(shù)據(jù)的龐大和它們所提出的可擴展性問題并不是一個新話題。大多數(shù)新數(shù)據(jù)源在第
一次使用時都會被認為是龐大而難以使用的。大數(shù)據(jù)僅僅是又一波新的、更大的、突破了
當(dāng)前極限的數(shù)據(jù)\分析專家能夠駕馭傳統(tǒng)的數(shù)據(jù)源,雖然存在瓶頸限制,他也將能夠駕馭
大數(shù)據(jù)源。畢竟一直以來,分析專家都在積極努力地探索新的數(shù)據(jù)源,并將繼續(xù)探索下去。
誰是第一個開始在電信公司中分析電話詳細記錄的人?正是分析專家。我的第一份工
作是做大型機磁帶的客戶流失分析。在當(dāng)時;該分析的數(shù)據(jù)量是令人難以置信的。誰是第
一個深入研究零售點銷售數(shù)據(jù)并找出其中價值的人?是分析專家。起初,分析幾千個商店
中幾萬到幾十萬個商品的數(shù)據(jù)被認為是一個大難題。而如今,這已經(jīng)不再是什么難題。
最早涉足這些數(shù)據(jù)源的分析專家在當(dāng)時都會被認為是在處理無法想象的大量數(shù)據(jù)。他
們必須找出在當(dāng)時的瓶頸下分析和利用這些數(shù)據(jù)的方法。很多人懷疑其可行性,還有些人
甚至質(zhì)疑這些數(shù)據(jù)是否真的有價值。這聽起來很像是今天大數(shù)據(jù)的情形,難道不是嗎?
大數(shù)據(jù)并不會改變分析專家們正在努力做的事情和他們這樣做的原因。即使有些人開
始自稱為數(shù)據(jù)科學(xué)家而非分析專家,他們的目標(biāo)其實還是一樣的。這些待解決的問題必然
會涉及大數(shù)據(jù),這和以前的情景沒什么兩樣。最終,就像他們一直以來所做的事情,分析
專家和數(shù)據(jù)科學(xué)家們還是會去探索新的、無法想象的龐大數(shù)據(jù)集,以發(fā)現(xiàn)一些有價值的趨
勢和模式。在本書中,我們會將傳統(tǒng)分析專家和數(shù)據(jù)科學(xué)家統(tǒng)一稱為“分析專家”。我們將
在第7、8、9章更詳細地討論這些專家。在這里要強調(diào)的是,大數(shù)據(jù)雖然聽起來很陌生,
但是對我們來說,它帶來的挑戰(zhàn)其實并不陌生。
你沒有什么可畏懼的
從很多方面來講,大數(shù)據(jù)并沒有產(chǎn)生任何你的企業(yè)從未遇到過的何超.在數(shù)據(jù)分析的世界里,與敘新的、突破了當(dāng)前可擴展性極限的大數(shù)據(jù)源是永怛的主題.大數(shù)據(jù)僅僅是下一代的此類數(shù)據(jù)而已.分析師時r
處理這些狀況已設(shè)非常熟悉了.如果你的企業(yè)抑經(jīng)駕馭過此他數(shù)摳,那么它同樣可以駕馭大數(shù)據(jù)
大數(shù)據(jù)會改變分析專家的一些工作策略。為了更有效地處理大數(shù)據(jù)流,需要將新的工
具、方法、技術(shù)和傳統(tǒng)的分析工具結(jié)合起來。想要從原始大數(shù)據(jù)流中提煉出有用信息,需
要開發(fā)復(fù)雜的過濾算法。同時.,建模和預(yù)測流程也需要更新,我們需要將大數(shù)據(jù)輸入添加
到現(xiàn)有輸入中。我們將在第4、5、6章更多地討論這些話題。
工作策略的轉(zhuǎn)變并不會從根本上改變分析的目標(biāo)和流程。大數(shù)據(jù)必將催生出新的、創(chuàng)
新性的分析方法,并且促使分析專家們繼續(xù)在擴展性的瓶頸下進行革新。然而,對大數(shù)據(jù)
的處理不會和分析專家們以前所做的事情有太大差別。他們已經(jīng)準(zhǔn)備好了迎接這個挑戰(zhàn)。
1.5大數(shù)據(jù)的風(fēng)險
大數(shù)據(jù)會帶來一些風(fēng)險。其中一個風(fēng)險是企業(yè)可能會被大數(shù)據(jù)壓得不堪重負,從而停
滯不前。正如我們將在第8章中討論的,關(guān)鍵是要有合適的掌舵人來保證這些不會發(fā)生。
你需要這些掌舵人去征服大數(shù)據(jù),并處理各種問題。有了他們來處理問題,企業(yè)可以避免
陷入泥沼而無法前行。
另一個風(fēng)險是當(dāng)收集如此龐大的大數(shù)據(jù)時,其成本的增長速度會快到令企業(yè)措手不及。
和處理其他事物的方法一樣,避免這種情況出現(xiàn)的方法是要保證以適當(dāng)?shù)牟椒デ斑M,使得
企業(yè)能夠及時跟上。沒有必要從明天開始行動,一條不漏地收集所有的新數(shù)據(jù)。而應(yīng)當(dāng)立
即去做的是,開始收集一些新數(shù)據(jù)源的樣本并試圖了解它們。可以使用這些初始樣本進行
一些實驗分析,從而弄清楚數(shù)據(jù)源中哪些數(shù)據(jù)是重要的,以及如何使用它們。以樣本數(shù)據(jù)
為基礎(chǔ),企業(yè)已經(jīng)做好了有效地處理更大規(guī)模數(shù)據(jù)源的準(zhǔn)備。
對于很多大數(shù)據(jù)源,其最大的風(fēng)險或許是隱私。如果世界上的每個人都是善良和誠實
的,那么我們就沒有必要去擔(dān)心隱私問題了。但不是每個人都是善良和誠實的。事實上,
進一步講,還有很多并不善良和誠實的公司,甚至有的政府機構(gòu)都不善良和誠實。這使得
大數(shù)據(jù)存在一些潛在的風(fēng)險。在處理大數(shù)據(jù)時,必須考慮到隱私問題,否則就無法完全發(fā)
揮其潛能。如果沒有適當(dāng)?shù)南拗疲髷?shù)據(jù)有可能會激發(fā)一股抗議風(fēng)潮,以至于可能會被完
全禁止。
回想一下最近受到廣泛關(guān)注的一些安全性事件,例如,信用卡卡號和政府機密文件被
竊取并發(fā)布在網(wǎng)上的泄密事件。因此毫不夸張地說,如果把數(shù)據(jù)儲存在那里,總會有人試
圖去偷取它。一旦壞人拿到了這些數(shù)據(jù),他們一定會利用這些數(shù)據(jù)去做壞事。已經(jīng)有過幾
起倍受矚目的案件,一些大公司由于其含糊不明的隱私政策而陷入麻煩之中。由于數(shù)據(jù)是
以一種顧客不知情、不支持的方式被使用的,因此會產(chǎn)生沖突。隨著大數(shù)據(jù)的爆炸式增長,
必須同時對其使用自我約束和施加法律約束。
自我約束非常關(guān)鍵,畢竟它表明了行業(yè)對隱私保護的關(guān)注程度。每個行業(yè)都應(yīng)該對自
身進行約束,并且制定一些所有人都要遵守的法則。自愿接受的法則通常要比政府機構(gòu)參
與制定的法規(guī)效果更好一些,但約束力要更差一些,這是因為行業(yè)并不善于約束自身。
隱私是大數(shù)據(jù)的一個大問題
在大數(shù)據(jù)源的眾影微礴特性中,融私一直是?個焦點,?只數(shù)據(jù)放在那里.,總有些不誠實的人會在未得剌你授權(quán)的情況下,試圖以未經(jīng)你批準(zhǔn)的方式使用它K1.而于大數(shù)據(jù)的處理、存儲和應(yīng)用,然要行相應(yīng)的
政策和協(xié)議與當(dāng)前的分析能力兀配.確保在制訂公司的隱私策略時考慮冏金?以保證你的做法完全滿門和透明.
人們已經(jīng)開始擔(dān)憂他們的網(wǎng)頁瀏覽歷史是如何被跟蹤到的。同樣還有很多擔(dān)憂是關(guān)于
通過手機應(yīng)用和GPS系統(tǒng)跟蹤個人位置和操作行為的。惡意使用大數(shù)據(jù)是完全有可能的,
而一旦其成為可能,便總會有人去嘗試。因此,需要采取必要措施以防止這種事情的發(fā)生。
企業(yè)需要澄清它們是如何保證數(shù)據(jù)安全的,并且如果用戶同意其數(shù)據(jù)被收集和分析,它們
將如何使用這些數(shù)據(jù)。
1.6你為什么需要駕馭大數(shù)據(jù)
目前為止,很多企業(yè)在大數(shù)據(jù)上所做的事情還非常少。幸運的是,在2012年,如果
你的企業(yè)還沒重視大數(shù)據(jù),你們落后得還不算很遠,除非你是在電子商務(wù)這樣的行業(yè)(在
這些行業(yè)中,大數(shù)據(jù)分析已經(jīng)被標(biāo)準(zhǔn)化了)。然而,隨著勢頭的飛快增長,這種情況會很
快改變。迄今為止,大部分企業(yè)所錯過的僅僅是做領(lǐng)導(dǎo)者的機會。事實上,這對于很多企
業(yè)來說并不是什么問題。今天,它們?nèi)杂袡C會迎頭趕上。然而再過幾年,如果一家企業(yè)還
沒有分析大數(shù)據(jù),那么它在這場游戲中將很難再趕上別的企業(yè)。駕馭大數(shù)據(jù)最好的時機正
是現(xiàn)在!
一家企業(yè)完全可以借助新的數(shù)據(jù)源來獲取業(yè)務(wù)價值,而其競爭對手卻沒有做同樣的事
情,這種情況并不常見。這是如今大數(shù)據(jù)所帶來的巨大商機,你將有機會超過你的競爭對
手并擊敗它們。在未來幾年內(nèi),我們將會繼續(xù)看到通過大數(shù)據(jù)分析進行成功業(yè)務(wù)轉(zhuǎn)型的案
例。你將會從很多案例分析中看到,競爭對手是如何被猝不及防地拋進歷史的塵埃中。在
很多文章、會議以及其他的討論中,已經(jīng)有很多此類案例引人矚目。一些案例正是來自于
行業(yè)中那些遲鈍、落后以及守舊的企業(yè)。在電子商務(wù)這樣新興而火爆的行業(yè)中,情況則完
全兩樣。在第2章和第3章中,我們將會看到很多如何使用大數(shù)據(jù)的案例。
現(xiàn)在正是時候!
你的企業(yè)密集從現(xiàn)在開始與敘大數(shù)據(jù),如果迄今為止,你我都在忽視大數(shù)據(jù),那么你所播過的只是當(dāng)繚導(dǎo)老的機會,你仍為機會可以迎頭趕上。冉過幾年,如果你還在袖手旁觀,那么你將會被淘汰,如果你
的企業(yè)已經(jīng)開始相平收集數(shù)據(jù),并通過分析進行決策,那么對于你們來說,跟上大致推的步伐并不是一件分張的事,機處理大數(shù)據(jù)僅僅是你現(xiàn)在所做m情的藺單延伸.
事實上,下決心開始駕馭大數(shù)據(jù)并不是一件困難的事情。大多數(shù)企業(yè)已經(jīng)開始著手收
集和分析數(shù)據(jù),并將其作為其戰(zhàn)略的核心部分。數(shù)據(jù)倉庫、報表和分析已經(jīng)開始普及。一
家企業(yè)一旦開始認識到數(shù)據(jù)的價值,那么駕馭和分析大數(shù)據(jù)僅僅是它們現(xiàn)有工作的擴展和
延伸。不要輕信懷疑論者的言論:大數(shù)據(jù)不值得探索,它們沒有得到驗證,它們風(fēng)險太大
等。在過去的幾十年里,這些同樣的借口一直在阻撓著數(shù)據(jù)分析的進步。對于那些對大數(shù)
據(jù)感到不確定或是不安的人,要讓他們明白大數(shù)據(jù)僅僅是企業(yè)現(xiàn)在所做事情的簡單延伸。
大數(shù)據(jù)并沒有任何翻天覆地的變化,大數(shù)據(jù)沒有什么讓我們可畏懼的。
1.7大數(shù)據(jù)的結(jié)構(gòu)
當(dāng)你閱讀大數(shù)據(jù)的相關(guān)文章時,你可能會遇到很多關(guān)于以下概念的討論,數(shù)據(jù)如何被
結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化,甚至多結(jié)構(gòu)化。大數(shù)據(jù)通常被描述為非結(jié)構(gòu)化的,而傳統(tǒng)
數(shù)據(jù)則是結(jié)構(gòu)化的。然而它們之間的界限并不像這些標(biāo)簽所劃分的那么清楚。讓我們以非
專家的視角來探討這3種數(shù)據(jù)類型,更高深的技術(shù)細節(jié)超出了本書討論的范疇。
絕大多數(shù)傳統(tǒng)數(shù)據(jù)都是完全結(jié)構(gòu)化的。這意味著傳統(tǒng)數(shù)據(jù)源會以明確的、預(yù)先規(guī)范好
所有細節(jié)的格式呈現(xiàn)。每時每刻所產(chǎn)生的新數(shù)據(jù),都不會違背這些預(yù)先定義好的格式。對
于股票交易,其交易信息的第一部分應(yīng)該是格式為月份/日期/年份的時間信息,接下來
的是12位賬戶數(shù)字,而下面緊跟的是由3到5位字母表示的股票代碼等。每條信息事先
都已很明確了,以規(guī)范好的格式和順序給出,這使得它們很容易被處理。
對于非結(jié)構(gòu)化的數(shù)據(jù),你沒有或幾乎沒有控制權(quán),你所做的只能是接收它們。文本數(shù)
據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)都屬于這個范疇。每幅圖像都是由獨立像素通過特定的排列方式
組合而成的,但是像素組合成圖像的方式卻可能千變?nèi)f化、大相徑庭。確實有很多這樣完
全非結(jié)構(gòu)化的數(shù)據(jù)。然而,對于大部分數(shù)據(jù)來說,至少都是半結(jié)構(gòu)化的。
半結(jié)構(gòu)化的數(shù)據(jù)具有可被理解的邏輯流程和格式,但這些格式并不是用戶友好的。有
時,半結(jié)構(gòu)化數(shù)據(jù)也被稱為多結(jié)構(gòu)化數(shù)據(jù)。在這類數(shù)據(jù)里,有價值的信息參雜在大量噪聲
和無用的數(shù)據(jù)中。理解和分析半結(jié)構(gòu)化數(shù)據(jù),要比理解和分析規(guī)范好文件格式的數(shù)據(jù)困難。
要理解半結(jié)構(gòu)化的數(shù)據(jù),必須要有一套復(fù)雜的規(guī)則,在讀到每條信息后,能夠動態(tài)地決定
隨后的處理方法。
網(wǎng)絡(luò)日志是半結(jié)構(gòu)化數(shù)據(jù)的最好例子。當(dāng)你看到網(wǎng)絡(luò)日志時,你會覺得它們非常丑陋;
但是,其中每一條信息都有其特定的用處。網(wǎng)絡(luò)日志是否提供了對你有用的信息則是另外
一里事。圖1-1給出了一個原始網(wǎng)絡(luò)日志的例子。
(RawWebLogData
962559055--[01/Jun/2010:05:28:07=0000]"GET/origin-
/d.js?id=aIa3a5
Iydl645&reerrc尸htip〃\/search?hl=cn&q=budgci=planne「&aq=5&aqi=g
IO&aql=&oq=budgei=&gs_rtai=&location=hiips://money,'Content/simple-
and-free-monthly-budget-planner&ua^MozillaM.Ofcompatible.Msie70;WindowsNT6.0;
SLCCk.NETCLR2.0050727:NETCI.R3.030618;NIH'CLR3.5.30729;
Infopath2)&pc=pgys63wOxgnIO2in8ms37\vka8quxe74e&sc=€rIktoOwmxqik1\vli9p9weh
6yxy8q8sa&r=0.0755(J191624904945HHP/1.I200380"?""Mozilla/4.0(compatible;
MSIE7.0;WINDOWSnt6.0;SLCC1;NETCLR2.0.5727;.NETCLR3.0.30618.NEICLR
3.530729;lnCPalh.2)"〃ac=bd76aad174480000679a044ctya00e005b130000〃
圖卜i原始網(wǎng)絡(luò)日志的例子
你的大數(shù)據(jù)具有怎樣的結(jié)構(gòu)?
'其實上.很多大數(shù)據(jù)源都是半結(jié)構(gòu)化或多結(jié)構(gòu)化的.而不是非結(jié)構(gòu)化的.這些效摳具有可被理解的邏輯流程.因此可以從它m中捉取出用于分析的信息.處理這類數(shù)據(jù)不像處理傳,克結(jié)構(gòu)化數(shù)據(jù)那么徜冷.要罵
取半結(jié)構(gòu)化數(shù)楙?解妄花我很多時間.并且要努力才能找出處理它們的最好方法.
網(wǎng)絡(luò)日志中的信息都有一定的邏輯,盡管第一眼看上去可能并不那么明顯。日志中有
不同的字段和分隔符,就像結(jié)構(gòu)化的數(shù)據(jù)一樣,其中也蘊含著價值。然而,這些元素并沒
有按照固定的方式緊密地聯(lián)系在一起。點擊一個網(wǎng)站所產(chǎn)生的日志文本比起一分鐘前點擊
另一個網(wǎng)頁產(chǎn)生的日志文本,可能更長,也可能更短。最后,一定要理解半結(jié)構(gòu)化的數(shù)據(jù)
都具有其內(nèi)在的邏輯,在它的各部分之間建立聯(lián)系是完全可能的。要做到這一點,需要比
處理結(jié)構(gòu)化數(shù)據(jù)付出更多的努力。
對分析專家來說,完全非結(jié)構(gòu)化的數(shù)據(jù)要比半結(jié)構(gòu)化數(shù)據(jù)更加恐怖。想要征服半結(jié)構(gòu)
化數(shù)據(jù),他們可能需要付出一番努力,但是他們確實可以做到。分析專家們可以將半結(jié)構(gòu)
化數(shù)據(jù)重新組織得非常結(jié)構(gòu)化,并將其運用到他們的分析流程中。然而,征服完全非結(jié)構(gòu)
化的數(shù)據(jù)要困難得多,即使企業(yè)已經(jīng)征服了半結(jié)構(gòu)化的數(shù)據(jù),征服非結(jié)構(gòu)化的數(shù)據(jù)對他們
來說,仍將是一個巨大的挑戰(zhàn)。
1.8探索大數(shù)據(jù)
開始著手處理大數(shù)據(jù)并不是一件困難的事情。很簡單,收集一些大數(shù)據(jù),讓企業(yè)的分
析專家團隊開始探索這些數(shù)據(jù)可以提供些什么。企業(yè)沒有必要一開始就設(shè)計一個具備生產(chǎn)
級標(biāo)準(zhǔn)、持續(xù)的數(shù)據(jù)輸入系統(tǒng)。企業(yè)所要做的僅僅是讓分析專家團隊先去切身接觸那些數(shù)
據(jù),然后再開始分析探索工作。分析專家和數(shù)據(jù)科學(xué)家們會逐漸進入角色并完成好他們的
工作。
有一個很老的拇指法則:數(shù)據(jù)分析工作有70%?80%的時間花在收集和準(zhǔn)備數(shù)據(jù)上
面,而僅有20%?30%的時間花在分析本身上。在剛開始處理大數(shù)據(jù)時.,這個比例估計
會更低。一開始,分析專家可能至少要花95%的時間,甚至幾乎100%的時間去弄清楚
某一種大數(shù)據(jù)源,然后才會去思考如何利用這些數(shù)據(jù)做更深層次的分析。
理解上述做法是非常重要的。弄清楚數(shù)據(jù)源的本質(zhì)是分析流程中最重要的一部分。反
復(fù)地加載數(shù)據(jù)、檢查它們的表現(xiàn)、調(diào)整加載過程,從而選擇能夠更好地服務(wù)于目標(biāo)的數(shù)據(jù),
雖然看起來不那么吸引人、令人興奮,但卻是至關(guān)重要的。如果沒有完成這些步驟,也就
不可能進入后面的分析環(huán)節(jié)。
確定大數(shù)據(jù)中有價值的部分,并且確定如何最優(yōu)而精確地提取這些部分,這一過程非
常關(guān)鍵。可以預(yù)料到這一過程會花費很多時間,但即使在它上面花的時間超出了你的預(yù)期,
也不要感到沮喪。在弄明白新數(shù)據(jù)源的過程中,企業(yè)的分析專家和其業(yè)務(wù)贊助商應(yīng)該積極
地尋找代價小、見效快的方法。記得要向企業(yè)展示一些有價值的東西,不管這些東西是多
么的微不足道。這樣可以讓人們保持對這一過程的興趣,并幫助人們理解所取得的進展。
一個跨部門的團隊絕不能在組建一年之后,還宣稱他們?nèi)栽谠噲D搞明白如何通過大數(shù)據(jù)來
做一些事情。必須能夠時不時地迸發(fā)出一些想法,即使這些點子很小,然后迅速地采取一
些行動。
前進過程中產(chǎn)生的價值
搞明白如何將大數(shù)兆強應(yīng)用到你的業(yè)務(wù)中需嚏付出很多的努力.企業(yè)的分析專家和業(yè)務(wù)腑助商們在工作過程中,應(yīng)該積極地尋找代價小、見效快的方法.這樣可以向企業(yè)證明他仃所取得的進規(guī),從而維續(xù)為其
后面的努力」:作融科支持,這些進展也可以產(chǎn)生穩(wěn)田的投責(zé)回根,
有一個很好的例子來自于一個歐洲的零售商,這家公司想要利用詳細的網(wǎng)絡(luò)日志數(shù)據(jù)。
當(dāng)通過一個長期而復(fù)雜的過程收集好數(shù)據(jù)之后,這家公司實施了一些簡單的舉措。他們開
始鑒別每個用戶所瀏覽過的商品。利用這些瀏覽信息,他們隨后建立起一個電子郵件系統(tǒng),
向離開網(wǎng)站前瀏覽過該商品,但并未購買該商品的顧客發(fā)送電子郵件。這個簡單的舉措為
這家企業(yè)創(chuàng)造了巨大的利潤。
除了采取其他類似的基本早期措施,公司還需要對收集和加載網(wǎng)絡(luò)數(shù)據(jù)進行投資。更
重要的是,它們以前并沒有過處理整套數(shù)據(jù)流的意愿和經(jīng)驗。想象一下未來當(dāng)它們對數(shù)據(jù)
進行更深層次分析后的回報。正是由于這些迅速而及時的進展,企業(yè)里的每個人才樂意繼
續(xù)下去,因為從對數(shù)據(jù)進行的這些早期舉措中,他們已經(jīng)看到了其強大的威力。況且,他
們已經(jīng)為未來的努力買過單了。
1.9很多大數(shù)據(jù)其實并不重要
事實上,絕大多數(shù)大數(shù)據(jù)都是無關(guān)緊要的。這聽起來必然很殘酷,不是嗎?但這并不
是我們對大數(shù)據(jù)的預(yù)期。正如我們已經(jīng)討論過的,一個大數(shù)據(jù)流體現(xiàn)在容量、速度、多樣
性和復(fù)雜度等多個方面。大數(shù)據(jù)流的很多內(nèi)容對于某些特定目標(biāo)來說是沒有價值的,而有
些內(nèi)容則沒有任何用處。駕馭大數(shù)據(jù)并不意味著一定要將所有的水牢牢地圈在游泳池中。
事實更像是通過一個吸管吸水:你只需要把你所需要的部分吸出來就可以了,剩下的部分
就隨它去吧。
在一個大數(shù)據(jù)流中,有些信息具有長期的戰(zhàn)略價值,有些信息只具有臨時的戰(zhàn)術(shù)價值,
而另外一些信息則毫無價值。駕馭大數(shù)據(jù)的關(guān)鍵部分是弄清楚不同信息所屬的類別。
有個例子能夠很好地說明這一點,這就是我們將在第3章中討論的無線射頻標(biāo)簽
(RFID),今天很多產(chǎn)品在運輸時都會在運貨箱上打上這種標(biāo)簽。對于一些昂貴的貨物,
甚至在每一個貨物上都會打上標(biāo)簽。將來,為每件貨物打上標(biāo)簽最終會成為一個標(biāo)準(zhǔn)做法。
但是在今天的很多情況下,這么做的代價仍然過于昂貴,因此通常只在每個運貨箱上打一
個標(biāo)簽。這些標(biāo)簽使得運貨箱當(dāng)前的位置、裝載和卸載的時間、存放的地點都很容易被追
蹤到。
想象一個存放了數(shù)以萬計運貨箱的倉庫。每個運貨箱都打上了一個RFID標(biāo)簽。RFID
識別器每隔10秒都要向倉庫詢問一次:"是誰在那里?”每個運貨箱都會給出如下回應(yīng):
“是我。"讓我們來討論一下,在這個例子中大數(shù)據(jù)是如何很快瘦身的。
今天第一個到達的運貨箱會發(fā)出信息:“我是運貨箱123456789。我在這里。"在未來
3個星期內(nèi),只要這個運貨箱還在倉庫中,那么每隔10秒它都會重復(fù)地應(yīng)答:“我在這里。
我在這里。我在這里。”在每隔10秒的輪詢過后,非常有必要去分析所有的應(yīng)答,并鑒
別出狀態(tài)發(fā)生了改變的運貨箱。通過這種方式,可以確認那些預(yù)期的變化,并對狀態(tài)發(fā)生
了非預(yù)期變化的運貨箱采取相應(yīng)措施。
一旦一個運貨箱離開了倉庫,它將不再做出任何應(yīng)答。一旦確認這個運貨箱是按照預(yù)
期方式離開的,那之前所有“我在這里”的記錄將不再有用。隨著時間的推移,真正有用的
是這些運貨箱到達和離開的日期和時間。如果這兩個時間點相隔了3個星期,我們需要
保留的也僅僅是運貨箱到達和離開的這兩個時間戳。在這期間里,所有那些每隔10秒做
出“我在這里”的應(yīng)答雖然沒有任何長期價值,但是仍有必要收集它們。而且在它們產(chǎn)生的
每個時刻,都有必要去分析它們。但是那些在這兩個時刻點之外的應(yīng)答將不再有任何長期
價值。一旦這個運貨箱離開,這些數(shù)據(jù)便可以被安全地丟棄。
準(zhǔn)備好丟棄數(shù)據(jù)
駕馭大數(shù)據(jù)的個關(guān)鍵是要鑒別出那些曳要的侑息.有些信息具有長期的故略價值,有些信息只具有能時的故術(shù)價值,而另外一些信息則亳無價值.讓大st數(shù)據(jù)放任自流顯得很奇怪,但對大數(shù)據(jù)來說卻是意料
之中的事情,也許你需要T時間來適應(yīng)丟棄一些低價值的數(shù)據(jù),
如果原始的大數(shù)據(jù)流可以被保存一段時間,那么就可以返回并提取一些在第一次處理
過程中丟掉的信息。關(guān)于這種做法的一個例子是我們現(xiàn)在正在做的網(wǎng)絡(luò)活動跟蹤。大多數(shù)
網(wǎng)站都使用了基于標(biāo)簽的方法。在基于標(biāo)簽的方法中,首先需要弄明白需要對用戶交互過
程中的哪些文本、圖像或鏈接進行跟蹤。那些用戶看不見的標(biāo)簽,將會匯報用戶正在做的
事情。由于只有被標(biāo)簽標(biāo)注了的內(nèi)容才會被匯報,所以從一開始,大部分的瀏覽信息就被
忽略掉了。問題是,如果不小心丟失了創(chuàng)建一個新促銷圖片標(biāo)簽的請求,我們將無法返回
并分析這張圖片的訪問信息、。雖然以后也可以加上標(biāo)簽,但就只能收集到此時間點后的活
動信息了。
有一些新的方法可以用來解析原始網(wǎng)絡(luò)日志,無需預(yù)先定義也可以對事件進行鑒別。
這些方法是基于日志的,因為它們直接使用原始網(wǎng)絡(luò)日志。這種方法的價值在于,如果你
后來意識到曾忘記收集關(guān)于該促銷圖片的交互信息,你仍可以重新解析那些數(shù)據(jù)并把它們
提取出來。在這種情況下,所有數(shù)據(jù)在開始時都不會被丟棄,但是在分析時要決定留下哪
些數(shù)據(jù)。這是一種重要的能力,也解釋了為什么盡管代價是昂貴的,但保留一些歷史數(shù)據(jù)
仍然是有意義的。需要保存多少數(shù)據(jù)取決于數(shù)據(jù)流的大小以及可用的存儲空間。一個不錯
的解決方案是在存儲成本所允許的范圍內(nèi),保存盡可能多的歷史數(shù)據(jù),從而獲得盡可能高
的靈活度。
1.10有效過濾大數(shù)據(jù)
大數(shù)據(jù)帶來的最大挑戰(zhàn)可能并不是你要對它做的分析工作,而是你為分析做的一系列
準(zhǔn)備,而是提取、轉(zhuǎn)換和加載(ETL)流程。ETL是指獲取原始大數(shù)據(jù)流,然后對其進行
解析,并產(chǎn)生可用輸出數(shù)據(jù)集的過程。從數(shù)據(jù)源中提取(E)數(shù)據(jù),然后經(jīng)過各種聚合、
函數(shù)、組合等轉(zhuǎn)換(T),使其變?yōu)榭捎脭?shù)據(jù)。最終,數(shù)據(jù)會被加載(L)到對它進行具
體分析的環(huán)境中。這就是ETL流程。
讓我們再回頭看一下之前討論過的那個比喻:通過一個吸管吸水。當(dāng)你從吸管中吸水
的時候,你并不關(guān)心喝到你嘴里的水是來自于哪一部分。然而對大數(shù)據(jù)來說,你對收集數(shù)
據(jù)流的哪一部分卻非常在乎。有必要事先探索和理解整個數(shù)據(jù)流,只有這樣你才能過濾出
你想要的那部分信息。這也解釋了為什么駕馭大數(shù)據(jù)需要付出如此之多的前期努力。
從吸管中吸水
處理分析大數(shù)據(jù)和從吸管中吸水句根我相蟻之處.大部分數(shù)據(jù)都只是匆匆經(jīng)過?就像大部分的水經(jīng)過?樣.目標(biāo)是,數(shù)據(jù)經(jīng)過的時候.從中吸取出那些前要的部分,而不是賓試把它全都喝卜去.專注于大數(shù)據(jù)
中的重姜郵分,可以使得處理數(shù)據(jù)更容易,并行精力去做我正咀要的事情.
當(dāng)大數(shù)據(jù)流開始到達的時候,分析流程要求前端的過濾器先濾除掉一部分數(shù)據(jù)。在數(shù)
據(jù)被處理的過程中,還會有其他的過濾器。例如,在處理網(wǎng)絡(luò)日志的時候,通常需要先過
濾掉與瀏覽器版本或操作系統(tǒng)相關(guān)的信息。除非為了某些特殊的操作原因,這些數(shù)據(jù)將很
少被用到。在流程后期,數(shù)據(jù)可能被過濾到只剩下某些由于業(yè)務(wù)需要而待檢查的特定頁面
和用戶操作。
復(fù)雜的規(guī)則和每個階段被濾除和保留的數(shù)據(jù)量會根據(jù)具體的數(shù)據(jù)源和業(yè)務(wù)挑戰(zhàn)有所不
同。早期處理大數(shù)據(jù)的加載流程和過濾器是非常關(guān)鍵的。如果它們沒有被正確地使用,分
析將很難成功。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)不需要在這些方面花多大功夫,因為它們都已被事先指
定、理解并標(biāo)準(zhǔn)化。對于大數(shù)據(jù),在很多情況下都有必要將其指定、理解并標(biāo)準(zhǔn)化,并成
為分析流程的一部分。
1.11將大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)混合
大數(shù)據(jù)最令人激動的部分并不是它本身能為企業(yè)做什么,而是當(dāng)它和企業(yè)的其他數(shù)據(jù)
結(jié)合后,能為企業(yè)做什么。
例如,瀏覽歷史是非常強大的信息源。如果將其用于更大的環(huán)境中,就能夠知道每個
顧客的價值,知道顧客在過去通過各種渠道所購買的商品,這些將使得網(wǎng)絡(luò)數(shù)據(jù)的威力變
得更強大。我們將在第2章中對其進行更詳細的探討。
智能電網(wǎng)數(shù)據(jù)對于電力公司非常有用。將其用于更大的環(huán)境中,如果能夠知道顧客的
歷史計費模式、住宅類型,以及其他一些因素,將會使從智能電表上讀來的數(shù)據(jù)更加有用。
我們將在第3章中對其進行探討。
顧客在線聊天和電子郵件中獲得的文本數(shù)據(jù)非常有用。將其用于更大的環(huán)境中,如果
能夠知道所討論產(chǎn)品的具體規(guī)格,關(guān)于這些產(chǎn)品的銷售數(shù)據(jù),以及以往的產(chǎn)品缺陷信息將
會使這些文本數(shù)據(jù)的效力劇增。我們將在第3章和第6章從不同的視角對其進行探討。
企業(yè)數(shù)據(jù)倉庫(EDW)已經(jīng)成為被廣泛使用的企業(yè)工具,其主要原因并不是為了將
海量數(shù)據(jù)集中起來以節(jié)省硬件和軟件成本。EDW允許不同的數(shù)據(jù)源相互混合,彼此增強,
從而創(chuàng)造價值。通過EDW,可以將對用戶和雇員信息一起進行分析,因為這兩種信息聯(lián)
系緊密,且不再被分開分析。例如,某些雇員是否通過其個人影響比其他雇員創(chuàng)造了更多
的顧客價值?如果將數(shù)據(jù)結(jié)合起來放在一起,這些問題將更容易回答。大數(shù)據(jù)的加入使得
越來越多的數(shù)據(jù)類型可以結(jié)合在一起,以增添新的視角和處理環(huán)境,從而推動解決更多和
更大規(guī)模的問題。
將它們混合起來
大數(shù)據(jù)坳大的價值在「它們可以和其他企業(yè)數(shù)據(jù)結(jié)合起來-將大數(shù)據(jù)里找出的東西放到更大的處理環(huán)境中,新的洞察的數(shù)量和隨景都會呈指數(shù)級增長.這也觥群了為什么需要制定大數(shù)據(jù)和其他數(shù)據(jù)相鉆合的整
體數(shù)據(jù)此略,而不是獨立的大數(shù)據(jù)戰(zhàn)略.
這就是企業(yè)不制定嚴格區(qū)別于傳統(tǒng)數(shù)據(jù)戰(zhàn)略的大數(shù)據(jù)戰(zhàn)略的關(guān)鍵原因。這樣做會導(dǎo)致
失敗。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)都是整體戰(zhàn)略的一部分。要想成功,企業(yè)需要發(fā)展凝聚性的戰(zhàn)略,
大數(shù)據(jù)在該戰(zhàn)略中并不是被嚴格區(qū)分的獨立概念。相反地,大數(shù)據(jù)必須只是企業(yè)數(shù)據(jù)戰(zhàn)略
的一個方面。從一開始,企業(yè)所必須考慮和計劃的就不僅僅是如何收集和分析大數(shù)據(jù)本身,
還包括如何將其和其他企業(yè)數(shù)據(jù)結(jié)合起來,并將其作為企業(yè)數(shù)據(jù)整體方案的一部分。
1.12對大數(shù)據(jù)標(biāo)準(zhǔn)的需求
大數(shù)據(jù)會繼續(xù)以狂野西部式的風(fēng)格,以及無限制及缺乏定義的數(shù)據(jù)流格式存在嗎?或
許不會。隨著時間推移,會有一些標(biāo)準(zhǔn)被制定出來。一些半格式化的數(shù)據(jù)源會逐漸變得更
加格式化,而且一些獨立的組織會微調(diào)它們的大數(shù)據(jù)流,使之對分析更加友好。然而更重
要的是,發(fā)展行業(yè)標(biāo)準(zhǔn)是大勢所趨。盡管諸如電子郵件和社交媒體評論之類的文本數(shù)據(jù)無
法在其輸入端施加很多控制,然而標(biāo)準(zhǔn)化解釋這些數(shù)據(jù)并用于分析的方法卻是可行的。事
實上,這些變化已經(jīng)開始發(fā)生了。
例如,哪些詞是“好”的,哪些詞是“壞”的?對于哪些狀況默認的規(guī)則會失效?哪些電
子郵件值得一字不漏地解析和分析,而哪些可以被很快地處理?產(chǎn)生大數(shù)據(jù)的方法,以及
處理和分析大數(shù)據(jù)的過程,都會被制定標(biāo)準(zhǔn)。輸入端和輸出端都會被涉及。結(jié)果,征服大
數(shù)據(jù)的任務(wù)將會變得更加容易。這個過程還需要一些時間,而且,這些被制定的標(biāo)準(zhǔn)更像
是一些被從業(yè)人員普遍接受的實踐法則,而不是由官方標(biāo)準(zhǔn)化組織正式聲明的規(guī)則或政策。
不管如何,標(biāo)準(zhǔn)會越來越多。
標(biāo)準(zhǔn)化所有可能的范圍
盡管類似于電子郵件的文本數(shù)據(jù)無法在其輸入端施加很多拽制,撼而解析這些數(shù)據(jù)并用于分析的方法是可以被標(biāo)準(zhǔn)化曲,你并沒行健力將大數(shù)據(jù)的--切都標(biāo)準(zhǔn)化,但是通過部分標(biāo)準(zhǔn)化,已授足以讓任務(wù)變得更
簡眩,應(yīng)當(dāng)把注意力英中在使用大故究和標(biāo)準(zhǔn)化大數(shù)據(jù)流輸入上,
能夠迅速切入大數(shù)據(jù)領(lǐng)域的企業(yè)具有制定標(biāo)準(zhǔn)和影響標(biāo)準(zhǔn)發(fā)展的能力,從而保證它們
的特殊需求可以被滿足。某些行業(yè)甚至可以遙遙領(lǐng)先。對于電力公司行業(yè),在具備收集數(shù)
據(jù)的能力之前,已經(jīng)有相當(dāng)多的工作用于定義智能電網(wǎng)數(shù)據(jù)的參數(shù)。當(dāng)項目以一般定義和
規(guī)則啟動時.,如果每家電力公司都以它們自己的方式創(chuàng)造數(shù)據(jù),而沒有事先與它們的同行
共同商議,那么智能電網(wǎng)數(shù)據(jù)將更加難以管理。
1.13今天的大數(shù)據(jù)將不再是明天的大數(shù)據(jù)
正如我們在本章最開始所討論的,大數(shù)據(jù)被公認的定義多少還有一些模糊。沒有一個
明確和廣泛的定義,什么樣的數(shù)據(jù)可以被視為大數(shù)據(jù)。相反地,大數(shù)據(jù)的定義是相對于當(dāng)
前可用的技術(shù)和資源而言的。結(jié)果,某一個企業(yè)或行業(yè)所認為的大數(shù)據(jù),可能對于另一個
企業(yè)或行業(yè)就不再是大數(shù)據(jù)。對于大的電子商務(wù)企業(yè),它們眼里的大數(shù)據(jù)要比小廠商眼里
的大數(shù)據(jù)“大"得多。
更重要的是,隨著時間的推移,處理數(shù)據(jù)的工具和技術(shù)、原始存儲空間和處理能力都
會不斷演進,大數(shù)據(jù)的界定也必然會發(fā)生變化。10年或20年之前,幾百個領(lǐng)域,幾百
萬個顧客的年家庭人口檔案是非常龐大并難以管理的。而如今,這些數(shù)據(jù)可以存入一個U
盤中,并可以使用低端的筆記本電腦對其進行分析。對大容量、高速度、高復(fù)雜度的界定
會一直演變,對大數(shù)據(jù)也同樣如此。
“大’會變化
今天的大數(shù)期明天可能不再被認為是大數(shù)據(jù).就像10年前的大致幅在如今看來什么都不足?樣.大數(shù)探會融續(xù)演進下去.如今.在致相容量、速度、多樣性、復(fù)雜度等方面被認為是不可能的或無法想象的事
幾年過后情況會完全不同.這是?個多年不變的定律?在大數(shù)榭時代也同樣適用.
10年以前,零售業(yè)、電信業(yè)以及金融業(yè)的交易數(shù)據(jù)非常龐大,并且難以處理。事實
上,在20世紀(jì)90年代后期之前,對于很多企業(yè),這些數(shù)據(jù)都沒有被用在分析和報表中。
如今,這些數(shù)據(jù)已被認為是一項必要且基本的資產(chǎn)。事實上每一家公司,不論大小,都會
使用到這些數(shù)據(jù)。
類似地,我們今天所懼怕的事情,幾年之后將不會再如此可怕。來自網(wǎng)頁的點擊流數(shù)
據(jù)也許在10年內(nèi)便可以成為標(biāo)準(zhǔn)化的、易于處理的數(shù)據(jù)源。對于大多數(shù)企業(yè),積極地處
理每封電子郵件、每次顧客服務(wù)談話、每條社交媒體評論都可能成為標(biāo)準(zhǔn)化的實踐行為。
每秒鐘在搜索引擎中跟蹤幾百個指標(biāo)對任何人來說都不再是什么費力的事情。
在我們正在駕馭這一代大數(shù)據(jù)的同時,其他一些更大的數(shù)據(jù)源正在逐漸登上歷史舞臺。
它們會是什么樣子?如今還沒有人可以完全回答這個問題。然而,以下是一些關(guān)于當(dāng)前數(shù)
據(jù)源如何迅速升級到更大量級的觀點。
■想象一下網(wǎng)絡(luò)瀏覽數(shù)據(jù)會從網(wǎng)頁點擊數(shù)據(jù)擴展到毫秒級的眼動和鼠標(biāo)移動數(shù)據(jù),
因此用戶上網(wǎng)沖浪的每一個微小細節(jié)都能夠被捕捉到,而不只是點擊數(shù)據(jù)。這是大數(shù)據(jù)的
另一個層次。
■想象一下視頻游戲遙感數(shù)據(jù)將會升級到不僅僅只包含按鍵和移動數(shù)據(jù)。想象一下
它同樣會包括玩家的眼動、身體移動以及游戲場景中涉及的每個對象的位置和狀態(tài),而不
僅僅是直接交互的對象。這使得數(shù)據(jù)變得非常龐大。
■想象一下全球每家商店、分銷商以及制造工廠中的每一件商品都擁有可用的RF1D
信息。想象一下那些可以每秒鐘收集兒十個指標(biāo),例如,溫度、濕度、速度、加速度、壓
強等信息的芯片。這類數(shù)據(jù)的體積在今天看來是無法想象的。
■想象一下將顧客服務(wù)或電話銷售的每一次談話都記錄并轉(zhuǎn)譯為文本。再加上所有
相關(guān)的電子郵件、在線聊天,以及社交網(wǎng)站或產(chǎn)品點評網(wǎng)站上的評論。現(xiàn)在,去解析、整
合并分析所有這些文本吧,你的大腦是不是已經(jīng)要爆炸了?
大數(shù)據(jù)會一直存在下去。盡管幾年之后,今天我們覺得恐怖的大數(shù)據(jù)會變得不再那么
嚇人,但總會有令人恐怖的新數(shù)據(jù)源出現(xiàn)。企業(yè)需要持續(xù)地調(diào)整它們的方法和目標(biāo),以適
應(yīng)企業(yè)所涉及數(shù)據(jù)的變化。然而,如果企業(yè)還不具備處理大數(shù)據(jù)的能力,也便談不上對數(shù)
據(jù)處理方法的調(diào)整和升級。所以,你需要現(xiàn)在開始!
1.14本章小結(jié)
以下是本章的重點內(nèi)容。
■大數(shù)據(jù)通常定義為,超出了常用硬件環(huán)境和軟件工具在可接受的時間內(nèi)為其用戶
收集、管理和處理能力的數(shù)據(jù)。
■大數(shù)據(jù)的“大”不僅體現(xiàn)在容量上,還體現(xiàn)在多樣性、速度及復(fù)雜度等方面。
■大數(shù)據(jù)的威力體現(xiàn)在你所做的分析和所采取的行動上,而不是體現(xiàn)在"大"或"數(shù)據(jù)”
這兩個方面。
■大數(shù)據(jù)通常由某類機器自動地生成,而且其格式通常并不是用戶友好的。默認的
做法是先收集所有能收集到的數(shù)據(jù),然后再考慮其中哪些是重要的。
■大數(shù)據(jù)是下一波新的、更大的、推動當(dāng)前極限的浪潮。從分析的角度看,它和過
去的數(shù)據(jù)源并沒有什么區(qū)別。它們在第一次出現(xiàn)時,都顯得龐大而難以處理。
■大數(shù)據(jù)會改變分析專家所使用的分析策略和工具,但它不會從根本上改變分析的
動機,以及從分析中可獲取的價值。
?很多大數(shù)據(jù)源是半結(jié)構(gòu)化的。半結(jié)構(gòu)化的數(shù)據(jù)源有一定的邏輯,但是可能并不漂
亮。大數(shù)據(jù)也可以是非結(jié)構(gòu)化的。在某些情況下,它甚至和傳統(tǒng)數(shù)據(jù)源的結(jié)構(gòu)相同。
■大數(shù)據(jù)最大的風(fēng)險是某些數(shù)據(jù)源可能涉及隱私糾紛。在使用大數(shù)據(jù)的過程中,自
我約束和法律約束都是必需的。
■征服大數(shù)據(jù)并不意味著要控制所有的數(shù)據(jù),它就像從吸管中吸水一樣,僅僅吸取
那些重要的部分就可以了。
■大數(shù)據(jù)最令人激動的部分是,當(dāng)它和其他數(shù)據(jù)結(jié)合以后所帶來的業(yè)務(wù)價值。
■大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)都是整體數(shù)據(jù)和分析策略的一部分。不要制訂嚴格區(qū)分于傳統(tǒng)
數(shù)據(jù)策略的大數(shù)據(jù)策略。
■大數(shù)據(jù)會持續(xù)地演進。如今被認為龐大和恐怖的數(shù)據(jù)在10年之后只是小事一樁,
但是那時候又會出現(xiàn)其他的新數(shù)據(jù)源!
第2章
網(wǎng)絡(luò)數(shù)據(jù):原始的大數(shù)據(jù)
如果能夠理解顧客意圖而不僅僅只理解顧客行為,這難道不是件很好的事情嗎?如果
能夠理解每個顧客在決定是否購買某件商品前的思維過程,這難道不是件很好的事情嗎?
在過去,這些想法簡直被當(dāng)作天方夜譚。如今,通過使用詳細的網(wǎng)絡(luò)數(shù)據(jù),這些想法已經(jīng)
成為可能。以上是本章主要涉及的內(nèi)容。
切實學(xué)習(xí)一些大數(shù)據(jù)如何用于驅(qū)動商業(yè)價值的實例,能夠幫助我們更好地理解大數(shù)據(jù)。
在今天,或許沒有其他的大數(shù)據(jù)源能夠像網(wǎng)絡(luò)數(shù)據(jù)一樣應(yīng)用地如此廣泛。本章的所有內(nèi)容
都是關(guān)于網(wǎng)絡(luò)數(shù)據(jù)的,因此,我們可以深入這個話題并詳細地討論網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用。在
第3章,我們會對另外9種重要的大數(shù)據(jù)源進行簡單的探討,這9種數(shù)據(jù)源概括性地描
述了哪些數(shù)據(jù)可以被使用以及它們是如何被使用的。
很多不同行業(yè)的企業(yè)都已經(jīng)將從網(wǎng)站上獲取的詳細顧客行為數(shù)據(jù)整合到了它們的企業(yè)
分析環(huán)境中。然而,大多數(shù)的企業(yè)還沒有把在線交易整合到網(wǎng)絡(luò)數(shù)據(jù)中。傳統(tǒng)的網(wǎng)絡(luò)分析
服務(wù)商提供的運營報告,只包含點擊率、網(wǎng)絡(luò)流量和其他僅基于網(wǎng)絡(luò)數(shù)據(jù)的指標(biāo)。然而,
在這些網(wǎng)絡(luò)報告之外,詳細的網(wǎng)絡(luò)行為數(shù)據(jù)還未被利用過。
一些先驅(qū)企業(yè)已經(jīng)證明了詳細的網(wǎng)絡(luò)數(shù)據(jù)可挖掘出尚未開發(fā)的企業(yè)價值。本章將概述
這些先驅(qū)所做的事情,它們?yōu)槭裁醋鲞@些事情,以及今天為什么每個企業(yè)都應(yīng)當(dāng)考慮使用
這些分析。對于那些尚未突破自我封閉,且未深入考慮過將詳細的點擊流數(shù)據(jù)和其他數(shù)據(jù)
結(jié)合起來的企業(yè),這些事例一定會讓它們大開眼界。
本章的核心主題并不僅僅是征服網(wǎng)絡(luò)數(shù)據(jù)本身。企業(yè)需要專注于將網(wǎng)絡(luò)數(shù)據(jù)和其他所
有與顧客相關(guān)的數(shù)據(jù)進行整合,而非僅僅從獨立的數(shù)據(jù)庫中獲取數(shù)據(jù)。在可擴展的分析環(huán)
境中使用這些信息,不僅可以洞悉顧客的購買觀點,還可以洞悉其個體意愿、購買決策過
程及喜好。利用新數(shù)據(jù)源所提供的洞察,企業(yè)可以向前邁進一大步。
企業(yè)如何獲取、分析、利用這些豐富的信息以獲得洞察呢?首先,我們將討論需要獲
得哪些數(shù)據(jù)及其原因。其次,我們將通過一些例子來探討這些數(shù)據(jù)可以揭示什么。最后,
我們將討論一些特殊的例子,關(guān)于如何通過整合網(wǎng)絡(luò)數(shù)據(jù)而改變分析流程。網(wǎng)絡(luò)數(shù)據(jù)是一
種已經(jīng)被很多企業(yè)駕馭了的大數(shù)據(jù)源。請趕緊把你也加入到駕馭者名單吧!
2.1網(wǎng)絡(luò)數(shù)據(jù)概觀
企業(yè)已經(jīng)談?wù)摿撕芏嗄陮︻櫩偷?60度視圖。在任何一個時間點上,都會有一些企
業(yè)宣稱它們真正獲得了360度視圖。事實上,真正獲得360度視圖是不可能的,因為這
意味著你對顧客的一切都已經(jīng)了如指掌。在討論360度視圖時,我們真正想說的是,考
慮到當(dāng)時可用的技術(shù)和數(shù)據(jù),盡可能全方位地了解顧客。然而,終點線總在移動。當(dāng)你剛
剛覺得終于到達的時候,終點線又一次移到了更遠的地方。
幾十年以前,如果企業(yè)知道其顧客的名字、地址,并且可以通過當(dāng)時的第三方數(shù)據(jù)增
強服務(wù),在這些顧客的名字后面附加一些人口統(tǒng)計信息,那么它們一定會在競爭中處于領(lǐng)
先。最終,新銳企業(yè)們也開始收集顧客的最近一次消費、消費頻率以及消費金額(RFM)
等指標(biāo)信息。這些指標(biāo)用于觀察顧客上一次消費的時間、消費的頻率以及他們花費了多少
錢。這些指標(biāo)可能僅統(tǒng)計顧客過去一年的消費行為,也可能記錄顧客一生的消費信息。在
過去的10-15年里,事實上所有的商業(yè)都開始收集和分析其顧客的詳細交易歷史。這直
接導(dǎo)致了分析能力的爆發(fā)以及對顧客行為更深層次的理解。
讓你的360度視圖跟上時代的腳步
很多企業(yè)對顧客交舄行為的觀點還停留在過去,如今,整合新的數(shù)據(jù)源,如網(wǎng)絡(luò)數(shù)據(jù),已經(jīng)成為可能,并且能為早期使用老帝來巨大的收益.你的企業(yè)關(guān)于頓客的觀點跟上時代胃步。嗎?
很多企業(yè)仍然停留在使用交易歷史的階段。今天,雖然這些舊的觀點仍然重要,但是
很多企業(yè)依然錯誤地認為它們代表了對顧客全方位的了解。在今天,企業(yè)需要收集新的關(guān)
于顧客的大數(shù)據(jù)源,這些數(shù)據(jù)源來自于各種擴展的和新興的接觸點,如網(wǎng)頁瀏覽器、移動
應(yīng)用、自助服務(wù)機、社交媒體網(wǎng)站等。
正如交易數(shù)據(jù)引發(fā)了分析能力和分析深度的變革,這些新的數(shù)據(jù)源同樣會將分析提高
到一個新的層次。以今天的數(shù)據(jù)存儲和處理能力,使用新數(shù)據(jù)源進行分析絕對能獲得成功。
而且,很多具有前瞻性的公司已經(jīng)通過利用這些數(shù)據(jù)處理各種問題證明了這一點,我們后
面還會對其進行簡短的討論。
2.1.1你遺漏了什么
你是否曾經(jīng)停下來考慮過如果只收集網(wǎng)站上的交易信息會怎么樣?或許對于一個網(wǎng)站,
95%的用戶在瀏覽后并沒有把商品放入購物車。剩下的5%中,大概僅有一半,即2.5%,
進入了結(jié)賬流程。而且,在這2.5%中,僅有三分之二,即1.7%,最終完成了交易。在
很多情況下,這些數(shù)據(jù)并不是不切實際的。
這意味著如果只追蹤網(wǎng)頁中的交易信息,會有超過98%的信息被遺漏掉。然而更重
要的是,會有更高比例的有用信息被遺漏掉。每一項購買交易的完成,可能會涉及幾十或
上百個特定的網(wǎng)頁操作。這些數(shù)據(jù)需要和最終的銷售數(shù)據(jù)一起被收集和分析。
需要強調(diào)的一點是,這和過去的網(wǎng)絡(luò)分析完全是兩碼事。傳統(tǒng)的網(wǎng)絡(luò)分析關(guān)注匯總的
特性,而這僅僅是對網(wǎng)絡(luò)數(shù)據(jù)的概括和總結(jié)。現(xiàn)在的目標(biāo)是要將顧客層面的網(wǎng)絡(luò)行為數(shù)據(jù)
和其他跨渠道的顧客數(shù)據(jù)整合在一起,而不再僅僅報告摘要統(tǒng)計信息,雖然這些概要信息
己可以看到一些細節(jié)。這比網(wǎng)頁點擊報告和頁面視圖摘要前進了一大步。
正如RFM僅僅是交易數(shù)據(jù)可提供的信息中的一小部分,傳統(tǒng)的網(wǎng)絡(luò)分析也僅僅使用
了一部分網(wǎng)絡(luò)數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)是改變游戲規(guī)則、令人驚訝的新前沿,它徹底地革新了企業(yè)
對顧客的洞察以及這些洞察對其業(yè)務(wù)產(chǎn)生的影響。
2.1.2想象各種可能性
想象一下顧客正在和你的企業(yè)進行商業(yè)交易,而你對顧客所做的一切都了如指掌。不
僅知道他們買了什么,而且知道他們關(guān)于購買商品的想法以及影響他們購買決策的關(guān)鍵因
素是什么。這些知識使得你對顧客的理解,以及你和顧客之間的交互提升到了一個新的層
次。它使得你可以更快地滿足顧客的需求并讓他們滿意。
■把你自己想象為一個零售商。想象和顧客并排地走,并記錄下他們?nèi)ミ^的每個地
方、他們看過的每件商品、他們拿起的每件商品、他們放入購物車然后又放回去的每件商
品。想象你知道他們是否閱讀了營養(yǎng)信息、是否看了洗衣說明、是否閱讀了架子上的促銷
宣傳手冊,或者他們是否看過商店里其他對他們有用的信息。
■把你自己想象為一家銀行。想象你清楚地知道每個顧客正在考慮的所有信用卡種
類;想象你可以理解是獎勵計劃、利率,還是年手續(xù)費最終促成了他們的選擇;想象你知
道他們在擁有了每件商品之后所做的評論。
■把你自己想象為一家航空公司。想象你清楚地知道顧客在確定最終旅程之前所看
過的每一個航班;想象你知道他們是更在意價格還是更在意舒適度;想象你知道他們所考
慮過的所有目的地,以及他們第一次考慮它們是什么時候。
■把你自己想象為一個電信公司。你清楚地知道顧客在做出最終選擇之前所考慮過
的每一個電話型號、計費計劃、數(shù)據(jù)計劃以及附屬品。想象你知道他們回到你網(wǎng)站的方式
是通過在搜索引擎中輸入"續(xù)訂合約"或"取消合約”。
能夠知曉以上所列的這些信息,聽起來當(dāng)然是一件令人激動的事情。收集并分析這些
信息,那么你現(xiàn)在便可以更好地了解你的顧客。在這些行業(yè)里,已經(jīng)有很多企業(yè)將其付諸
實踐了。
2.1.3一個全新的信息來源
探索顧客的網(wǎng)絡(luò)行為細節(jié),其美妙在于我們可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年財務(wù)報告要求試題及答案
- 泡沫塑料應(yīng)用領(lǐng)域考核試卷
- 2025年金屬非金屬礦井通風(fēng)證考試題及答案
- 項目管理質(zhì)量控制問題及答案
- 2023年中國郵政集團有限公司湖北省分公司社會招聘【186崗】筆試參考題庫附帶答案詳解
- 2024年項目管理資格認證的實踐試題及答案
- 種下希望種子2025年國際金融理財師考試試題及答案
- 樂器清潔保護方案范本
- 皮裝飾制品的個性化定制服務(wù)考核試卷
- 納米尺度電子器件的量子效應(yīng)研究考核試卷
- 公積金個人貸款合同模板
- 智能紡織技術(shù)的家居家紡應(yīng)用
- 投標(biāo)承諾函格式(具有履行合同所必需的設(shè)備和專業(yè)技術(shù)能力)
- DL∕T 515-2018 電站彎管 標(biāo)準(zhǔn)
- DZ∕T 0270-2014 地下水監(jiān)測井建設(shè)規(guī)范
- 監(jiān)護人考試試題
- DL-T5153-2014火力發(fā)電廠廠用電設(shè)計技術(shù)規(guī)程
- 木材加工廠衛(wèi)生操作與防疫
- HYT 241-2018 冷卻塔飄水率測試方法 等速取樣法(正式版)
- 2024年甘肅省蘭州市中考物理模擬試卷
- 2023-2024學(xué)年北京市西城區(qū)高一下學(xué)期期中考試數(shù)學(xué)質(zhì)量檢測試卷(含解析)
評論
0/150
提交評論