




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
目錄1什么是大數據2思維變革之一:樣本=總體3思維變革之二:接受數據的混雜性4思維變革之三:數據的相關關系第4章大數據時代的思維變革信息社會所帶來的好處是顯而易見的:每個人口袋里都揣有一部手機,每臺辦公桌上都放著一臺電腦,每間辦公室內都連接到局域網甚至互聯網。半個世紀以來,隨著計算機技術全面和深度地融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。信息總量的變化導致了信息形態的變化——量變引起了質變。最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”(BigData)這個概念。如今,這個概念幾乎應用到了所有人類致力于發展的領域中。什么是大數據4.14.1什么是大數據數據是反映客觀事物屬性的記錄,是信息的具體表現形式。數據經過加工處理之后,就成為信息;而信息需要經過數字化轉變成數據才能存儲和傳輸。所以,數據和信息之間是相互聯系的。數據和信息也是有區別的。從信息論的觀點來看,描述信源的數據是信息和數據冗余之和,即:數據=信息+數據冗余。數據是數據采集時提供的,信息是從采集的數據中獲取的有用信息,即信息可以簡單地理解為數據中包含的有用的內容。4.1什么是大數據一個消息越不可預測,它所含的信息量就越大。事實上,信息的基本作用就是消除人們對事物了解的不確定性。信息量是指從N個相等的可能事件中選出一個事件所需要的信息度量和含量。從這個定義看,信息量跟概率是密切相關的。4.1.1天文學——信息爆炸的起源綜合觀察社會各個方面的變化趨勢,我們能真正意識到信息爆炸或者說大數據的時代已經到來。以天文學為例,2000年斯隆數字巡天項目(見圖4-1)啟動的時候,位于新墨西哥州的望遠鏡在短短幾周內收集到的數據,就比世界天文學歷史上總共收集的數據還要多。到了2010年,信息檔案已經高達4.4×242字節。不過,預計2016年在智利投入使用的大型視場全景巡天望遠鏡能在五天之內就獲得同樣多的信息。4.1.1天文學——信息爆炸的起源圖4-1美國斯隆數字巡天望遠鏡4.1.1天文學——信息爆炸的起源天文學領域發生的變化在社會各個領域都在發生。2003年,人類第一次破譯人體基因密碼的時候,辛苦工作了十年才完成了三十億對堿基對的排序。大約十年之后,世界范圍內的基因儀每15分鐘就可以完成同樣的工作。在金融領域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是由建立在數學模型和算法之上的計算機程序自動完成的,這些程序運用海量數據來預測利益和降低風險。4.1.1天文學——信息爆炸的起源互聯網公司更是要被數據淹沒了。谷歌公司每天要處理超過24拍字節(PB,250字節)的數據,這意味著其每天的數據處理量是美國國家圖書館所有紙質出版物所含數據量的上千倍。Facebook(臉書)這個創立不過十來年的公司,每天更新的照片量超過1000萬張,每天人們在網站上點“贊”(Like)按鈕或者寫評論大約有三十億次,這就為Facebook公司挖掘用戶喜好提供了大量的數據線索。與此同時,谷歌子公司YouTube每月接待多達8億的訪客,平均每一秒鐘就會有一段長度在一小時以上的視頻上傳。推特(Twitter)上的信息量幾乎每年翻一番,每天都會發布超過4億條微博。4.1.1天文學——信息爆炸的起源從科學研究到醫療保險,從銀行業到互聯網,各個不同的領域都在講述著一個類似的故事,那就是爆發式增長的數據量。這種增長超過了我們創造機器的速度,甚至超過了我們的想象。人類存儲信息量的增長速度比世界經濟的增長速度快4倍,而計算機數據處理能力的增長速度則比世界經濟的增長速度快9倍,每個人都受到了這種極速發展的沖擊。4.1.1天文學——信息爆炸的起源以納米技術為例。納米技術專注于把東西變小而不是變大。其原理就是當事物到達分子級別時,它的物理性質就會發生改變。一旦你知道這些新的性質,就可以用同樣的原料來做以前無法做的事情。銅本來是用來導電的物質,但它一旦到達納米級別就不能在磁場中導電了。銀離子具有抗菌性,但當它以分子形式存在的時候,這種性質會消失。一旦到達納米級別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當我們增加所利用的數據量時,也就可以做很多在小數據量的基礎上無法完成的事情。4.1.1天文學——信息爆炸的起源大數據的科學價值和社會價值正是體現在這里。一方面,對大數據的掌握程度可以轉化為經濟價值的來源。另一方面,大數據已經撼動了世界的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會的其他各個領域。盡管我們還處在大數據時代的初期,但我們的日常生活已經離不開它了。4.1.2大數據的定義所謂大數據,狹義上可以定義為:用現有的一般技術難以管理的大量數據的集合。對大量數據進行分析,并從中獲得有用觀點,這種做法在一部分研究機構和大企業中,過去就已經存在了。現在的大數據和過去相比,主要有三點區別:第一,隨著社交媒體和傳感器網絡等的發展,在我們身邊正產生出大量且多樣的數據;第二,隨著硬件和軟件技術的發展,數據的存儲、處理成本大幅下降;第三,隨著云計算的興起,大數據的存儲、處理環境已經沒有必要自行搭建。4.1.2大數據的定義所謂“用現有的一般技術難以管理”,例如是指用目前在企業數據庫占據主流地位的關系型數據庫無法進行管理的、具有復雜結構的數據。或者也可以說,是指由于數據量的增大,導致對數據的查詢(Query)響應時間超出允許范圍的龐大數據。研究機構Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。4.1.2大數據的定義麥肯錫說:“大數據指的是所涉及的數據集規模已經超過了傳統數據庫軟件獲取、存儲、營理和分析的能力。這是一個被故意設計成主觀性的定義,并且是一個關于多大的數據集才能被認為是大數據的可變定義,即并不定義大于一個特定數字的TB才叫大數據。因為隨著技術的不斷發展,符合大數據標準的數據集容量也會增長;并且定義隨不同的行業也有變化,這依賴于在一個特定行業通常使用何種軟件和數據集有多大。因此,大數據在今天不同行業中的范圍可以從幾十TB到幾PB。”隨著“大數據”的出現,數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據商業價值的利用正逐漸成為行業人士爭相追捧的利潤焦點,在全球引領了又一輪數據技術革新的浪潮。4.1.3用3V描述大數據特征從字面來看,“大數據”這個詞可能會讓人覺得只是容量非常大的數據集合而已。但容量只不過是大數據特征的一個方面,如果只拘泥于數據量,就無法深入理解當前圍繞大數據所進行的討論。因為“用現有的一般技術難以管理”這樣的狀況,并不僅僅是由于數據量增大這一個因素所造成的。IBM說:“可以用3個特征相結合來定義大數據:數量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡單的3V,即龐大容量、極快速度和種類豐富的數據”(見圖4-2)。4.1.3用3V描述大數據特征圖4-2按數量、種類和速度來定義大數據4.1.3用3V描述大數據特征1.Volume(數量)用現有技術無法管理的數據量,從現狀來看,基本上是指從幾十TB到幾PB這樣的數量級。當然,隨著技術的進步,這個數值也會不斷變化。如今,存儲的數據數量正在急劇增長中,我們存儲所有事物,包括:環境數據、財務數據、醫療數據、監控數據等。有關數據量的對話已從TB級別轉向PB級別,并且不可避免地會轉向ZB級別。可是,隨著可供企業使用的數據量不斷增長,可處理、理解和分析的數據的比例卻不斷下降。4.1.3用3V描述大數據特征2.Variety(種類、多樣性)隨著傳感器、智能設備以及社交協作技術的激增,企業的數據也變得更加復雜,因為它不僅包含傳統的關系型數據,還包含來自網頁、互聯網日志文件(包括單擊流數據)、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統的傳感器數據等原始、半結構化和非結構化數據。種類表示所有的數據類型。其中,爆發式增長的一些數據,如互聯網上的文本數據、位置信息、傳感器數據、視頻等,用企業中主流的關系型數據庫是很難存儲的,它們都屬于非結構化數據。4.1.3用3V描述大數據特征當然,在這些數據中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數據進行分析,并從中獲得有用的信息。例如監控攝像機中的視頻數據。近年來,超市、便利店等零售企業幾乎都配備了監控攝像機,最初目的是為了防范盜竊,但現在也出現了使用監控攝像機的視頻數據來分析顧客購買行為的案例。例如,美國高級文具制造商萬寶龍(Montblane)過去是憑經驗和直覺來決定商品陳列布局的,現在嘗試利用監控攝像頭對顧客在店內的行為進行分析。通過分析監控攝像機的數據,將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。4.1.3用3V描述大數據特征3.Velocity(速度)數據產生和更新的頻率,也是衡量大數據的一個重要特征。就像我們收集和存儲的數據量和種類發生了變化一樣,生成和需要處理數據的速度也在變化。不要將速度的概念限定為與數據存儲相關的增長速率,應動態地將此定義應用到數據,即數據流動的速度。有效處理大數據需要在數據變化的過程中對它的數量和種類執行分析,而不只是在它靜止后執行分析。例如,遍布全國的便利店在24小時內產生的POS機數據,電商網站中由用戶訪問所產生的網站點擊流數據,高峰時達到每秒近萬條的微信短文,全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結冰、積雪等路面狀態)等,每天都在產生著龐大的數據。4.1.3用3V描述大數據特征IBM在3V的基礎上又歸納總結了第四個V一一Veracity(真實和準確)。“只有真實而準確的數據才能讓對數據的管控和治理真正有意義。隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限性被打破,企業愈發需要有效的信息治理以確保其真實性及安全性。”4.1.3用3V描述大數據特征IDC(互聯網數據中心)說:“大數據是一個貌似不知道從哪里冒出來的大的動力。但是實際上,大數據并不是新生事物。然而,它確實正在進入主流,并得到重大關注,這是有原因的。廉價的存儲、傳感器和數據采集技術的快速發展、通過云和虛擬化存儲設施增加的信息鏈路,以及創新軟件和分析工具,正在驅動著大數據。大數據不是一個‘事物’,而是一個跨多個信息技術領域的動力/活動。大數據技術描述了新一代的技術和架構,其被設計用于:通過使用高速(Velocity)的采集、發現和/或分析,從超大容量(Volume)的多樣(Variety)數據中經濟地提取價值(Value)。”4.1.3用3V描述大數據特征這個定義除了揭示大數據傳統的3V基本特征,即Volume(大數據量)、Variety(多樣性)和Velocity(高速),還增添了一個新特征:Value(價值)。總之,大數據是個動態的定義,不同行業根據其應用的不同有著不同的理解,其衡量標準也在隨著技術的進步而改變。我們從廣義層面上再為大數據下一個定義(見圖4-3):“所謂大數據,是一個綜合性概念,它包括因具備3V(Volume/Variety/Velocity)特征而難以進行管理的數據,對這些數據進行存儲、處理、分析的技術,以及能夠通過分析這些數據獲得實用意義和觀點的人才和組織。”4.1.3用3V描述大數據特征圖4-3廣義的大數據4.1.3用3V描述大數據特征“存儲、處理、分析的技術”,指的是用于大規模數據分布式處理的框架Hadoop、具備良好擴展性的NoSQL數據庫,以及機器學習和統計分析等;“能夠通過分析這些數據獲得實用意義和觀點的人才和組織”,指的是目前十分緊俏的“數據科學家”這類人才,以及能夠對大數據進行有效運用的組織。4.1.4大數據的結構類型大數據具有多種形式,從高度結構化的財務數據,到文本文件、多媒體文件和基因定位圖的任何數據,都可以稱為大數據。由于數據自身的復雜性,作為一個必然的結果,處理大數據的首選方法就是在并行計算的環境中進行大規模并行處理(MassivelyParallelProcessing,MPP),這使得同時發生的并行攝取、并行數據裝載和分析成為可能。實際上,大多數的大數據都是非結構化或半結構化的,這需要不同的技術和工具來處理和分析。大數據最突出的特征是它的結構。圖4-4顯示了幾種不同數據結構類型數據的增長趨勢,由圖可知,未來數據增長的80%~90%將來自于不是結構化的數據類型(半、準和非結構化)。4.1.4大數據的結構類型圖4-4數據增長日益趨向非結構化4.1.4大數據的結構類型雖然圖4-4顯示了4種不同的、相分離的數據類型,實際上,有時這些數據類型是可以被混合在一起的。例如,有一個傳統的關系數據庫管理系統保存著一個軟件支持呼叫中心的通話日志,這里有典型的結構化數據,比如日期/時間戳、機器類型、問題類型、操作系統,這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結構化數據或半結構化數據,比如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術問題和解決方案的實際通話描述。另外一種可能是與結構化數據有關的實際通話的語音日志或者音頻文字實錄。即使是現在,大多數分析人員還無法分析這種通話日志歷史數據庫中的最普通和高度結構化的數據,因為挖掘文本信息是一項強度很大的工作,并且無法簡單地實現自動化。4.1.4大數據的結構類型人們通常最熟悉結構化數據的分析,然而,半結構化數據(XML)、“準”結構化數據(網站地址字符串)和非結構化數據代表了不同的挑戰,需要不同的技術來分析。如今,人們不再認為數據是靜止和陳舊的。但在以前,一旦完成了收集數據的目的之后,數據就會被認為已經沒有用處了。比方說,在飛機降落之后,票價數據就沒有用了。又如某城市的公交車因為價格不依賴于起點和終點,所以能夠反映重要通勤信息的數據就可能被丟棄了——設計人員如果沒有大數據的理念,就會丟失掉很多有價值的數據。4.1.4大數據的結構類型今天,大數據是人們獲得新的認知、創造新的價值的源泉,大數據還是改變市場、組織機構,以及政府與公民關系的方法。大數據時代對我們的生活,以及與世界交流的方式都提出了挑戰。實際上,大數據的精髓在于我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法,這三個轉變是相互聯系和相互作用的。思維變革之一:樣本=總體4.24.2思維變革之一:樣本=總體大數據時代的第一個轉變,是要分析與某事物相關的更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再是只依賴于分析隨機采樣的少量的數據樣本。19世紀以來,當面臨大量數據時,社會都依賴于采樣分析。但是采樣分析是信息缺乏時代和信息流通受限制的模擬數據時代的產物。以前我們通常把這看成是理所當然的限制,但高性能數字技術的流行讓我們意識到,這其實是一種人為的限制。與局限在小數據范圍相比,使用一切數據為我們帶來了更高的精確性,也讓我們看到了一些以前樣本無法揭示的細節信息。4.2思維變革之一:樣本=總體在某些方面,人們依然沒有完全意識到自己擁有了能夠收集和處理更大規模數據的能力,還是在信息匱乏的假設下做很多事情,假定自己只能收集到少量信息。這是一個自找實現的過程。人們甚至發展了一些使用盡可能少的信息的技術。例如,統計學的一個目的就是用盡可能少的數據來證實盡可能重大的發現。事實上,我們形成了一種習慣,那就是在制度、處理過程和激勵機制中盡可能地減少數據的使用。4.2.1小數據時代的隨機采樣數千年來,政府一直都試圖通過收集信息來管理國民,只是到最近,小企業和個人才有可能擁有大規模收集和分類數據的能力,而此前,大規模的計數都是政府的事情。以人口普查為例。據說古代埃及曾進行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒(見圖4-5)主導實施的人口普查,提出了“每個人都必須納稅”。4.2.1小數據時代的隨機采樣圖4-5奧古斯都愷撒4.2.1小數據時代的隨機采樣1086年的《末日審判書》對當時英國的人口、土地和財產做了一個前所未有的全面記載。皇家委員穿越整個國家對每個人、每件事都做了記載,后來這本書用《圣經》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受“最后的審判”一樣。然而,人口普查是一項耗資且費時的事情,盡管如此,當時收集的信息也只是一個大概情況,實施人口普查的人也知道他們不可能準確記錄下每個人的信息。實際上,“人口普查”這個詞來源于拉丁語的“censere”,本意就是推測、估算。4.2.1小數據時代的隨機采樣三百多年前,一個名叫約翰·格朗特的英國縫紉用品商提出了一個很有新意的方法,來推算出鼠疫時期倫敦的人口數,這種方法就是后來的統計學。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。雖然后來證實他能夠得出正確的數據僅僅是因為運氣好,但在當時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此,無論是進行人口普查還是其他大數據類的任務,人們還是一直使用清點這種“野蠻”的方法。4.2.1小數據時代的隨機采樣考慮到人口普查的復雜性以及耗時耗費的特點,政府極少進行普查。古羅馬在擁有數十萬人口的時候每5年普查一次。美國憲法規定每10年進行一次人口普查,而隨著國家人口越來越多,只能以百萬計數。但是到19世紀為止,即使這樣不頻繁的人口普查依然很困難,因為數據變化的速度超過了人口普查局統計分析的能力。4.2.1小數據時代的隨機采樣新中國建立后,先后于1953、1964和1982年舉行過3次人口普查。前3次人口普查是不定期進行的,自1990年第4次全國人口普查開始改為定期進行。根據《中華人民共和國統計法實施細則》和國務院的決定以及國務院2010年頒布的《全國人口普查條例》規定,人口普查每10年進行一次,尾數逢0的年份為普查年度。兩次普查之間,進行一次簡易人口普查。2020年為第七次全國人口普查時間。4.2.1小數據時代的隨機采樣新中國第一次人口普查的標準時間是1953年6月30日24時,所謂人口普查的標準時間,就是規定一個時間點,無論普查員入戶登記在哪一天進行,登記的人口及其各種特征都是反映那個時間點上的情況。根據上述規定,不管普查員在哪天進行入戶登記,普查對象所申報的都應該是標準時間的情況。通過這個標準時間,所有普查員普查登記完成后,經過匯總就可以得到全國人口的總數和各種人口狀況的數據。1953年11月1日發布了人口普查的主要數據,當時全國人口總數為601938035人。4.2.1小數據時代的隨機采樣第六次人口普查的標準時間是2010年11月1日零時。2011年4月,發布了第六次全國人口普查主要數據。此次人口普查登記的全國總人口為1339724852人。與2000年第五次人口普查相比,10年增加7390萬人,增長5.84%,年平均增長0.57%,比1990年到2000年年均1.07%的增長率下降了0.5個百分點。4.2.1小數據時代的隨機采樣美國在1880年進行的人口普查,耗時8年才完成數據匯總。因此,他們獲得的很多數據都是過時的。1890年進行的人口普查,預計要花費13年的時間來匯總數據。然而,因為稅收分攤和國會代表人數確定都是建立在人口的基礎上的,必須獲得正確且及時的數據。很明顯,人們已有的數據處理工具已經難以應付了。后來,美國人口普查局就委托發明家赫爾曼·霍爾瑞斯(被稱為現代自動計算之父)用他的穿孔卡片制表機(見圖4-6)來完成1890年的人口普查。4.2.1小數據時代的隨機采樣圖4-6霍爾瑞斯普查機4.2.1小數據時代的隨機采樣經過大量的努力,霍爾瑞斯成功地在1年時間內完成了人口普查的數據匯總工作。這在當時簡直就是一個奇跡,它標志著自動處理數據的開端,也為后來IBM公司的成立奠定了基礎。但是,將其作為收集處理大數據的方法依然過于昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進行統計。對于一個跨越式發展的國家而言,十年一次的人口普查的滯后性已經讓普查失去了大部分意義。4.2.1小數據時代的隨機采樣這就是問題所在,是利用所有的數據還是僅僅采用一部分呢?最明智的自然是得到有關被分析事物的所有數據,但是,當數量無比龐大時,這又不太現實。那如何選擇樣本呢?事實證明,問題的關鍵是選擇樣本時的隨機性。統計學家們證明:采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數量的增加關系不大。雖然聽起來很不可思議,但事實上,研究表明,當樣本數量達到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經濟學中的邊際效應遞減一樣。4.2.1小數據時代的隨機采樣在商業領域,隨機采樣被用來監管商品質量。這使得監管商品質量和提升商品品質變得更容易,花費也更少。以前,全面的質量監管要求對生產出來的每個產品進行檢查,而現在只需從一批商品中隨機抽取部分樣品進行檢查就可以了。本質上來說,隨機采樣讓大數據問題變得更加切實可行。同理,它將客戶調查引進了零售行業,將焦點討論引進了政治界,也將許多人文問題變成了社會科學問題。4.2.1小數據時代的隨機采樣隨機采樣取得了巨大的成功,成為現代社會、現代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機性,但是實現采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。此外,隨機采樣不適合考察子類別的情況。因為一旦繼續細分,隨機采樣結果的錯誤率會大大增加。因此,在宏觀領域起作用的方法在微觀領域失去了作用。4.2.2大數據與喬布斯的癌癥治療由于技術成本大幅下跌以及在醫學方面的廣闊前景,個人基因排序(DNA分析)成為了一門新興產業(見圖4-7)。從2007年起,硅谷的新興科技公司23andme就開始分析人類基因,價格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會導致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andme希望能通過整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對某人的一小部分DNA進行排序,標注出幾十個特定的基因缺陷。這只是該人整個基因密碼的樣本,還有幾十億個基因堿基對未排序。最后,23andme只能回答其標注過的基因組表現出來的問題。發現新標注時,該人的DNA必須重新排序,更準確地說,是相關的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發現問題,但不能回答事先未考慮到的問題。4.2.2大數據與喬布斯的癌癥治療圖4-7世界民族基因總圖(美國)4.2.2大數據與喬布斯的癌癥治療蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用,這是23andme報價的幾百倍之多。所以,他得到了包括整個基因密碼的數據文檔。對于一個普通的癌癥患者,醫生只能期望她的DNA排列同試驗中使用的樣本足夠相似。但是,史蒂夫·喬布斯的醫生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導致藥物失效,醫生可以及時更換另一種藥。喬布斯曾經開玩笑地說:“我要么是第一個通過這種方式戰勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人。”雖然他的愿望都沒有實現,但是這種獲得所有數據而不僅是樣本的方法還是將他的生命延長了好幾年。4.2.3全數據模式:樣本=總體采樣的目的是用最少的數據得到最多的信息,而當我們可以獲得海量數據的時候,它就沒有什么意義了。如今,感應器、手機導航、網站點擊和微信等被動地收集了大量數據,而計算機可以輕易地對這些數據進行處理——數據處理技術己經發生了翻天覆地的改變。在很多領域,從收集部分數據到收集盡可能多的數據的轉變已經發生了。如果可能的話,我們會收集所有的數據,即“樣本=總體”,這是指我們能對數據進行深度探討。4.2.3全數據模式:樣本=總體分析整個數據庫,而不是對一個小樣本進行分析,能夠提高微觀層面分析的準確性。所以,我們現在經常會放棄樣本分析這條捷徑,選擇收集全面而完整的數據。我們需要足夠的數據處理和存儲能力,也需要最先進的分析技術。同時,簡單廉價的數據收集方法也很重要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付出很高的代價。但是現在,解決這些難題已經變得簡單容易得多。曾經只有大公司才能做到的事情,現在絕大部分的公司都可以做到了。4.2.3全數據模式:樣本=總體通過使用所有的數據,我們可以發現如若不然則將會在大量數據中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識別的,只有掌握了所有的數據才能做到這一點。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進行對比。這是一個大數據問題。而且,因為交易是即時的,所以你的數據分析也應該是即時的。因為大數據是建立在掌握所有數據,至少是盡可能多的數據的基礎上的,所以我們就可以正確地考察細節并進行新的分析。在任何細微的層面,我們都可以用大數據去論證新的假設。當然,有些時候,我們還是可以使用樣本分析法,畢竟我們仍然活在一個資源有限的時代。但是更多時候,利用手中掌握的所有數據成為了最好也是可行的選擇。思維變革之二:接受數據的混雜性4.34.3思維變革之二:接受數據的混雜性大數據時代的第二個轉變,是我們樂于接受數據的紛繁復雜,而不再一味追求其精確性。在越來越多的情況下,使用所有可獲取的數據變得更為可能,但為此也要付出一定的代價。數據量的大幅增加會造成結果的不準確,與此同時,一些錯誤的數據也會混進數據庫。然而,重點是我們能夠努力避免這些問題,適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。當我們擁有海量即時數據時,絕對的精準不再是我們追求的主要目標。大數據紛繁多樣,優劣摻雜,分布在全球多個服務器上。擁有了大數據,我們不再需要對一個現象刨根究底,只要掌握大體的發展方向即可。當然,我們也不是完全放棄了精確度,只是不再沉迷于此。4.3.1允許不精確對“小數據”而言,最基本、最重要的要求就是減少錯誤,保證質量。因為收集的信息量比較少,所以我們必須確保記錄下來的數據盡量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小,為了使結果更加準確,很多科學家都致力于優化測量的工具,發展了可以準確收集、記錄和管理數據的方法。在采樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。然而,在不斷涌現的新情況里,允許不精確的出現已經成為一個亮點。因為放松了容錯的標準,人們掌握的數據也多了起來,還可以利用這些數據做更多新的事情。這樣就不是大量數據優于少量數據那么簡單了,而是大量數據創造了更好的結果。4.3.1允許不精確同時,我們需要與各種各樣的混亂做斗爭。混亂,簡單地說就是隨著數據的增加,錯誤率也會相應增加。所以,如果橋梁的壓力數據量增加1000倍的話,其中的部分讀數就可能是錯誤的,而且隨著讀數量的增加,錯誤率可能也會繼續增加。在整合來源不同的各類信息的時候,因為它們通常不完全一致,所以也會加大混亂程度。混亂還可以指格式的不一致性,因為要達到格式一致,就需要在進行數據處理之前仔細地清洗數據,而這在大數據背景下很難做到。4.3.1允許不精確當然,在萃取或處理數據的時候,混亂也會發生。因為在進行數據轉化的時候,我們是在把它變成另外的事物。比如,葡萄是溫帶植物,溫度是葡萄生長發育的重要因素,假設你要測量一個葡萄園的溫度,但是整個葡萄園只有一個溫度測量儀,那你就必須確保這個測量儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數據可能會是錯誤的,可能會更加混亂,但眾多的讀數合起來就可以提供一個更加準確的結果。因為這里面包含了更多的數據,而它不僅能抵消掉錯誤數據造成的影響,還能提供更多的額外價值。4.3.1允許不精確大數據在多大程度上優于算法,這個問題在自然語言處理上表現得很明顯。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進Word程序中語法檢查的方法。但是他們不能確定是努力改進現有的算法、研發新的方法,還是添加更加細膩精致的特點更有效。所以,在實施這些措施之前,他們決定往現有的算法中添加更多的數據,看看會有什么不同的變化。很多對計算機學習算法的研究都建立在百萬字左右的語料庫基礎上。最后,他們決定往4種常見的算法中逐新添加數據,先是一千萬字,再到一億字,最后到十億。4.3.1允許不精確結果有點令人吃驚。他們發現,隨著數據的增多,4種算法的表現都大幅提高了。當數據只有500萬的時候,有一種簡單的算法表現得很差,但當數據達10億的時候,它變成了表現最好的,準確率從原來的75%提高到了95%以上。與之相反地,在少量數據情況下運行得最好的算法,當加入更多的數據時,也會像其他的算法一樣有所提高,但是卻變成了在大量數據條件下運行得最不好的。它的準確率會從86%提高到94%。后來,班科和布里爾在他們發表的研究論文中寫到,“如此一來,我們得重新衡量一下更多的人力物力是應該消耗在算法發展上還是在語料庫發展上。”4.3.2大數據的簡單算法與小數據的復雜算法20世紀40年代,計算機由真空管制成,要占據整個房間這么大的空間。而機器翻譯也只是計算機開發人員的一個想法。在冷戰時期,美國掌握了大量關于蘇聯的各種資料,但缺少翻譯這些資料的人手。所以,計算機翻譯也成了亟待解決的問題。最初,計算機研發人員打算將語法規則和雙語詞典結合在一起。1954年,IBM以計算機中的250個詞語和六條語法規則為基礎,將60個俄語詞組翻譯成了英語,結果振奮人心。IBM701通過穿孔卡片讀取了一句話,并將其譯成了“我們通過語言來交流思想”。在慶祝這個成就的發布會上,一篇報道就有提到,這60句話翻譯得很流暢。這個程序的指揮官利昂?多斯特爾特表示,他相信“在三五年后,機器翻譯將會變得很成熟”。4.3.2大數據的簡單算法與小數據的復雜算法事實證明,計算機翻譯最初的成功誤導了人們。1966年,一群機器翻譯的研究人員意識到,翻譯比他們想象的更困難,他們不得不承認自己的失敗。機器翻譯不能只是讓電腦熟悉常用規則,還必須教會電腦處理特殊的語言情況。畢竟,翻譯不僅僅只是記憶和復述,也涉及選詞,而明確地教會電腦這些非常不現實。在20世紀80年代后期,IBM的研發人員提出了一個新的想法。與單純教給計算機語言規則和詞匯相比,他們試圖讓計算機自己估算一個詞或一個詞組適合于用來翻譯另一種語言中的一個詞和詞組的可能性,然后再決定某個詞和詞組在另一種語言中的對等詞和詞組。4.3.2大數據的簡單算法與小數據的復雜算法20世紀90年代,IBM這個名為Candide的項目花費了大概十年的時間,將大約有300萬句之多的加拿大議會資料譯成了英語和法語并出版。由于是官方文件,翻譯的標準就非常高。用那個時候的標準來看,數據量非常之龐大。統計機器學習從誕生之日起,就聰明地把翻譯的挑戰變成了一個數學問題,而這似乎很有效!計算機翻譯能力在短時間內就提高了很多。然而,在這次飛躍之后,IBM公司盡管投入了很多資金,但取得的成效不大。最終,IBM公司停止了這個項目。4.3.2大數據的簡單算法與小數據的復雜算法2006年,谷歌公司也開始涉足機器翻譯,這被當作實現“收集全世界的數據資源,并讓人人都可享受這些資源”這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數據庫,也就是全球的互聯網,而不再只利用兩種語言之間的文本翻譯。4.3.2大數據的簡單算法與小數據的復雜算法為了訓練計算機,谷歌翻譯系統會吸收它能找到的所有翻譯。它從各種各樣語言的公司網站上尋找對譯文檔,還會去尋找聯合國和歐盟這些國際組織發布的官方文件和報告的譯本。它甚至會吸收速讀項目中的書籍翻譯。谷歌翻譯部的負責人弗朗茲·奧齊是機器翻譯界的權威,他指出,“谷歌的翻譯系統不會像Candide一樣只是仔細地翻譯300萬句話,它會掌握用不同語言翻譯的質量參差不齊的數十億頁的文檔。”不考慮翻譯質量的話,上萬億的語料庫就相當于950億句英語。4.3.2大數據的簡單算法與小數據的復雜算法盡管其輸入源很混亂,但較其他翻譯系統而言,谷歌的翻譯質量相對而言還是最好的,而且可翻譯的內容更多。到2012年年中,谷歌數據庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,并有很流利的對等翻譯。之所以能做到這些,是因為它將語言視為能夠判別可能性的數據,而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言。因為在翻譯的時候它能適當增減詞匯,所以谷歌的翻譯比其他系統的翻譯靈活很多。4.3.2大數據的簡單算法與小數據的復雜算法谷歌的翻譯之所以更好并不是因為它擁有一個更好的算法機制。和微軟的班科和布里爾一樣,這是因為谷歌翻譯增加了很多各種各樣的數據。從谷歌的例子來看,它之所以能比IBM的Candide系統多利用成千上萬的數據,是因為它接受了有錯誤的數據。2006年,谷歌發布的上萬億的語料庫,就是來自于互聯網的一些廢棄內容。這就是“訓練集”,可以正確地推算出英語詞匯搭配在一起的可能性。4.3.2大數據的簡單算法與小數據的復雜算法谷歌公司人工智能專家彼得·諾維格在一篇題為《數據的非理性效果》的文章中寫道,“大數據基礎上的簡單算法比小數據基礎上的復雜算法更加有效。”他們就指出,混雜是關鍵。“由于谷歌語料庫的內容來自于未經過濾的網頁內容,所以會包含一些不完整的句子、拼寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細的人工糾錯后的注解。但是,谷歌語料庫的數據優勢完全壓倒了缺點。”4.3.3紛繁的數據越多越好通常傳統的統計學家都很難容忍錯誤數據的存在,在收集樣本的時候,他們會用一整套的策略來減少錯誤發生的概率。在結果公布之前,他們也會測試樣本是否存在潛在的系統性偏差。這些策略包括根據協議或通過受過專門訓練的專家來采集樣本。但是,即使只是少量的數據,這些規避錯誤的策略實施起來還是耗費巨大。尤其是當我們收集所有數據的時候,在大規模的基礎上保持數據收集標準的一致性不太現實。如今,我們已經生活在信息時代。我們掌握的數據庫越來越全面,它包括了與這些現象相關的大量甚至全部數據。我們不再需要那么擔心某個數據點對整套分析的不利影響。我們要做的就是要接受這些紛繁的數據并從中受益,而不是以高昂的代價消除所有的不確定性。4.3.3紛繁的數據越多越好在華盛頓州布萊恩市的英國石油公司(BP)切里波因特煉油廠(見圖4-8)里,無線感應器遍布于整個工廠,形成無形的網絡,能夠產生大量實時數據。在這里,酷熱的惡劣環境和電氣設備的存在有時會對感應器讀數有所影響,形成錯誤的數據。但是數據生成的數量之多可以彌補這些小錯誤。隨時監測管道的承壓使得BP能夠了解到,有些種類的原油比其他種類更具有腐蝕性。以前,這都是無法發現也無法防止的。4.3.3紛繁的數據越多越好圖4-8煉油廠4.3.3紛繁的數據越多越好有時候,當我們掌握了大量新型數據時,精確性就不那么重要了,我們同樣可以掌握事情的發展趨勢。除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。4.3.3紛繁的數據越多越好值得注意的是,錯誤性并不是大數據本身固有的特性,而是一個亟需我們去處理的現實問題,并且有可能長期存在。它只是我們用來測量、記錄和交流數據的工具的一個缺陷。因為擁有更大數據量所能帶來的商業利益遠遠超過增加一點精確性,所以通常我們不會再花大力氣去提升數據的精確性。這又是一個關注焦點的轉變,正如以前,統計學家們總是把他們的興趣放在提高樣本的隨機性而不是數量上。如今,大數據給我們帶來的利益,讓我們能夠接受不精確的存在了。4.3.45%的數字數據與95%的非結構化數據據估計,只有5%的數字數據是結構化的且能適用于傳統數據庫。如果不接受混亂,剩下95%的非結構化數據都無法被利用,比如網頁和視頻資源。我們怎么看待使用所有數據和使用部分數據的差別,以及我們怎樣選擇放松要求并取代嚴格的精確性,將會對我們與世界的溝通產生深刻的影響。隨著大數據技術成為日常生活中的一部分,我們應該開始從一個比以前更大更全面的角度來理解事物,也就是說應該將“樣本=總體”植入我們的思維中。4.3.45%的數字數據與95%的非結構化數據相比依賴于小數據和精確性的時代,大數據因為更強調數據的完整性和混雜性,幫助我們進一步接近事實的真相。當我們的視野局限在我們可以分析和能夠確定的數據上時,我們對世界的整體理解就可能產生偏差和錯誤。不僅失去了去盡力收集一切數據的動力,也失去了從各個不同角度來觀察事物的權利。所以,局限于狹隘的小數據中,我們可以自豪于對精確性的追求,但是就算我們可以分析得到細節中的細節,也依然會錯過事物的全貌。大數據要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,但認為每個問題只有一個答案的想法是站不住腳的。思維變革之三:數據的相關關系4.44.4思維變革之三:數據的相關關系在傳統觀念下,人們總是致力于找到一切事情發生背后的原因。然而在很多時候,尋找數據間的關聯并利用這種關聯就足夠了。這些思想上的重大轉變導致了第三個變革:我們嘗試著不再探求難以捉摸的因果關系,轉而關注事物的相關關系。相關關系也許不能準確地告知我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。在許多情況下,這種提醒的幫助已經足夠大了。4.4思維變革之三:數據的相關關系如果數百萬條電子醫療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機制就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時候是買機票的最佳時機,就算不知道機票價格瘋狂變動的原因也無所謂了。大數據告訴我們“是什么”而不是“為什么”。在大數據時代,我們不必知道現象背后的原因,我們只要讓數據自己發聲。我們不再需要在還沒有收集數據之前,就把我們的分析建立在早已設立的少量假設的基礎之上。讓數據發聲,我們會注意到很多以前從來沒有意識到的聯系的存在。4.4.1關聯物,預測的關鍵雖然在小數據世界中相關關系也是有用的,但如今在大數據的背景下,通過應用相關關系,我們可以比以前更容易、更快捷、更清楚地分析事物。所謂相關關系,其核心是指量化兩個數據值之間的數理關系。相關關系強是指當一個數據值增加時,另一個數據值很有可能也會隨之增加。我們已經看到過這種很強的相關關系,比如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜索特定的詞條,該地區就有更多的人患了流感。相反,相關關系弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。例如,我們可以尋找關于個人的鞋碼和幸福的相關關系,但會發現它們幾乎扯不上什么關系。4.4.1關聯物,預測的關鍵相關關系通過識別有用的關聯物來幫助我們分析一個現象,而不是通過揭示其內部的運作機制。當然,即使是很強的相關關系也不一定能解釋每一種情況,比如兩個事物看上去行為相似,但很有可能只是巧合。相關關系沒有絕對,只有可能性。也就是說,不是亞馬遜推薦的每本書都是顧客想買的書。但是,如果相關關系強,一個相關鏈接成功的概率是很高的。這一點很多人可以證明,他們的書架上有很多書都是因為亞馬遜推薦而購買的。4.4.1關聯物,預測的關鍵通過找到一個現象的良好的關聯物,相關關系可以幫助我們捕捉現在和預測未來。如果A和B經常一起發生,我們只需要注意到B發生了.就可以預測A也發生了。這有助于我們捕捉可能和A一起發生的事情,即使我們不能直接測量或觀察到A。更重要的是,它還可以幫助我們預測未來可能發生什么。當然,相關關系是無法預知未來的,他們只能預測可能發生的事情。但是,這已經極其珍貴了。在大數據時代,建立在相關關系分析法基礎上的預測是大數據的核心。這種預測發生的頻率非常高,以至于我們經常忽略了它的創新性。當然,它的應用會越來越多。4.4.1關聯物,預測的關鍵在社會環境下尋找關聯物只是大數據分析法采取的一種方式。同樣有用的一種方法是,通過找出新種類數據之間的相互聯系來解決日常需要。比方說,一種稱為預測分析法的方法就被廣泛地應用于商業領域,它可以預測事件的發生。這可以指一個能發現可能的流行歌曲的算法系統——音樂界廣泛采用這種方法來確保它們看好的歌曲真的會流行;也可以指那些用來防止機器失效和建筑倒塌的方法。現在,在機器、發動機和橋梁等基礎設施上放置傳感器變得越來越平常了,這些傳感器被用來記錄散發的熱量、振幅、承壓和發出的聲音等。4.4.1關聯物,預測的關鍵一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。通過收集所有的數據,我們可以預先捕捉到事物要出故障的信號,比方說發動機的嗡嗡聲、引擎過熱都說明它們可能要出故障了。系統把這些異常情況與正常情況進行對比,就會知道什么地方出了毛病。通過盡早地發現異常,系統可以提醒我們在故障之前更換零件或者修復問題。通過找出一個關聯物并監控它,我們就能預測未來。4.4.2是“什么”,而不是“為什么”在小數據時代,相關關系分析和因果分析都不容易,耗費巨大,都要從建立假設開始,然后進行實驗——這個假設要么被證實要么被推翻。但是,由于兩者都始于假設,這些分析就都有受偏見影響的可能,極易導致錯誤。與此同時,用來
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋裝修拆除協議書
- 七中招生考試試卷及答案
- 七下道法押題試卷及答案
- 2024下半年山東高速集團有限公司社會招聘筆試參考題庫附帶答案詳解
- 異位妊娠術后出血護理措施
- 環保建材施工方案
- 2024年秋新冀教版一年級上冊數學 4.5 連加 教學課件
- 2024年高考地理母題題源系列專題10人口年齡結構與人口問題含解析
- 結腸癌患者圍手術期護理
- 丙烯酸籃球場施工流程
- 2025-2030中國濾紙市場現狀調查及營銷發展趨勢研究研究報告
- 【初中生物】食物中營養物質課件2024-2025學年人教版生物七年級下冊
- 礦產資源開發合作框架協議書范本
- 2025年寧波衛生職業技術學院單招職業技能測試題庫附答案
- 征文投稿(答題模板)原卷版-2025年高考英語答題技巧與模板構建
- 空壓機每日巡檢記錄表-
- 樁基工程技術標投標文件(技術方案)
- 2024年吉林水利電力職業學院高職單招職業技能測驗歷年參考題庫(頻考版)含答案解析
- 2025年重慶聯合產權交易所集團招聘筆試參考題庫含答案解析
- 廣西電力職業技術學院《外國刑法》2023-2024學年第一學期期末試卷
- 科技安全課件
評論
0/150
提交評論