




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能導論Introductiontoartificialintelligence大數據思維1大數據與人工智能2思維轉變之一:樣本=總體3思維轉變之二:接受數據的混雜性4思維轉變之三:數據的相關關系第1節1大數據與人工智能3.1大數據與人工智能事實上人們對數據并不陌生。上古時期的結繩記事、以月之盈虧計算歲月,到后來部落內部以獵物、采摘多寡計算貢獻,再到歷朝歷代的土地農田、人口糧食、馬匹軍隊等各類事項都涉及到大量的數據。這些數據雖然越來越多、越來越大,但是,人們都未曾冠之以“大”字,那是什么事情讓“數據”這瓶老酒突然換發了青春并如此時髦起來呢?Car
情報局3.1大數據與人工智能當互聯網開始進一步向外延伸并與世上的很多物品鏈接之后,這些物體開始不停地將實時變化的各類數據傳回到互聯網并與人開始互動的時候,物聯網誕生了。物聯網是個大奇跡,被認為可能是繼互聯網之后人類最偉大的技術革命。Car
情報局3.1大數據與人工智能如今,即便是一件物品被人感知到的幾天內的各種動態數據,都足以與古代一個王國一年所收集的各類數據相匹抵,那物聯網上數以萬計億計的物品呢?是不是數據大得不得了,于是“大數據”產生了。Car
情報局3.1大數據與人工智能如此浩如云海的數據,如何分類提取和有效處理呢?這個需要強大的技術設計與運算能力,于是有了“云計算”。其中的“技術設計”屬于“算法”。“云計算”需要從大量數據中挖掘有用的信息,于是“數據挖掘”產生了。這些被挖掘出來的有用信息去服務城市就叫做“智慧城市”,去服務交通就叫做“智慧交通”,去服務家庭就叫做“智能家居”,去服務于醫院就叫做“智能醫院”,……于是,智能社會產生了。不過,智能社會要有序、有效地運行,中間必須依托一個“橋梁”和借助于某個工具,那就是“人工智能”。Car
情報局3.1大數據與人工智能這就是為什么近幾年時間內,諸如“人工智能”、“物聯網”、“大數據”、“云計算”、“算法”、“數據挖掘”和“智能XX”這些時髦概念突然紛紛冒出來的理由,原來它們都是“同一條線上拴著的螞蚱”!圖3-3一根繩上的螞蚱Car
情報局3.1大數據與人工智能萬物大數據主要包括人與人、人與物、物與物三者相互作用所產生(制造)的大數據。其中人與人、人與物之間制造出來的數據,有少部分被感知,物與物之間制造出來的數據還根本沒法被感知的。對于人與人、人與物之間被感知到的那部分很小的數據(相對于萬物釋放的量來說非常小,但是絕對量卻非常大),這主要是指在2000年后,因為人類信息交換、信息存儲、信息處理三方面能力的大幅增長而產生的數據,這個實際上就是我們日常所聽到的“大數據”概念,是以人為中心的狹義大數據,也是實用性(商業、監控或發展等使用)大數據。信息存儲、處理等能力的增強為我們利用大數據提供了近乎無限的想象空間。Car
情報局3.1大數據與人工智能在數字化時代,數據處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數據。而“大數據”全在于發現和理解信息內容及信息與信息之間的關系。實際上,大數據的精髓在于我們分析信息時的三個轉變,這些轉變將改變我們理解和組建社會的方法,這三個轉變是相互聯系和相互作用的。Car
情報局1小數據時代的隨機采樣2大數據與喬布斯的癌癥治療3全數據模式:樣本=總體第2節3.2思維轉變之一:樣本=總體很長以來,因為記錄、儲存和分析數據的工具不夠好,為了讓分析變得簡單,當面臨大量數據時,社會都依賴于采樣分析。但是采樣分析是信息缺乏時代和信息流通受限制的模擬數據時代的產物。如今信息技術的條件已經有了非常大的提高,雖然人類可以處理的數據依然是有限的,但是可以處理的數據量已經大大地增加,而且未來會越來越多。大數據時代的第一個轉變,是要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。Car
情報局3.2思維轉變之一:樣本=總體在某些方面,人們依然還沒有意識到自己擁有了能夠收集和處理更大規模數據的能力,還是在信息匱乏的假設下做很多事情。人們甚至發展了一些使用盡可能少的信息的技術,例如統計學的一個目的就是用盡可能少的數據來證實盡可能重大的發現。Car
情報局3.2.1小數據時代的隨機采樣數千年來,政府一直都試圖通過收集信息來管理國民,只是到最近,小企業和個人才有可能擁有大規模收集和分類數據的能力,而此前,大規模的計數則是政府的事情。以人口普查為例,據說古代埃及就曾進行過人口普查,那次由羅馬帝國的開國君主愷撒主導實施的人口普查,提出了“每個人都必須納稅”。1086年的《末日審判書》對當時英國的人口、土地和財產做了一個前所未有的全面記載?;始椅瘑T穿越整個國家對每個人、每件事都做了記載,后來這本書用《圣經》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受“最后的審判”一樣。Car
情報局3.2.1小數據時代的隨機采樣然而,人口普查是一項耗資且費時的事情,盡管如此,當時收集的信息也只是一個大概情況,實施人口普查的人也知道他們不可能準確記錄下每個人的信息。實際上,“人口普查”這個詞來源于拉丁語的“censere”,本意就是推測、估算。Car
情報局3.2.1小數據時代的隨機采樣三百多年前,一個名叫約翰·格朗特的英國縫紉用品商提出了一個很有新意的方法,來推算出鼠疫時期倫敦的人口數,這種方法就是后來的統計學。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。樣本分析法一直都有較大的漏洞,因此,無論是進行人口普查還是其他大數據類的任務,人們還是一直使用清點這種“野蠻”的方法。Car
情報局3.2.1小數據時代的隨機采樣美國在1880年進行的人口普查,耗時8年才完成數據匯總。因此,他們獲得的很多數據都是過時的。1890年進行的人口普查,預計要花費13年的時間來匯總數據。然而,因為稅收分攤和國會代表人數確定都是建立在人口的基礎上的,必須獲得正確且及時的數據,所以就需要有新技術。后來,是美國發明家赫爾曼?霍爾瑞斯(被稱為現代自動計算之父)用他的穿孔卡片制表機成功地在1年時間內完成了人口普查的數據匯總工作。這簡直就
是一個奇跡,它標志著自動處理數據的開端,也為
后來IBM公司的成立奠定了基礎。Car
情報局3.2.1小數據時代的隨機采樣這就是問題所在,是利用所有的數據還是僅僅采用一部分呢?有人提出有目的地選擇最具代表性的樣本是最恰當的方法,后來統計學家們證明,問題的關鍵是選擇樣本時的隨機性,采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數量的增加關系不大。在商業領域,隨機采樣被用來監管商品質量。這使得監管商品質量和提升商品品質變得更容易,花費也更少。本質上來說,隨機采樣讓大數據問題變得更加切實可行。同理,它將客戶調查引進了零售行業,將焦點討論引進了政治界,也將許多人文問題變成了社會科學問題。Car
情報局3.2.1小數據時代的隨機采樣隨機采樣取得了巨大的成功,成為現代社會、現代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數據的情況下的選擇,它的成功依賴于采樣的絕對隨機性,但是實現采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。Car
情報局3.2.2大數據與喬布斯的癌癥治療我們來看一下DNA分析。由于技術成本大幅下跌以及在醫學方面的廣闊前景,個人基因排序成為了一門新興
產業。圖3-5世界民族基因總圖(美國)Car
情報局3.2.2大數據與喬布斯的癌癥治療從2007年起,硅谷的新興科技公司23andMe就開始分析人類基因,這可以揭示出人類遺傳密碼中一些會導致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andMe希望能通過整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。公司對某人的一小部分DNA進行排序,標注出幾十個特定的基因缺陷。這只是該人整個基因密碼的樣本,還有幾十億個基因堿基對未排序。最后,23andMe只能回答其標注過的基因組表現出來的問題。發現新標注時,該人的DNA必須重新排序,更準確地說,是相關的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發現問題,但不能回答事先未考慮到的問題。Car
情報局3.2.2大數據與喬布斯的癌癥治療蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。他得到的不是一個標記的樣本,他得到了包括整個基因密碼的數據文檔。對于一個普通的癌癥患者,醫生只能期望她的DNA排列同試驗中使用的樣本足夠相似。但是,史蒂夫?喬布斯的醫生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導致藥物失效,醫生可以及時更換另一種藥。喬布斯曾經開玩笑地說:“我要么是第一個通過這種方式戰勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人。”雖然他的愿望都沒有實現,但是這種獲得所有數據而不僅是樣本的方法還是將他的生命延長了好幾年。Car
情報局3.2.3全數據模式:樣本=總體采樣的目的是用最少的數據得到更多的信息,而當我們可以處理海量數據的時候,采樣就沒有什么意義了。如今,計算和制表已經不再困難,感應器、手機導航、網站點擊和微信等被動地收集了大量數據,而計算機可以輕易地對這些數據進行處理。但是,數據處理技術己經發生了翻天覆地的改變,而我們的方法和思維卻沒有跟上這種改變。在很多領域,從收集部分數據到收集盡可能多的數據的轉變已經發生。如果可能的話,我們會收集所有的數據,即“樣本=總體”,這是指我們能對數據進行深度探討。Car
情報局3.2.3全數據模式:樣本=總體在上面提到的例子中,用采樣的方法分析情況正確率可達97%。對于某些事物來說,3%的錯誤率是可以接受的,但是你可能會失去對某些特定子類別進行進一步研究的能力。谷歌流感趨勢預測不是依賴于隨機樣本,而是分析了全美國幾十億條互聯網檢索記錄。分析整個數據庫,而不是對一個小樣本進行分析,能夠提高微觀層面分析的準確性,甚至能夠推測出某個特定城市的流感狀況。Car
情報局3.2.3全數據模式:樣本=總體通過使用所有的數據,我們可以發現如若不然則將會在大量數據中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識別的,只有掌握了所有的數據才能做到這一點。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進行對比。而且,因為交易是即時的,所以你的數據分析也應該是即時的。Car
情報局3.2.3全數據模式:樣本=總體因為大數據是建立在掌握所有數據,至少是盡可能多的數據的基礎上的,所以我們就可以正確地考察細節并進行新的分析。在任何細微的層面,我們都可以用大數據去論證新的假設。當然,有些時候,我們還是可以使用樣本分析法,畢竟我們仍然活在一個資源有限的時代。但是更多時候,利用手中掌握的所有數據成為了最好也是可行的選擇。于是,慢慢地,我們會完全拋棄樣本分析。Car
情報局1允許不精確2紛繁的數據越多越好3混雜性是標準途徑45%的數字數據與95%的非結構化數據第3節3.3思維轉變之二:接受數據的混雜性當我們測量事物的能力受限時,關注最重要的事情和獲取最精確的結果是可取的。直到今天,我們的數字技術依然建立在精準的基礎上。我們假設只要電子數據表格把數據排序,數據庫引擎就可以找出和我們檢索的內容完全一致的檢索記錄。這種思維方式適用于掌握“小數據量”的情況,因為需要分析的數據很少,所以我們必須盡可能精準地量化我們的記錄。在某些方面,我們已經意識到了差別。例如,一個小商店在晚上打烊的時候要把收銀臺里的每分錢都數清楚,但是我們不會、也不可能用“分”這個單位去精確度量國民生產總值。隨著規模的擴大,對精確度的癡迷將減弱。Car
情報局3.3思維轉變之二:接受數據的混雜性針對小數據量和特定事情,追求精確性依然是可行的,比如一個人的銀行賬戶上是否有足夠的錢開具支票。但是,在大數據時代,很多時候,追求精確度已經變得不可行,甚至不受歡迎了。大數據紛繁多樣,優劣摻雜,分布在全球多個服務器上。擁有了大數據,我們不再需要對一個現象刨根究底,只要掌握大體的發展方向即可。當然,我們也不是完全放棄了精確度,只是不再沉迷于此。適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。Car
情報局3.3思維轉變之二:接受數據的混雜性大數據時代的第二個轉變,是我們樂于接受數據的紛繁復雜,而不再一味追求其精確性。在越來越多的情況下,使用所有可獲取的數據變得更為可能,但為此也要付出一定的代價。數據量的大幅增加會造成結果的不準確,與此同時,一些錯誤的數據也會混進數據庫。然而,重點是我們能夠努力避免這些問題。Car
情報局3.3.1允許不精確對“小數據”而言,最基本、最重要的要求就是減少錯誤,保證質量。因為收集的信息量比較少,所以我們必須確保記錄下來的數據盡量精確。為了使結果更加準確,很多科學家都致力于優化測量的工具。在采樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。然而,在不斷涌現的新情況里,允許不精確的出現已經成為一個亮點,而非缺點。因為放松了容錯的標準,人們掌握的數據也多了起來,還可以利用這些數據做更多新的事情。這樣就不是大量數據優于少量數據那么簡單了,而是大量數據創造了更好的結果。Car
情報局3.3.1允許不精確同時,我們需要與各種各樣的混亂做斗爭?;靵y,簡單地說就是隨著數據的增加,錯誤率也會相應增加。所以,如果橋梁的壓力數據量增加1000倍的話,其中的部分讀數就可能是錯誤的,而且隨著讀數量的增加,錯誤率可能也會繼續增加。在整合來源不同的各類信息的時候,因為它們通常不完全一致,所以也會加大混亂程度?;靵y還指格式的不一致性,因為要達到格式一致,就需要在進行數據處理之前仔細地清洗數據,而這在大數據背景下很難做到。當然,在萃取或處理數據的時候,混亂也會發生。因為在進行數據轉化的時候,我們是在把它變成另外的事物。Car
情報局3.3.1允許不精確可見,為了獲得更廣泛的數據而犧牲了精確性,也因此看到了很多如若不然無法被關注到的細節。雖然如果我們能夠下足夠多的工夫,這些錯誤是可以避免的,但在很多情況下,與致力于避免錯誤相比,對錯誤的包容會帶給我們更多好處。Car
情報局3.3.1允許不精確大數據在多大程度上優于算法,這個問題在自然語言處理上表現得很明顯。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進Word程序中語法檢查的方法。但是他們不能確定是努力改進現有的算法、研發新的方法,還是添加更加細膩精致的特點更有效。所以,在實施這些措施之前,他們決定往現有的算法中添加更多的數據,看看會有什么不同的變化。很多對計算機學習算法的研究都建立在百萬字左右的語料庫基礎上。最后,他們決定往4種常見的算法中逐新添加數據,先是一千萬字,再到一億字,最后到十億。Car
情報局3.3.1允許不精確結果有點令人吃驚。他們發現,隨著數據的增多,4種算法的表現都大幅提高了。當數據只有500萬的時候,有一種簡單的算法表現得很差,但當數據達10億的時候,它變成了表現最好的,準確率從原來的75%提高到了95%以上。與之相反地,在少量數據情況下運行得最好的算法,當加入更多的數據時,也會像其他的算法一樣有所提高,但是卻變成了在大量數據條件下運行得最不好的。它的準確率會從86%提高到94%。后來,班科和布里爾在他們發表的研究論文中寫到,“如此一來,我們得重新衡量一下更多的人力物力是應該消耗在算法發展上還是在語料庫發展上。”Car
情報局3.3.2紛繁的數據越多越好通常傳統的統計學家都很難容忍錯誤數據的存在,在收集樣本的時候,他們會用一整套的策略來減少錯誤發生的概率。在結果公布之前,他們也會測試樣本是否存在潛在的系統性偏差。這些策略包括根據協議或通過受過專門訓練的專家來采集樣本。但是,即使只是少量的數據,這些規避錯誤的策略實施起來還是耗費巨大。尤其是當我們收集所有數據的時候,這就行不通了。不僅是因為耗費巨大,還因為在大規模的基礎上保持數據收集標準的一致性不太現實。大數據時代要求我們重新審視數據精確性的優劣。如果將傳統的思維模式運用于數字化、網絡化的21世紀,就有可能錯過重要的信息。Car
情報局3.3.2紛繁的數據越多越好如今,我們已經生活在信息時代。我們掌握的數據庫越來越全面,它包括了與這些現象相關的大量甚至全部數據。我們不再需要那么擔心某個數據點對整套分析的不利影響。我們要做的就是要接受這些紛繁的數據并從中受益,而不是以高昂的代價消除所有的不確定性。Car
情報局Car
情報局3.3.2紛繁的數據越多越好在華盛頓州布萊恩市的英國石油公司(BP)切里波因特煉油廠里,無線感應器遍布于整個工廠,形成無形的網絡,能夠產生大量實時數據。在這里,酷熱的惡劣環境和電氣設備的存在有時會對感應器讀數有所影響,形成錯誤的數據。但是數據生成的數量之多可以彌補這些小
錯誤。隨時監測管道的承壓使得BP能夠了
解到,有些種類的原油比其他種類更具有
腐蝕性。以前,這都是無法發現也無法防
止的。Car
情報局3.3.2紛繁的數據越多越好有時候,當我們掌握了大量新型數據時,精確性就不那么重要了,我們同樣可以掌握事情的發展趨勢。大數據不僅讓我們不再期待精確性,也讓我們無法實現精確性。然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。Car
情報局3.3.2紛繁的數據越多越好值得注意的是,錯誤性并不是大數據本身固有的特性,而是一個亟需我們去處理的現實問題,并且有可能長期存在。它只是我們用來測量、記錄和交流數據的工具的一個缺陷。如果說哪天技術變得完美無缺了,不精確的問題也就不復存在了。因為擁有更大數據量所能帶來的商業利益遠遠超過增加一點精確性,所以通常我們不會再花大力氣去提升數據的精確性。這又是一個關注焦點的轉變,正如以前,統計學家們總是把他們的興趣放在提高樣本的隨機性而不是數量上。如今,大數據給我們帶來的利益,讓我們能夠接受不精確的存在了。Car
情報局3.3.3混雜性是標準途徑長期以來,人們一直用分類法和索引法來幫助自己存儲和檢索數據資源。這樣的分級系統通常都不完善。而在“小數據”范圍內,這些方法就很有效,但一旦把數據規模增加好幾個數量級,這些預設一切都各就各位的系統就會崩潰。一家加拿大的相片分享網站Flickr在2011年就已經擁有來自大概1億用戶的60億張照片。根據預先設定好的分類來標注每張照
片就沒有意義了。恰恰相反,清楚的分類被更
混亂卻更靈活的機制所取代了,這些機制才能
適應改變著的世界。圖3-7Flickr年度最受歡迎的照片之一Car
情報局3.3.3混雜性是標準途徑當我們上傳照片到Flickr網站的時候,我們會給照片添加標簽,也就是使用一組文本標簽來編組和搜索這些資源。人們用自己的方式創造和使用標簽,所以它是沒有標準、沒有預先設定的排列和分類,也沒有我們所必須遵守的類別規定。任何人都可以輸入新的標簽,標簽內容事實上就成為了網絡資源的分類標準。標簽被廣泛地應用于微信、臉書、博客等社交網絡上。因為它們的存在,互聯網上的資源變得更加容易找到,特別是像圖片、視頻和音樂這些無法用關鍵詞搜索的非文本類資源。如今,要想獲得大規模數據帶來的好處,混亂應該是一種標準途徑,而不應該是竭力避免的。Car
情報局3.3.45%的數字數據與95%的非結構化數據據估計,只有5%的數字數據是結構化的且能適用于傳統數據庫。如果不接受混亂,剩下95%的非結構化數據都無法被利用,比如網頁和視頻資源。通過接受不精確性,我們打開了一個從未涉足的世界的窗戶。我們怎么看待使用所有數據和使用部分數據的差別以及我們怎樣選擇放松要求并取代嚴格的精確性,將會對我們與世界的溝通產生深刻的影響。隨著大數據技術成為日常生活中的一部分,我們應該開始從一個比以前更大更全面的角度來理解事物,也就是說應該將“樣本=總體”植入我們的思維中。Car
情報局3.3.45%的數字數據與95%的非結構化數據現在,我們能夠容忍模糊和不確定出現在一些過去依賴于清晰和精確的頓域,當然過去可能也只是有清晰的假象和不完全的精確。只要我們能夠得到一個事物更完整的概念,我們就能接受模糊和不確定的存在。Car
情報局3.3.45%的數字數據與95%的非結構化數據相比依賴于小數據和精確性的時代,大數據因為更強調數據的完整性和混雜性,幫助我們進一步接近事實的真相?!安糠帧焙汀按_切”的吸引力是可以理解的。但是,當我們的視野局限在我們可以分析和能夠確定的數據上時,我們對世界的整體理解就可能產生偏差和錯誤。不僅失去了去盡力收集一切數據的動力,也失去了從各個不同角度來觀察事物的權利。所以,局限于狹隘的小數據中,我們可以自豪于對精確性的追求,但是就算我們可以分析得到細節中的細節,也依然會錯過事物的全貌。Car
情報局1關聯物,預測的關鍵2“是什么”,而不是“為什么”3通過因果關系了解世界4通過相關關系了解世界第4節3.4思維轉變之三:數據的相關關系這是因前兩個轉變而促成的。尋找因果關系是人類長久以來的習慣,即使確定因果關系很困難而且用途不大,人類還是習慣性地尋找緣由。相反,在大數據時代,我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系,這會給我們提供非常新穎且有價值的觀點。相關關系也許不能準確地告知我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。在許多情況下,這種提醒的幫助已經足夠大了。Car
情報局3.4思維轉變之三:數據的相關關系例如,如果數百萬條電子醫療記錄都顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機制就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時候是買機票的最佳時機,就算不知道機票價格瘋狂變動的原因也無所謂了。大數據告訴我們“是什么”而不是“為什么”。在大數據時代,我們不必知道現象背后的原因,只要讓數據自己發聲。我們不再需要在還沒有收集數據之前,就把分析建立在早已設立的少量假設的基礎之上。讓數據發聲,我們會注意到很多以前從來沒有意識到的聯系的存在。Car
情報局3.4思維轉變之三:數據的相關關系在傳統觀念下,人們總是致力于找到一切事情發生背后的原因。然而在很多時候,尋找數據間的關聯并利用這種關聯就足夠了。這些思想上的重大轉變導致了第三個變革,我們嘗試著不再探求難以捉摸的因果關系,轉而關注事物的相關關系。Car
情報局3.4.1關聯物,預測的關鍵雖然在小數據世界中相關關系也是有用的,但如今在大數據的背景下,相關關系大放異彩。通過應用相關關系,我們可以比以前更容易、更快捷、更清楚地分析事物。Car
情報局3.4.1關聯物,預測的關鍵所謂相關關系,其核心是指量化兩個數據值之間的數理關系。相關關系強是指當一個數據值增加時,另一個數據值很有可能也會隨之增加。我們已經看到過這種很強的相關關系,比如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜索特定的詞條,該地區就有更多的人患了流感。相反,相關關系弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。例如,我們可以尋找關于個人的鞋碼和幸福的相關關系,但會發現它們幾乎扯不上什么關系。Car
情報局3.4.1關聯物,預測的關鍵相關關系通過識別有用的關聯物來幫助我們分析一個現象,而不是通過揭示其內部的運作機制。當然,即使是很強的相關關系也不一定能解釋每一種情況,比如兩個事物看上去行為相似,但很有可能只是巧合。相關關系沒有絕對,只有可能性。也就是說,不是亞馬遜推薦的每本書都是顧客想買的書。但是,如果相關關系強,一個相關鏈接成功的概率是很高的。這一點很多人可以證明,他們的書架上有很多書都是因為亞馬遜推薦而購買的。Car
情報局3.4.1關聯物,預測的關鍵通過找到一個現象的良好的關聯物,相關關系可以幫助我們捕捉現在和預測未來。如果A和B經常一起發生,我們只需要注意到B發生了.就可以預測A也發生了。這有助于我們捕捉可能和A一起發生的事情,即使我們不能直接測量或觀察到A。更重要的是,它還可以幫助我們預測未來可能發生什么。當然,相關關系是無法預知未來的,他們只能預測可能發生的事情。但是,這已經極其珍貴了。Car
情報局3.4.1關聯物,預測的關鍵除了僅僅依靠相關關系,專家們還會使用一些建立在理論基礎上的假想來指導自己選擇適當的關聯物。這些理論就是一些抽象的觀點,關于事物是怎樣運作的。然后收集與關聯物相關的數據來進行相關關系分析,以證明這個關聯物是否真的合適。如果不合適,人們通常會固執地再次嘗試,因為擔心可能是數據收集的錯誤,而最終卻不得不承認一開始的假想甚至假想建立的基礎都是有缺陷和必須修改的。這種對假想的反復試驗促進了學科的發展。但是這種發展非常緩慢,因為個人以及團體的偏見會蒙蔽我們的雙眼,導致我們在設立假想、應用假想和選擇關聯物的過程中犯錯誤??傊?,這是一個繁瑣的過程,只適用于小數據時代。Car
情報局3.4.1關聯物,預測的關鍵在大數據時代,通過建立在人的偏見基礎上的關聯物監測法已經不再可行,因為數據庫太大而且需要考慮的領域太復雜。幸運的是,許多迫使我們選擇假想分析法的限制條件也逐漸消失了。我們現在擁有如此多的數據,這么好的機器計算能力,因而不再需要人工選擇一個關聯物或者一小部分相似數據來逐一分析了。復雜的機器分析有助于我們做出準確的判斷,就像在谷歌流感趨勢中,計算機把檢索詞條在5億個數學模型上進行測試之后,準確地找出了哪些是與流感傳播最相關的詞條。我們理解世界不再需要建立在假設的基礎上,這個假設是指針對現象建立的有關其產生機制和內在機理的假設。Car
情報局3.4.1關聯物,預測的關鍵建立在相關關系分析法基礎上的預測是大數據的核心。這種預測發生的頻率非常高,以至于我們經常忽略了它的創新性。當然,它的應用會越來越多。一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。通過收集所有的數據,我們可以預先捕捉到事物要出故障的信號,比方說發動機的嗡嗡聲、引擎過熱都說明它們可能要出故障了。系統把這些異常情況與正常情況進行對比,就會知道什么地方出了毛病。通過盡早地發現異常,系統可以提醒我們在故障之前更換零件或者修復問題。通過找出一個關聯物并監控它,我們就能預測未來。Car
情報局3.4.2“是什么”,而不是“為什么”在小數據時代,相關關系分析和因果分析都不容易,耗費巨大,都要從建立假設開始,然后進行實驗——這個假設要么被證實要么被推翻。但是,由于兩者都始于假設,這些分析就都有受偏見影響的可能,極易導致錯誤。與此同時,用來做相關關系分析的數據很難得到。另一方面,在小數據時代,由于計算機能力的不足,大部分相關關系分析僅限于尋求線性關系。而事實上,實際情況遠比我們所想象的要復雜。經過復雜的分析,我們能夠發現數據的“非線性關系”。Car
情報局3.4.2“是什么”,而不是“為什么”多年來,經濟學家和政治家一直認為收入水平和幸福感是成正比的。從數據圖表上可以看到,雖然統計工具呈現的是一種線性關系,但事實上,它們之間存在一種更復雜的動態關系:例如,對于收入水平在1萬美元以下的人來說,一旦收入增加,幸福感會隨之提升;但對于收入水平在1萬美元以上的人來說,幸福感并不會隨著收入水平提高而提升。如果能發現這層關系,我們看到的就應該是一條曲線,而不是統計工具分析出來的直線。這個發現對決策者來說非常重要。Car
情報局3.4.2“是什么”,而不是“為什么”如果只看到線性關系的話,那么政策重心應完全放在增加收入上,因為這樣才能增加全民的幸福感。而一旦察覺到這種非線性關系,策略的重心就會變成提高低收入人群的收入水平,因為這樣明顯更劃算。當相關關系變得更復雜時,一切就更混亂了。Car
情報局3.4.2“是什么”,而不是“為什么”大數據時代,專家們正在研發能發現并對比分析非線性關系的技術工具。一系列飛速發展的新技術和新軟件也從多方面提高了相關關系分析工具發現非因果關系的能力。這些新的分析工具和思路為我們展現了一系列新的視野被有用的預測,我們看到了很多以前不曾注意到的聯系,還掌握了以前無法理解的復雜技術和社會動態。但最重要的是,通過去探求“是什么”而不是“為什么”,相關關系幫助我們更好地了解了這個世界。Car
情報局3.4.3通過因果關系了解世界傳統情況下,人類是通過因果關系了解世界的。首先,我們的直接愿望就是了解因果關系。即使無因果聯系存在,我們也還是會假定其存在。研究證明,這只是我們的認知方式,與每個人的文化背景、生長環境以及教育水平無關。當我們看到兩件事情接連發生的封候,我們會習慣性地從因果關系的角度來看待它們。Car
情報局3.4.3通過因果關系了解世界看看這三句話:“小明的父母遲到了;供應商快到了;小明生氣了。”讀到這里時,我們可能立馬就會想到小明生氣并不是因為供應商快到了,而是他父母遲到了的緣故。實際上,我們也不知道到底是什么情況。即便如此,我們還是不禁認為這些假設的因果關系是成立的。普林斯頓大學心理學專家,同時也是2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼就是用這個例子證明了人有兩種思維模式。第一種是不費力的快速思維,通過這種思維方式幾秒鐘就能得出結果;另一種是比較費力的慢性思維,對于特定的問題,需要考慮到位。Car
情報局3.4.3通過因果關系了解世界快速思維模式使人們偏向用因果聯系來看待周圍的一切,即使這種關系并不存在。這是我們對已有的知識和信仰的執著。在古代,這種快速思維模式是很有用的,它能幫助我們在信息量缺乏卻必須快速做出決定的危險情況下化險為夷。但是,通常這種因果關系都是并不存在的??崧赋?,平時生活中,由于惰性,我們很少慢條斯理地思考問題,所以快速思維模式就占據了上風。因此,我們會經常臆想出一些因果關系,最終導致了對世界的錯誤理解。Car
情報局3.4.3通過因果關系了解世界與常識相反,經常憑借直覺而來的因果關系并沒有幫助我們加深對這個世界的理解。很多時候,這種認知捷徑只是給了我們一種自己已經理解的錯覺,但實際上,我們因此完全陷入了理解誤區之中。就像采樣是我們無法處理全部數據時的捷徑一樣,這種找因果關系的方法也是我們大腦用來避免辛苦思考的捷徑。在小數據時代,很難證明由直覺而來的因果聯系是錯誤的。現在,情況不一樣了,大數據之間的相關關系,將經常會用來證明直覺的因果聯系是錯誤的。最終也能表明,統計關系也不蘊含多少真實的因果關系??傊?,我們的快速思維模式將會遭受各種各樣的現實考驗。Car
情報局3.4.3通過因果關系了解世界為了更好地了解世界,我們會因此更加努力地思考。但是,即使是我們用來發現因果關系的第二種思維方式——慢性思維,也將因為大數據之間的相關關系迎來大的改變。日常生活中,我們習慣性地用因果關系來考慮事情,所以會認為,因果聯系是淺顯易尋的。但事實卻并非如此。與相關關系不一樣,即使用數學這種比較直接的方式,因果聯系也很難被輕易證明。我們也不能用標準的等式將因果關系表達清楚。因此,即使我們慢慢思考,想要發現因果關系也是很困難的。因為我們已經習慣了信息的匾乏,故此亦習慣了在少量數據的基礎上進行推理思考,即使大部分時候很多因素都會削弱特定的因果關系。Car
情報局3.4.3通過因果關系了解世界與相關關系一樣,因果關系被完全證實的可能幾乎是沒有的,我們只能說,某兩者之間很有可能存在因果關系。但兩者之間又有不同,證明因果關系的實驗要么不切實際,要么違背社會倫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論