




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
信息資源管理-擴展知識
大數據及其典型應用信息資源管理-擴展知識
大數據及其典型應用12022/12/92引子棱鏡門波士頓馬拉松爆炸案PredPol少數派報告2013大數據元年video2022/12/72引子棱鏡門video一、大數據的相關概念二、國內外大數據分析的研究現狀三、構建大數據分析平臺四、公共安全領域大數據應用案例目錄2022/12/93一、大數據的相關概念目錄2022/12/73一、大數據的相關概念
2022/12/94一、大數據的相關概念
2022/12/74數據管理技術發展歷史數據管理技術歷經人工管理、文件管理、數據庫管理等時代,大數據技術的出現使該領域進入了一個新的發展階段-5-194619511956196119701974197919912001200320082011第一臺計算機ENIAC面世磁帶+卡片人工管理磁盤被發明,進入文件管理時代網絡型SQLE-RGE公司發明第一個網絡模型數據庫,但僅限于GE自己的主機1960年代,IT系統規模和復雜度變大,數據與應用分離的需求開始產生,數據庫技術開始萌芽并蓬勃發展,并在1990年后逐步統一到以關系型數據庫為主導IBME.F.Dodd提出關系模型SQL語言被發明關系型數據庫ORACLE發布第一個商用SQL關系數據庫,后續快速發展數據倉庫數據倉庫開始涌現,關系數據庫開始全面普及且平臺無關,進入成熟期2001年后,互聯網迅速發展,數據量成倍遞增,量變引起質變,開始對數據管理技術提出全新的要求1946年,電腦誕生,數據與應用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級項目,重點支持海量數據分布式管理和分布式計算GFS谷歌發表論文介紹分布式計算數據管理技術發展歷史數據管理技術歷經人工管理、文件管理、數據大數據發展背景全球信息化發展已步入大數據時代150億個設備連接到互聯網全球每秒鐘發送290萬封電子郵件每天有2.88萬小時視頻上傳到YoutubeFacebook每日評論達32億條,每天上傳照片近3億張,每月處理數據總量約130萬TB2011年全球產生數據量1.8ZB,預計2020年將增長到35ZB大數據正迅速成為最值得關注的IT領域之一2011年5月,EMCWorld2011大會主題“云計算相遇大數據”,EMC除了一直倡導的云計算外,還拋出"大數據"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國外機構發布"大數據"相關研究報告,予以積極跟進2011年10月,Gartner認為2012年十大戰略技術將包括"大數據"2011年11月底,IDC將"大數據"放入2012年信息通信產業十大預測之一-6-IDC全球數據量預測(1ZB
=1百萬PB=10億TB)Google網站Bigdata關鍵詞搜索及新聞引用量大數據發展背景全球信息化發展已步入大數據時代-6-什么是大數據123大數據的定義理解大數據的“4V”特征大數據的產生、增長2022/12/97什么是大數據123大數據的定義理解大數據的“4V”特征大數據“大數據”是如何產生的?facebook社交網絡淘寶電子商務微博、Apps移動互聯21世紀是數據信息大發展的時代,移動互聯、社交網絡、電子商務等極大拓展了互聯網的邊界和應用范圍,各種數據正在迅速膨脹并變大。互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數據。
半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創造出了“大數據”這個概念*。如今,這個概念幾乎應用到了所有人類智力與發展的領域中。2022/12/98“大數據”是如何產生的?facebook社交網絡淘寶電子商務大數據時代的爆炸增長想駕馭這龐大的數據,我們必須了解大數據的特征。地球上至今總共的數據量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數據;在2011年,這個數字達到了1.8ZB。而有市場研究機構預測:到2020年,整個世界的數據總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!GBTBPBEBZB1GB
=2^30字節1TB=2^40字節1PB
=2^50字節1EB
=2^60字節1ZB=2^70字節2022/12/99大數據時代的爆炸增長想駕馭這龐大的數據,我們必須了解大數據的大數據的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數據”的顯著特征,或者說,只有具備這些特點的數據,才是大數據。VolumeVelocityValueVariety2022/12/910大數據的4V特征“大量化(Volume)、多樣化(Varie大數據的構成大數據=海量數據+復雜類型的數據海量交易數據:企業內部的經營交易信息主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態、歷史數據。通過這些數據,我們能了解過去發生了什么。大數據包括:交易數據和交互數據集在內的所有數據集海量交互數據:源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數據構成。它包括了呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數據、通過管理文件傳輸ManageFileTransfer協議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件等等。可以告訴我們未來會發生什么。海量數據處理:大數據的涌現已經催生出了設計用于數據密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。2022/12/911大數據的構成大數據=海量數據+復雜類型的數據海量交易分析技術:數據處理:自然語言處理技術統計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數據挖掘:關聯規則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數據技術:數據采集:ETL工具數據存取:關系數據庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統等計算結果展現:云計算;標簽云;關系圖等一些相關技術存儲結構化數據海量數據的查詢、統計、更新等操作效率低非結構化數據圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數據轉換為結構化存儲按照非結構化存儲解決方案:Hadoop(MapReduce技術)流計算(twitter的storm和yahoo!的S4)數據采集數據儲存數據管理數據分析與挖掘2022/12/912分析技術:一些相關技術存儲解決方案:數據采集數據儲存數據管理2022/12/913大數據的市場潛力2022/12/713大數據的市場潛力利用GPS數據了解交通狀況智能電表應用級家庭能源監測2012年3月29日奧巴馬政府公布了”大數據研發計劃”。該計劃的目標是改進現有人們從海量和復雜的數據中獲取知識的能力,從而加速美國在科學與工程領域發明的步伐,增強國家安全,轉變現有的教學和學習方式。“大數據戰略”上升為美國最高國策對數據占有和控制,做為在陸權、海權、空權之外的另一種國家核心能力。大數據的浪潮谷歌搜索與流感預測大數據與喬布斯的癌癥治療微博&投資沃爾瑪的啤酒與紙尿布塔吉特預測少女懷孕沃爾瑪蛋撻與颶風用品的關系“魔毯”病人的監控智慧城市&智能化交通谷歌翻譯系統利用GPS數據了解交通狀況智能電表應用級家庭能源監測2012理解大數據數據已經成為可以與物質資產和人力資本相提并論的重要的生產要素
——麥肯錫《大數據:下一個創新、競爭和生產力的前沿》理解大數據數據已經成為可以與物質資產和人力資本相提并論的重要二、國內外大數據分析的研究現狀
二、國內外大數據分析的研究現狀
流感趨勢預測
2022/12/917流感趨勢預測
2022/12/7172022/12/918全球每星期會有數以百萬計的用戶在網上搜索健康信息。正如您所預料的那樣,在流感季節,與流感有關的搜索會明顯增多;到了過敏季節,與過敏有關的搜索會顯著上升;而到了夏季,與曬傷有關的搜索又會大幅增加。某些搜索字詞非常有助于了解流感疫情。Google流感趨勢會根據匯總的Google搜索數據,近乎實時地對全球當前的流感疫情進行估測。搜索流感相關主題的人數與實際患有流感癥狀的人數之間存在著密切的關系。當然,并非每個搜索“流感”的人都真的患有流感,但將與流感有關的搜索查詢匯總到一起時,便可以找到一種模式。將統計的查詢數量與傳統流感監測系統的數據進行了對比,結果發現許多搜索查詢在流感季節確實會明顯增多。通過對這些搜索查詢的出現次數進行統計,便可以估測出世界上不同國家和地區的流感傳播情況。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature
457,1012-1014(19February2009)2022/12/718全球每星期會有數以百萬計的用戶在網上搜2022/12/919上圖顯示了根據歷史查詢所得的美國近幾年的流感估測結果,以及這些結果與官方的流感監測數據的對比。從圖中可以看出,根據與流感相關的Google搜索查詢所得到的估測結果,與以往的流感疫情指示線非常接近。當然,過去的表現并不能保證以后的結果一定準確。2022/12/719上圖顯示了根據歷史查詢所得的美國近幾年2022/12/9202022/12/7202022/12/9212022/12/7212022/12/922卡耐基梅隆大學的JiweiLi和康乃爾大學的ClaireCardie,成功利用Twitter預測了早期流感爆發。他們的方式與Google類似。首先,從Twitter數據流中過濾包含與“流感”相關,并帶有位置標簽的tweet;然后,在地圖上標注這些tweet的位置分布,以及隨時間產生的變化。同時,還制作了流感的動態變化模型。新模型中,流感包括4個階段:無傳染階段、爆發階段、穩定階段以及衰退階段。此外,采用了全新的算法,試圖盡可能快得發現不同時期的轉換節點。實際上,Li和Cardie在2008年6月至2010年6月間,已經利用100萬美國人的360萬條tweet,驗證了該方法的有效性。為了檢驗他們的預測是否成真,Li和Cardie將他們的分析與CDC進行對比。他們說,“我們確信,流感相關tweet與CDC提供的流感疾病案例數目,呈顯著相關。”2022/12/722卡耐基梅隆大學的JiweiLi和2022/12/9232022/12/7232022/12/924日本國內有一個網站,你只要打開這個網站用自己的Twitter賬號登錄,就可以在短時間內通過數萬條Twitter找出可能感冒的人,并通過過去的感冒情況和今日的感冒情況進行分析(以及統計目前發燒以及嗓子痛的患者數量),另外該程序還會結合氣溫和濕度的變化來預測將來感冒的流行情況,并制作一個“易感冒日歷”。目前,此類服務正在日本陸續展開。通過這個服務器的分析,大家就能夠知道在自己身邊到底有多少人有感冒的癥狀,并提前做好預防準備。日本國立感染癥研究所將會把全國約
5000個醫療診所的流感患者進行統計并發布數據。經過對比,研究所得出的實際統計數字和網站上預測的結果基本是一致的,那么為什么大數據的結果會很準呢?首先是因為通過網絡信息分析的技術有所進步,已經可以通過各種各樣的留言自動搜索到相關的數據,并自動分類。就像Google現在所使用的技術,就是利用服務器分析與流感關系十分密切的十幾個單詞進行統計。另一個就是大數據所特有的功能。在流感最嚴重的時候,每天會有成千上萬條Tweets發布,即便有一些誤差,但通過數據分析也能分析出數據的精準度。以往,公共機構在發布流感情報的時候至少要延遲一周,在有些偏遠地區的立桿信息也并不確切,而現在,通過網絡能夠有效彌補這些缺憾。2022/12/724日本國內有一個網站,你只要打開這個網站2022/12/9252022/12/7252022/12/9262022/12/726淘寶的數據化運營——實例分析分析流程1.分析主題確定及數據指標的選擇;
2.數據倉庫數據提取及清洗;
3.不相關指標剔除;
4.用訓練數據建立模型;
5.用測試數據檢驗模型;
6.預測新的流失用戶,并提取用戶名單;7.制訂挽留策略:對圈定的客戶進一步進行分群,然后逐群制訂有針對的挽留策略。比如有的群組是屬于夜間通話多(和
總體的均值相比)的客戶,那么針對他們的挽留策略可能是
推薦一些夜間通話優惠的資費方案。8.實施挽留行動、收集客戶反饋。9.評估挽留效果:
2022/12/927淘寶的數據化運營——實例分析分析流程2022/12/727三、構建大數據分析平臺
三、構建大數據分析平臺
四、公共安全領域大數據應用案例
四、公共安全領域大數據應用案例
面向公共安全領域的大數據分析技術平臺數據挖掘DataMiner多維分析BIBeans查詢Discoverer數據倉庫管理(OEM)數據提取WarehouseBuilder應用服務器ApplicationServer/PortalDataBase人口
數據外部數據犯罪數據報表ReportsDataMiningOLAP數據轉換中央數據倉庫知識發現信息展現應用系統源數據數據獲取數據管理數據使用2022/12/930面向公共安全領域的大數據分析技術平臺數據挖掘多維分析查詢數據刑偵的犯罪預防搜集犯罪的信息推斷罪犯的習慣預測罪案的發生非法出入境判別海關走私模式的分析緊急事件的處理人員的緊急疏散資源的緊急調配緊急狀態的安全管理緊急事件發生的預演交通管理公共安全領域基于大數據的智能分析2022/12/931刑偵的犯罪預防公共安全領域基于大數據的智能分析2022/12信息的來源銀行交易歷史資料庫/知識庫公共信息政府數據庫Internet截獲/監聽情報通信情報人工情報2022/12/932信息的來源銀行交易歷史資料庫公共信息政府數據庫Interne問題的關鍵大量的信息(有關/無關)是分析的基礎,也是分析的障礙事件的信息往往是隨機獲得不確定的因素影響分析的結果分析的速度是關鍵2022/12/933問題的關鍵大量的信息(有關/無關)是分析的基礎,也是分析的障飛速膨脹的信息多種學科的邊緣結合有限的記憶和注意范圍長時間持續的分析工作嚴重依賴分析人員的經驗如何用計算機系統支持復雜海量的分析過程?限制…他們承擔了大部分負擔依靠分析人員2022/12/934飛速膨脹的信息如何用計算機系統支持復雜海量的分析過程?限制限制…分析人員的沉重負擔依靠分析人員2022/12/935限制…分析人員的沉重負擔依靠分析人員2022/12/735當前的分析需求從不同的來源有效的集成知識和信息連續的知識積累提供自動的警告為分析人員的查詢提供答案構造不同的案件情節假設2022/12/936當前的分析需求從不同的來源有效的集成知識和信息2022/12定性,定量分析時間&頻率分析Databases經驗自由文本統一的知識系統從不同信息來源和格式獲取數據2022/12/937定性,定量分析時間&頻率分析Databases經驗自由基本信息組織個人人工情報事件數據庫銀行交易其它數據源政府數據庫通信情報監聽
反饋
人工情報詢問檢查模擬聯結事件生成
Events:Meeting(What,Who,Where,When,Frequency)Travel(Who,How,Where,When,Length)Phonecall(Who,When,Length,Content,Frequency)Delivery(Who,When,How,Size,What,Frequent,Payment)Other(What,Who,When,Where)Crime(What,When,Where,Who,How)2022/12/938基本信息人工情報事件銀行交易其它數據源政府數據庫通信情報監聽典型應用1–
刑事罪案自動分析2022/12/939典型應用1–
刑事罪案自動分析2022/12/739參與分析的數據罪犯–犯罪技巧(爆炸-爆炸物制作,殺人方式,動機等等),屬于特定團伙和團伙中的角色(計劃者,輔助者,領導者,執行者/馬仔等等),戶籍地/暫住地,入獄歷史團伙–成員,角色潛在目標–人群/公共機構/商業機構,他們的位置知識和經驗–這些因素如何相互作用–包括外在的影響和經驗(過去發生的事件)新的信息會源源不斷…2022/12/940參與分析的數據罪犯–犯罪技巧(爆炸-爆炸物制作,殺人模擬案例-西西里,巴勒莫,4/4/03:“Corradi拘捕了
DonMarcello”(公共信息)理解信息Corradi是巴勒莫警方的的首席偵探DonMarcello是Marcello家族的教父Marcello家族具有很強的報復性巴勒莫警方很可能遭到報復文本信息的理解外部數據訪問外部數據訪問DataMining/先驗知識推理,警報2022/12/941模擬案例-西西里,巴勒莫,4/4/03:“Corr新的信息理解信息Bob是Marcello家族的成員Bob是家族中的計劃者和談判代表Marcello家族的勢力只限于巴勒莫談判代表到外面的地區尋找家族內沒有的炸彈專家炸彈制造和使用是Marcello家族沒有的技術,Parsi地區的黑手黨家族有這樣的專家Per是Parsi地區的黑手黨炸彈專家同時間服刑的罪犯經常會一起合作犯案Per和Bob有同時間服刑的歷史Marcello家族有可能以炸彈攻擊的方式報復DonMarcello的被拘捕Bob有可能計劃用炸彈攻擊巴勒莫警方巴勒莫,4/4/03:“Corradi拘捕了
DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在
Parsi出現”(警方通報)文本信息的理解外部數據訪問外部數據訪問外部數據訪問DataMining/先驗知識外部數據訪問外部數據訪問DataMining/先驗知識DataMining/先驗知識推理,警報外部數據訪問2022/12/942新的信息理解信息巴勒莫,4/4/03:“Corradi新的信息巴勒莫,4/4/03:“Corradi拘捕了
DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在
Parsi出現”(警方通報)羅馬,5/5/03:“Fabrizzi將會29號在巴勒莫法庭宣判
DonMarcello"(公共信息)巴勒莫,7/5/03:“這個月巴勒莫會發生一些事情”(警方情報)
…
…有可能報復巴勒莫警方–可能是一起炸彈攻擊有可能針對Fabrizzi法官–可能的攻擊手段,謀殺或是炸彈攻擊基于時間的相關分析(所有的分析都是與時間高度相關的)2022/12/943新的信息巴勒莫,4/4/03:“Corradi拘捕了新的信息如果我們拘捕Per?炸彈攻擊的威脅會降低,但是不會消失–Marcello家族的談判代表還知道其他的炸彈專家,等等…如果我們同時拘捕Per和Bob?推理,假設分析推理,假設分析2022/12/944巴勒莫,4/4/03:“Corradi拘捕了
DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在
Parsi出現”(警方通報)羅馬,5/5/03:“Fabrizzi將會29號在巴勒莫法庭宣判
DonMarcello"(公共信息)巴勒莫,7/5/03:“這個月巴勒莫會發生一些事情”(警方情報)新的信息如果我們拘捕Per?推理,假設分析推理,假設本月有事情(突發事件)在巴勒莫發生Fabrizzi將在29日宣判DonMarcelloBob出現在Parsi密切注意相關人員的接觸炸彈有可能在制造中(假設事件與Marcello家族有關-警告會在三個月內有效)可能的報復DonMarcello被囚禁DonMarcello被拘捕事件與沖突2022/12/945本月有事情(突發事件)在巴勒莫發生Fabrizzi將在系統的功能系統包含了先驗知識閱讀自由結構的文本并建立事件事件被聯系起來,按照邏輯,觸發原因,警報,額外事件的發生,等等結合自由文本理解人像特征、指紋特征自動識別推理DataMining聯結外部的信息資源2022/12/946系統的功能系統包含了先驗知識2022/12/746在信息的海洋中搜索問題的關鍵在于面臨不斷變化的信息和多重的分析角度–對象,溝通渠道,地點,威脅的類型...對于多種非規格化的數據處理–人像識別、指紋鑒別、與基于地理信息查詢分析的集成系統重要優點是自動幫助使用者連續的跟蹤和分析...找出人腦很難判別的復雜關聯…2022/12/947在信息的海洋中搜索問題的關鍵在于面臨不斷變化的信息和多重的分PollyKlaas–12歲1993年10月被人從加利福尼亞的家中被誘拐警察拘捕了誘拐罪犯–在犯罪記錄系統中進行查詢–沒有任何犯罪記錄,所以罪犯被釋放罪犯隨后就殺害了Polly如果警察查詢了虐待兒童數據庫,他會發現大量的記錄恐怖事件#1PollyKlaas–12歲恐怖事件#1恐怖事件#2RichardRamirez–被稱為“NightStalker”1985年在洛杉磯謀殺了13名婦女在這期間他曾因為行為不檢點被拘捕過兩次被拘捕的信息最遲6個星期之后才被輸入電腦最后被洛杉磯警方以謀殺罪拘捕時已經是9個月以后了!恐怖事件#2RichardRamirez–被稱為“恐怖事件#39.112022/12/950恐怖事件#39.112022/12/750唯一原因
–
缺乏信息的關聯分析19個恐怖分子中的6個在中央情報局(CIA)的監控名單上16個人獲得美國的簽證(旅游,學生,工作)最起碼有4個人有駕駛執照;所有人都有社會保險號碼(SSN)關鍵人物使用真名租車,購買飛機票,等等州法律執行機構和其他聯邦特工不知道他們在哪里,甚至也不知道有渠道可以監控他們信息全部都可獲得,但是沒有分析,沒有共享2022/12/951唯一原因–缺乏信息的關聯分析19個恐怖分子中的6個在唯一原因
–
缺乏信息的關聯分析2022/12/952唯一原因–缺乏信息的關聯分析2022/12/752關聯--復雜的關系2022/12/953關聯--復雜的關系2022/12/753
謝謝!2022/12/954謝謝!2022/12/754信息資源管理-擴展知識
大數據及其典型應用信息資源管理-擴展知識
大數據及其典型應用552022/12/956引子棱鏡門波士頓馬拉松爆炸案PredPol少數派報告2013大數據元年video2022/12/72引子棱鏡門video一、大數據的相關概念二、國內外大數據分析的研究現狀三、構建大數據分析平臺四、公共安全領域大數據應用案例目錄2022/12/957一、大數據的相關概念目錄2022/12/73一、大數據的相關概念
2022/12/958一、大數據的相關概念
2022/12/74數據管理技術發展歷史數據管理技術歷經人工管理、文件管理、數據庫管理等時代,大數據技術的出現使該領域進入了一個新的發展階段-59-194619511956196119701974197919912001200320082011第一臺計算機ENIAC面世磁帶+卡片人工管理磁盤被發明,進入文件管理時代網絡型SQLE-RGE公司發明第一個網絡模型數據庫,但僅限于GE自己的主機1960年代,IT系統規模和復雜度變大,數據與應用分離的需求開始產生,數據庫技術開始萌芽并蓬勃發展,并在1990年后逐步統一到以關系型數據庫為主導IBME.F.Dodd提出關系模型SQL語言被發明關系型數據庫ORACLE發布第一個商用SQL關系數據庫,后續快速發展數據倉庫數據倉庫開始涌現,關系數據庫開始全面普及且平臺無關,進入成熟期2001年后,互聯網迅速發展,數據量成倍遞增,量變引起質變,開始對數據管理技術提出全新的要求1946年,電腦誕生,數據與應用緊密捆綁在文件中,彼此不分Hadoop成為Apache頂級項目,重點支持海量數據分布式管理和分布式計算GFS谷歌發表論文介紹分布式計算數據管理技術發展歷史數據管理技術歷經人工管理、文件管理、數據大數據發展背景全球信息化發展已步入大數據時代150億個設備連接到互聯網全球每秒鐘發送290萬封電子郵件每天有2.88萬小時視頻上傳到YoutubeFacebook每日評論達32億條,每天上傳照片近3億張,每月處理數據總量約130萬TB2011年全球產生數據量1.8ZB,預計2020年將增長到35ZB大數據正迅速成為最值得關注的IT領域之一2011年5月,EMCWorld2011大會主題“云計算相遇大數據”,EMC除了一直倡導的云計算外,還拋出"大數據"(BigData)概念2011年6月底,IBM、麥肯錫等眾多國外機構發布"大數據"相關研究報告,予以積極跟進2011年10月,Gartner認為2012年十大戰略技術將包括"大數據"2011年11月底,IDC將"大數據"放入2012年信息通信產業十大預測之一-60-IDC全球數據量預測(1ZB
=1百萬PB=10億TB)Google網站Bigdata關鍵詞搜索及新聞引用量大數據發展背景全球信息化發展已步入大數據時代-6-什么是大數據123大數據的定義理解大數據的“4V”特征大數據的產生、增長2022/12/961什么是大數據123大數據的定義理解大數據的“4V”特征大數據“大數據”是如何產生的?facebook社交網絡淘寶電子商務微博、Apps移動互聯21世紀是數據信息大發展的時代,移動互聯、社交網絡、電子商務等極大拓展了互聯網的邊界和應用范圍,各種數據正在迅速膨脹并變大。互聯網(社交、搜索、電商)、移動互聯網(微博)、物聯網(傳感器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數據。
半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。信息爆炸的學科如天文學和基因學,創造出了“大數據”這個概念*。如今,這個概念幾乎應用到了所有人類智力與發展的領域中。2022/12/962“大數據”是如何產生的?facebook社交網絡淘寶電子商務大數據時代的爆炸增長想駕馭這龐大的數據,我們必須了解大數據的特征。地球上至今總共的數據量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數據;在2011年,這個數字達到了1.8ZB。而有市場研究機構預測:到2020年,整個世界的數據總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!GBTBPBEBZB1GB
=2^30字節1TB=2^40字節1PB
=2^50字節1EB
=2^60字節1ZB=2^70字節2022/12/963大數據時代的爆炸增長想駕馭這龐大的數據,我們必須了解大數據的大數據的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數據”的顯著特征,或者說,只有具備這些特點的數據,才是大數據。VolumeVelocityValueVariety2022/12/964大數據的4V特征“大量化(Volume)、多樣化(Varie大數據的構成大數據=海量數據+復雜類型的數據海量交易數據:企業內部的經營交易信息主要包括聯機交易數據和聯機分析數據,是結構化的、通過關系數據庫進行管理和訪問的靜態、歷史數據。通過這些數據,我們能了解過去發生了什么。大數據包括:交易數據和交互數據集在內的所有數據集海量交互數據:源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數據構成。它包括了呼叫詳細記錄CDR、設備和傳感器信息、GPS和地理定位映射數據、通過管理文件傳輸ManageFileTransfer協議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件等等。可以告訴我們未來會發生什么。海量數據處理:大數據的涌現已經催生出了設計用于數據密集型處理的架構。例如具有開放源碼、在商品硬件群中運行的ApacheHadoop。2022/12/965大數據的構成大數據=海量數據+復雜類型的數據海量交易分析技術:數據處理:自然語言處理技術統計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數據挖掘:關聯規則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數據技術:數據采集:ETL工具數據存取:關系數據庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統等計算結果展現:云計算;標簽云;關系圖等一些相關技術存儲結構化數據海量數據的查詢、統計、更新等操作效率低非結構化數據圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數據轉換為結構化存儲按照非結構化存儲解決方案:Hadoop(MapReduce技術)流計算(twitter的storm和yahoo!的S4)數據采集數據儲存數據管理數據分析與挖掘2022/12/966分析技術:一些相關技術存儲解決方案:數據采集數據儲存數據管理2022/12/967大數據的市場潛力2022/12/713大數據的市場潛力利用GPS數據了解交通狀況智能電表應用級家庭能源監測2012年3月29日奧巴馬政府公布了”大數據研發計劃”。該計劃的目標是改進現有人們從海量和復雜的數據中獲取知識的能力,從而加速美國在科學與工程領域發明的步伐,增強國家安全,轉變現有的教學和學習方式。“大數據戰略”上升為美國最高國策對數據占有和控制,做為在陸權、海權、空權之外的另一種國家核心能力。大數據的浪潮谷歌搜索與流感預測大數據與喬布斯的癌癥治療微博&投資沃爾瑪的啤酒與紙尿布塔吉特預測少女懷孕沃爾瑪蛋撻與颶風用品的關系“魔毯”病人的監控智慧城市&智能化交通谷歌翻譯系統利用GPS數據了解交通狀況智能電表應用級家庭能源監測2012理解大數據數據已經成為可以與物質資產和人力資本相提并論的重要的生產要素
——麥肯錫《大數據:下一個創新、競爭和生產力的前沿》理解大數據數據已經成為可以與物質資產和人力資本相提并論的重要二、國內外大數據分析的研究現狀
二、國內外大數據分析的研究現狀
流感趨勢預測
2022/12/971流感趨勢預測
2022/12/7172022/12/972全球每星期會有數以百萬計的用戶在網上搜索健康信息。正如您所預料的那樣,在流感季節,與流感有關的搜索會明顯增多;到了過敏季節,與過敏有關的搜索會顯著上升;而到了夏季,與曬傷有關的搜索又會大幅增加。某些搜索字詞非常有助于了解流感疫情。Google流感趨勢會根據匯總的Google搜索數據,近乎實時地對全球當前的流感疫情進行估測。搜索流感相關主題的人數與實際患有流感癥狀的人數之間存在著密切的關系。當然,并非每個搜索“流感”的人都真的患有流感,但將與流感有關的搜索查詢匯總到一起時,便可以找到一種模式。將統計的查詢數量與傳統流感監測系統的數據進行了對比,結果發現許多搜索查詢在流感季節確實會明顯增多。通過對這些搜索查詢的出現次數進行統計,便可以估測出世界上不同國家和地區的流感傳播情況。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature
457,1012-1014(19February2009)2022/12/718全球每星期會有數以百萬計的用戶在網上搜2022/12/973上圖顯示了根據歷史查詢所得的美國近幾年的流感估測結果,以及這些結果與官方的流感監測數據的對比。從圖中可以看出,根據與流感相關的Google搜索查詢所得到的估測結果,與以往的流感疫情指示線非常接近。當然,過去的表現并不能保證以后的結果一定準確。2022/12/719上圖顯示了根據歷史查詢所得的美國近幾年2022/12/9742022/12/7202022/12/9752022/12/7212022/12/976卡耐基梅隆大學的JiweiLi和康乃爾大學的ClaireCardie,成功利用Twitter預測了早期流感爆發。他們的方式與Google類似。首先,從Twitter數據流中過濾包含與“流感”相關,并帶有位置標簽的tweet;然后,在地圖上標注這些tweet的位置分布,以及隨時間產生的變化。同時,還制作了流感的動態變化模型。新模型中,流感包括4個階段:無傳染階段、爆發階段、穩定階段以及衰退階段。此外,采用了全新的算法,試圖盡可能快得發現不同時期的轉換節點。實際上,Li和Cardie在2008年6月至2010年6月間,已經利用100萬美國人的360萬條tweet,驗證了該方法的有效性。為了檢驗他們的預測是否成真,Li和Cardie將他們的分析與CDC進行對比。他們說,“我們確信,流感相關tweet與CDC提供的流感疾病案例數目,呈顯著相關。”2022/12/722卡耐基梅隆大學的JiweiLi和2022/12/9772022/12/7232022/12/978日本國內有一個網站,你只要打開這個網站用自己的Twitter賬號登錄,就可以在短時間內通過數萬條Twitter找出可能感冒的人,并通過過去的感冒情況和今日的感冒情況進行分析(以及統計目前發燒以及嗓子痛的患者數量),另外該程序還會結合氣溫和濕度的變化來預測將來感冒的流行情況,并制作一個“易感冒日歷”。目前,此類服務正在日本陸續展開。通過這個服務器的分析,大家就能夠知道在自己身邊到底有多少人有感冒的癥狀,并提前做好預防準備。日本國立感染癥研究所將會把全國約
5000個醫療診所的流感患者進行統計并發布數據。經過對比,研究所得出的實際統計數字和網站上預測的結果基本是一致的,那么為什么大數據的結果會很準呢?首先是因為通過網絡信息分析的技術有所進步,已經可以通過各種各樣的留言自動搜索到相關的數據,并自動分類。就像Google現在所使用的技術,就是利用服務器分析與流感關系十分密切的十幾個單詞進行統計。另一個就是大數據所特有的功能。在流感最嚴重的時候,每天會有成千上萬條Tweets發布,即便有一些誤差,但通過數據分析也能分析出數據的精準度。以往,公共機構在發布流感情報的時候至少要延遲一周,在有些偏遠地區的立桿信息也并不確切,而現在,通過網絡能夠有效彌補這些缺憾。2022/12/724日本國內有一個網站,你只要打開這個網站2022/12/9792022/12/7252022/12/9802022/12/726淘寶的數據化運營——實例分析分析流程1.分析主題確定及數據指標的選擇;
2.數據倉庫數據提取及清洗;
3.不相關指標剔除;
4.用訓練數據建立模型;
5.用測試數據檢驗模型;
6.預測新的流失用戶,并提取用戶名單;7.制訂挽留策略:對圈定的客戶進一步進行分群,然后逐群制訂有針對的挽留策略。比如有的群組是屬于夜間通話多(和
總體的均值相比)的客戶,那么針對他們的挽留策略可能是
推薦一些夜間通話優惠的資費方案。8.實施挽留行動、收集客戶反饋。9.評估挽留效果:
2022/12/981淘寶的數據化運營——實例分析分析流程2022/12/727三、構建大數據分析平臺
三、構建大數據分析平臺
四、公共安全領域大數據應用案例
四、公共安全領域大數據應用案例
面向公共安全領域的大數據分析技術平臺數據挖掘DataMiner多維分析BIBeans查詢Discoverer數據倉庫管理(OEM)數據提取WarehouseBuilder應用服務器ApplicationServer/PortalDataBase人口
數據外部數據犯罪數據報表ReportsDataMiningOLAP數據轉換中央數據倉庫知識發現信息展現應用系統源數據數據獲取數據管理數據使用2022/12/984面向公共安全領域的大數據分析技術平臺數據挖掘多維分析查詢數據刑偵的犯罪預防搜集犯罪的信息推斷罪犯的習慣預測罪案的發生非法出入境判別海關走私模式的分析緊急事件的處理人員的緊急疏散資源的緊急調配緊急狀態的安全管理緊急事件發生的預演交通管理公共安全領域基于大數據的智能分析2022/12/985刑偵的犯罪預防公共安全領域基于大數據的智能分析2022/12信息的來源銀行交易歷史資料庫/知識庫公共信息政府數據庫Internet截獲/監聽情報通信情報人工情報2022/12/986信息的來源銀行交易歷史資料庫公共信息政府數據庫Interne問題的關鍵大量的信息(有關/無關)是分析的基礎,也是分析的障礙事件的信息往往是隨機獲得不確定的因素影響分析的結果分析的速度是關鍵2022/12/987問題的關鍵大量的信息(有關/無關)是分析的基礎,也是分析的障飛速膨脹的信息多種學科的邊緣結合有限的記憶和注意范圍長時間持續的分析工作嚴重依賴分析人員的經驗如何用計算機系統支持復雜海量的分析過程?限制…他們承擔了大部分負擔依靠分析人員2022/12/988飛速膨脹的信息如何用計算機系統支持復雜海量的分析過程?限制限制…分析人員的沉重負擔依靠分析人員2022/12/989限制…分析人員的沉重負擔依靠分析人員2022/12/735當前的分析需求從不同的來源有效的集成知識和信息連續的知識積累提供自動的警告為分析人員的查詢提供答案構造不同的案件情節假設2022/12/990當前的分析需求從不同的來源有效的集成知識和信息2022/12定性,定量分析時間&頻率分析Databases經驗自由文本統一的知識系統從不同信息來源和格式獲取數據2022/12/991定性,定量分析時間&頻率分析Databases經驗自由基本信息組織個人人工情報事件數據庫銀行交易其它數據源政府數據庫通信情報監聽
反饋
人工情報詢問檢查模擬聯結事件生成
Events:Meeting(What,Who,Where,When,Frequency)Travel(Who,How,Where,When,Length)Phonecall(Who,When,Length,Content,Frequency)Delivery(Who,When,How,Size,What,Frequent,Payment)Other(What,Who,When,Where)Crime(What,When,Where,Who,How)2022/12/992基本信息人工情報事件銀行交易其它數據源政府數據庫通信情報監聽典型應用1–
刑事罪案自動分析2022/12/993典型應用1–
刑事罪案自動分析2022/12/739參與分析的數據罪犯–犯罪技巧(爆炸-爆炸物制作,殺人方式,動機等等),屬于特定團伙和團伙中的角色(計劃者,輔助者,領導者,執行者/馬仔等等),戶籍地/暫住地,入獄歷史團伙–成員,角色潛在目標–人群/公共機構/商業機構,他們的位置知識和經驗–這些因素如何相互作用–包括外在的影響和經驗(過去發生的事件)新的信息會源源不斷…2022/12/994參與分析的數據罪犯–犯罪技巧(爆炸-爆炸物制作,殺人模擬案例-西西里,巴勒莫,4/4/03:“Corradi拘捕了
DonMarcello”(公共信息)理解信息Corradi是巴勒莫警方的的首席偵探DonMarcello是Marcello家族的教父Marcello家族具有很強的報復性巴勒莫警方很可能遭到報復文本信息的理解外部數據訪問外部數據訪問DataMining/先驗知識推理,警報2022/12/995模擬案例-西西里,巴勒莫,4/4/03:“Corr新的信息理解信息Bob是Marcello家族的成員Bob是家族中的計劃者和談判代表Marcello家族的勢力只限于巴勒莫談判代表到外面的地區尋找家族內沒有的炸彈專家炸彈制造和使用是Marcello家族沒有的技術,Parsi地區的黑手黨家族有這樣的專家Per是Parsi地區的黑手黨炸彈專家同時間服刑的罪犯經常會一起合作犯案Per和Bob有同時間服刑的歷史Marcello家族有可能以炸彈攻擊的方式報復DonMarcello的被拘捕Bob有可能計劃用炸彈攻擊巴勒莫警方巴勒莫,4/4/03:“Corradi拘捕了
DonMarcello”(公共信息)巴勒莫,5/5/03:“Bob在
Parsi出現”(警方通報)文本信息的理解外部數據訪問外部數據訪問外部數據訪問DataMining/先驗知識外部數據訪問外部數據訪問DataMining/先驗知識DataMining/先驗知識推理,警報外部數據
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商標版權所有合同協議
- 民宅貼外墻合同協議
- 商場合同自行終止協議
- 正規物流運輸合同協議
- 2025教育設備采購合同模板
- 快餐出租轉讓合同協議
- 2025激光打印機設備租賃服務合同
- 陜西省漢中市2025屆高三下學期二模試題 歷史 含解析
- 2025yy臨時工合同協議模板
- 2025企業股權轉讓合同協議書范本
- 北京市順義區2025年中考一模語文試卷(含答案)
- 室內設計畢業作業展板設計指南
- 生產委托運營合同協議
- 經濟法第三版試卷及答案
- 古詩詞誦讀《擬行路難(其四) 》課件統編版高二語文選擇性必修下冊
- 《甲烷吸附儲存技術》課件
- 廣東省深圳市2025年高三年級第二次調研考試數學試題(含答案)
- 冠心病氣陰兩虛
- 中國鐵路發展史課件
- 射頻消融術后并發癥及護理
- 2025屆新高考教學教研聯盟高三第二次聯考語文試題及答案
評論
0/150
提交評論