




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多結構化數據管理
潘鵬現代數據管理的特征——結構化、半結構化、非結構化(不易組織)——文本、圖像、視頻、音頻(內容多樣,不易處理)——海量(不易存取)——基于語義(不易查找)——面向網絡(不易管理)2現代數據管理的特征1)數據的形式多樣——結構化、半結構化、非結構化——文本、圖像、視頻、音頻——單模態、多模態數據庫方式:——以結構化為主,擅長處理結構化數據。——文本、數字、日期等程序可直接識別的符號數據。3數據類型!現代數據管理的特征2)查詢的需求——文字匹配——基于語義——相似性匹配、排序——聚類、分類、去冗余數據庫方式:——基于關鍵字、基于值的比較——精確匹配、排序——存在性查詢、等值查詢、范圍查詢4檢索算法!現代數據管理的特征3)運行和應用環境
和網絡(尤其是語義網)結合更加密切、更加直接:——大量的數據直接來自網絡,包括用于機器學習的訓練數據和用于檢索的數據。——語義知識也可能從網絡中獲取。——與web應用集成(電子商務、搜索引擎、內容檢索、情報分析)——網絡后臺數據
、爬蟲數據庫方式:
企業級應用,生產型企業、政府部門的較規范化的信息管理,用于規范和優化管理的流程,提高業務吞吐量。
手工錄入、批量導入。5價值挖掘!現代數據管理的特征4)處理的需求——面向海量數據,TB、PB級別——查詢為主、更新不頻繁(?)——數據一致性可弱化數據庫方式:——面向企業級數據庫——增、刪、改、查——ACID特性的控制6系統運行機制!現代數據管理的特征5)關鍵技術——相似性的度量——高維數據的處理——語義特征的獲取——語義知識的組織——訓練、學習的模型——海量數據的分布存儲、分布式并行處理——查詢反饋——可視化7現代數據管理的特征數據庫方式:——基于數據字典的數據組織——關系代數理論的實現技術——索引機制——多維數據(不是高維)的查詢算法——面向關系代數的查詢優化——系統保護(并發、恢復、完整性控制、安全性控制)8現代數據管理的特征6)系統開放性
——分布式、易于擴充、低成本——編程模型數據庫方式——服務器模式、異構集成、中間件——編程接口9‘大數據(BigData)”概念的提出每秒鐘,人們發送290封電子郵件;
每分鐘人們在youtube上傳20小時的視頻;
人們每月在總共在facebook上瀏覽7000億分鐘;
移動互聯網用戶發送和上傳的數據量達到1.3exabytes,相當于10的18次方;
每秒鐘亞馬遜處理72.9筆訂單;
。。。。。。
101112‘大數據(BigData)”概念的提出麥肯錫全球研究院(MGI)估算,全球企業2010年在硬盤上存儲了超過7EB(1EB=10億GB)的新數據,同時,消費者在PC和筆記本等設備上存儲了超過6EB新數據。1EB數據相當于美國國會圖書館中存儲的數據的4000多倍。對這些海量數據的存儲,超過了任何一家傳統企業的能力。↓
對于互聯網平臺級的公司,他們每時每刻在忙于把這些數據收集、整理、歸類、保存(或者托管方式)。13‘大數據(BigData)”概念的提出以Google為例目前有超過200個Google文件系統集群在運行,每個集群大約有1000~5000臺機器,每個谷歌文件系統(Googlefilesystem,GFs)都存儲著高達5PB的數據。成千上萬的機器需要的數據都從GFS集群中檢索,這些集群中數據讀寫的吞吐量可高達40GBps,每天都在產生著含大量知識的數據。14‘大數據(BigData)”概念的提出傳統的企業中,數據多是以表格的形式保存在數據庫中。↓所有的信息格式都一樣,便于編程處理。∣
處理需求、處理方法、優化措施。
15‘大數據(BigData)”概念的提出微博等各種網絡信息發布渠道的海量數據:文本、照片、視頻位置信息、鏈接信息、XML類型的數據。。。“長微博”工具——把文字轉換成圖片,突破140字的限制
往往圖片形式存在的微博,包含大量的信息。
數據的生成(基于語義),表現形式自然、直觀。16‘大數據(BigData)”概念的提出社會化的網絡,為大數據提供了額外的價值維度。
一件商品、一則消息、一副圖片。。。
↓不同影響力的社會個體不同的附加價值和效果
在不同的數據類型中進行交叉分析的技術,是大數據的核心技術之一。↓
語義分析技術、圖文轉換技術、模式識別技術、地理信息技術等等,都將獲得應用。17‘大數據(BigData)”概念的提出沙里淘金大數據無疑是有價值的(視頻監控、流量記錄、日志記錄。。。)
但是挖掘大數據的價值類似沙里淘金(每天產生24小時的視頻數據,絕大部分都沒有利用價值,可能是幾秒鏡頭捕捉到某罪犯體貌特征,對公安部門而言就是彌足珍貴的。為了這幾秒鐘,必須要保存全部的24小時)。
↓
大數據的一個典型特征,價值密度比較低(為了一點金子,需要保存全部沙子)。18‘大數據(BigData)”概念的提出實時處理的要求,是區別大數據應用和傳統數據倉庫技術、BI技術的關鍵差別之一數據倉庫系統、BI應用對處理時間的要求并不高(甚至可以容忍1、2天獲得結果)。
對于更多用戶而言則需要在1秒鐘內形成答案,否則這些結果可能就是過時的、無效的、或者難以忍受的。19網絡化、服務化、平臺無關、云計算、客戶體驗。。。金融從業人員所需的股價波動信息、導航用戶所需的實時路況信息、搜索引擎的返回結果、社會關系網絡信息‘大數據(BigData)”觀點的提出業界對大數據歸納出4個層面的特點(4V):
Volume:數據體量巨大(從TB級別,躍升到PB級別);
Variety:數據類型繁多(網絡日志、視頻、圖片、地理位置信息等等);
Velocity:處理速度快(1秒定律,有別于傳統的數據挖掘技術);
Value:價值密度低。
Veracity:真實性——IBM。
Variability:易變性——Forrester分析師布賴恩·霍普金斯(BrianHopkins)和鮑里斯·埃韋爾松(BorisEvelson)撰寫的《首席信息官,請用大數據擴展數字視野》報告中。
目前,沒有大數據的正式定義。20BigData相關的研究計劃2012年3月29日,美國政府宣布
“大數據的研究和發展計劃。”提高從大型復雜的數字數據集中提取知識和觀點的能力,承諾幫助加快在科學與工程中的步伐,加強國家安全,并改變教學研究。
六個聯邦政府的部門和機構宣布新的2億美元的投資,提高從大量數字數據中訪問、組織、收集發現信息的工具和技術水平。
21BigData相關的研究計劃國防部多尺度異常檢測(ADAMS)項目解決大規模數據集的異常檢測和特征化。MachineReading
項目,旨在實現人工智能的應用和發展學習系統的過程中對自然文本進行知識插入,而不是依靠昂貴和費時的知識表示目前的處理進程,并需要專家和相關知識工程師所給出的語義表示信息。
22BigData相關的研究計劃Mind‘s
Eye
項目,旨在為機器建立視覺的智能。傳統的機器視覺研究的對象選取廣泛的物體來描述一個場景的屬性名詞,而Mind’s
Eye旨在增加在這些場景的動作認識和推理需要的知覺認知基礎。這些技術可以建立一個更完整的視覺智能效果。視頻和圖像的檢索和分析工具(VIRAT)計劃旨在開發一個系統能夠利用軍事圖像分析員收集的數據進行大規模的軍事圖像分析,使分析師能夠在相關活動發生時建立警報。VIRAT還計劃開發工具,能夠以較高的準確率和召回率的從大量視頻庫里進行視頻內容的檢索。23BigData相關的研究計劃XDATA項目計劃旨在開發用于分析大量的半結構化和非結構化數據的計算技術和軟件工具。其核心挑戰是可伸縮的算法在分布式數據存儲中的應用、如何使人機交互工具能夠有效迅速的定制不同的任務,以方便對不同數據進行視覺化處理。對開源軟件工具包的靈活使用,處理大量國防應用中的數據。24BigData相關的研究計劃國家人文基金會數據挖掘的挑戰旨分析大數據的變化對人文社會科學的影響,這種新的計算為基礎的研究方法都需要搜索、分析和理解大量的材料,如數字化的書籍和報紙數據庫,從網絡搜索,傳感器和手機記錄交易數據。BigData相關的研究計劃計算先行者已經資助在加州大學伯克利分校的一個研究小組,深入整合算法、機器和人,以解決大數據的研究挑戰。
隨機網絡模型的重點研究組開發一種統一的理論框架為基準的統計方法,可伸縮的網絡模型算法,以區別隨機性的網絡知識。通過學習大量報紙數據中單詞和短語之間的關系,提供自動化和可擴展性的媒體分析工具。
相關的研究熱點之知識庫構建基于開放網絡大數據構建知識庫是國內外工業界開發和學術界研究的一個熱點。目前,世界各國各個組織建立的知識庫多達50余種,相關的應用系統更是達到了上百種。
其中,有代表性的知識庫或應用系統有KnowItAll,TextRunner,NELL,Probase,Satori,PROSPERA,SOFIE以及一些基于維基百科等在線百科知識構建的知識庫DBpedia,YAGO,Omega,WikiTaxonomy。27相關的研究熱點之知識庫構建一些著名的商業網站、公司和政府也發布了類似的知識搜索和計算平臺。如Evi公司的TrueKnowledge知識搜索平臺;美國官方政府網站Data.gov;wolfram的知識計算平臺wolframalpha;Google的知識圖譜(knowledgegraph);Facebook推出的類似的實體搜索服務graphsearch等。28相關的研究熱點之知識庫構建在國內,中文知識圖譜的構建也有大量的研究和開發工作。
代表性工作有:中國科學院計算技術研究所的基于OpenKN(開放知識網絡)的“人立方、事立方、知立方系統”;中國科學院數學與系統科學研究院的陸汝鈐(qián)提出的知件(knowware);上海交通大學最早構建的中文知識圖譜平臺zhishi.me;百度推出的中文知識圖譜搜索;搜狗推出的知立方平臺;復旦大學GDM實驗室推出的中文知識圖譜展示平臺等。29相關的研究熱點之知識庫構建就規模而言,擁有概念最多的知識庫是Probase,目前核心概念約270萬,概念總量達到千萬級。
包含實體最多的是wolframalpha,有10萬億個實體。
近年來影響力比較大的知識庫或知識搜索服務有Google的知識圖譜,目前規模是5億個實體對象和350億條實體間關系信息,且規模在隨著信息的增長不斷地增加;微軟亞洲研究院的Probase也是近幾年比較熱門的知識庫,它是基于概率化構建的知識庫,支持針對短文本的語義理解。比較有特色的還有國內搜狗的知立方系統,側重與基于圖的邏輯推理計算,包括利用語義網的三元組推理補充實體數據、對用戶查詢詞進行語義理解以及句法分析等。30相關的研究熱點之知識庫構建
Google發布的知識圖譜,將搜索結果知識系統化,一個關鍵詞就能獲得完整的知識體系,從而讓用戶能快捷簡單地發現新的信息和知識。知識圖譜從Freebase、維基百科或全球概覽中獲得專業的信息,并通過大規模的信息搜索分析來提高結果的深度和廣度。“知識圖譜”和傳統的搜素結果相比,在3個方面有所提升:①結果的正確與全面
一個關鍵詞可能有多重含義,知識圖譜會展示全面的信息,讓用戶找到自己最想要的答案。②最好的總結更好地的理解用戶搜索的信息,并總結出相關的內容和主題。“人——人的生平事跡”。③更深、更廣。
知識圖譜”會給出搜索結果的完整知識體系,用戶可能會發現新知識。“一個旅行目的地——以此命名的餐館——一本小說——同名電影”。31大數據領域的開源技術1.ApacheHadoop一個開源的分布式計算框架。
最初由Doug為支持其開源Web搜索引擎Nutch所創立。通過集成MapReduce技術,Hadoop將大數據分布到多個數據節點上進行處理。Hadoop遵循Apache2.0許可證,可以輕松處理結構化、半結構化和非結構化數據,成為現在非常流行的大數據解決方案。32大數據領域的開源技術2.R語言R語言是一種開源編程語言,專門為數據統計和數據可視化而設計。R語言最初由RossIhaka和RobertGentleman在奧克蘭大學設計出來,之后迅速成為大數據領域的重要工具。R語言遵循GNU的GPL(GeneralPublicLicense,通用公共許可證)。33Matlab?大數據領域的開源技術3.Cascading一個針對Java開發人員的應用框架,可以基于ApacheHadoop開發數據分析和數據管理應用。是Hadoop的抽象層,可以屏蔽MapReduce的復雜性,支持任何基于JVM的編程語言在Hadoop集群上執行數據處理任務。最初由ChrisWensel開發,用作MapReduce的替代API。遵循GNU許可證,一般用于廣告定位、日志分析、Web數據挖掘和ETL應用。34Extraction-Transformation-Loading,數據提取、轉換和加載大數據領域的開源技術4.Scribe一個由Facebook開發的日志聚合服務器軟件,用于實時從大量服務器匯集日志數據。于2008年發布,遵循Apache2許可證,擴展性極佳,每天可應對數百億日志記錄的挑戰。35大數據領域的開源技術5.ElasticSearch一款由ShayBanon開發,遵循Apache許可證的開源搜索服務器。基于分布式計算,對于實時搜索可以提供很好的可擴展性解決方案。一些公司已經對ElasticSearch表示認可(例如StumbleUpon和Mozilla)。36社交化網頁推薦引擎,瀏覽器插件,firefox大數據領域的開源技術6.ApacheHbase一個使用Java語言編寫的、以谷歌BigTable技術為基礎的開源非關系型列式分布數據庫,可運行在HDFS文件系統之上。HBase提供了很好的存儲容錯能力和快速訪問大量稀疏文件的能力。遵循Apache2許可證。37大數據領域的開源技術7.ApacheCassandra由Facebook開發的另一個開源NoSQL數據庫,遵循Apache2許可證。
出于對HBase的喜愛,Facebook開始逐漸放棄使用Cassandra,但許多公司(如Netflix)依然使用Cassandra數據庫為其后端流媒體服務提供動力。38大數據領域的開源技術8.MongoDB一個基于分布式文件存儲的數據庫,旨在為Web應用提供可擴展的高性能數據存儲解決方案。采用C++語言編寫,是非常流行的JSON文檔式NoSQL數據庫,受到許多公司認同,MTVNetworks、craigslist和迪斯尼互動傳媒集團,紐約時報以及Etsy都是MongoDB的客戶。39JSON(JavaScriptObjectNotation)是一種輕量級的數據交換格式,基于JavaScript的一個子集,采用完全獨立于語言的文本格式,但是也使用了類似于C語言家族的習慣(包括C,C++,C#,Java,JavaScript,Perl,Python等),從而使JSON成為理想的數據交換語言。易于人閱讀和編寫,同時也易于機器解析和生成。大數據領域的開源技術9.ApacheCouchDB一個開源NoSQL數據庫,它以文檔方式(JSON)存儲數據。
使用JavaScript語言作為查詢語言,集成MapReduce技術。IBMLotusNotes的開發人員DamienKatz在2005年構建了CouchDB,用于大規模對象的數據存儲系統。CouchDB遵循Apache2許可證,英國廣播公司(BBC)使用CouchDB存儲動態內容,瑞士瑞信銀行(CreditSuisse)的商品部也采用了它。40相關的企業產品
Oracle公司推出AdvancedAnalytics工具,作為Oracle數據庫與R分析引擎之間的橋接。
Oracle為其BigDataAppliance提供了一個名為
RConnectorforHadoop的工具,這是一個在OracleExax86集群上運行的ClouderaCDH3Hadoop環境。該連接器可讓R控制臺與在BigDataAppliance上運行的Hadoop分布式文件系統和NoSQL數據庫進行通信。41相關的企業產品微軟的SystemCenter2012中的SystemCenterVirtualMachineManager(VMM)2012著重提供私有云解決方案。由數據分析人員或最終用戶創建出來的BI數據模型可以放在類似蘋果“APPStore”的數據集市上,通過私有云或共有云的形式進行分享。在數據倉庫領域,SQLServer2012采用“最先進”的列存儲技術,帶來查詢性能的極大提升。SQLServer2012提供的數據倉庫可應對數據量幾十個TB的情況,數據量在幾百個TB的情況下,微軟并行數據倉庫產品即可發揮作用。42相關的企業產品IBM的大數據平臺,包括Hadoop和StreamComputing兩個組件,并且提供基礎版供免費下載。IBM全球首個大數據智慧賦能中心(Big
Data
CenterofCompetency)在北京成立。
Google的GFS、BIGTABLE和MAPREDUCE。43典型應用場景搜索引擎購物網站日志處理ETL(Extract-Transform-Load):中信銀行發卡量2008年達到500萬張2010年翻了一倍。數據分析解決方案,結合實時歷史的客戶數據,實現實時商業智能。每天都評估用戶的一些刷卡行為,在當天對用戶的信用額度進行調整。提升營銷的水平,以往配置一個營銷活動需要兩周時間,應用數據解決方案之后,活動變成了2—3天。44典型應用場景使用HBase做數據分析:Facebook構建了基于HBase的實時數據分析系統機器學習:比如ApacheSoftwareFoundation(ASF)旗下的一個開源項目Mahout,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。45典型應用場景——網絡管理維護優化以某運營商省公司為例,原始數據信令達到1TB/天,以文件形式保存。處理之后生成的xDR(xDetailRecord)數據量達到550GB/天,以數據庫形式保存。通常這些數據需要保存數天或數月。傳統文件系統以及關系數據庫處理這么大的數據量顯得捉襟見肘。
46典型應用場景——網絡管理維護優化采用海量分布式文件系統,數據存儲量可以按需擴展。NoSQL數據庫可以有效處理達PB級的數據。實時流處理及分析平臺保證實時處理海量數據。
智能分析技術在大數據的支撐下用于網絡管理維護優化,提升網絡維護的實時性,事前預防成為可能。(通過歷史流量數據以及專家知識庫結合,生成預警模型,可以有效識別異常流量,防止網絡擁塞或者病毒傳播等異常。)47典型應用場景——用戶行為分析某運營商建立營銷門戶系統,提供與營銷活動相關的日報、月報統計,包括量收、欠費、用戶發展、預警信息、機構樹匯總等內容。
目前流量經營分析的瓶頸主要是數據的采集和處理。每月新增數據量4T,傳統方式分析結果效率低(需要26個小時),系統擴展困難。
采用DataCloud、并行分布式處理等技術后,報表分析只需要2個小時,系統的擴展性和可用性均得到提高。
48典型應用場景——用戶行為分析用戶行為結合用戶profile、產品、服務、計費、財務等進行綜合分析,實現用戶個性化的策略控制。還可以對管道內容(圖片、電影、網頁等)進行分析,深入理解用戶的行為特征。49典型應用場景——個性化推薦應用商店軟件推薦、IPTV視頻節目推薦——數據量大,實時性要求高,涉及到大量的非結構化數據以及智能分析。分析用戶已有日志及評論、打分等數據,從互聯網通過爬蟲分析獲得相關視頻和評論進行綜合分析。
可以采用的技術包括并行計算框架、分布式文件系統以及文本分類/聚類/關聯算法、文本摘要抽取、情感分析和文本語義分析、文本挖掘等智能分析算法。50典型應用場景——基于平臺的數據云服務(DaaS)
用戶行為綜合分析(網頁的語義、圖片、視頻內容以及用戶的觀點、位置、時間關聯等,例如某用戶在淘寶上的購物,穿插了在其它網站上瀏覽、與朋友的聊天或者在微博上發表的言論)之后能較準確地反應個體用戶的興趣愛好、價值取向、活動范圍以及社會關系等等。用戶群分析可以挖掘出用戶群特征或者趨勢。電信運營商可將上述分析結果作為數據服務提供給企業、研究機構等,或者針對用戶提供廣告推送。51DataasaService“NoSQL”NoSQL,指的是非關系型的數據庫,該術語在2009年初得到了廣泛認同。應用最多的是以“鍵-值”對存儲,結構不固定,每一個元組可以有不一樣的字段,每個元組可以根據需要增加一些自己的鍵值對,這樣就不會局限于固定的結構,可以減少一些時間和空間的開銷。其它類型的NoSQL還包括文檔型的、列存儲、圖型數據庫、xml數據庫等。52關系型數據庫存儲格式化的數據結構(表),每個元組字段的組成都一樣,數據庫會為每個元組分配所有的字段。結構化便于表與表之間進行連接等操作,但從另一個角度來說也是關系型數據庫性能瓶頸的一個因素。新的應用需求帶來的問題互聯網web2.0網站的興起,特別是超大規模和高并發的SNS(社會網絡服務)類型的web2.0純動態網站傳統的關系數據庫已經顯得力不從心,暴露了很多難以克服的問題。54新的應用需求帶來的問題1、Highperformance-對數據庫高并發讀寫的需求
web2.0網站要根據用戶個性化信息來實時生成動態頁面和提供動態信息,所以基本上無法使用動態頁面靜態化技術,因此數據庫并發負載非常高,往往要達到每秒上萬次讀寫請求。關系數據庫即使可以應付上萬次SQL查詢,但是對于上萬次SQL寫數據請求,硬盤IO則難以承受。新的應用需求帶來的問題2、HugeStorage-對海量數據的高效率存儲和訪問的需求對于大型的SNS網站,每天用戶產生海量的用戶動態,例如Friendfeed一個月有2.5億條用戶動態。對于關系數據庫來說,在一張2.5億條記錄的表里面進行SQL查詢,用戶可能無法接受其響應時間。又例如大型web網站(例如騰訊、淘寶)的用戶登錄系統,也是動輒數以億計的帳號,也是對傳統關系數據庫的挑戰。56新的應用需求帶來的問題3、HighScalability&&HighAvailability-對數據庫的高可擴展性和高可用性的需求在基于web的架構當中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 系統架構設計師常見考點總結試題及答案
- 人事經理筆試題目及答案
- 未來展望護士資格證考試試題及答案
- 云南省高職試題及答案
- 接警調度面試題及答案
- 厚德小學面試題及答案
- 幫助你通過2024年藥劑類考試試題及答案
- 系統規劃與管理師考試的個人復習方法分享試題及答案
- 系統規劃與管理知識點的重要性分析試題及答案
- 系統架構設計師考試關鍵題型識別試題及答案
- 野生動物保護管理制度
- GB/T 4857.23-2021包裝運輸包裝件基本試驗第23部分:垂直隨機振動試驗方法
- GB/T 1354-2018大米
- 2023年北京郵電大學自主招生申請報告
- 職業生涯規劃課件
- 未帶有效居民身份證考生承諾書
- 弱電機房驗收標準
- 安全專項整治三年行動臺賬套表
- 《數據的收集與整理》說課稿課件
- 人工智能產業學院建設方案
- 初中數學知識框架
評論
0/150
提交評論