大數據關鍵技術_第1頁
大數據關鍵技術_第2頁
大數據關鍵技術_第3頁
大數據關鍵技術_第4頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數據關鍵技術大數據技術,就就是從各種類型得數據中快速獲得有價值信息得 技術。大數據領域已經涌現出了大量新得技術,它們成為大數據采集、 存儲、處理與呈現得有力武器.大數據處理關鍵技術一般包括:大數據采集、大數據預處理、 大數據存儲及管理、大數據分析及挖掘、大數據展現與應用 (大數據 檢索、大數據可視化、大數據應用、大數據安全等 )。一、大數據采集技術數據就是指通過RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據等方式獲得得各種類型得結構化、半結構化(或稱之為弱結構化)及非結構化得海量數據,就是大數據知識服務模型 得根本.重點要突破分布式高速高可靠數據爬取或采集、高速數 據全映像等

2、大數據收集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評估模型,開發數據質量技術。大數據采集一般分為大數據智能感知層:主要包括數據傳感體 系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入 系統,實現對結構化、半結構化、非結構化得海量數據得智能化識別、 定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理與管理等。必 須著重攻克針對大數據源得智能識別、感知、適配、傳輸、接入等技 術.基礎支撐層:提供大數據服務平臺所需得虛擬服務器 ,結構化、 半結構化及非結構化數據得數據庫及物聯網絡資源等基礎支撐環境。 重點攻克分布式虛擬存儲技術,大數據獲取、存儲、組織、分析與決 策操作得

3、可視化接口技術,大數據得網絡傳輸與壓縮技術,大數據隱 私保護技術等.二、大數據預處理技術主要完成對已接收數據得辨析、抽取、清洗等操作。1)抽?。阂颢@取得數據可能具有多種結構與類型,數據抽取過程可以幫助我們將 這些復雜得數據轉化為單一得或者便于處理得構型,以達到快速分析 處理得目得。2)清洗:對于大數據,并不全就是有價值得,有些數據并 不就是我們所關心得內容,而另一些數據則就是完全錯誤得干擾項, 因此要對數據通過過濾“去噪”從而提取出有效數據 .三、大數據存儲及管理技術大數據存儲與管理要用存儲器把采集到得數據存儲起來,建立相 應得數據庫,并進行管理與調用。重點解決復雜結構化、半結構化與 非結構化

4、大數據管理與處理技術。主要解決大數據得可存儲、可表示、 可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠得分布式文 件系統(DFS)、能效優化得存儲、計算融入存儲、大數據得去 冗余及高效低成本得大數據存儲技術;突破分布式非關系型大數據管理與處理技術,異構數據得數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備 份、復制等技術;開發大數據可視化技術開發新型數據庫技術,數據庫分為關系型數據庫、非關系型數據庫以及數據庫緩存系統。其中,非關系型數據庫主要指得就是NoS2L數據庫,分為:鍵值數據庫、列存數據庫、圖存數據庫以及文檔數 據庫等類型.關系型數據庫包含了傳統關

5、系數據庫系統以及 NewSQL 數據庫.開發大數據安全技術。改進數據銷毀、透明加解密、分布 式訪問控制、數據審計等技術;突破隱私保護與推理控制、數 據真偽識別與取證、數據持有完整性驗證等技術。四、大數據分析及挖掘技術大數據分析技術.改進已有數據挖掘與機器學習技術;開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基于對象得數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域得大 數據挖掘技術.數據挖掘就就是從大量得、不完全得、有噪聲得、模糊得、隨 機得實際應用數據中,提取隱含在其中得、人們事先不知道得、但又 就是潛在有用得信息與知識得過程.數

6、據挖掘涉及得技術方法很多,有多種分類法。根據挖掘任務可分為分類或預測模型發現、數據總結、 聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異 常與趨勢發現等等;根據挖掘對象可分為關系數據庫、面向對象數據 庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數 據庫、遺產數據庫以及環球網 wa ;根據挖掘方法分,可粗分為:機 器學習方法、統計方法、神經網絡方法與數據庫方法。機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基于范例學習、遺 傳算法等.統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、 判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系 統聚

7、類、動態聚類等)、探索性分析(主元分析法、相關分析法等) 等。神經網絡方法中,可細分為:前向神經網絡(B P算法等)、自組 織神經網絡(自組織特征映射、競爭學習等)等.數據庫方法主要就是 多維數據分析或OLA P方法,另外還有面向屬性得歸納方法.從挖掘任務與挖掘方法得角度,著重突破:1、可視化分析。數據 可視化無論對于普通用戶或就是數據分析專家,都就是最基本得功 能。數據圖像化可以讓數據自己說話,讓用戶直觀得感受到結果。2、 數據挖掘算法。圖像化就是將機器語言翻譯給人瞧,而數據挖掘就就 是機器得母語。分割、集群、孤立點分析還有各種各樣五花八門得算 法讓我們精煉數據,挖掘價值。這些算法一定要能夠

8、應付大數據得量, 同時還具有很高得處理速度.3、預測性分析。預測性分析可以讓分 析師根據圖像化分析與數據挖掘得結果做出一些前瞻性判斷。4、語義引擎。語義引擎需要設計到有足夠得人工智能以足以從數據中主動 地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智 能輸入、問答系統等。5、數據質量與數據管理。數據質量與管理就 是管理得最佳實踐,透過標準化流程與機器對數據進行處理可以確保 獲得一個預設質量得分析結果。六、大數據展現與應用技術大數據技術能夠將隱藏于海量數據中得信息與知識挖掘出來,為人類得社會經濟活動提供依據,從而提高各個領域得運行效率,大 大提高整個社會經濟得集約化程度。 在我國,大數據將重點應用于以 下三大領域:商業智能、政府決策、公共服務。例如:商業智能技術, 政府決策技術,電信數據信息處理與挖掘技術,電網數據信息處理與 挖掘技術,氣象信息分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論