大數(shù)據(jù)相關(guān)技術(shù)_第1頁
大數(shù)據(jù)相關(guān)技術(shù)_第2頁
大數(shù)據(jù)相關(guān)技術(shù)_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、5.2大數(shù)據(jù)相關(guān)技術(shù)大數(shù)據(jù)的戰(zhàn)略意義不在于擁有著龐大的數(shù)據(jù)信息,而是對這些含有意義的數(shù)據(jù)信息進(jìn)行 “加工處理”后獲得的巨大價值。大數(shù)據(jù)的采集、傳輸、分析和應(yīng)用離不開其它技術(shù)的支持, 如物聯(lián)網(wǎng)和云計算。圖5-5簡要地給出了大數(shù)據(jù)流程的一般框架,一個大數(shù)據(jù)項目涉及數(shù)據(jù)的采集、存儲和 建模,通過分析發(fā)現(xiàn)知識,為目標(biāo)應(yīng)用提供數(shù)據(jù)支撐,這些都要在數(shù)據(jù)計算架構(gòu)和其它相關(guān) 技術(shù)的保障之下進(jìn)行。數(shù)摞計算架構(gòu)捋存取數(shù)括分折系統(tǒng)運維(服務(wù)平臺) 圖5-5大數(shù)據(jù)流程框架5.2.1大數(shù)據(jù)采集數(shù)據(jù)采集環(huán)節(jié)關(guān)注數(shù)據(jù)在哪里以及如何獲得數(shù)據(jù),其主要職能是:從潛在數(shù)據(jù)源中獲取 數(shù)據(jù)并進(jìn)行面向后續(xù)數(shù)據(jù)存儲與管理以及數(shù)據(jù)分析與建模

2、的預(yù)處理。一般來說,大數(shù)據(jù)的來源可以分為三種:平臺自營型數(shù)據(jù)、其它主體運營數(shù)據(jù)和互聯(lián)網(wǎng) 數(shù)據(jù)。平臺自營型數(shù)據(jù)是指大數(shù)據(jù)項目建設(shè)單位自主運維的軟件平臺產(chǎn)生的內(nèi)部數(shù)據(jù),包括軟 件平臺生成的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),也包括在自主運維的傳感器終端通過通信獲取的數(shù)據(jù)。 這些數(shù)據(jù)采集的工具都來源于平臺內(nèi)部,多用于系統(tǒng)日志采集。其它主體運營數(shù)據(jù)是指存儲在其它單位服務(wù)器的外部數(shù)據(jù),這類數(shù)據(jù)的類型和格式與上 述平臺自營型數(shù)據(jù)類似,只是往往要建立在某種商業(yè)模式意義下的交換而獲得。這類數(shù)據(jù)的 采集,可在商務(wù)合作的基礎(chǔ)上通過ETL(Extract-Transform-Load,抽取轉(zhuǎn)換加載)實現(xiàn)數(shù)據(jù) 的交換或者通過對方預(yù)

3、留數(shù)據(jù)的訪問接口獲取數(shù)據(jù)。互聯(lián)網(wǎng)數(shù)據(jù)是指散布于互聯(lián)網(wǎng)中的數(shù)據(jù),比如門戶網(wǎng)站、社交平臺、社區(qū)論壇等。這類 數(shù)據(jù)可以通過網(wǎng)絡(luò)爬蟲實現(xiàn)數(shù)據(jù)的自動獲取。數(shù)據(jù)采集之后,需要對數(shù)據(jù)進(jìn)行必要的預(yù)處理,最終使得后續(xù)的數(shù)據(jù)分析得以有效進(jìn)行。 數(shù)據(jù)預(yù)處理主要包括以下幾個主要操作:清洗過濾。將數(shù)據(jù)中的噪聲以某種技術(shù)或者既定策略去除并彌補缺失的數(shù)據(jù)。比如 在互聯(lián)網(wǎng)數(shù)據(jù)采集中,網(wǎng)頁中只有征文才是采集者需要的,這樣就要有相應(yīng)的技術(shù)或者策略 將網(wǎng)頁中的感興趣的區(qū)域提取出來,其它反映網(wǎng)站結(jié)構(gòu)的、廣告信息數(shù)據(jù)全部去除,從而降 低后續(xù)存儲負(fù)擔(dān),提高數(shù)據(jù)質(zhì)量。去重。將不同數(shù)據(jù)源的數(shù)據(jù)中的重復(fù)內(nèi)容過濾,這種操作往往在互聯(lián)網(wǎng)數(shù)據(jù)采集中

4、 尤其必要。比如針對新聞事件的分析,相同的新聞事件往往會在不同的網(wǎng)站上大量轉(zhuǎn)載,這 種情況下,重復(fù)的數(shù)據(jù)沒有更多的留存的價值。建立數(shù)據(jù)的連接。從不同數(shù)據(jù)源獲取數(shù)據(jù)的一個直接原因是希望通過互補的數(shù)據(jù)使 得對目標(biāo)對象的描述更加立體和具體,從而實現(xiàn)多數(shù)據(jù)源交叉復(fù)用的價值。特征化提取。此階段專注于從原始數(shù)據(jù)中提取有語義的統(tǒng)計特征或者結(jié)構(gòu)化特征, 然后將這些特征作為該數(shù)據(jù)的一個標(biāo)簽存儲供后續(xù)的分析使用,比如從一段非結(jié)構(gòu)化的法院 公告文本中提取出有語義價值的原告、被告和判決時間等。標(biāo)簽化操作。標(biāo)簽化是大數(shù)據(jù)分析的一個典型策略和做法,預(yù)處理環(huán)節(jié)中的標(biāo)簽化 除了需要專注于將上述的特征化提取步驟獲得的統(tǒng)計特性或

5、者結(jié)構(gòu)化語義信息提取出來作 為數(shù)據(jù)的標(biāo)簽外,還需要考慮對各類數(shù)據(jù)源的置信度進(jìn)行評估。這樣,當(dāng)來自不同數(shù)據(jù)源的 數(shù)據(jù)有沖突和歧義時,才能更好地進(jìn)行綜合研判。5.2.2大數(shù)據(jù)存儲數(shù)據(jù)存儲關(guān)注數(shù)據(jù)在哪里以及如何透明存取。毋庸置疑,物理上,數(shù)據(jù)一定是存在本地或異地磁盤上。數(shù)據(jù)的存儲一般分為集中式和 分布式,相比較于集中式存儲,分布式存儲在數(shù)據(jù)并發(fā)、負(fù)載均衡、數(shù)據(jù)安全等方面具有優(yōu) 勢。在大數(shù)據(jù)時代,不同的應(yīng)用領(lǐng)域在數(shù)據(jù)類型、數(shù)據(jù)處理方式以及數(shù)據(jù)處理時間的要求上 有極大的差異,適合大數(shù)據(jù)環(huán)境的新型數(shù)據(jù)庫,如NoSQL得到了廣泛的關(guān)注。NoSQL數(shù)據(jù) 庫拋棄了關(guān)系模型并能夠在集群中運行,不用事先修改結(jié)構(gòu)定義

6、也可以自由添加字段,這些 特征決定了 NoSQL技術(shù)非常適用于大數(shù)據(jù)環(huán)境,從而得到了迅猛的發(fā)展和推進(jìn)。數(shù)據(jù)的存取的核心問題是:如何高效快速地讀取數(shù)據(jù),即查詢快;如何高效快速地存儲 數(shù)據(jù),即更新快。這兩個目標(biāo)往往存在沖突,因此為了保障數(shù)據(jù)存取的高效,“實時批處 理”往往是常用的一種策略。5.2.3大數(shù)據(jù)建模與分析數(shù)據(jù)建模與分析環(huán)節(jié)關(guān)注如何建模數(shù)據(jù),便于人們發(fā)現(xiàn)數(shù)據(jù)背后的知識和洞見,實現(xiàn)“數(shù) 據(jù)價值”的飛躍,該環(huán)節(jié)是大數(shù)據(jù)項目開展的核心。一般的流程主要包括:數(shù)據(jù)預(yù)處理、特征提取與選擇和數(shù)據(jù)建模三部分。數(shù)據(jù)預(yù)處理,主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換四種方法。數(shù)據(jù) 清理可用來清除數(shù)據(jù)中的噪

7、聲,糾正不一致。數(shù)據(jù)集成將數(shù)據(jù)由多個數(shù)據(jù)源合并成一個一致 的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫。數(shù)據(jù)規(guī)約可通過如聚集、刪除冗余特征或聚類來降低數(shù)據(jù)的規(guī)模。數(shù)據(jù)變換可把數(shù)據(jù)壓縮到較小的區(qū)間,如0到1,從而提高挖掘算法的準(zhǔn)確率和效率。特征提取與選擇,特征提取的手段和方法有很多,有的從純粹的數(shù)學(xué)角度做高維向 量向低維向量的映射,有的從語義出發(fā),有意識地提取具有高級語義的特征向量等,目的是 大范圍降低計算量。在很多情況下,多組特征融合在一起時,把其中對建模最優(yōu)貢獻(xiàn)的部分 提取出來,這個過程就是特征選擇。數(shù)據(jù)建模,是從大數(shù)據(jù)中找出知識的過程,常用的手段是機器學(xué)習(xí)和數(shù)據(jù)挖掘。所 謂數(shù)據(jù)挖掘可以簡單理解為“數(shù)據(jù)挖掘=機器

8、學(xué)習(xí)+數(shù)據(jù)庫”。從商業(yè)角度來說,數(shù)據(jù)挖掘是 企業(yè)按照既定業(yè)務(wù)目標(biāo),對大量企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗證已知 的規(guī)律,并進(jìn)一步將其模型化。從技術(shù)角度來說,數(shù)據(jù)挖掘是通過分析,從大量數(shù)據(jù)中尋找 其規(guī)律的技術(shù)。5.2.4云計算大數(shù)據(jù)離不開云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的 平臺之一。在很多技術(shù)儲備均得以迅猛發(fā)展的基礎(chǔ)上,基于SOC/SOA (Service-Oriented Computing/ Service-Oriented Architecture)框架的云計算(Cloud Computing)應(yīng)用模式受到了越來越廣 泛的關(guān)注,并且其普及度也在逐步深入,這種應(yīng)用模式滿足了需求:廠商將硬件資源(服務(wù) 器、存儲、CPU、帶寬等)和軟件資源(應(yīng)用軟件、集成開發(fā)環(huán)境等)以服務(wù)的形式按需分 配給用戶,用戶僅需支付服務(wù)費而無需如從前一樣購買基礎(chǔ)設(shè)施和應(yīng)用軟件授權(quán)等。云計算的本質(zhì)是一種基于互聯(lián)網(wǎng)的應(yīng)用模式。從整體上看,大數(shù)據(jù)與云計算是相輔相成 的,大數(shù)據(jù)著眼于“數(shù)據(jù)”,聚焦于具體的業(yè)務(wù),關(guān)注“數(shù)據(jù)價值”的過程,看中的是信 息積淀。云計算著眼于“計算”,聚焦于丁解決方案,關(guān)注IT基礎(chǔ)架構(gòu),看中的是計算能力 (包括數(shù)據(jù)處理能力及系統(tǒng)部署能力)。沒有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論