大數據專業英語教程 課件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第1頁
大數據專業英語教程 課件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第2頁
大數據專業英語教程 課件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第3頁
大數據專業英語教程 課件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第4頁
大數據專業英語教程 課件 Unit 2 A Structured Data,Unstructured Data and Semi-structured Data_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

StructuredData,UnstructuredDataandSemi-structuredData

Unit

2TextAContents

NewWords

Abbreviations

Phrases參考譯文NewWordsNewWordsNewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA結構化數據、非結構化數據和半結構化數據1.結構化數據結構化數據是符合數據模型、具有定義明確的結構、遵循一致順序并且可以由人或計算機程序輕松訪問和使用的數據。它通常存儲在定義明確的架構(例如數據庫)中。它通常是表格形式,具有明確定義其屬性的列和行。SQL通常用于管理存儲在數據庫中的結構化數據。1.1結構化數據的特征?數據符合數據模型,并具有易于識別的結構。?數據以行和列的形式存儲。?數據井井有條,因此具有明確的定義、格式和含義。?數據位于記錄或文件的固定字段中。?將相似的實體組合在一起以形成關系或類。?同一組中的實體具有相同的屬性。?數據易于訪問和查詢,因此其他程序可以輕松使用。參考譯文1.2結構化數據的來源?SQL數據庫?電子表格,例如Excel?OLTP系統?在線表格?傳感器,例如GPS或RFID標簽?網絡和Web服務器日志?醫療設備1.3結構化數據的優勢?結構化數據具有定義明確的結構,有助于輕松存儲和訪問數據。?可以基于文本字符串和屬性為數據建立索引。這使搜索操作變得輕松自如。?數據挖掘很容易,即可以輕松地從數據中提取知識。?由于具有結構良好的數據形式,因此更新和刪除等操作很容易。?可以輕松進行諸如數據倉庫之類的商業智能操作。?如果數據有增加,則可以輕松擴展。?很容易確保數據的安全性。注意:結構化數據僅占數據的20%,但其高度的組織性和性能使其成為大數據的基礎。參考譯文參考譯文2.非結構化數據非結構化數據是不符合數據模型并且沒有易于識別的結構的數據,因此不易被計算機程序所使用。非結構化數據不是以預定義的方式組織的,也不具有預定義的數據模型,因此它不適用于主流的關系數據庫。2.1非結構化數據的特征?數據既不符合數據模型也不具有任何結構。?數據不能以行和列的形式存儲。?數據不遵循任何語義或規則。?數據缺少任何特定的格式或序列。?數據沒有易于識別的結構。?由于缺乏可識別的結構,不易被計算機程序使用。2.2非結構化數據的來源?網頁?圖像(JPEG、GIF、PNG等)?視頻?備忘?報告?Word文檔和PowerPoint演示文件?調查2.3非結構化數據的優勢?它支持缺少正確格式或序列的數據。?數據不受固定模式的約束。?由于沒有模式,因此非常靈活。?數據是可移植的。?它具有很好的可擴展性。?它可以輕松處理數據源的異構性。?它可以應用于具有各種商業智能和分析。2.4非結構化數據的缺點?由于缺乏模式和結構,非結構化數據很難存儲和管理。?索引數據很困難,并且由于結構不清晰且沒有預定義的屬性而導致錯誤,因此搜索結果不太準確。?確保數據的安全性是一項艱巨的任務。

參考譯文2.5存儲非結構化數據時面臨的問題?需要大量存儲空間來存儲非結構化數據。?很難存儲視頻、圖像、音頻等。?由于結構不清楚,因此更新、刪除和搜索等操作非常困難。?與結構化數據相比,存儲成本很高。?索引非結構化數據很困難。2.6用于存儲非結構化數據的可能解決方案?非結構化數據可以轉換為易于管理的格式。?使用內容可尋址存儲系統存儲非結構化數據。?根據其元數據存儲數據,并且為存儲在其中的每個對象分配唯一的名稱。根據內容而不是其位置檢索對象。?非結構化數據可以XML格式存儲。?非結構化數據可以存儲在支持BLOB的RDBMS中。參考譯文2.7從非結構化數據中提取信息非結構化數據沒有任何結構。因此,傳統算法不能輕易解釋它。標記和索引非結構化數據也很困難。因此,從中提取信息是一項艱巨的工作。這里是一些可能的解決方案。?分類法或數據分類有助于按層次結構組織數據,這將使搜索過程變得容易。?數據可以存儲在虛擬存儲庫中并被自動標記。?使用XOLAP之類的應用程序平臺。XOLAP幫助從電子郵件和基于XML的文檔中提取信息。?使用各種數據挖掘工具。參考譯文參考譯文3.半結構化數據半結構化數據是不符合數據模型但具有某種結構的數據。它缺乏固定或嚴格的模式。數據不是駐留在合理數據庫中,但具有一些使其更易于分析的組織屬性。通過一些方法,我們可以將它們存儲在關系數據庫中。3.1半結構化數據的特征?數據不符合數據模型,但具有某種結構。?不能以行和列的形式存儲數據。?半結構化數據包含標簽和元素(元數據),這些標簽和元素可用來對數據進行分組并描述數據的存儲方式。?將相似的實體組合在一起并按層次結構進行組織。?同一組中的實體可能有也可能沒有相同的屬性。?它沒有足夠的元數據,這使得數據的自動化和管理變得困難。?屬性相同的一組數據其大小和類型可能不同。?由于缺乏明確定義的結構,無法容易地被計算機程序使用。3.2半結構化數據的來源?電子郵件?XML和其他標記語言?二進制可執行文件?TCP/IP數據包?壓縮文件?來自不同來源的整合數據?網頁3.3半結構化數據的優勢?數據不受固定模式的約束。?靈活,即可以輕松更改架構。?數據是可移植的。?可以將結構化數據視為半結構化數據。?它為無法用SQL表達需求的用戶提供支持。?它可以輕松處理數據源的異構性。

參考譯文3.4半結構化數據的缺點?缺乏固定的和嚴格的架構,因此存儲數據困難。?因為架構和數據沒有分離,很難解釋數據之間的關系。?與結構化數據相比,查詢效率較低。3.5存儲半結構化數據時面臨的問題?數據通常具有不規則的部分結構。一些源具有隱式的數據結構,這使解釋數據之間的關系很困難。?模式和數據通常緊密耦合,即它們不僅鏈接在一起,而且彼此依賴。同一查詢可能會同時更新架構和數據,而架構會經常更新。?模式和數據之間的區別非常不確定或不清楚。這使數據結構的設計復雜化。?與結構化數據相比,存儲成本很高。參考譯文參考譯文3.6存儲半結構化數據的可能解決方案?數據可以存儲在專門為存儲半結構化數據而設計的DBMS中。?XML被廣泛用于存儲和交換半結構化數據。它允許用戶定義標簽和屬性,以分層形式存儲數據。模式和數據在XML中并沒有緊密耦合。?對象交換模型(OEM)可用于存儲和交換半結構化數據。OEM以圖形形式構造數據。?通過將數據映射到關系模式,然后將其映射到表,可以使用RDBMS來存儲數據。3.7從半結構化數據中提取信息由于數據源的異構性,半結構化數據具有不同的結構。有時它根本不包含任何結構。這使標記和索引數據很困難。因此,從中提取信息是一項艱巨的工作。這里是一些可能的解決方案。?基于圖形模型(例如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論