




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1章數據科學概述主編:王道平數據科學與大數據技術導論本章教學要點本章主要介紹數據、數據科學以及數據科學家的相關理論概念。其中需掌握數據的分類、數據科學的概念以及數據科學的研究內容;熟悉數據的概念、數據模型以及數據科學的發展相關知識點;了解數據科學的體系架構、數據科學與其他學科的聯系和數據科學家概述的內容。目錄數據基礎理論1.11.2數據科學基礎理論1.3數據科學的發展1.4數據科學家概述01數據基礎理論PART
ONE1.1.1數據的概念數據指的是事實或經過觀察的結果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經加工的原始素材。數據的表現形式有很多,包括符號、文字、數字、音頻、圖像、視頻等。音頻數據圖像數據數字數據1.1.1數據的概念數據與數值、信息、知識的區別數值指的是用數目表示的一個量的多少,是數據的一種存在形式。數據的存在形式除了數值以外,還有音頻、圖像、視頻、符號等很多其他的表現形式。信息是對客觀世界中各種事物的運動狀態和變化的反映,是數據有意義的表示。數據本身沒有意義,數據只有對實體行為產生影響時才成為信息。知識是人類在實踐中認識客觀世界(包括人類自身)的成果,它包括事實、信息的描述或在教育和實踐中獲得的技能。它們之間的關系如右圖所示。1.1.2數據的類型數據的分類有助于人們對于數據有更深刻、全面的理解。數據的分類方式有很多,比較常見的分類方式有:按照數據結構分類、按照加工類型分類、按照表現方式分類以及按照記錄方式的分類。1.按數據結構劃分類型含義本質
例子結構化數據直接可以用傳統關系數據庫存儲和管理的數據先有結構、后有數據關系型數據庫中的數據半結構化數據經過一定轉換處理后可以用傳統關系數據庫存儲和管理的數據先有數據、后有結構(或較容易發現其結構)HTML、XML文件等非結構化數據無法用傳統關系數據庫存儲和管理的數據沒有(或難以發現)統一結構的數據語音、圖像文件等1.1.2數據的類型雖然上表顯示的是4種相互分離的數據類型,但是有時這些數據類型是混合在一起的。例如:一個傳統的關系數據庫管理系統保存著一個軟件支持呼叫中心的通話日志,其中包括典型的結構化數據,如日期/時間戳、機器類型、問題類型、操作系統等,這些都是在線支持人員通過圖形用戶界面上的下拉菜單輸入的。同時,日志中也包括非結構化數據或半結構化數據,如自由形式的通話日志信息,這些可能來自包含問題的電子郵件、技術問題和解決方案的實際通話描述、與結構化數據有關的實際通話的語音日志或者音頻文字實錄等。1.1.2數據的類型2.按加工類型劃分按加工類型可以將數據可分為零次數據、一次數據、二次數據、三次數據等。其相互的關系如右圖所示。數據的加工程度對于數據科學的中的流程設計和選擇都有著十分重要的意義,比如在進行數據科學的研究時,可通過對數據加工程度的判斷決定是否需要對所獲數據進行預處理的操作。零次數據(原始數據)沒有經過預處理的數據一次數據(干凈數據)預處理過的數據二次數據(增值數據)分析處理的結果三次數據(洞見數據)可直接用于決策的數據1.1.2數據的類型3.按數據的表現形式劃分按數據的表現形式可以將數據可分為數字數據和模擬數據。數字數據指的是數據在某個區間內是離散的值,常見的如符號、文字等都屬于數字數據。模擬數據由連續函數組成,指在某個區間連續變化的物理量,常見的模擬數據如音頻、圖像等。下圖所示的就是一個數字數據。1.1.2數據的類型4.按數據記錄方式劃分從數據的記錄方式來看,數據可分為文本、圖像、音頻、視頻等。(1)文本數據是指不能參與算術運算的任何字符,也稱為字符型數據。如英文字母、漢字、不作為數值使用的數字(以單引號開頭)和其他可輸入的字符。文本數據既不是完全非結構化的也不是完全結構化的。例如文本可能包含結構化字段,如標題、作者、出版日期、長度、分類等,也可能包含大量的非結構化的數據,如摘要和內容。1.1.2數據的類型(2)圖像數據是指用數值表示的各像素的灰度值的集合。真實世界的圖像一般由圖像上每一點光的強弱和頻譜(顏色)來表示,把圖像信息轉換成數據信息時,須將圖像分解為很多小區域,這些小區域稱為像素,可以用一個數值來表示它的灰度,對于彩色圖像常用紅、綠、藍三原色分量表示。順序地抽取每一個像素的信息,就可以用一個離散的陣列來代表一幅連續的圖像。對于圖像數據的管理通常采用文件管理方式和數據庫管理方式。1.1.2數據的類型(3)音頻數據也稱數字化聲音數據,其過程實際上就是以一定的頻率對來自麥克風等設備的連續的模擬音頻信號進行模數轉換得到音頻數據的過程。數字化聲音的播放就是將音頻數據進行數模轉換變成模擬音頻信號輸出,在數字化聲音時有兩個重要的指標,即采樣頻率和采樣大小。采樣頻率即單位時間內的采樣次數,采樣頻率越大,采樣點之間的間隔越小,數字化得到的聲音就越逼真,但相應的數據量就會增大,占用更多的存儲空間;采樣大小即記錄每次樣本值大小的數值的位數,它決定采樣的動態變化范圍,位數越多,所能記錄聲音的變化程度就越細膩,所占的數據量也越大。計算一段音頻所占用的存儲空間可用以下公式:存儲容量(MB)=(采樣頻率(Hz)*
采樣位數*聲道數*
時間(s))/81.1.2數據的類型(4)視頻數據是指連續的圖像序列,其實質是由一組組連續的、有先后順序的圖像構成的,它含有比其他媒體更為豐富的信息和內容。以視頻的形式來傳遞信息,能夠直觀、生動、真實、高效地表達現實世界,其所傳遞的信息量遠遠大于文本或靜態的圖像,包含的數據量也是巨大的,通常視頻數據的數據量比結構記錄的文本數據大約多七個數量級。視頻數據對存儲空間和傳輸信道的要求很高,即使是一小段的視頻剪輯,也需要比一般字符型數據大得多的存儲空間。1.1.3數據模型數據模型是對現實世界數據特征的抽象,用于描述一組數據的概念。數據模型按照不同的應用層次可分成三種類型:概念模型、邏輯模型和物理模型。這三種數據模型的層次關系如下圖所示。1.1.3數據模型1.概念模型概念模型是一種面向用戶、面向客觀世界的模型,主要用來描述世界的概念化結構,它通常是數據庫的設計人員在設計的初始階段,擺脫具體技術問題,集中精力分析數據以及數據之間的聯系等問題時建立的。當需要建立數據庫管理系統(DatabaseManagementSystem,DBMS)時,需要把概念模型轉換成邏輯模型,才能進行技術實現。概念模型用于信息世界的建模,一方面應該具有較強的語義表達能力,能夠方便直接表達應用中的各種語義知識,另一方面它還應該簡單、清晰、易于用戶理解。概念模型中常用的有業務流程圖、文檔模板、實體-聯系(EntityRelationship,E-R)模型、擴充的E-R模型、面向對象模型及謂詞模型。1.1.3數據模型右圖所示的就是一個反映學校教學管理的E-R模型。1.1.3數據模型2.邏輯模型數據的邏輯模型是一種面向數據庫系統的模型,是在概念模型建立的基礎之上,從數據科學家的視角對數據進行進一步抽象的模型,是具體的數據庫管理系統所支持的數據模型,主要用于數據科學家之間的溝通以及數據科學家與數據工程師之間的溝通,以完成數據庫管理系統的實現。常見的邏輯模型有:關系模型、網狀數據模型、層次數據模型、圖模型等等。1.1.3數據模型右圖所示的就是一個有關旅游決策的層次數據模型圖,其中的目標層描繪的是需要達成的目標是選擇旅游的景點;準則層表示的是旅游景點的評價標準,包括景色、費用、居住、飲食和旅途5個維度;方案層表示的是可供選擇的旅行方案。1.1.3數據模型3.物理模型數據的物理模型是在邏輯模型的基礎之上,面向計算機物理表示的模型,用于描述數據在儲存介質上的組織結構和訪問機制,物理模型中的組成部分有表、列、鍵、索引、復制、分片、視圖、事務、版本戳等。右圖表示的就是用PowerDesigner建模工具構建的學生信息管理系統的物理模型,通過和數據庫的鏈接可實現學生信息和班級信息數據在數據庫中按照模型所示的結構進行存放。02數據科學基礎理論PART
TWO1.2.1數據科學的概念關于數據科學的概念,不同領域的學者給出的答案也不盡相同。“數據科學是一門基于數據處理的科學。”著名計算機科學家PeterNaur:“數據科學是通過科學的方法探索數據,以發現有價值的洞察,并在業務環境中運用這些有價值的洞察來構建軟件系統。”“數據科學是以數據為中心的科學,是一門將現實世界映射到數據世界之后,在數據層次上研究現實世界的問題,并根據數據世界的分析結果,對現實世界進行預測、洞見、解釋或決策的科學。”Lendup公司的數據科學副總裁Ofer:我國最早闡述數據科學理論與實踐朝樂門教授:目前關于數據科學普遍的定義是:數據科學是關于數據的科學,是探索和發現數據中價值的理論、方法和技術,是對從數據中提取知識的研究。1.2.1數據科學的概念在企業運營方面,數據科學的使用可以幫助企業獲得更多競爭優勢,進而獲取更多利潤。例如:在線搜索引擎(如谷歌、微軟必應)通過在搜索界面提供廣告投放機會來盈利。這類公司會雇用數據科學團隊來不斷改進點擊率預估算法,讓更多的相關廣告得到展示,從而獲取更多的利潤。數據科學在政界也發揮了很大的作用,2012年美國總統選舉,奧巴馬的競選團隊雇用了很多數據科學家收集選民的相關數據,通過數據挖掘識別出不同的選民,并有針對性的對潛在選民進行拉票活動,最后奧巴馬在競選中勝出,成功連任美國總統。在人們的日常的信息獲取時,數據科學可以幫助人們快速的了解周圍的動向。比如Twitter通過數據科學方法對話題進行檢測,利用情感分析的相關技術不斷的為人們更新熱點話題。1.2.1數據科學的概念在研究數據科學的時候,人們一般會遵循如下圖所示的步驟:(1)通過網站、數據庫或者調研等途徑獲得數據集。(2)對獲取的數據集進行預處理,把數據整理成適宜的形態,方便對數據價值的探索。(3)對這部分數據通過統計學或機器學習等方法進行數據分析或者數據實驗,得到數據中蘊藏的規律。(4)對數據進行感知化的呈現。比如利用數據可視化的方法,可以將數據映射為可識別的圖形,圖像,視頻等,便于人們的直觀感知,并從中進一步獲取知識,找到規律。
該方面主要涉及的是如何用科學方法研究數據,這其中的數據可以有很多的展現形式。比如:點集、表格、時間序列、圖像、視頻、網絡數據等。科學的方法主要是觀察法和邏輯推理,去研究數據推理的理論和方法。數據資源如何開發是目前數據科學的一個重要研究內容。在目前數據爆發式增長的同時,很多有價值的數據被隱藏在了龐大的數據之中,通過對這些數據資源的開發方法、技術進行研究,找到適合的方法挖掘出數據資源,才能找到數據資源。
通過數據進行科學探索,從數據中
提取抽象出模型,進而對數據自然
界進行探索。從數據的類型,狀態,
變化規律等揭示出自然界或人類行為背后存在的規律,提出科學的假說或建立科學理論體系。由于數據科學在各個領域所運用的理論、方法和技術有一定的差異性,因此需要研究適合某一領域的數據科學,開發出合適的方法、技術等。具體的領域數據科學有:行為數據學,金融數據學,等。延遲符號領域數據科學1.2.2數據科學的研究內容數據科學的研究內容數據科學所研究的內容概括起來,可以被劃分成以下的4個方面:數據資源開發用科學研究數據用數據研究課程1.2.3數據科學的體系架構數據科學的體系架構由數據科學的基礎層和應用層兩部分組成,如右圖所示。1.2.4數據科學與其他學科間的聯系數據科學涉及很多學科知識。作為數據科學的基礎性學科有數學、統計學、計算機科學、機器學習、數據倉庫、數據可視化等;除了數據科學的基礎性學科,還有一部分學科為數據科學的應用領域提供了輔助支持,比如:經濟學,社會學,法學等。它們之間的關系如右圖所示。數據科學統計學計算機科學機器學習
數據
倉庫數據可視化
社會學
經濟學法學……數學03數據科學的發展PART
THREE1.3.1數據科學的發展歷程1974年著名計算機科學家、PeterNaur在他的著作《計算機方法的簡明調查》中提出了數據科學的概念,數據科學一詞正式被確立。1996年在日本召開的國際聯合會議“數據科學、分類和相關方法”將數據科學作為會議的主題詞。2001年美國統計學教授WilliamS.C發表了《數據科學:拓展統計學的技術領域的行動計劃》,首次把數據科學作為一門獨立的學科,并給出了數據科學的定義。2010年,DrewConway提出了第一張揭示數據科學的學科地位的維恩圖——《數據科學維恩圖》。2012年世界著名出版公司Springer出版集團創辦了期刊“EPJDataScience”以不斷展示數據科學領域的最新成果。2013年MattmannCA和DharV分別發表了名為《計算——數據科學的愿景》和《數據科學與預測》的學術論文,從計算機科學與技術視角探究了數據科學的內涵,使數據科學納入計算機科學與技術專業的研究范疇。1.3.1數據科學的發展歷程數據科學的研究方向越來越廣泛,其6個主要的研究方向分別為:1.基礎理論數據科學的基礎理論主要包括數據科學中的理論、方法、技術、工具以及數據科學的研究目的、理論基礎、研究內容、基本流程、應用等。2.數據預處理數據預處理是數據科學中關注的新問題之一。為了提升數據質量、減少數據計算量、降低數據計算的復雜度以及提升數據處理的精準度,數據科學家需要對獲取的原始數據進行一定的預處理工作,包括數據審計、數據清洗、數據變換、數據集成、數據脫敏、數據歸約和數據標注等步驟。1.3.1數據科學的發展歷程3.數據計算在數據計算中,人們所追求的目標是計算速度快以及占用的內存小。目前,數據計算的模式在學者的不斷研究中發生了根本性的變化—從集中式計算、分布式計算、網格計算等傳統計算模式過渡到云計算模式中,極大提高了計算能力。這其中比較有代表性的是谷歌的三大云計算技術:谷歌文件系統(GFS)、分布式處理模型(MapReduce)以及分布式結構化表(BigTable)。4.數據管理數據管理是指利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程。數據管理通常是在完成數據加工和數據計算之后進行的,目的是為了更好的進行數據分析以及數據的再利用和長久存儲。1.3.1數據科學的發展歷程5.數據分析數據分析是指利用統計學,數據挖掘等方法,對數據進行分析、處理操作,進而獲取有價值知識的過程。在進行這個方向的研究時,需要掌握一些工具的使用方法。最為基礎的就是編程工具如:R、Python、Clojure、Haskell、Scala等。目前,R語言和Python語言已成為數據科學家較為普遍應用的數據分析工具。6.數據產品開發數據產品是基于數據開發的產品的統稱。數據產品開發是數據科學的主要研究使命之一,也是數據科學區別于其他科學的重要區別。與傳統產品開發不同的是,數據產品開發具有以數據為中心、多樣性、層次性和增值性等特征。數據產品開發能力也是數據科學家的主要競爭力之源。因此,數據科學的學習目的之一是提升自己的數據產品開發能力。1.3.2數據科學的發展趨勢從整體上來看,未來數據科學發展的趨勢主要會集中在以下幾個方面:提高數據科學的自動化程度增強數據語義分析的研究更加關注數據的治理與安全問題轉變數據研究的思維模式聚焦數據研究方向于專業領域建設數據生態成為重要課題04數據科學家概述PART
FOUR1.4.1數據科學家的概念關于數據科學家的概念,不同領域的學者給出的答案也不盡相同。“信息與計算機科學家,數據庫與軟件工程師與程序員。”美國國家科學委員會:“進行創造性探尋與分析,掌握數據庫技術,能通過數碼數據開展工作的人士。”“計算機科學家、軟件工程師和統計學家的混合體。”日本工業標準調查會:數據研究高級科學家Rachel:“能夠從混亂數據中剝離出洞見的人。”谷歌公司的軟件工程師Joel:1.4.1數據科學家的概念“從廣義的角度講,從事數據處理、加工、分析等工作的數據科學家、數據架構師和數據工程師都可以籠統地稱為數據科學家;而從狹義的角度講,那些具有數據分析能力,精通各類算法,直接處理數據的人員才可以稱為數據科學家。”百度大數據首席架構師林仕鼎:目前對于數據科學家的定義還沒有定論,本書認為數據科學家指的是:能使用科學的方法,運用數據挖掘工具對復雜的、大量的數字、符號、文字、網址、音頻、視頻等信息進行數字化重現與認識,并從中尋找新的數據洞察的工程師或專家。1.4.2數據科學家應具備的能力數據科學家應具備的能力包括以下5點:1.數據與算法的掌控能力數據與算法的掌控能力需要數據科學家在熟練掌握數據科學、數學、統計學、計算機科學等學科知識以及各類算法的原理、實現步驟之后,在實踐時把所掌握的知識轉化為經驗和能力,在腦內形
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 把握時機2025年證券從業考試試題及答案
- 影視設備行業信息技術支持服務批發考核試卷
- 常州新風管安裝施工方案
- 纖維素纖維的抗菌性與保健功能考核試卷
- 財務預算編制基礎知識試題及答案
- 2025年會計錯誤更正試題及答案
- 租賃設備的行業應用案例解析考核試卷
- 干部休養所人際關系和諧考核試卷
- 2024年項目管理目標管理試題及答案
- 銀行從業資格考試應試基礎知識復習試題及答案
- 強夯監理實施細則
- 《財務風險的識別與評估管理國內外文獻綜述》
- 井蓋管理應急預案
- 鵪鶉蛋脫殼機的設計
- 行為安全觀察behaviorbasedsafety研究復習過程
- 動火作業風險告知牌
- 鍋爐專業術語解釋及英文翻譯對照
- 綜采工作面末采安全技術措施
- 《小石潭記》作業設計
- 密封圈定位套零件的機械加工夾具設計說明書
- 旅行社等級評定申報材料完整版
評論
0/150
提交評論