




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1.數據科學的三大支柱與五大要素是什么? 答:數據科學的三大主要支柱為:Datalogy (數據學):對應數據管理(Data management)Analytics ( 分析學):對應統計方法(Statistical method)Algorithmics ( 算法學):對應算法方法(Algorithmic method)數據科學的五大要素:A-SATA模型分析思維(An alytical Thin ki ng)統計模型(Statistical Model)算法計算(Algorithmic Computi ng)數據技術(Data Tech no logy)綜合應用(Application)
2、2.如何辨證看待“大數據”中的“大”和“數據”的關系?字面理解Large、vast和big都可以用于形容大小Big更強調的是相對大小的大,是抽象意義上的大 大數據是抽象的大,是思維方式上的轉變 量變帶來質變,思維方式,方法論都應該和以往不同 計算機并不能很好解決人工智能中的諸多問題,利用大數據突破性解決了,其核心問題變成 了數據問題。3.怎么理解科學的范式?今天如何利用這些科學范式?科學的范式指的是常規科學所賴以運作的理論基礎和實踐規范,是從事某一科學的科學家 群體所共同遵從的世界觀和行為方式。第一范式:經驗科學第二范式:理論科學第三范式:計算科學第四范式:數據密集型科學今天,是數據科學,統一
3、于理論、實驗和模擬4.從人類整個文明的尺度上看,IT和DT對人類的發展有些什么樣的影響和沖擊?以控制為出發點的IT時代正在走向激活生產力為目的的 D( Data Technology )數據時代。大數據驅動的DT時代 由數據驅動的世界觀大數據重新定義商業新模式大數據重新定義研發新路徑大數據重新定義企業新思維5.大數據時代的思維方式有哪些?“大數據時代”和“智能時代”告訴我們:數據說話全局數據混雜性、不確定性相關關系數據思維:講故事總體思維:樣本數據 容錯思維:精確性 相關思維:因果關系智能思維:人 人機協同(人人工智能)6請列舉出六大典型思維方式;直線思維、逆向思維、跳躍思維、歸納思維、并行思
4、維、科學思維數據科學與大數據通識導論題庫及答案7.大數據時代的思維方式有哪些?同58.二進制系統是如何實現的?計算機用0和1來表示和存儲所有的數據,它的基數為 2,進位規則是“逢二進一”,用1表 示開,0表示關9.解釋比特、字節和十六進制表示。比特:一位0、1 ;字節:8比特,從000到111,十六進制:0000到1111十六個數分別用 0,1,2,3,4,5,6,7,8,9 ,A,B, C,D,E,F 來表示10.請辨析現象、數據、信息和知識這幾個概念。信息是關于世界、人和事的描述,它比數據來得抽象;而數據則是信息的載體。知識比信息更高一個層次,也更加抽象,它具有系統性的特征。比如通過測量星
5、球的位置和對應的時間,就得到數據;通過這些數據得到星球運轉的軌跡, 這就是信息;通過信息總結出開普勒三定律,就是知識。從現象、數據到信息、知識,抽象層次是越來越高的。 人類的進步就是靠使用知識不斷地改變我們的生活和周圍的世界,而數據是知識的基礎。11.簡述馮諾依曼計算機工作原理存儲程序控制程序和數據都用二進制數表示機器以CPU為中心12.簡述GB2312編碼和Unicode編碼原理;GB2312編碼適用于漢字處理、漢字通信等系統之間的信息交換,通行于中國大陸 ;新加坡等地也采用此編碼。中國大陸幾乎所有的中文系統和國際化的軟件都支持 GB 2312。基本集共收入漢字6763個和非漢字圖形字符68
6、2個。整個字符集分成94個區,每區有94個 位。每個區位上只有一個字符,因此可用所在的區和位來對漢字進行編碼,稱為區位碼。Unicode(統一碼、萬國碼、單一碼)是計算機科學領域里的一項業界標準,包括字符集、 編碼方案等。Uni code是為了解決傳統的字符編碼方案的局限而產生的,它為每種語言中的 每個字符設定了統一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉換、處理的 要求。13.簡述摩爾定律。摩爾定律是由英特爾(In tel )創始人之一戈登摩爾(Gordon Moore )提出來的。其內 容為:當價格不變時,集成電路上可容納的元器件的數目,約每隔18-24個月便會增加一倍, 性能
7、也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上。 這一定律揭示了信息技術進步的速度。14.為什么計算機系統要往并行與異構的方向發展?單核CPI已經走到盡頭,不能承載更多的晶體,所以采用多核和GPU及 FPGA等并行與異構, 多臺計算機一起工作,進一步提升計算性能15.什么是云計算?云計算的定義:云計算是一個模型,這個模型可以方便地按需通過網絡訪問一個可配置的計算資源(例如, 網絡、服務器、存儲設備、應用程序以及服務)的公共及。這額資源可以迅速提供并發布, 同時最小化管理成本或服務提供商的干涉。16.為什么說數據上云是一種趨勢?大數據上云,數據上云,分析上云,人
8、工智能上云,數據上云是一種趨勢17.從技術體系和資源結構兩方面談一下云計算的邏輯平臺組成。云平臺的邏輯組成技術體系:laaS, PaaS, SaaS (Technically )資源結構:計算、存儲、網絡18.數據獲取過程可分為哪幾個步驟?數據獲取階段的任務是以數字形式將信息聚合,以待存儲和分析處理,數據獲取過程可分為 三個步驟:數據米集數據傳輸數據預處理19.數據預處理需要做哪些工作?數據預處理由于數據源的多樣性,數據集由于干擾、冗余和一致性因素的影響具有不同的質量。一些數據分析工具和應用對數據質量有著嚴格的要求。因此在大數據系統中需要數據預處理 技術提高數據的質量。數據集成(Data in
9、tegration )數據清洗(Data cleansing )冗余消除(Redundancy elimination20.數據的存儲方式有哪些?數據的存儲方式:紙帶磁帶數字存儲隨機存取存儲器(Random access memory RAM磁盤(HDD和磁盤陣列存儲級存儲器:閃存、SSD光盤21什么是大數據的計算模式?所謂大數據計算模式,即根據大數據的不同數據特征和計算特征,從多樣性的大數據計算問 題和需求中提煉并建立的各種高層抽象(abstraction )或模型(model)。22.簡述大數據的四種主要分析技術。大數據的四種主要分析技術(1)統計分析(2)機器學習是一門研究機器獲取新知識
10、和新技能,并識別現有知識的學問。(3)數據挖掘從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人 們事先不知道的、但又是潛在有用的信息和知識的過程。(4)可視化分析統計學主要是通過機器學習來對數據挖掘發揮影響,而機器學習和數據庫則是數據挖掘的兩 大支撐技術。23.簡述數據庫的事務ACID性質數據庫的事務處理(ACID)性質:原子性(Atomicity ):不可分割一致性(Consistency ):前后一致隔離性(Isolation ):并發持久性(Durability ):永久24.關系代數的五種基本運算分別是什么?關系代數的五種基本運算分別是并、差、投影、選擇
11、、笛卡爾積25.簡述數據倉庫的四種類型。數據倉庫的四種類型: 傳統數據倉庫 實時處理數據倉庫 關聯發現數據倉庫 數據集市26.什么是GFS請簡述GFS的特點?GFS是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。 它運行于廉價的普通硬件上,將服務器故障視為正常現象,通過軟件的方式自動容錯,在保 證系統可靠性和可用性的同時,大大減少了系統的成本。系統分為三類角色:Master (主服務器)Chunk Server (數據塊服務器)。Clie nt (客戶端)27.請簡述HDFS的特點。Hadoop是一個分布式系統基礎架構,由 Apache基金會開發。用戶可以在不了解
12、分布式底層細節的情況下,開發分布式程序,充分利用集群的威力高速運算和存儲。 Hadoop實現了一個分布式文件系統(Hadoop Distributed File System ),簡稱 HDFSHDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。HDFS集群包含:一個主節點(NameNode)多個從屬節點(DataNodes)多個客戶端訪問28.大數據系統為什么要采用分布式的架構? 大數據是數據庫的自然延伸:分布式。由于大數據要處理大量、非結構化的數據,所以在各處理環節中都可以采用并行處理。目前,Hadoop Map Reduce和Spark等分布式處理方式已經成為大數據處理各環節的通
13、用處 理方法。29.什么是有向圖、鄰接矩陣、超鏈接矩陣。一個有向圖D是指一個有序三元組(V(D),A(D),書D),其中書D)為關聯函數,它使 A(D)中 的每一個元素(稱為有向邊或弧)對應于V(D)中的一個有序元素(稱為頂點或點)為研究需要,我們定義鄰接矩陣G = (gij)i 其中 g舒=L如果存在從J到I的弧進一步,如果將鄰接矩陣中的元素除以對應節點的出度,可以得到該圖的超鏈接矩陣30.如何計算PageRank的值?PageRa nk算法第一步:將互聯網作為一個有向圖,并用鄰接矩陣進行表示;第二步:將該鄰接矩陣轉換為超鏈接矩陣;第三步:求解該超鏈接矩陣的最大特征向量(如幕迭代法); 第四
14、步:求得的特征向量中的值即為對應網頁的 PageRa nk值。31.典型的數據挖掘技術有哪些?典型的數據挖掘技術:關聯分析、序列模式、分類(預言)、聚集、異常檢測32.數據挖掘的標準流程分為那幾個步驟?請分別簡述它們。商業理解:找問題-確定商業目標、 對現有資源的評估, 確定問題是否能夠通過數據挖掘來解決,確定數據挖掘的目標, 制定數據挖掘計劃 數據理解:數據準備:確定數據挖掘所需要的數據, 對數據進行描述, 數據的初步探索, 檢查數據的質量建立模型:對各個模型進行評價, 選擇數據挖掘模型, 建立模型模型評估:評估數據挖掘的結果, 對整個數據挖掘過程的前面步驟進行評估,確定下一步怎么辦?是發布
15、模型?還是對數據挖掘過程進行進一步的調整,產生新的模型模型發布:把數據挖掘模型的結果送到相應的管理人員手中, 對模型進行日常的監測和維護,定期更新數據挖掘模型33.典型的分類方法有哪些?典型分類方法:判定樹歸納分類,貝葉斯分類,后向傳播分類, k-最臨近分類,基于案例的推理,遺傳算法,粗糙集方法,模糊集方法34.典型的預測方法有哪些?典型預測方法:回歸方法,線性回歸,多元回歸,非線性回35.請簡述分類過程。 數據分類:兩步過程第一步,建立一個模型,描述預定數據類集和概念集 假定每個元組屬于一個預定義的類,由一個類標號屬性確定 基本概念 訓練數據集:由為建立模型而被分析的數據元組形成 訓練樣本:
16、訓練數據集中的單個樣本(元組) 學習模型可以用分類規則、判定樹或數學公式的形式提供 第二步,使用模型,對將來的或未知的對象進行分類 首先評估模型的預測準確率 對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較 模型在給定測試集上的準確率是正確被模型分類的測試樣本的百分比 測試集要獨立于訓練樣本集,否則會出現“過分適應數據”的情況36.簡述預測和分類的相同點和不同點。預測是構造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。 預測和分類的相同點: 兩者都需要構建模型 都用模型來估計未知值預測當中主要的估計方法是回歸分析線性回歸和多元回歸非線性回歸預測和分類的不同點:分類法主
17、要是用來預測類標號(分類屬性值)預測法主要是用來估計連續值(量化屬性值)37.什么是離群點分析?離群點分析可以應用在哪些領域? 離群點分析離群點:一些與數據的一般行為或模型不一致的孤立數據 通常孤立點被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進行孤立點分析而得到結論。應用:信用卡欺詐檢測,移動電話欺詐檢測,客戶劃分,醫療分析(異常)38.什么是異常檢測?異常監測可以應用在哪些領域?異常檢測是數據挖掘中一個重要方面,用來發現”小的模式” (相對于聚類),即數據集中間顯著不同于其它數據的對象。異常探測應用:電信和信用卡欺騙,貸款審批,藥物研究,氣象預報,金融領域,客戶分類, 網
18、絡入侵檢測,故障檢測與診斷等39.列舉四種機器學習方法中的監督學習算法并對它們進行簡要解釋。監督學習算法:線性回歸,邏輯回歸,神經網絡, SVM回歸算法有兩個重要的子類:即線性回歸和邏輯回歸神經網絡(也稱之為人工神經網絡,ANN)是80年代機器學習界非常流行的方法,其誕生起 源于對大腦工作機理的研究。簡單來說,就是分解與整合SVM(支持向量機)40.什么是咼級編程語言?高級編程語言:為了克服低級語言的缺點,科學家設計出了更加易用的高級編程語言(high-level programming Ianguage )。高級語言吸收了人們熟悉的自然語言和數學語言的某些成分,因此非常易學、易用、易讀; 高
19、級語言在構造形式和意義方面具有嚴格定義,從而避免了語言的歧義性;高級語言與計算機硬件沒有關系,用高級語言寫的程序可以移植到各種計算機上執行。41.列舉出10大數據挖掘的算法。 數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.42.簡述深度學習、機器學習、人工智能三者的關系。 人工智能包括了機器學習,機器學習包括了深度學習43.三大數據編程語言分別是哪三種?它們分別適用于哪些場景?R語言:最常用數據分析工具之一,兼容性強Python:編程類數據分析,如文本字
20、符等非機構化數據的處理SQL側重數據庫方面,如數據倉庫等,作為 Oracle等數據庫方面的基礎知識不可或缺44.數據工程的主要研究內容可分為哪三個方面?請分別簡述它們。數據工程的主要研究內容可概括為三個方面:數據產品的創新,具體包括非結構化數據的結構化、數據衍生品的創造;數據產品及其數據衍生品的價值分析,包括數據產品及其數據衍生品內在關系(線性關系與 非線性關系)的識別,數據產品及其數據衍生品價值評價模型的構建;建立在數據有效性基礎上的理論探討,包括理論體系的構建,定律與模型的發現等。45.標準的數據科學過程可分為哪六步?(1)Setting the research goal(2)Retri
21、eving data(3)Data preparation(4)Data exploration(5)Data modeling(6)Presentation and automation46.為什么要開放公共數據?把數據當原料應用價值,數據是一種基礎設施,開放公共數據本質上是提供一種公共產品, 促進合作共創,通過開放數據,利用數據,解決問題創造價值,讓社會,供給方,利用方合 作共贏。47.什么是智慧城市,智慧城市有哪些應用?智慧城市就是運用信息和通信技術手段感測、分析、整合城市運行核心系統的各項關鍵信 息,從而對包括民生、環保、公共安全、城市服務、工商業活動在內的各種需求做出智能響 應。其實質是利用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 無故辭退調解協議書
- 加盟和解協議書模板
- 小方返還彩禮協議書
- 照顧老人書面協議書
- 農民土地對換協議書
- 手機意外保障協議書
- 酒店房間預售協議書
- 職稱晉升協議書范本
- 糾紛調解協議書附件
- 婚姻女性保障協議書
- 浙江省杭州市蕭山區蕭山城區八校期中考試聯考2023-2024學年八年級下學期4月期中英語試題(含答案)
- 手術工作流程課件
- 危險性較大的分部分項工程專項施工方案嚴重缺陷清單(試行)
- 2025年遼寧省建筑安全員《B證》考試題庫
- 2023-2024學年華東師大版八年級數學上冊期末復習綜合練習題
- 慢性腎病5期護理查房
- 常務副總經理職責
- 2024年云南省中考物理真題含解析
- 后勤崗位招聘面試題及回答建議
- 完整初一歷史上學期記憶時間軸
- 《農村普惠金融發展研究的國內外文獻綜述》4500字
評論
0/150
提交評論