2023-2024學年《大數(shù)據(jù)技術導論》模擬試卷及答案解析4_第1頁
2023-2024學年《大數(shù)據(jù)技術導論》模擬試卷及答案解析4_第2頁
2023-2024學年《大數(shù)據(jù)技術導論》模擬試卷及答案解析4_第3頁
2023-2024學年《大數(shù)據(jù)技術導論》模擬試卷及答案解析4_第4頁
2023-2024學年《大數(shù)據(jù)技術導論》模擬試卷及答案解析4_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

國家開放大學

2023-2024學年《大數(shù)據(jù)技術導論》模擬試卷及答案解析

一、選擇題

1

可視分析是一種()?

(A.1交互式用戶界面模型

[B.1結構化用戶界面模型

[C.1非結構化用戶界面模型

[D.]獨立式用戶界面模型

【答案】A

2

數(shù)據(jù)科學的研究對象是()?

[A.]藥品成分

[B.]文學作品

[C.1數(shù)據(jù)界的數(shù)據(jù)

[D.]人類歷史

【答案】C

3

下面不是研究數(shù)據(jù)方法的是()?

[A.]統(tǒng)計學

[B.1機器學習

[C.1心理分析

[D.]數(shù)據(jù)挖掘

【答案】C

4

卜面是數(shù)據(jù)科學的主要研究內容的是()?

(A.1數(shù)據(jù)泄露

[B.]數(shù)據(jù)交易

(C.1數(shù)據(jù)盜竊

[D.]數(shù)據(jù)分析

第1頁共74頁

【答案】D

5

下面不是數(shù)據(jù)產(chǎn)品開發(fā)的特征的是()?

[A.]多樣性

[B.]無競爭性

[C.1增值性

[D.]層次性

【答案】B

6

下面不屬于互聯(lián)網(wǎng)大數(shù)據(jù)的是()?

[A.]視頻

[B.]圖片

[C.1音頻

(D.)心情

【答案】D

7

下面不屬于大數(shù)據(jù)的特性是O?

[A.]數(shù)據(jù)量大

【B.】多樣性

[C.1真實性差

[D.]具有價值

【答案】C

8

下面屬于結構化數(shù)據(jù)的是()?

[A.]表格數(shù)據(jù)

(B.1圖形

[CJ圖像

[D.]HTML文檔

【答案】A

9

第2頁共74頁

下面不屬于大數(shù)據(jù)的處理過程的是()?

[A.]數(shù)據(jù)獲取、儲存

[B.]數(shù)據(jù)清洗

[C.1數(shù)據(jù)分析

[D.]數(shù)據(jù)安全

【答案】D

10

下面不屬于大數(shù)據(jù)離線處理特點的是()?

[A.]數(shù)據(jù)保存時間短

[B.]數(shù)據(jù)不會發(fā)生改變

[C.1可進行復雜的批審計算

[D.]方便查詢計算結果

【答案】A

11

下面不屬于大數(shù)據(jù)處理模式的是()?

[A.]離線處理

[B.]在線處理

[C.1手動計算

【DJ交互處理

【答案】C

12

下面僅屬于大數(shù)據(jù)在線處理模式的是()?

[A.]批量計算

[B.]流式計算

[C.1手動計算

[D.]交互處理

【答案】B

13

下面不屬于流式數(shù)據(jù)源的是()?

[A.]硬盤數(shù)據(jù)

[B.]傳感器數(shù)據(jù)

第3頁共74頁

18

基于任務的定義和分類,下列不屬于可視分析關注點的是()?

[A.]以用戶價值為關注點

[B.]以用戶意圖為關注點

[C.1以同戶行為為關注點

[DJ以軟件操作為關注點

【答案】A

19

下面不屬于企業(yè)大數(shù)據(jù)應用成功的考慮因素是(>?

[A.]成本

[B.]客戶滿意度

[C.1附加收益

[D.]工人滿意度

【答案】D

20

下面不屬于大數(shù)據(jù)在通訊行業(yè)的應用是O?

【A.】預測客戶行為

[B.]市場監(jiān)控

[C.1智能電表

[D.]市場預警

【答案】C

21

MapReduce以什么方式進行分布式計算()?

[A.]文本

[B.]函數(shù)

[C.1數(shù)據(jù)集

[D.]矩陣

【答案】B

22

第5頁共74頁

在Hadoop中,將每一次計算請求稱為一個()?

[A.]文本

[B.]函數(shù)

(C.1數(shù)據(jù)集

[D.]作業(yè)

【答案】D

23

在Hadoop中,將每個作業(yè)拆分為若干個()?

[A.]文本

[B.]Map任務

[C.J數(shù)據(jù)集

[D.]Reduce任務

【答案】B

24

在Hadoop中,作業(yè)服務器被稱為()?

[A.]Job

[B.]Map

[C.JMaster

[D.]Reduce

【答案】C

25

下列不屬于一個作業(yè)的計算流程的是O?

[A.]作業(yè)開始

[B.]作業(yè)修改

[C.JMap任務分配

[D.]Reduce任務執(zhí)行

【答案】B

26

下列不屬于Map任務的執(zhí)行的子步驟的是()?

[A.]輸入準備

[B.]輸入修改

[C.1算法執(zhí)行

第6頁共74頁

[D.]輸出生成

【答案】B

27

在MapReduce模型編程中,不屬于其步驟的是()?

[A.]遍歷數(shù)據(jù)

[BJ映射鍵值

[C.J數(shù)據(jù)分組

[D.]數(shù)據(jù)插補

【答案】D

28

Hadoop的核心是()和MapReduce。

[A.]NTFS

[B.]GFS

[C.lHDFS

[D.]FS

【答案】C

29

下列不屬于單詞計數(shù)的Map過程的是()?

【A.】按列分割文件

[B.]分詞處理

[C.1按行分割文件

[D.]排序與合并

【答案】A

30

WordCount完成的功能是統(tǒng)計()?

[A.]按列分割文件數(shù)

[B.1輸入文件中單詞頻數(shù)

[C.J按行分割文件數(shù)

[D.]輸入文件中單詞頻率

【答案】B

第7頁共74頁

31

Hadoop開發(fā)環(huán)境部署內容不包括()?

[A.]安裝SSH協(xié)議

[B.]Hadoop系統(tǒng)部署

[C.1偽分布式Hadoop環(huán)境部署

[D.]電腦斷網(wǎng)

【答案】D

32

Reduce任務目標是()?

[A.]輸入文件

(B.1輸入數(shù)據(jù)

[C.1輸入圖表

[D.]將若干個Map任務生成的中間文件匯總到最后的輸出文件

【答案】D

33

Hadoop作業(yè)服務器不負責()?

[A.]接受用戶提交的作業(yè)

[B.]任務的分配

[C.1執(zhí)行具體的任務

【D.】管理所有的任務服務器

【答案】C

34

下列不屬于文本數(shù)據(jù)語義特征的是O?

[A.]詞頻

[B.]邏輯結構

[C.1動態(tài)演化規(guī)律

[D.]數(shù)據(jù)結構

【答案】D

35

文本數(shù)據(jù)是典型的O?

第8頁共74頁

[A.]結構化數(shù)據(jù)

[B.J半結構化數(shù)據(jù)

[C.1非結構化數(shù)據(jù)

[D.]混合結構數(shù)據(jù)

【答案】C

36

MapReduce模型將數(shù)據(jù)集的大規(guī)模操作分發(fā)給網(wǎng)絡上的各節(jié)點,每個節(jié)點將已完成的工作

和狀態(tài)更新,周期性地報告給()。

[A.]作業(yè)

[B.J任務

(C.J作業(yè)服務器

[D.]任務服務器

【答案】C

37

MapReduce模型的最大優(yōu)點體現(xiàn)在()?

[A.]輸入方便

[B.]分布式處理

[C.1各類型數(shù)據(jù)輸入

[D.]算法簡單

【答案】B

38

MapReduce模型適用場景的特點()?

[A.]數(shù)據(jù)可實時處理

[B.]任務不可分解

[C.1任務可分解

[D.]任務需要順序執(zhí)行

【答案】C

39

MapReduce將計算過程分解的最大好處是()?

[A.]復雜化

[B.]快捷化

第9頁共74頁

[C.1并行化

[D.]低成本

【答案】C

40

下列不屬于MapReduce模型的限制因素的是()?

[AJ任務要求

[B.]數(shù)據(jù)不可無限分割

[CJ通信開銷

[D.]集群規(guī)模

【答案】A

41

下列不屬于信息可視化的分類的是()?

[A.]一維信息可視化

【B.】三維信息可視化

[C.1截面數(shù)據(jù)可視化

(D.1時序信息可視化

【答案】C

42

下列屬于傳統(tǒng)數(shù)據(jù)獲取的特點的是O?

[A.]數(shù)據(jù)源多種多樣

[B.1數(shù)據(jù)量巨大

[C.1結構單一

[D.]結構化、半結構化和非結構化數(shù)據(jù)

【答案】C

43

下列不屬于大數(shù)據(jù)獲取的特點的是()?

[A.]數(shù)據(jù)源多種多樣

[B.]數(shù)據(jù)量巨大

(C.)結構單一

[D.]結構化、半結構化和非結構化數(shù)據(jù)

【答案】C

第10頁共74頁

44

下列屬于大數(shù)據(jù)獲取的特點的是O?

[A.]數(shù)據(jù)源單一

[B.]數(shù)據(jù)量較小

[C.J結構單一

[DJ包括結構化、半結構化和非結構化數(shù)據(jù)

【答案】D

45

氣泡圖由什么演化而來是O?

(A.]直方圖

[B.]條形圖

[C.J散點圖

[D.)折線圖

【答案】C

46

下列不屬于文本數(shù)據(jù)的是O?

[A.]廣告

[B.]音頻

[C.]雜志

[D.]圖書

【答案】B

47

下列不屬于文本數(shù)據(jù)的獲取特點的是O?

[A.]靈活度高

[B.]速度快

[C.1按需獲取

[D.]易處理

【答案】D

48

下列屬于意見建議類用戶反饋的特點的是O?

第11頁共74頁

[A.]反饋量大

[B.]反饋速度快

[C.1針對性強

[D.]傳播快

【答案】C

下列不屬于空間數(shù)據(jù)的特性的是()?

[A.]定位

[B.1定量

[C.J定性

[D.]時空關系

【答案】B

下列不屬于網(wǎng)站內部數(shù)據(jù)庫中的數(shù)據(jù)的是()?

【A.】用戶信息數(shù)據(jù)

[B.]野外實測數(shù)據(jù)

[C.1網(wǎng)站產(chǎn)品數(shù)據(jù)

[DJ網(wǎng)站運營數(shù)據(jù)

【答案】B

下列不屬于網(wǎng)站數(shù)據(jù)采集的數(shù)據(jù)的是()?

[A.]非結構化數(shù)據(jù)

[B.1半結構化數(shù)據(jù)

[C.1結構化數(shù)據(jù)

[D.]實驗測試數(shù)據(jù)

【答案】D

下列不屬于網(wǎng)絡爬蟲工作過程的是O?

(A.1獲取網(wǎng)頁

[B.]修改網(wǎng)頁

[C.1解析網(wǎng)頁

【D.】儲存數(shù)據(jù)

第12頁共74頁

【答案】B

53

下列不屬于通用網(wǎng)絡爬蟲為特點及要求的是()?

[A.]數(shù)量巨大

[B.]范圍較小

[C.J存儲空間要大

[D.]爬行速度要快

【答案】B

54

下列不屬于通用網(wǎng)絡爬蟲的結構的是O?

【A.】頁面爬行模塊

[B.]頁面分析模塊

[C.1頁面數(shù)據(jù)庫

(D.)頁面修改模塊

【答案】D

55

下列不屬于網(wǎng)頁的爬蟲策略的是O?

LA.]深度優(yōu)先搜索策略

(B.1精確選擇搜索策略

1C.1廣度優(yōu)先搜索策略

[D.]最佳優(yōu)先搜索策略

【答案】B

56

下列不屬于通用網(wǎng)絡爬蟲的局限性的是()?

[A.]無用網(wǎng)頁較多

[B.]對非結構化數(shù)據(jù)獲取相對?容易

[CJ難以支持基于語義信息的查詢

[D.)有限的網(wǎng)絡爬蟲服務器資源與無限的網(wǎng)絡數(shù)據(jù)資源之間的沖突

【答案】B

57

第13頁共74頁

下列屬于聚焦網(wǎng)絡爬蟲的特點的是()?

[A.]數(shù)量巨大

[B.]范圍較大

[C.1精準篩選

[D.]爬行速度慢

【答案】C

58

下列屬于淺聚焦網(wǎng)絡爬蟲的核心特點的是O?

[A.]數(shù)量巨大

[B.]范圍較大

(CJ精準篩選

[D.]選定URL種子

【答案】D

59

下列不屬于爬蟲對抓取目標的定義原則的是()?

[A.]目標網(wǎng)頁特征

[B.]目標數(shù)據(jù)量

(C.1目標數(shù)據(jù)模式

[D.]領域概念

【答案】B

60

下列不屬于網(wǎng)絡爬蟲的數(shù)據(jù)抓取方式的是()?

[A.]預先給定的初始抓取種子樣本

[B.]預先給定的網(wǎng)頁分類目錄和與分類目錄對應的種子樣本

[C.1通過用戶行為確定的抓取目標樣例

[D.]自行編寫種子樣本

【答案】D

61

下列不屬于NoSQL數(shù)據(jù)庫的特點的是()?

[A.]需預定義數(shù)據(jù)模型

【B.】支持透明橫向擴展

第14頁共74頁

[C.1將數(shù)據(jù)進行分區(qū)

【D.】保證最終一致性

【答案】A

62

下列不屬于NoSQL數(shù)據(jù)庫的存儲方式的是()?

[A.]行式存儲

[B.1鍵值式存儲

[C.1圖形式存儲

[D.]文檔式存儲

【答案】A

63

下列不屬于NoSQL數(shù)據(jù)庫的鍵值式存儲的常見形式的是()?

[A.]臨時型

[B.]附加型

【C.】混合型

[D.]永久型

【答案】B

64

下列不屬于數(shù)據(jù)庫架構混合應用模式的是O?

[A.]OldSQL+NewSQL混合模式

[B.]OldSQL+NoSQL+NewSQL混合模式

[C.1OldSQL+NoSQL混合模式

[D.)NewSQLd-NoSQL混合模式

【答案】B

65

下列不屬于大數(shù)據(jù)抽取方式的是O?

[A.]同構同質數(shù)據(jù)抽取

[B.]異構同質數(shù)據(jù)抽取

[C.1同構異質數(shù)據(jù)抽取

(D.)文件型數(shù)據(jù)抽取

【答案】B

第15頁共74頁

66

F列不屬于增量數(shù)據(jù)抽取特點的是O?

[A.]抽取發(fā)生變化的數(shù)據(jù)

[B.]快捷

[C.J處理量更多

[D.]需要與數(shù)據(jù)裝載時的更新策略相對應

【答案】C

67

下列不屬于地域空間可視化展現(xiàn)的功能的是()?

[A.]認識功能

[B.]模擬功能

[C.1載負功能

[D.]學習功能

【答案】D

68

時間戳是能表示一份數(shù)據(jù)在某個特定時間之前已經(jīng)存在的、完整的、可驗證的一個數(shù)據(jù),

其通常是()?

[A.]一個數(shù)據(jù)集

[B.]一個字符序列

[C.]一個日志文件

[D.]一段儲存代碼

【答案】B

69

下列不屬于基于時間戳的增量數(shù)據(jù)抽取方式的優(yōu)點的是O?

[A.]性能優(yōu)異

[B.]系統(tǒng)設計清晰

[C.J數(shù)據(jù)抽取簡單

[D.]對業(yè)務系統(tǒng)無其他要求

【答案】D

第16頁共74頁

70

卜.列不屬于MD5(消息摘要算法)的特點的()?

[A.]對源系統(tǒng)的傾入性較小

[B.]被動地進行全表數(shù)據(jù)的比對

[CJ性能優(yōu)異

[D.]準確性不穩(wěn)定

【答案】C

71

下列不屬于數(shù)據(jù)清洗的是()?

【A.】檢查數(shù)據(jù)的完整性

【BJ修改數(shù)據(jù)

[C.1填補數(shù)據(jù)

[D.]消除重復

【答案】B

72

下列不屬于數(shù)據(jù)質量的要素的是O?

[A.]準確性

[B.]完整性

[C.1異質性

【D.】及時性

【答案】C

73

下列不屬于數(shù)據(jù)質量一致性的是()?

[A.]數(shù)據(jù)編碼一致性

[B.]數(shù)據(jù)大小一致性

[C.1指標統(tǒng)計一致性

[D.]指標計算一致性

【答案】B

74

【答案】D

第17頁共74頁

75

下列不屬于數(shù)據(jù)清洗算法標準的是O?

[A.]返回率

[B.]錯誤返回率

[C.1正確返回率

[D.]精確度

【答案】C

76

下列不會造成文本記錄重復相似的是O?

[A.]插入

[B.]交換

[C.J等價表述

【D.】刪除冗余

【答案】D

77

下列不屬于文本相似度計算的應用領域的是()?

[A.]信息檢索

[B.]數(shù)據(jù)挖掘

【C.】文檔修改

[D.]機器翻譯

【答案】C

78

下列不屬于文本相似度計算流程的是O?

[A.]文本排序

[B.]文本分詞

[C.J統(tǒng)計詞頻

[D.]寫出詞頻向量

【答案】A

79

增量數(shù)據(jù)抽取方式只抽取O?

第18頁共74頁

[A.]PB級數(shù)據(jù)

[Bl不變數(shù)據(jù)

[C.l變化數(shù)據(jù)

[D.]有價值數(shù)據(jù)

【答案】C

80

數(shù)據(jù)清洗算法的衡量標準主要包含()、錯誤返回率和精確度。

[A.]冗余度

[B.]返回率

[C.J可用性

[D.]一致性

【答案】B

81

下列不屬于數(shù)據(jù)轉換中適合對數(shù)轉換的數(shù)據(jù)是()?

【A.】部分正偏態(tài)數(shù)據(jù)

[B.]等比數(shù)據(jù)

[C.J等差數(shù)據(jù)

[D.]數(shù)值相差不大的數(shù)據(jù)

【答案】C

82

下列不屬于數(shù)據(jù)轉換中適合平方根轉換的數(shù)據(jù)是()?

[A.]泊松分布數(shù)據(jù)

[B.]輕度偏態(tài)數(shù)據(jù)

[CJ樣本方差和平均數(shù)呈現(xiàn)正相關的數(shù)據(jù)

[D.]數(shù)值相差不大的數(shù)據(jù)

【答案】D

83

噪聲是指測量數(shù)據(jù)中的O?

(A.1隨機誤差

[B.]均值

[C.J方差

[D.]極差

第19頁共74頁

【答案】A

84

下列不屬于地圖的構成要素的是()?

[A.]圖形要素

【B.】價格要素

[C.1數(shù)學要素

[D.]輔助要素

【答案】B

85

下列不屬于數(shù)據(jù)平滑方法的是O?

[A.]移動平均法

[B.]最大最小值標準化

[C.1指數(shù)平滑法

[D.]分箱平滑法

【答案】B

86

下列不屬于移動平均法的是O?

[A.]一次移動平均法

[B.1二次移動平均法

【C.】混合移動平均法

[D.]多次移動平均法

【答案】C

87

下列屬于一次移動平均法的適用范圍的是()?

[A.]水平變動的時間序列數(shù)據(jù)

[B.]長期變動趨勢的時間序列數(shù)據(jù)

[C.1循環(huán)性變動的時間序列數(shù)據(jù)

[DJ季節(jié)變動趨勢的時間序列數(shù)據(jù)

【答案】A

88

第20頁共74頁

下列屬于二次移動平均法的適用范圍的是()?

[A.]水平變動的時間序列數(shù)據(jù)

[B.]長期變動趨勢的時間序列數(shù)據(jù)

[C.1循環(huán)性變動的時間序列數(shù)據(jù)

[D.]直線上升或下降趨勢的時間序列數(shù)據(jù)

【答案】D

89

下列不屬于指數(shù)平滑法的適用范圍的是()?

[A.]穩(wěn)定變化態(tài)勢的時間序列數(shù)據(jù)

[B.]不穩(wěn)定變化的時間序列數(shù)據(jù)

[C.1規(guī)則變化的時間序列數(shù)據(jù)

(D.)直線上升或下降趨勢的時間序列數(shù)據(jù)

【答案】B

90

下列不屬于指數(shù)平滑法的適用范圍的是O?

[A.]近期趨勢預測

[B.]短期趨勢預測

[C.1中期趨勢預測

[D.]長期趨勢預測

【答案】D

91

下列不屬于分箱平滑法參照的是()?

[A.]箱內數(shù)值的均值

[B.]箱內數(shù)值的中值

[C.1箱內數(shù)值的邊界值

[D.]箱內數(shù)值的方差

【答案】D

92

數(shù)據(jù)規(guī)范化是將原來的度量值轉換為O?

[A.]無量綱的值

[B.]原來度量值的均值

第21頁共74頁

[C.1原來度量值的方差

(D.J原來度量值的極差

【答案】A

93

下列不屬于數(shù)據(jù)規(guī)范化的作用的是O?

[AJ加快學習速度

[B.]規(guī)范事物概念

[C.1避免單位的影響

[D.]呈現(xiàn)數(shù)據(jù)的集中程度

【答案】D

94

假定某屬性x的最小值、最大值分別為12000和98000,將屬性x映射到[0,口中,根據(jù)

最小最大規(guī)范化方法,x的值73600(設定值)將轉換為()?

[A.]0.716

[B.]0.616

[C.]0.516

[D.]0.816

【答案】A

95

Z分數(shù)規(guī)范化方法依據(jù)的是原始數(shù)據(jù)的()?

[A.]均值和中位數(shù)

[B.]中位數(shù)和極差

[C.1極差和方差

[D.]均值和標準差

【答案】D

96

如果x的平均值和標準差分別為54000和16000o使用z分數(shù)規(guī)范化方法,x的值73600

被轉換為()?

[A.]1.125

[B.]1.025

[C.11.225

[D.]1.325

第22頁共74頁

【答案】C

97

Z分數(shù)規(guī)范化方法中對于離群點,均值絕對偏差相比標準差()?

[A.]更有效

[B.]更平穩(wěn)

[C.J更精確

[D.]更魯棒

【答案】D

98

小數(shù)定標規(guī)范化方法中,其小數(shù)點移動的位數(shù)依賴于S?

[A.]最大絕對值

[B.]最小絕對值

[C.1均值絕對值

(D.)中位數(shù)絕對值

【答案】A

99

數(shù)據(jù)平滑方法主要有指數(shù)平滑法、移動平均法和O?

[A.]統(tǒng)計法

[B.1最短距離法

[C.1分箱平滑法

[D.]聚類方法

【答案】C

100

數(shù)據(jù)規(guī)范方法主要有最小最大規(guī)范法、z分數(shù)規(guī)范法和?)?

[A.]極差規(guī)范法

[B.]小數(shù)定標規(guī)范法

[C.1模糊規(guī)范法

[D.]聚類方法

【答案】B

101

第23頁共74頁

下列不屬于數(shù)據(jù)約簡策略的是()?

[A.]特征約簡

[B.]樣本約簡

[C.J數(shù)值約簡

【DJ文本約簡

【答案】D

102

下列不屬于特征約簡的步驟的是()?

【A.】搜索過程

[B.]填補過程

[C.J評估過程

[D.]分類過程

【答案】B

103

【答案】B

104

系統(tǒng)抽樣又稱之為()?

[A.]隨機抽樣

[B.]等距抽樣

(C.J分層抽樣

[D.]類型抽樣

【答案】B

105

下列不屬于影響突出對比的可視化展現(xiàn)是()?

[A.]比例選擇

[B.]顏色使用

[C.J圖形形狀

[D.J圖形內容

【答案】D

第24頁共74頁

106

下列不屬于檢驗假設方法的是O?

[A.]提出假設

[B.]選擇統(tǒng)計量

[C.J修正統(tǒng)計量

[DJ根據(jù)顯著性水平進行判斷

【答案】C

107

分層抽樣又稱之為O?

[A.]隨機抽樣

[B.]等距抽樣

[C.J系統(tǒng)抽樣

[D.]類型抽樣

【答案】D

108

數(shù)據(jù)立方體是一類多維矩陣,讓用戶從多個角度探索和分析數(shù)據(jù)集,通常是一次同時考慮

幾個維度()?

[A.]一個

兩個

[C.1三個

[D.]四個

【答案】C

109

三維的數(shù)據(jù)立方體看作是一組類似的互相疊加起來的()?

[A.]一維表格

[B.J二維表格

(C.J三維表格

[D.]四維表格

【答案】B

110

第25頁共74頁

【答案】C

111

維數(shù)災難通常是指在涉及()計算的問題中,隨著維數(shù)的增加,計算量呈指數(shù)倍增長的一

種現(xiàn)象。

[A.]數(shù)字

[B.J文木

[C.J向量

[D.]矩陣

【答案】C

112

下列不屬于維數(shù)災難問題的特點O?

[A.]計算量巨大

[B.]成本降低

[C.]結果不理想

[D.]無法反映數(shù)據(jù)的本質特征

【答案】B

113

下列不屬于數(shù)據(jù)約簡的特點O?

[A.]計算量巨大

[B.]成本降低

[C.1較少存儲量

[D.]方便分類

【答案】A

114

下列不屬于數(shù)據(jù)約簡的分類基準的是O?

[A.]約簡維數(shù)的大小

[B.1成本的大小

[C.J數(shù)據(jù)時序

[D.]有無監(jiān)督信息

【答案】B

第26頁共74頁

115

卜.列不屬于數(shù)據(jù)約簡中有無監(jiān)督信息分類的是O?

【AJ監(jiān)督式維數(shù)約簡

[B.]半監(jiān)督式維數(shù)約簡

[C1非監(jiān)督式維數(shù)約簡

【DJ混合式維數(shù)約簡

【答案】D

116

下列不屬于無參數(shù)值約簡技術的是()?

[A.]直方圖

(B.1聚類

[C.1選擇

[D.]線性回歸模型

【答案】D

117

下列不屬于信息孤島帶來的問題的是()?

[A.]數(shù)據(jù)不能共享

[B.]冗余數(shù)據(jù)

[C.1數(shù)據(jù)優(yōu)化

[D.1垃圾數(shù)據(jù)

【答案】C

118

數(shù)據(jù)集成最復雜和困難的任務是O?

[A.]數(shù)據(jù)插補

[B.]數(shù)據(jù)格式轉換

[C.1數(shù)據(jù)修改

[D.]冗余數(shù)據(jù)處理

【答案】B

119

下列不屬于數(shù)據(jù)集成的核心問題是O?

[A.]有效性

第27頁共74頁

[B.]異構性

[C.l分布性

[D.]自治性

【答案】A

120

下列不屬于數(shù)據(jù)集成的構成方式的是()?

[A.]聯(lián)邦數(shù)據(jù)庫集成模式

[B.1中間件集成模式

[C.1數(shù)據(jù)倉庫集成模式

[D.]地區(qū)數(shù)據(jù)庫集成模式

【答案】D

121

大數(shù)據(jù)需要分析的是O?

[A.]發(fā)展趨勢

[B.]發(fā)展現(xiàn)狀

(C.J發(fā)展模式

[D.]發(fā)展制度

【答案】A

122

大數(shù)據(jù)分析的核心是()?

[A.]數(shù)據(jù)收集

[B.]數(shù)據(jù)管理

[C.1數(shù)據(jù)挖掘

[D.]數(shù)據(jù)交易

【答案】C

123

下列不屬于數(shù)據(jù)挖掘的特點的是O?

[A.]數(shù)據(jù)量大

(B.]目標清晰

[C.1處理不同類型的數(shù)據(jù)

[D.]結果不易解釋

【答案】B

第28頁共74頁

124

F列屬于數(shù)據(jù)分析的特點的是()?

[A.]數(shù)據(jù)量大

[B.]目標不清晰

[CJ處理不同類型的數(shù)據(jù)

[D.]結果不防解釋

【答案】A

125

從分析的結果上看,大數(shù)據(jù)分析主要分為O?

[A.]探索性數(shù)據(jù)分析、證實性數(shù)據(jù)分析、定性數(shù)據(jù)分析

[B.]證實性數(shù)據(jù)分析、定性數(shù)據(jù)分析、離線數(shù)據(jù)分析

[C.1探索性數(shù)據(jù)分析、定性數(shù)據(jù)分析、離線數(shù)據(jù)分折

[D.]探索性數(shù)據(jù)分析、證實性數(shù)據(jù)分析、離線數(shù)據(jù)分析

【答案】A

126

從分析方式上看,大數(shù)據(jù)分析主要分為()?

[A.]在線數(shù)據(jù)分析、離線數(shù)據(jù)分析、交互式數(shù)據(jù)分析

[B.]交互式數(shù)據(jù)分析、在線數(shù)據(jù)分析、定性數(shù)據(jù)分析

[C.1定性數(shù)據(jù)分析、離線數(shù)據(jù)分析、交互式數(shù)據(jù)分析

[D.]離線數(shù)據(jù)分析、在線數(shù)據(jù)分析、定性數(shù)據(jù)分析

【答案】A

127

探索性數(shù)據(jù)分析是基于什么角度來說明數(shù)據(jù)分析方法的O?

[A.]數(shù)據(jù)本身

[B.]數(shù)據(jù)范圍

[C.1模型假設

[D.]統(tǒng)計推斷

【答案】A

128

第29頁共74頁

下列不屬于探索性數(shù)據(jù)分析的特點的是()?

[A.]分離出數(shù)據(jù)的模式

[B.]分離出數(shù)據(jù)的特點

[C.1揭示數(shù)據(jù)對模型的偏離

[D.]計算模型對數(shù)據(jù)的擬合度

【答案】D

129

下列不屬于探索性數(shù)據(jù)分析的內容的是()?

[A.]檢查數(shù)據(jù)錯誤

[B.]填補數(shù)據(jù)缺失

[C.1獲取數(shù)據(jù)分布特征

[D.]觀察數(shù)據(jù)規(guī)律

【答案】B

130

下列不屬于數(shù)據(jù)位置特征的是O?

[A.]均值

[B.]中位數(shù)

[C.3方差

[D.]四分位數(shù)

【答案】C

131

下列不屬于數(shù)據(jù)分散性特征的是O?

[A.]均值

[B.]極差

[CJ方差

[D.]變異系數(shù)

【答案】A

132

統(tǒng)計學是收集、分析、表述和O的科學?

[A.]整理數(shù)據(jù)

(B.1計算數(shù)據(jù)

【C.】填補數(shù)據(jù)

第30頁共74頁

[D.]解釋數(shù)據(jù)

【答案】D

133

統(tǒng)計的基礎是O?

[A.]統(tǒng)計工作

[B.]計算數(shù)據(jù)

[C.1統(tǒng)計數(shù)據(jù)

[D.]統(tǒng)計科學

【答案】A

134

下列不屬于模型的組成的是O?

[A.]目標

[B.]數(shù)據(jù)

[C.1變量

[D.]關系

【答案】B

135

下列不屬于相關系數(shù)的是()?

[A.]簡單相關系數(shù)

[B.]復相關系數(shù)

[C.1典型相關系數(shù)

[D.]常態(tài)相關系數(shù)

【答案】D

136

下列不屬于相關分析的是O?

(A.1線性相關分析

[B.1復相關分析

[C.1偏相關分析

[D.]距離分析

【答案】B

第31頁共74頁

137

卜.列不屬于回歸分析的步驟的是O?

[A.]確定自變量與因變量

[B.]對變量進行分類

[CJ根據(jù)變量進行回歸建模

【》】模型檢驗

【答案】B

138

下列不屬于回歸分析的類別的是()?

[A.]一元回歸分析

(B.1二元回歸分析

[C.1多元回歸分析

[D.]線性回歸分析

【答案】B

139

下列不屬于判別分析的類別的是O?

[A.]兩組判別法

[B.]多組判別法

[C.1逐步判別法

【D.】面積判別法

【答案】D

140

下列不屬于判別方法的是()?

[A.]最大似然法

[B.]最小二乘法

[C.1距離判別法

[D.]貝葉斯判別法

【答案】B

141

Z分數(shù)規(guī)范化方法中,下列可以替換標準差的是()?

[A.]均值

第32頁共74頁

[B.]方差

[Cl極差

[D.]平均值絕對偏差

【答案】D

142

下列不屬于確定樣本子集大小的因素的是O?

[A.]計算成本

[B.]存儲要求

[C.1估計量的范圍

[D.]估計量的精度

【答案】C

二、判斷題

計算機科學是算法與算法變換的科學。()

[A.]V

[B.]x

【答案】A

計算機科學是算法與算法變換的科學。

2

數(shù)據(jù)科學是通過科學方法探索數(shù)據(jù),以獲得有價值的發(fā)現(xiàn)。()

[A.]V

[B.]x

【答案】A

數(shù)據(jù)科學是通過科學方法探索數(shù)據(jù),以獲得有價值的發(fā)現(xiàn)。

3

數(shù)據(jù)科學的發(fā)展不僅可以推動學科的發(fā)展,而且能夠助推相關產(chǎn)業(yè)的發(fā)展與進步。()

[A.]V

[B.lx

【答案】A

數(shù)據(jù)科學的發(fā)展不僅可以推動數(shù)學、計算機科學、人工智能、統(tǒng)計學、天體信息學、生物

信息學、計算社會學等學科的發(fā)展,而且能夠大力助推用關產(chǎn)業(yè)的發(fā)展與進步。

4

第33頁共74頁

數(shù)據(jù)科學家不需要具備計算機科學、統(tǒng)計學的知識和應用領域的行業(yè)經(jīng)驗。()

[A.]V

[B.]x

【答案】B

數(shù)據(jù)科學家需要具備計算機科學、統(tǒng)計學的知識和應用領域的行業(yè)經(jīng)驗。

Cyber空間是指以計算機技術、現(xiàn)代通信網(wǎng)絡技術、虛擬現(xiàn)實技術等信息技術的綜合運用

為基礎,以知識和信息為內容的新型空間。()

[A.]V

[B.]x

【答案】A

Cyber空間是指以計算機技術、現(xiàn)代通信網(wǎng)絡技術、虛擬現(xiàn)實技術等信息技術的綜合運用

為基礎,以知識和信息為內容的新型空間。

數(shù)據(jù)能夠記錄人類的行為,包括工作、生活和社會的發(fā)展。()

[A.]V

[B.]x

【答案】A

數(shù)據(jù)能夠記錄人類的行為,包括工作、生活和社會的發(fā)展。

研究數(shù)據(jù)僅僅包括數(shù)據(jù)采集和數(shù)據(jù)分析。O

[A.]V

[B.]x

【答案】B

研究數(shù)據(jù)主要包括數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)分析。

數(shù)據(jù)加工與傳統(tǒng)數(shù)據(jù)處理的不同之處在于,其更加強調數(shù)據(jù)處理中的增值過程。()

[A.]V

[B.]x

【答案】A

數(shù)據(jù)加工與傳統(tǒng)數(shù)據(jù)處理的不同之處在于,其更加強調數(shù)據(jù)處理中的增值過程。

大數(shù)據(jù)只來自互聯(lián)網(wǎng)世界,O

第34頁共74頁

[A.]V

[B.]X

【答案】B

大數(shù)據(jù)主要來自互聯(lián)網(wǎng)世界與物理世界。

10

數(shù)據(jù)類型包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)。O

[AJJ

[B.]X

【答案】A

數(shù)據(jù)類型包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)。

11

網(wǎng)頁數(shù)據(jù)是一種半結構化數(shù)據(jù)。O

[A.]V

[B.]X

【答案】A

網(wǎng)頁數(shù)據(jù)就是一種典型的半結構化數(shù)據(jù)。

12

批量計算是一種在線計算,支持海量作業(yè)并發(fā)規(guī)模,系統(tǒng)自動完成資源管理、作業(yè)調度和

數(shù)據(jù)加載,并按實際使用量計費。O

[A.]V

[B.]X

【答案】B

批量計算是一種離線計算,

13

靜態(tài)數(shù)據(jù)是流式數(shù)據(jù)。O

[A.]V

[B.]X

【答案】B

靜態(tài)數(shù)據(jù)不是流式數(shù)據(jù)。

14

流式計算適用于無須先存儲,可以直接進行數(shù)據(jù)計算,實時性要求很嚴格,但對數(shù)據(jù)的精

確度要求較寬松的應用場景。O

[A.]V

[B.]X

第35頁共74頁

【答案】A

流式計算適用于無須先存儲,可以直接進行數(shù)據(jù)計算,實時性要求很嚴格,但對數(shù)據(jù)的精

確度要求較寬松的應用場景。

15

實時計算系統(tǒng)的設計需要考慮高延遲、高性能、分布式、可擴展、高容錯。O

[A.]V

[B1X

【答案】B

實時計算系統(tǒng)的設計需要考慮低延遲、高性能、分布式、可擴展、高容錯。

16

流式查詢主要有兩種方式,一種是指定查詢,另一種是即席查詢。()

[A.]V

[B.]X

【答案】A

流式查詢主要有兩種方式,一種是指定查詢,另一種是即席查詢。

17

流式數(shù)據(jù)的處理是批量處理。O

[A.]V

[B.]X

【答案】B

流式數(shù)據(jù)的處理也是連續(xù)處理,而不是批量處理。

18

流式計算不宜用持久穩(wěn)定關系建模,而適用瞬態(tài)數(shù)據(jù)流建模。()

[A.]V

[B.]X

【答案】A

流式計算不宜用持久稽定關系建模,而適用瞬態(tài)數(shù)據(jù)流建模。

19

為了更有效地處理數(shù)據(jù),應該盡可能地限制靜態(tài)數(shù)據(jù)。O

[A.]V

[B.]X

【答案】A

為了有效地處理數(shù)據(jù),人們應該盡可能地限制靜態(tài)數(shù)據(jù).

第36頁共74頁

20

大數(shù)據(jù)的無序性是指各數(shù)據(jù)流之間無序,而同一-數(shù)據(jù)流內部各數(shù)據(jù)元素之間是有序的。O

[A.]V

[B.]X

【答案】B

大數(shù)據(jù)的無序性是指各數(shù)據(jù)流之間無序,而同一數(shù)據(jù)流內部各數(shù)據(jù)元素之間也無序。

21

MapReduce由Map和Reduce兩個階段組成,用戶只需要編寫Map和Reduce兩個函數(shù)就可

以完成簡單的分布式程序的設計。()

[A.]V

[B.JX

【答案】A

MapReduce由Map和Reduce兩個階段組成,用戶只需要編寫Map和Reduce兩個函數(shù)就可

以完成簡單的分布式程序的設計。

22

Map相對獨立且并行運行,對存儲系統(tǒng)中的文件按列處理,并產(chǎn)生鍵值對。()

[A.]V

[B.JX

【答案】B

Map相對獨立且并行運行,對存儲系統(tǒng)中的文件按行處理,并產(chǎn)生鍵值對。

23

在Hadoop中,將每一次計算請求稱為一個作業(yè)。()

[A.]V

[B.]X

【答案】A

在Hadoop中,將每,次計算請求稱為?個作業(yè)。

24

與分布式文件系統(tǒng)相比,MapReduce框架可定制性強。1)

[A.]V

[B.]X

【答案】A

與分布式文件系統(tǒng)相比,MapReduce框架還有一個特點就是可定制性強。

25

第37頁共74頁

通常一個作業(yè)的輸入都是基于分布式文件系統(tǒng)的文件,而對于一個Map任務而言,它的輸

入是輸入文件的一個數(shù)據(jù)塊,或者是數(shù)據(jù)塊的一部分,也可跨越數(shù)據(jù)塊。O

[A.]V

[B.]X

【答案】B

通常一個作業(yè)的輸入都是基于分布式文件系統(tǒng)的文件,而對于一個Map任務而言,它的輸

入是輸入文件的一個數(shù)據(jù)塊,或者是數(shù)據(jù)塊的一部分,但通常不跨越數(shù)據(jù)塊。

26

Reduce任務與Map任務的最大不同是Map任務的文件都存儲于木地,而Reduce任務需要

到多處采集。()

[A.]V

[B.JX

【答案】A

Reduce任務與Map任務的最大不同是Map任務的文件都存儲于本地,而Reduce任務需要

到多處采集。

27

MapReduce模型適用場景的特點是任務可被分解成相互我系的子問題。()

[A.]V

[B.JX

【答案】B

MapReduce模型適用場景的特點是任務可被分解成相互獨立的子問題。

28

可視分析是一種獨立式的圖形用戶界面模型。()

[A.]V

[B.]X

【答案】B

可視分析是?種交互式的圖形用戶界面模型。

29

在單詞計數(shù)的Map過程中需要將文件進行按列分割。。

[A.]V

[B.lX

【答案】B

在單詞計數(shù)的Map過程中需要將文件進行按行分割。

30

第38頁共74頁

在單詞計數(shù)中,Reduce方法的輸入?yún)?shù)key為單個單詞,而value是由各Mapper類上對■應

單詞的計數(shù)值所組成的列表,所以只要遍歷value并求和,即可得到某個單詞出現(xiàn)的總次

數(shù)。()

[A.]V

[B.]X

【答案】A

在單詞計數(shù)中,Reduce方法的輸入?yún)?shù)key為單個單詞,而value是由各Mapper類上對應

單詞的計數(shù)值所組成的列表,所以只要遍歷value并求和,即可得到某個單詞出現(xiàn)的總次

數(shù).

31

WordCount完成的功能是統(tǒng)計輸入文件中的每個單詞出現(xiàn)的頻率()

[A.]V

[B.]X

【答案】B

WordCount完成的功能是統(tǒng)計輸入文件中的每個單詞出現(xiàn)的次數(shù)。

32

在MapReduce程序執(zhí)行過程中,用戶程序中的MapReduce類庫首先將輸入文檔進行分割,

用戶也可以通過設置參數(shù)對其大小進行控制()

[A.]V

[B.]X

【答案】A

在MapReduce程序執(zhí)行過程中,用戶程序中的M叩Reduce類庫首先將輸入文檔進行分割,

用戶也可以通過設置參數(shù)對其大小進行控制。

33

在MapReduce程序執(zhí)行過程中,由Master負責分配任務,分配的原則是Master選擇空閑

的Worker并為其分配一個Map任務或一個Reduce任務()

[A.]V

[B.]X

【答案】A

在M叩Reduce程序執(zhí)行過程中,由Master負責分配任務,分配的原則是Master選擇空閑

的Worker并為其分配一個M叩任務或一個Reduce任務。

34

網(wǎng)站外部數(shù)據(jù)主要包括互我網(wǎng)環(huán)境數(shù)據(jù)、競爭對手數(shù)據(jù)、合作伙伴數(shù)據(jù)和用戶數(shù)據(jù)等。()

[A.]V

[B.]X

【答案】A

第39頁共74頁

網(wǎng)站外部數(shù)據(jù)主要包括互狹網(wǎng)環(huán)境數(shù)據(jù)、競爭對手數(shù)據(jù)、合作伙伴數(shù)據(jù)和用戶數(shù)據(jù)等。

35

在MapReduce程序執(zhí)行過程中,Map和Reduce函數(shù)接攻的都是鍵值對。()

[A.]V

[B.]X

【答案】A

在MapReduce程序執(zhí)行過程中,Map和Reduce函數(shù)接收的都是鍵值對。

36

MapReduce模型通過將數(shù)據(jù)集的大規(guī)模操作分發(fā)給網(wǎng)絡上的各節(jié)點,每個節(jié)點將已完成的

工作和狀態(tài)更新,周期性地報告給Worker。()

[A.]V

[B.]X

【答案】B

MapReduce模型通過將數(shù)據(jù)集的大規(guī)模操作分發(fā)給網(wǎng)絡上的各節(jié)點,每個節(jié)點將已完成的

工作和狀態(tài)更新,周期性地報告給Master。

37

M叩Reduce的基本原理就是將大數(shù)據(jù)分成小塊逐個分析,最后將提取出來的數(shù)據(jù)匯總分析,

進而獲得需要的結果。O

[A.]V

[B.]X

【答案】A

MapReduce的基本原理就是將大數(shù)據(jù)分成小塊逐個分析,最后將提取出來的數(shù)據(jù)匯總分析,

進而獲得需要的結果。

38

MapReduce模型中,Map針對每一個輸入元素都要生成一個輸出元素,Reduce針對每■個

輸入列表都要生成一個輸出元素。()

[A.]V

[B.]X

【答案】A

MapReduce模型中,Map針對每一個輸入元素都要生成一個輸出元素,Reduce針對每一個

輸入列表都要生成一個輸出元素。

39

通常情況下如果集群的規(guī)模在百個節(jié)點以上,MapReduce的速度可以和節(jié)點的數(shù)目成正比。

()

第40頁共74頁

[A.]V

[B.]X

【答案】A

通常情況下如果集群的規(guī)模在百個節(jié)點以上,MapReduce的速度可以和節(jié)點的數(shù)kl成正比。

40

由于集群模式和單節(jié)點模式運行Hadoop系統(tǒng)都需要使用SSH登錄,因此在安裝Hadoop系

統(tǒng)之前,首先需要安裝配置SSH協(xié)議。

[A.]V

[B.lX

【答案】A

由于集群模式和單節(jié)點模式運行Hadoop系統(tǒng)都需要使用SSH登錄,因此在安裝Hadoop系

統(tǒng)之前,首先需要安裝配置SSH協(xié)議。

41

獲取的數(shù)據(jù)是指已被轉換為電信號的各種物理量,如溫度、水位、風速、壓力等。O

[A.]V

[B.]X

【答案】A

獲取的數(shù)據(jù)是指已被轉換為電信號的各種物理量,如溫度、水位、風速、壓力等。

42

大數(shù)據(jù)的獲取要避免重復數(shù)據(jù)。O

[A.]V

[B.]X

【答案】A

大數(shù)據(jù)的獲取要避免重復數(shù)據(jù)。

43

在互聯(lián)網(wǎng)營銷中,用戶反饋承擔的核心任務是為產(chǎn)品收集用戶輿情信息。()

[A.]V

[B.lX

【答案】A

在互聯(lián)網(wǎng)營銷中,用戶反饋承擔的核心任務是為產(chǎn)品收集用戶輿情信息。

44

圖像數(shù)字化是進行數(shù)字圖像處理的前提。O

[A.]V

[B.]X

第41頁共74頁

【答案】A

圖像數(shù)字化是進行數(shù)字圖像處理的前提。

45

圖像數(shù)字化是將連續(xù)色調的模擬圖像經(jīng)采樣量化后轉換成數(shù)字影像的過程。()

[A.]V

[B.]X

【答案】A

圖像數(shù)字化是將連續(xù)色調的模擬圖像經(jīng)采樣量化后轉換成數(shù)字影像的過程。

46

圖像信息獲取的方法只有掃描技術。O

[A.]V

[B.]X

【答案】B

圖像信息獲取的主要方法是掃描技術,另一種方法是直接運用數(shù)字攝影技術。

47

圖形數(shù)字化是將圖形的連續(xù)模擬展轉換成離散的數(shù)字最的過程。()

[A.]V

[B.]X

【答案】A

圖形數(shù)字化是將圖形的連續(xù)模擬量轉換成離散的數(shù)字量的過程。

48

空間數(shù)據(jù)是一種用點、線、面以及實體等基本空間數(shù)據(jù)結構來表示自然世界的數(shù)據(jù)。O

[A.]V

[B.]X

【答案】A

空間數(shù)據(jù)是一種用點、線、面以及實體等基本空間數(shù)據(jù)結構來表示自然世界的數(shù)據(jù)。

49

空間數(shù)據(jù)的獲取不包括對多媒體數(shù)據(jù)進行獲取。()

[A.]V

[B.]X

【答案】B

空間數(shù)據(jù)獲取的任務包括對地圖數(shù)據(jù)、野外實測數(shù)據(jù)、空間定位數(shù)據(jù)、攝影測量與遙感圖

像、多媒體數(shù)據(jù)等進行獲取。

第42頁共74頁

50

網(wǎng)站內部數(shù)據(jù)是網(wǎng)站最容易獲取的數(shù)據(jù),其通常存放在網(wǎng)站的文件系統(tǒng)或數(shù)據(jù)庫中,也是

與網(wǎng)站自身最為密切相關的數(shù)據(jù),是網(wǎng)站分析最常用的數(shù)據(jù)來源。()

[A.]V

[B.]X

【答案】A

網(wǎng)站內部數(shù)據(jù)是網(wǎng)站最容易獲取的數(shù)據(jù),其通常存放在網(wǎng)站的文件系統(tǒng)或數(shù)據(jù)庫中,也是

與網(wǎng)站自身最為密切相關的數(shù)據(jù)?,是網(wǎng)站分析最常用的數(shù)據(jù)來源。

51

網(wǎng)站數(shù)據(jù)采集只是將網(wǎng)站上的結構化數(shù)據(jù)從網(wǎng)頁中提取出來,并將其存儲到統(tǒng)一的本地數(shù)

據(jù)文件中。O

[A.]V

[B.]X

【答案】B

網(wǎng)站數(shù)據(jù)采集是將網(wǎng)站上的非結構化數(shù)據(jù)、半結構化數(shù)據(jù)和結構化數(shù)據(jù)從網(wǎng)頁中提取出來,

并將其存儲到統(tǒng)一的本地數(shù)據(jù)文件中。

52

網(wǎng)絡爬蟲的過程主要分為獲取網(wǎng)頁、解析網(wǎng)頁和存儲數(shù)據(jù)三部分,其是按照一定的獲取網(wǎng)

頁規(guī)則,自動地抓取互聯(lián)網(wǎng)數(shù)據(jù)的軟件。O

[A.]V

[B.]X

【答案】A

網(wǎng)絡爬蟲的過程主要分為獲取網(wǎng)頁、解析網(wǎng)頁和存儲數(shù)據(jù)三部分,其是按照一定的獲取網(wǎng)

頁規(guī)則,自動地抓取互聯(lián)網(wǎng)數(shù)據(jù)的軟件。

53

網(wǎng)絡爬蟲可以分為通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲、深層網(wǎng)絡爬蟲等。O

[A.]V

[B.]X

【答案】A

網(wǎng)絡爬蟲可以分為通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲、深層網(wǎng)絡爬蟲等。

54

網(wǎng)絡爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程

中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的停止條件為止。()

[A.]V

[B.]X

第43頁共74頁

【答案】A

網(wǎng)絡爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)貝的過程

中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的停止條件為止。

55

通用網(wǎng)絡爬蟲又稱為全網(wǎng)爬蟲,其可將爬行對象從一些種子URL擴充到整個Web,主要為

門戶站點搜索引擎和大型Web服務采集數(shù)據(jù)。()

[A.]J

[B.]X

【答案】A

通用網(wǎng)絡爬蟲又稱為全網(wǎng)爬蟲,其可將爬行對象從一些種子URL擴充到整個Web,主要為

門戶站點搜索引擎和大型Web服務采集數(shù)據(jù)。

56

網(wǎng)頁的爬行策略可以分為深度優(yōu)先搜索策略、廣度優(yōu)先搜索策略、最佳優(yōu)先搜索策略和反

向鏈接數(shù)搜索策略,其中深度優(yōu)先搜索策略是最常使用的方法。<)

[A.]V

[B.]X

【答案】B

網(wǎng)頁的爬行策略可以分為深度優(yōu)先搜索策略、廣度優(yōu)先搜索策略、最佳優(yōu)先搜索策略和反

向鏈接數(shù)搜索策略,其中廣度優(yōu)先搜索策略和最佳優(yōu)先搜索策略是經(jīng)常使用的方法。

57

聚焦網(wǎng)絡爬蟲又稱為主題爬蟲,是面向特定主題的一種網(wǎng)絡爬蟲程序。O

[A.]V

[B.JX

【答案】A

聚焦網(wǎng)絡爬蟲又稱為主題爬蟲,是面向特定主題的一種網(wǎng)絡爬蟲程序。

58

聚焦網(wǎng)絡爬蟲與通用網(wǎng)絡爬蟲的區(qū)別之處在于聚焦網(wǎng)絡爬蟲在實施網(wǎng)頁抓取時要進行主題

篩選,盡量保證只抓取與主題相關的網(wǎng)頁信息。O

[A.]V

[B.lX

【答案】A

聚焦網(wǎng)絡爬蟲與通用網(wǎng)絡爬蟲的區(qū)別之處在于聚焦網(wǎng)絡爬蟲在實施網(wǎng)頁抓取時要進行主題

篩選,盡量保證只抓取與主題相關的網(wǎng)頁信息

59

第44頁共74頁

網(wǎng)頁分析算法可以歸納為基于網(wǎng)絡拓撲、基于網(wǎng)頁內容和基于用戶訪問行為三種類型。()

[A.]V

[B.]X

【答案】A

網(wǎng)頁分析算法可以歸納為基于網(wǎng)絡拓撲、基于網(wǎng)頁內容和基于用戶訪問行為三種類型。

60

網(wǎng)絡拓補分析算法是基于網(wǎng)頁之間的鏈接,通過已知的網(wǎng)頁或數(shù)據(jù)對與其有直接或間接鏈

接關系的對象作出評價的算法,其又分為網(wǎng)頁粒度、網(wǎng)站粒度兩種算法。()

[A.]V

[B.]X

【答案】B

網(wǎng)絡拓補分析算法是基于網(wǎng)頁之間的鏈接,通過已知的網(wǎng)頁或數(shù)據(jù)對與其有直接或間接鏈

接關系的對象作出評價的算法,其又分為網(wǎng)頁粒度、網(wǎng)站粒度以及網(wǎng)頁塊粒度三種算法。

G1

從應用的構建架構角度出發(fā),我們可以將數(shù)據(jù)庫歸納為OldSQL數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和

NewSQL數(shù)據(jù)庫。()

[A.]V

[B.JX

【答案】A

從應用的構建架構角度出發(fā),我們可以將數(shù)據(jù)庫歸納為OldSQL數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和

NewSQL數(shù)據(jù)庫。

62

OldSQL數(shù)據(jù)庫是指傳統(tǒng)的關系數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫是指非結構化數(shù)據(jù)庫,而NewSQL數(shù)

據(jù)庫是介于OldSQL數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫兩者之間的數(shù)據(jù)庫。()

[A.]V

[B.]X

【答案】A

OldSQL數(shù)據(jù)庫是指傳統(tǒng)的關系數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫是指非結構化數(shù)據(jù)庫,而NewSQL數(shù)

據(jù)庫是介于OldSQL數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫兩者之間的數(shù)據(jù)庫。

63

OldSQL數(shù)據(jù)庫適用于數(shù)據(jù)分析應用,NewSQL數(shù)據(jù)庫適用于事務處理應用,NoSQL數(shù)據(jù)庫

適用于互聯(lián)網(wǎng)應用。()

[A.]V

[B.]X

【答案】B

第45頁共74頁

OldSQL數(shù)據(jù)庫適用于事務處理應用,NewSQL數(shù)據(jù)庫適用于數(shù)據(jù)分析應用,NoSQL數(shù)據(jù)庫

適用于互聯(lián)網(wǎng)應用。

64

大數(shù)據(jù)可視分析通過交互可視界面來進行分析、推理和決策,可視分析與各個領域的數(shù)據(jù)

形態(tài)、大小及其應用密切相關。O

[A.]V

[B1X

【答案】A

大數(shù)據(jù)可視分析通過交互可視界面來進行分析、推理和決策,可視分析與各個領域的數(shù)據(jù)

形態(tài)、大小及其應用密切相關。

65

NoSQL主要指非關系型、分布式、不提供ACID特性的數(shù)據(jù)庫設計模式。()

[A.]V

[B.]X

【答案】A

NoSQL主要指非關系型、分布式、不提供ACID特性的數(shù)據(jù)庫設計模式。

66

NoSQL數(shù)據(jù)庫代表了一系列的、不同類型的相互關聯(lián)的數(shù)據(jù)存儲與處理的技術的集合。()

[A.]V

[B.]X

【答案】A

NoSQL數(shù)據(jù)庫代表了一系列的、不同類型的相互關聯(lián)的數(shù)據(jù)存儲與處理的技術的集合。

67

NoSQL數(shù)據(jù)庫與SQL數(shù)據(jù)庫顯著的區(qū)別是NoSQL數(shù)據(jù)庫不使用SQL作為查詢語言,其數(shù)據(jù)

存儲不使用固定的表格模式,具有橫向可擴展性的特征。()

[A.]V

[B.]X

【答案】A

NoSQL數(shù)據(jù)庫與SQL數(shù)據(jù)庫顯著的區(qū)別是NoSQL數(shù)據(jù)庫不使用SQL作為查詢語言,其數(shù)據(jù)

存儲不使用固定的表格模式,具有橫向可擴展性的特征.

68

NewSQL數(shù)據(jù)庫是指各種新型的可擴展/高性能數(shù)據(jù)庫,這類數(shù)據(jù)庫不僅具有NoSQL數(shù)據(jù)

庫對海量數(shù)據(jù)的存儲管理能力,還保持了傳統(tǒng)數(shù)據(jù)庫的AQD和SQL等特性。()

[A.]V

第46頁共74頁

[B.]X

【答案】A

NewSQL數(shù)據(jù)庫是指各種新型的可擴展/高性能數(shù)據(jù)庫,這類數(shù)據(jù)庫不僅具有NoSQL數(shù)據(jù)

庫對海量數(shù)據(jù)的存儲管理能力,還保持了傳統(tǒng)數(shù)據(jù)庫的ACID和SQL等特性。

69

在大數(shù)據(jù)抽取之前,無需清楚數(shù)據(jù)源的類型和數(shù)據(jù)的類型,可直接抽取。()

[A.]J

[B.]X

【答案】B

在大數(shù)據(jù)抽取之前,需要清楚數(shù)據(jù)源的類型和數(shù)據(jù)的類型。

70

增量數(shù)據(jù)抽取機制能夠將業(yè)務系統(tǒng)中的變化數(shù)據(jù)按一定的頻率準確地捕獲到,同時不能對

業(yè)務系統(tǒng)造成太大的壓力,也不能影響現(xiàn)有業(yè)務。相對全量數(shù)據(jù)抽取,增量數(shù)據(jù)抽取的設

計更簡單。()

[A.]V

[B.]X

【答案】B

增錄數(shù)據(jù)抽取機制能夠將業(yè)務系統(tǒng)中的變化數(shù)據(jù)按一定的頻率準確地捕獲到,同時不能對

業(yè)務系統(tǒng)造成太大的壓力,也不能影響現(xiàn)有業(yè)務。相對全量數(shù)據(jù)抽取,增量數(shù)據(jù)抽取的設

計更復:雜。

71

時間戳是能表示一份數(shù)據(jù)在某個特定時間之前已經(jīng)存在的、完整的、可驗證的一個數(shù)據(jù),

其通常是一個字符序列,唯一標識某一刻的時間。()

[A.]V

[B.]X

【答案】A

時間戳是能表示?份數(shù)據(jù)在某個特定時間之前已經(jīng)存在的、完整的、可驗證的?個數(shù)據(jù),

其通常是一個字符序列,唯一標識某一刻的時間。

72

使用基于時間戳的增最數(shù)據(jù)抽取方式進行數(shù)據(jù)抽取時,系統(tǒng)通過比較上次抽取時間與時間

戳字段的值來決定抽取的數(shù)據(jù)。O

[A.]V

[B.]X

【答案】A

使用基于時間戳的增量數(shù)據(jù)抽取方式進行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論