大數據挖掘分析專業考試復習題庫（含答案）

上傳人：文*** IP屬地：河北上傳時間：2024-10-27 格式：PDF 頁數：100 大小：12.56MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩95頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

大數據挖掘分析專業考試復習題庫(含答案)

一、單選題

1.以下哪些分類方法可以較好地避免樣本的不平衡問題？

A、KNN

B、SVM

C、Bayes

D、神經網絡

答案：A

2.0算法是最廣泛使用的聚類算法,算法簡單,易于理解和操作。

Axgglomerative

B、C.URE

C、K-means

D、k-中心點算法

答案：C

3.貝葉斯決策是根據()進行決策的一種方法。

A、極大似然概率

B、先驗概率

C、邊際概率

D、后驗概率

答案：D

4.回歸分析的第一步是()

A、確定解釋量和被解釋變量

B、確定回歸模型

C、建立回歸方程

D、進行檢驗

答案：A

5.當所有觀測值都落在回歸直線上，則這兩個變量之間的相關系數為0

A、1

B、-1

C、+1或7

D、0

答案：C

6.()是進行項目投資效益評價的最終依據。

A、現金流量

B、盈虧平衡點

C、凈現金流量

D、現金流入量

答案：C

7.被廣泛用于購物籃分析的是()。

A、關聯分析；

B、分類和預測

C、聚類分析

D、演變分析

答案：A

8.下面哪種不屬于數據預處理的方法？()

A、變量代換

B、離散化

C、聚集

D、估計遺漏值

答案：D

9.下列不屬于關聯分析的關鍵要素的是()

A、支持度

B、置信度

C、滿意度

D、提升度

答案：C

10.NoSQL含義是指0

A、NO!SQL;

B、NomberSQL;

C、NotOnIySQL

D、NOLLSQL

答案：C

11.個人信息的收集、處理和利用應當遵循()的原則，不得違反法律、法規的規定

和雙方的約定收集、處理和利用個人信息。()

A、正規、合法、必要

B、合法、正當、必要

C、合法、合規、正當

D、合法、合理、合規

答案：B

12.Tableau能夠對數據進行處理包括()。

A、將多個數據源數據拼接為一個寬表；

B、修改、刪除、新增數據行；

C、對數據進行行列轉換、重命名、格式修改；

D、對數據進行計算、合并生成新的數據列

答案：A

13.()是數據倉庫體系架構的重要組成部分,具備數據倉庫的部分特征和OLTP系

統的部分特征。

A、E.SB;

B、D.M

C、ODS

D、E.TL

答案：C

14.RFM方法中的F說明客戶的0

A、興趣度

B、粘性

C、當前價值

D、未來價值

答案：A

15.關于主成分數目的選取,正確的是()

A、保留多少個主成分取決于累計方差在方差總和中所占百分比

B、一般選擇50%以上

C、選擇前兩個就可以

D、選擇的數目和變量的個數一致

答案:A

16.下列關于數據重組的說法中，錯誤的是0

A、數據重組是數據的重新生產和重新采集

B、數據重組能夠使數據煥發新的光芒

C、數據重組實現的關鍵在于多源數據融合和數據集成

D、數據重組有利于實現新穎的數據模式創新

答案：A

17.在SQL中,創建數據庫用的命令是()

A、CREATESCHEMA

B、CREATETABLE

C、CREATEVIEW

D、CREATEDATABASE

答案：D

18.當時間序列數據點的一階差分近似為一常數,可配合以下哪種預測模型()

A、直線

B、二次拋物線

C、三次拋物線

D、指數曲線

答案：A

19.對于企業來說,數據使用的關鍵是()

A、數據收集

B、數據存儲

C、數據分析

D、數據再利用

答案：D

20.線性回歸算法尋找()與預測目標之間的線性關系。

A、屬性

B、根因

C、表象

答案：A

21.下面不屬于明細數據質量評價指標的是()。

A、接入率；

B、自動采集率

C、及時率

D、完整率

答案：B

22.資金的時間價值是()

A、同一資金在同一時點上價值量的差額

B、同一資金在不同時點上價值量的差額

C、不同資金在同一時點上價值量的差額

D、不同資金在不同時點上價值量的差額

答案：B

23.以下哪種方法不屬于于監督學習模型()

A、決策樹

B、線性回歸

C、關聯分析

D、判別分析

答案：C

24.在多元回歸模型的檢驗中，目的是檢驗每一個自變量與因變量在指定顯著性

水平上是否存在線性相關關系的檢驗是()

A\r檢驗

B、t檢驗

C\f檢驗

D、DW檢驗

答案：B

25.關于混合模型聚類算法的優缺點,下面說法正確的是()

A、當簇只包含少量數據點，或者數據點近似協線性時，混

合模型也能很好地處理。

B、混合模型比K均值或模糊C均值更一般,因為它可以使用各種類型的分布。

C、混合模型很難發現不同大小和橢球形狀的簇。

D、混合模型在有噪聲和離群點時不會存在問題。

答案：B

26.大數據背景下,數據支撐業務的目的是()

A、建立數據科學

B、完成數據應用

C、配備數據硬件

D、吸納數據人才

答案：B

27.下面關于因子分析的說法正確的是()

A、因子分析就是主成分分析

B、因子之間可相關也可不相關

C、因子受量綱的影響

D、可以對因子進行旋轉，使其意義更明顯

答案：D

28.快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用，十分適合

數據倉庫的統計分析的是0。

AxMap;

B、Reduce

C、H.ive

D、SQL語句

答案：D

29.企業要建立預測模型,需準備建模數據集，以下四條描述建模數據集正確的是

A、數據越多越好

B、盡可能多的適合的數據

C、數據越少越好

D、以上三條都不正確

答案：B

30.以下哪個類型的變量在作預測客戶流失的模型中最有解釋力度？

A、人口基本數據，比如年齡和性別

B、基本社會狀態數據，比如收入和職業

C、業務數據,比如消費頻次

D、業務數據的衍生變量，比如最近3個月消費頻次的變化情況

答案：D

31.將復雜的地址簡化成北、中、南、東四區，是在進行？

A、數據正規化

B、數據一般化

C、數據離散化

D、數據整合

答案：B

32.Hadoop是一個開發和運行處理大規模數據的軟件平臺，是Appach的一個用（）

語言實現開源軟件框架。

A、java

B\C.++

C、R語言

答案：A

33.大數據特征錯誤的是()。

A、容量大；

B、類型多

C、價值高

D、系統多

答案：D

34.Apriori算法是最基本的一種關聯規則算法,它采用布爾關聯規則的挖掘頻

繁項集的算法,利用()搜索的方法挖掘頻繁項集。

A、逐層

B\逐級

C、自底向上

D、自上而下

答案：A

35.分類算法以()定理為基礎,采用概率方法對數據進行建模

A、決策樹

B、K-最鄰近

C、SVM

D、貝葉斯

答案：D

36.自然界中某種事物發生時其他事物也會發生,則這種聯系稱之為()o

A、連接

B、聯絡

C、關聯

D、聯系

答案：C

37.源業務系統接入數據中心的方式主要有:JDBCESB和()。

A、D.XP;

B、E.SP

C、OGG

D、E.TL

答案：C

38.下列哪個不屬于個人信息影響評估原則()

A、個人信息的處理目的、處理方式等是否合法、正當、必要

B、對個人的影響及風險程度

C、誰主管誰負責

D、所采取的安全保護措施是否合法、有效并與風險程度相適應。

答案：C

39.以下哪項關于決策樹的說法是錯誤的0

A、冗余屬性不會對決策樹的準確率造成不利的影響

B、子樹可能在決策樹中重復多次

C、決策樹算法對于噪聲的干擾非常敏感

D、尋找最佳決策樹是NP完全問題

答案：C

40.Hadoop框架中兩大核心是：（）和MapReducE

A、H.CFS;

B、H.DFS

C、H.EFS

D、H.FFS

答案：B

41.將數據轉換為可視化的形式,便于直觀快速發現數據規律,的數據探索方法是

A、匯總統計法

B、概率統計法

C、可視化法

答案：C

42.矩估計的基本原理是0

A、用樣本矩估計總體矩

B、使得似然函數達到最大

C、使得似然函數達到最小

D、小概率事件在一次試驗中是不可能發生的

答案：A

43.數據預處理目前常用的異常數據識別方法包括業務判別法、（）、箱線圖判別

法、統計判別法

A、聚類判別法；

B、回歸判別法

C、抽樣判別法

答案：A

44.算法的核心思想是()逐層構造一個樹。

A、自上而下

B、自下而上

C、自左向右

D、自右向左

答案：A

45.下列關于大數據的分析理念的說法中,錯誤的是()

A、在數據基礎上傾向于全體數據而不是抽樣數據

B、在分析方法上更注重相關分析而不是因果分析

C、在分析效果上更追究效率而不是絕對精確

D、在數據規模上強調相對數據而不是絕對數據

答案：D

46.什么是KDD?()

A、數據挖掘與知識發現

B、領域知識發現

C、文檔知識發現

D、動態知識發現

答案：A

47.某家長為了使孩子在第3-6年上大學的4年中，每年

年初得到10000元助學基金,他應在2年前在銀行存入多少錢？（年利率按5%計算）

A、33771

B、30291

C、32163

D、45256

答案：A

48.關于K均值和DBSCAN的比較，以下說法不正確的是0。

A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類

所有對象

B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念

C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同

形狀的簇

D、K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現，但是DBSCAN會

合并有重疊的簇

答案：A

49.SQL查詢語句中HAVING子句的作用是0

A、指出分組查詢的范圍

B、指出分組查詢的值

C、指出分組查詢的條件

D、指出分組查詢的內容

答案：C

50.一組數據中出現次數最多的數據稱為()。

A、分位數

B、中位數

C、眾數

答案：C

51.JS0N中的中括號一般來表示()。

A、數組；

B、標點符號

C、對象

D、注釋

答案：C

52.模型構建指基于()數據構建數據挖掘模型。

A、線上

B、線下

C、實時

D、歷史

答案：D

53.Tableau在處理離線地圖時,需要將標記設置為()。

A、路徑；

B、區域

C、邊形

D、已填充地圖

答案：A

54.以下關于人工神經網絡(ANN)的描述錯誤的有()

A、神經網絡對訓練數據中的噪聲非常魯棒

B、可以處理冗余特征

C、訓練ANN是一個很耗時的過程

D、至少含有一個隱藏層的多層神經網絡

答案：A

55.美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標明

了大風與洋流可能發生的地點。這體現了大數據分析理念中的()

A、在數據基礎上傾向于全體數據而不是抽樣數據

B、在分析方法上更注重相關分析而不是因果分析

C、在分析效果上更追究效率而不是絕對精確

D、在數據規模上強調相對數據而不是絕對數據

答案：B

56.當時間序列的環比增長速度大體相同時,適宜擬合()

A、指數曲線

B、拋物線

C、直線

D、對數曲線

答案：A

57.將多個指標轉化為少數幾個指標的一種統計分析方法是()o

A、數據預處理；

B、數據降維

C、主成分分析

D、假設檢驗

答案：C

58.設X={1,213)是頻繁項集,則可由X可產生()個關聯規則。

A、3

B、4

C、5

D、6

答案：D

59.當一個連續變量的缺失值占比在85%左右時,以下哪種方式最合理()

A、直接使用該變量

B、根據是否缺失,生成指示變量,僅使用指示變量作為解釋變量

C、使用多重插補的方法進行缺失值填補

D、直接刪除該變量

答案：B

60.大數據分析挖掘流程正確的是()。

A、業務理解一數據理解T數據準備T建立模型一模型評估；

B、業務理解T數據準備T數據理解T建立模型T模型評估；

C、業務理解T數據準備T數據理解T模型評估T建立模型；

D、業務理解-?數據準備-?模型評估T數據理解T建立模型

答案：A

61.()是統計學的基礎,是統計學里面最重要的概率分布

A、正態分布；

B、靜態分布

C、動態分布

D、穩態分布

答案：A

62.因子分析的主要作用有()

A、對變量進行降維

B、對變量進行判別

C、對變量進行聚類

D、以上都不對

答案：A

63.數據中心側的數據流轉方式未為()

A、D.XP;

B、E.SP

C、OGG

D、E.TL

答案：D

64.給定歷史時間數據,通過擬合時序模型,分析研究時序數據的發展變化規律,

得出觀測數據的歷史統計特征再據此進行外推預測目標的分析方法是()。

A、聚類;

B、回歸

C、時間序列

D、匯總統計

答案：C

65.智能健康手環的應用開發,體現了()的數據采集技術的應。

A、統計報表

B、網絡爬蟲

C、API接口

D、傳感器

答案：D

66.假設檢驗中顯著性水平是：)

A、推斷時犯取偽錯誤的概率

B、推斷時取偽棄真的概率

C、正確推斷的概率

D、是推斷的可信度

答案：B

67.以下哪些算法是分類算法。

A、DBSCAN

B、C4.5

C、K-Mean

D、EM

答案：B

68.以下關于大數據應用說法錯誤的是0。

A、大數據起源互聯網，目前處于成熟期；

B、目前金融、電信、零售、公共服務等領域在積極的探索和應用大數據；

C、互聯網是大數據的發源地；

D、互聯網上形成了多種相對成熟的應用模式。

答案：A

69.下列關于計算機存儲容量單位的說法中,錯誤的是()

A、1I<B<1MB<1GB

B、基本單位是字節(Byte)

C、一個漢字需要一個字節的存儲空間

D、一個字節能夠容納一個英文字符

答案：C

70.當置信水平一定時,置信區間的寬度()

A、隨著樣本量的增大而減小

B、隨著樣本量的增大而增大

C、與樣本量的大小無關

D、先隨著樣本量的增大而減小，到一定程度后會隨著樣本

量的增大而增大。

答案：A

71.倒傳遞神經網絡(BP神經網絡)的訓練順序為何？(A:調整權重;B:計算誤差值;

C:利用隨機的權重產生輸出的結果)

AvBCA

B、CAB

C、BAC

D、CBA

答案：D

72.個人信息保護影響評估報告和處理情況記錄應當至少保存()年。

A、—

B、+

C、五

D、三

答案：D

73.資金的時間價值是()

A、同一資金在同一時點上價值量的差額

B、同一資金在不同時點上價值量的差額

C、不同資金在同一時點上價值量的差額

D、不同資金在不同時點上價值量的差額

答案：B

74.有一條關聯規則為AT

B,此規則的信心水平(confidence)為60%,則代表()

A、買B商品的顧客中，有60%的顧客會同時購買A

B、同時購買

A,B兩商品的顧客，占所有顧客的60%

C、買A商品的顧客中，有60%的顧客會同時購買B

D、兩商品

A.B在交易數據庫中同時被購買的機率為60%

答案：C

75.有一組數據其均值是20,對其中的每一個數據都加上

10.那么得到的這組新數據的均值是0。

A、20

B、10

C、15

D、30

答案：D

76.與大數據密切相關的技術是0。

A、藍牙；

B、云計算

C、Wi-Fi

D、博弈論

答案：B

77.在數據分析和處理方面具有分析方法豐富、分析模型擴展強、數據挖掘能力

強等特點的分析工具是()。

A、Weka

B、SPSS

C、SAS

D、R

答案：D

78.用于分類與回歸應用的主要算法有：（）

AxApriori算法、HotSpot算法

B、RBF神經網絡、K均值法、決策樹

C、K均值法、S0M神經網絡

D、決策樹、BP神經網絡、貝葉斯

答案：D

79.（）提供的支撐技術，有效解決了大數據分析、研發的問題，比如虛擬化技術、

并行計算、海量存儲和海量管理等。

A、點計算

B、線計算

C、云計算

D、面計算

答案：C

80.描述一組對稱（或正態）分布數據的離散程度時,最適宜選擇的指標是0

A、極差

B、標準差

C、均值

D、變異系數

答案：B

81.考慮下面的頻繁3-項集的集合:（1.213},{1,2,

4},[1,3,4},{1,3,5},{2,3.4},[2,3,5},

{3.4,5}假定數據集中只有5個項,若采用合并策略,則由候選產生過程得到4-項

集不包含()

A、1,2,3,4

B、1,2,3,5

C、1,2,4,5

D、1,3,45

答案：C

82.相關分析與回歸分析的一個重要區別是()

A、前者研究變量之間關系的密切程度,后者研究變量間的變動關系,并用方程式

表示

B、前者研究變量之間的變動關系,后者研究變量間關系的密切程度

C、兩者都研究變量間的變動關系

D、兩者都不研究變量間的變動關系

答案：A

83.SQL語句中刪除表的命令是()

A、DROPTABLE

B、DELETETABLE

C、ERASETABLE

D、DELETEDBF

答案：A

84.已知事件A的概率P(A)=0.6,U為必然事件，則P(A+U)=1,P(AU)二

A、0.4

B、0.6

C、0

D、1

答案：B

85.邁克爾?波特的“五力模型”中，五種競爭力量中不包括0

A、新進入者

B、供應商議價能力

C、其他利益相關者力量

D、行業中現有競爭者

答案：C

86.假設12個銷售價格記錄組已經排序如下：5,10,11,13.

15,35,50,55,72,92,204,215使用等寬劃分(寬度為50)

方法將它們劃分成四個箱,求15在哪個箱子？()

A、第1個

B、第2個

C、第3個

D、第4個

答案：A

87.()是研究一種或者多種因素的變化對試驗結果的觀測值是否有顯著影響的統

計方法。

A、因子分析；

B、數據降維

C、方差分析

D、假設檢驗

答案：C

88.某超市研究銷售紀錄數據后發現,買啤酒的人很大概率也會購買尿布,這種屬

于數據挖掘的哪類問題？()

A、關聯規則發現

B、聚類

C、分類

D、自然語言處理

答案：A

89.以下哪個指標不能用于線性回歸中的模型比較()

A、R方

B、調整R方

C、AIC

D、BIG

答案：A

90.下面關于聚類分析說法錯誤的是0

A、一定存在一個最優的分類

B、聚類分析是無監督學習

C、聚類分析可以用于判斷異常值

D、聚類分析即:物以類聚，人以群分

答案：A

91.分類變量使用以下哪個統計量進行缺失值填補較合適

A、均值

B、最大值

C、眾數

D、中位數

答案：C

92.若數據量較大,下面哪種方式比較適合()

A、系統聚類

B、快速聚類(k-means)

C、A和B都可以

D\A和B都不可以

答案：B

93.在對歷史數據集進行分區之前進行數據清洗(缺失值填補等)的缺點是什么

A、違反了建模的假設條件

B、加大了處理的難度

C、無法針對分區后各個數據集的特征分別做數據清洗

D、無法對不同數據清理的方法進行比較,以選擇最優方法

答案：D

94.數據倉庫是隨著時間變化的,下面的描述不正確的是()

A、數據倉庫隨時間的變化不斷增加新的數據內容

B、捕捉到的新數據會覆蓋原來的快照

C、數據倉庫隨時間變化不斷刪去舊的數據內容

D、數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間的變化不斷地進行

重新綜合

答案：C

95.SQL語言中,刪除一個表中所有數據，但保留表結構的命令是()

A、DELETE

B、DROP

GCLEAR

D、REMORE

答案：A

96.依照《中華人民共和國數據安全法》和有關法律、行政法規的規定，()負責統

籌協調網絡數據安全和相關監管工作。

A、工業和信息化部

B、國家安全部門

C、國家網信部門

D、通信主管部門

答案：C

97.假設屬性ine的最大最小值分別是12000

元和98000元。利用最大-最小規范化的方法將屬性的值映射到。至1的范圍內。

對屬性ine的73600元將被轉化為()

A、0.751

B、0.163

C、0.457

D、0.716

答案：D

98.建立一個模型,通過這個模型根據已知的變量值來預測其他某個變量值屬于

數據挖掘的哪一類任務？()

A、根據內容檢索

B、建模描述

C、預測建模

D、尋找模式和規則

答案：C

99.自動化高級分析實驗室,實現與統一數據資源庫互聯,實現數據的自助組表、

自助分析功能，滿足不同層級,不同水平的用戶需求的是0

A、初級分析；

B、綜合分析

C、典型分析

D、高級分析

答案：D

100.下列選項中屬于現金流入的項目是0

A、所得稅

B、建設投資

C、經營成本

D、營業收入

答案：D

101.一組N個觀測值按數值大小排列,分成100份,處于X%位置的值稱第X個百

分位數稱為()。

A、分位數

B、中位數

C、眾數

答案：A

102.開始將N個樣品各自作為一類,將規定樣品之間的距離和類與類之間的距離,

然后將距離最近的兩類合并成一個新類,計算新類與其他類的距離,重復進行兩

個最近類的合并,每次減少一類,直至所有的樣品合并為一類，此種聚類方法是()

A、K-means

B、SOM聚類

C、系統聚類

D、有序聚類

答案：C

103.指數平滑法可以用以下哪種指標來反映對時間序列資料的修正程度()

A、平滑常數

B、指數平滑數初始值

C、跨越期

D、季節指數

答案：A

104.變量的量綱比如以厘米或者米為單位對下面哪種方法會有影響0

A、方差分析

B、回歸分析

C、聚類分析

D、主成分分析

答案：C

105.關于Tableau的特點，以下說法錯誤的是()

A、學習成本低，簡單易用；

B、圖表精美；

C、開發快速，分享便捷；

D、需要IT大量人員參與

答案：D

106.在ID3算法中信息增益是指()

A、信息的溢出程度

B、信息的增加效益

C、烯增加的程度最大

D、炳減少的程度最大

答案：D

107.一組數據中最大值與最小值的差值稱為0,也稱全距。

A、極差

B、極距

C、距離

D、方差

答案：A

108.()是一種開源軟件編程語言,主要用于統計分析,繪圖和數據挖掘,內置多種

統計及分析功能。

A、H.IVE;

B、H.ADOOP

C、R;

D、H.FDS

答案：C

109.決策樹中的InformationGain的計算是用來?

A、剪枝

B、使樹成長

C、處理缺失值和異常值

D、砍樹

答案：B

110.泊松回歸是一種廣泛應用的()回歸模型。

A、線性

B、非線性

C、預測

D、估算

答案：B

111.數據庫系統是由0組成的

A、數據庫、數據庫管理系統和用戶

B、數據文件、命令文件和報表

C、數據庫文件結構和數據

D、常量、變量和函數

答案：A

112.下列四項中，不屬于數據庫特點的是()

A、數據共享

B、數據完整性

C、數據冗余很高

D、數據獨立性高

答案：C

113.某小區60%居民訂晚報,45%訂青年報,30%兩報均訂,隨機抽一戶。則至少訂

一種報的概率為()

A、0.82

B、0.85

C、0.80

D、0.75

答案：D

114.關于統計學和大數據之間的關系,一下說法錯誤的是0。

A、面臨大數據，統計學的研究對象有所改變；

B、在大數據環境中,需要首先將未知的問題轉化為可用的統計方法；

C、在大數據分析過程中，傳統的統計分析過程“定量一定位一再定性”轉變為“定

量一定性”；

D、在大數據環境中,需要將統計研究的對象范圍擴展到一切數據。

答案：A

115.在數據分析和處理方面具有分析方法豐富、分析模型擴展差、數據挖掘能力

強等特點的分析工具是()。

A、Weka

B、SPSS

C、SAS

D、R

答案:B

116.下列說明錯誤的是()

A、性別二“男”二)職業二“司機”，是布爾型關聯規則

B、性別二“女"二》avg(收入)二2300,是一個數值型

關聯規則

C、肝炎券ALT(丙氨酸轉氨酶)升高,是一個單層關聯規則

D、性別二“女”二〉職業二“秘書”，是多維關聯規則

答案：C

117.Hive是基于Hadoop的一個數據()工具

A、分析；

B、倉庫

C、制圖

D、可視化

答案：B

118.數據記錄內容完整比例,包括指標單位維度、業務維度組合記錄條數完整,

指標字段值完整稱為()

A、指標數據自動采集率；

B、指標數據接入率

C、指標數據接入及時率；

D、指標數據完整率

答案：D

119.EXCEL中，求標準差的函數是0

A、AVERAGE

B、MEDIAN

C、MODE

D、STDEV

答案：D

120.對于下列實驗數據:1,108,11,8,5,6,8,

8,7,11,描述其集中趨勢用()最為適宜,其值是()。

A、平均數，14.4

B、中位數,8.5

C、眾數,8

D、以上都可以

答案：C

121.《個人信息保護法》發布執行時間()。

A、2021年9月1日;

B、2021年10月1日；

C、2021年11月1日

D、2021年12月1日

答案：C

122.檢測一元正態分布中的離群點,屬于異常檢測中的基于

()的離群點檢測

A、統計方法

B、鄰近度

C、密度

D、聚類技術

答案：A

123.下列關于聚類挖掘技術的說法中，錯誤的是()

A、不預先設定數據歸類類目，完全根據數據本身性質將數據聚合成不同類別

B、要求同類數據的內容相似度盡可能

C、要求不同類數據的內容相似度盡可能

D、與分類挖掘技術相似的是,都是要對數據進行分類處理

答案：B

124.按數據的結構程度來劃分分為0

A、結構化數據、半結構化數據、非結構化數據

B、強結構化數據、弱結構化數據

C、截面數據、面板數據

D、一級數據、二級數據、三級數據

答案：A

125.當前國內社會中，最為突出的大數據環境是()

A、互聯網

B、物聯網

C、綜合國力

D、自然資源

答案：A

126.()是一種松散耦合的服務和應用之間標準的集成方式。

A、E.SB;

B、D.M

C、ODS

D、E.TL

答案：A

127.在建立線性回歸(LinearRegression)之前我們可以利用何種方法挑選重要

屬性,以降低模型的復雜度？

A、皮爾森相關系數

B、卡方檢定

C、T-檢定

D、Z-Score

答案：A

128.給定一個置信概率和置信區域,若誤差超過置信區域，則認為誤差不是隨機

誤差引起,視為異常值的判別方法Oo

A、聚類判別法；

B、回歸判別法

C、抽樣判別法

D、統計判別法

答案：D

129.ROC曲線凸向哪個角，代表模型越理想？

A、左上角

B、右上角

C、左下角

D、右下角

答案：A

130..給出下列結論:

1)在回歸分析中,可用指數系數R方的值判斷模型的擬合效果,R方越大,模型的

擬合效果越好；

2)在回歸分析中,可用殘差平方和判斷模型的擬合效果,殘差平方和越大,模型的

擬合效果越好；

⑶在回歸分析中,可用相關系數r的值判斷模型的擬合效果,r越小,模型的擬合

效果越好；

(4)在回歸分析中,可用殘差圖判斷模型的擬合效果,殘差點比較均勻地落在水平

的帶狀區域中,說明這樣的模型比較

合適.帶狀區域的寬度越寬,說明模型的擬合精度越高.以上結論中,正確的有()

個.

A、1

B、2

C、3

D、4

答案：A

131.回歸是一種預測建模技術研究()和()的依存關系。

A、預測值、實際值

B、自變量、因變量

C、絕對誤差、平方誤差

D、測試樣本、集合

答案：B

132.ODS是指()

A、企業數據中心；

B、數據倉庫

C、操作型存儲

D、總線

答案：B

133.用簡單隨機重復抽樣方法抽取樣本單位,如果要使抽樣平均誤差降低50%,

則樣本容量需要擴大到原來的()

A、2倍

B、3倍

C、4倍

D、5倍

答案：C

133假設｛BCE)為一頻繁項目集(FrequentItemset)，則根據AprioriPrinciple

以下何者不是子頻繁項目？

A、BC

B、CE

C、C

D、CD

答案：D

135.假如學生考試成績以“優”.“良”.“及格”和“不及格”來記錄，為了說

明全班同學考試成績的水平高低,其集中趨勢的測度0

A、可以采用算術平均數

B、可以采用眾數或中位數

C、只能采用眾數

D、只能采用四分位數

答案：C

136.將原始數據進行集成、變換、維度規約、數值規約是在以下哪個步驟的任務?

A、數據獲取

B、分類和預測

C、數據預處理

D、數據可視化

答案：C

137.在有指導的數據挖掘中，有關測試集的說法錯誤的是0

A、測試集和訓練集是相互聯系的

B、測試集是用以測試模型的數據集

C、通常測試集大約占總樣本的三分之一

D、K-次交叉驗證中,測試集只有1個,訓練集有K-1個

答案：A

138.以下那一項不是大數據提供的用戶交互方式是0。

A、企業報表;

B、查詢

C、大數據分析挖掘

D、可視化

答案：A

139.表示職稱為副教授、性別為男的表達式為0

A、職稱二‘副教授'0R性別=‘男’

B、職稱二'副教授'AND性別='男'

C、BETWEEN'副教授'AND'男，

D、IN(‘副教授‘，‘男‘)

答案：B

140.Logistic回歸是在商業領域上使用最廣泛的預測模型,常用于()分類變量

預測和概率預測。

A、四值

B、三值

C、二值

D、一值

答案：C

141.檢查異常值常用的統計圖形是()

A、柱狀圖

B、箱線圖

C、帕累托圖

D、氣泡圖

答案：B

142.以下哪條屬于個人信息影響的評估場景：()

A、處理敏感個人信息，利用個人信息進行自動化決策

B、委托處理個人信息、向第三方提供個人信息、公開個人信息

C、向境外提供個人信息

D、以上皆是

答案：D

143.《個人信息保護法》對于企業的影響不包括()

A、需要強化個人信息處理這主體責任

B、明確了可以量化的中國版執行罰則

C、需要設立負責處理個人信息保護相關事務的專門機構和指定代表

D、收集和處理數據時可以不遵循“最小化”原則

答案：D

144.實際由源業務系統自動接入的指標數據占指標體系中應接指標總數的比例

稱為()

A、指標數據自動采集率；

B、指標數據接入率

C、指標數據接入及時率；

D、指標數據完整率

答案：A

145.假設檢驗中，拒絕域的邊界稱為()

A、臨界值

B、臨界點

C、置信水平

D、邊際值

答案：A

146.以下關于大數據的概念和理解不正確的是0

A、大數據是指無法再容許的時間內用常規的軟件工具對其內容進行抓取、管理

和處理的數據集合,大數據規模的標準是持續變化的，當前泛指單一的數據集的

大小在幾十TB和PB之間；

B、大數據是一項技術，能夠對復雜海量數據進行實時獲取、

傳輸、存儲、加工和利用的高薪技術；

C、大數據是一種挑戰，現有的數據采集、傳輸、存儲、處理和分析技術已無法適

用于現有的需要;

D、大數據是一個時代,擁有大數據是時代的特征、解讀大數據是時代的任務、應

用大數據是時代的機遇。

答案：A

147,數據收集的標準為()而非動用企業全部數據。

A、一致性、可靠性、時效性

B、相同性、可靠性、時效性

C、C相關性、可靠性、時效性

D、一致性、可靠性、實際性

答案：C

148.MySQL是()

A、操作系統；

B、數據庫

C、聊天軟件

D、瀏覽器

答案：B

149.當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其

他標簽的數據相分離？()

A、分類

B、聚類

C、關聯分析

D、主成分分析

答案：B

150.某超市研究銷售記錄發現購買奶的很概率會購買包,這種屬于數據挖掘的

哪類問題？()

A、聚類分析

B、關聯規則

C、分類分析

D、自然語言處理

答案：B

151.蘋果公司對IPHONE的降價行為屬于0

A、地域性差別定價

B、時間性差別定價

C、非線性定價或數量折扣定價

D、其他形式的定價

答案：B

152.當不知道數據所帶標簽時,可以使用哪種技術促使帶同類標簽的數據與帶其

他標簽的數據相分離？

A、分類

B、聚類

C、關聯分析

D、隱馬爾可夫鏈

答案：B

153.NaiveBayes是屬于數據挖掘中的什么方法？

A、聚類

B、分類

C、時間序列

D、關聯規則

答案：B

154.《中華人民共和國數據安全法》中的數據,是指任何以電子或者其他方式對()

的記錄。

Av數據

B、信息

C、文件

D、知識

答案：B

155.下列不屬于原始數據來源的是()

A、行政記錄

B、統計調查

C、統計年鑒

D、實驗

答案：C

156.數據挖掘技術包括三個主要的部分()

A、數據、模型、技術

B、算法、技術、領域知識

C、數據、建模能力、算法與技術

D、建模能力、算法與技術、領域知識

答案：C

157.(),用于顯示樹狀結構數據。

A、矩形式樹狀結構圖；

B、平行結構樹

C、垂直結構樹

答案：A

158.在Excel工作表中，在某單元格內輸入數值123,不正確的輸入形式是0

A、123

B、=123

C、+123

D、*123

答案：D

159.分析顧客消費行業,以便有針對性的向其推薦感興趣的服務,屬于()問題。

A、關聯規則挖掘

B、分類與回歸

C、聚類分析

D、時序預測

答案：A

160.在有關數據倉庫測試,下列說法不正確的是()

A、在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要

包括單元測試和系統測試

B、當數據倉庫的每個單獨組件完成后,就需要對他們進行單元測試

C、系統的集成測試需要對數據倉庫的所有組件進行大量的

功能測試和回歸測試

D、在測試之前沒必要制定詳細的測試計劃

答案：D

161.Byte代表一個字節,及()的數值范圍。

A、0~100

B、0~155

C、0~200

D、0~255

答案：D

162.目前常用的識別異常數據的方法有物理判別法和0。

A、化學判別法

B、統計判別法

C、靜態判別法

D、動態判別法

答案：B

163,下列有關Apriori算法的說法中不正確的是()

A、Apriori算法是關聯分析中最常用的算法之一。

B、應用Apriori算法時，需要先設定模型的最小支持度、最小置信度等閾值。

C、應用Apriori算法時，輸入的數據可以是連續型數據也可以是離散型數據。

DxApriori算法掃描數據庫的次數依賴于最大頻繁項集中項的數量。

答案：C

164.VBA語言中，聲明變量的關鍵字是()。

A、SET;

B、C.ONST

C、PRIVATE

D、IM

答案：D

165.下列四項中，不屬于數據庫特點的是()

A、數據共享

B、數據完整性

C、數據冗余很高

D、數據獨立性高

答案：C

166.維度規約是在以下哪個步驟的任務？()

A、頻繁模式挖掘

B、降維

C、數據預處理

D、數據流挖掘

答案：C

167.屬于財務專業明細數據表的是()

A、客戶收費流水表；

B、應收票據信息表；

C、公司分壓線損統計表;

D、供應計劃表

答案：B

168.以下哪個變量可以反映客戶的忠誠度？()

A、購買頻次

B、購買金額

C、最后一次購買時間

D、購買金額波動率

答案:A

169.某項目預計運行5年后的凈現值為4500萬元,如折現率為16%,其終值應為()

萬元(說明:結果保留兩位小數)

A、8045.86

B、6996.21

C、9451.54

D、7000.02

答案：C

170.數據在規定的時間前和頻度周期內接入系統的比例稱為0

A、指標數據自動采集率；

B、指標數據接入率

C、指標數據接入及時率；

D、指標數據完整率

答案：C

171.數據正規化(DataNormaIization)是在知識發掘處理

(KnowIedgeDiscoveryProcess)中的哪一個階段進行？

A、數據清洗

B、數據選擇

C、數據編碼

D、數據擴充

答案：C

172.東北人養了一只雞和一頭豬。一天雞問豬:”主人呢？“豬說:“出去買蘑菇了。

“雞聽了撒丫子就跑。豬說:“你跑什么？"雞叫道：“有本事主人買粉條的時候你小

子別跑！”

以上對話體現了數據分析方法中的()

A、關聯

B、聚類

C、分類

D、自然語言處理

答案：A

173.以下敘述正確的是0

A、極差較少受異常值的影響

B、四分位差較少受異常值的影響

C、方差較少受異常值的影響

D、標準差較少受異常值的影響

答案：B

174.大數據應用需求分為年度需求和()兩類。

A、季度需求

B、月度需求

C、周需求

D、即時需求

答案：D

175.關聯規則是反映事物之間的依賴關系,典型例子是購物籃分析,常見算法有

Apriori關聯算法和()算法。

A、貝葉斯算法

B、線性回歸

C、F.P-growth關聯算法

D、聚類算法

答案：C

176.無監督學習,應用最廣的是()算法

A、聚類算法；

B、降維算法；

C、關聯規則算法；

D、文本挖掘

答案：A

177.以下哪些分類方法可以較好地避免樣本的不平衡問題？

A、KNN

B、SVM

C、Bayes

D、神經網絡

答案：A

178.數據倉庫的最終目的是0

A、收集業務需求

B、建立數據倉庫邏輯模型

C、開發數據倉庫的應用分析

D、為用戶和業務部門提供決策支持

答案：D

179.下列不屬于分類算法的是()

A、C4.5算法

B、邏輯回歸

C、KNN算法

D、TF-TDF算法

答案：D

180.如下哪個不是最近鄰分類器的特點0

A、它使用具體的訓練實例進行預測,不必維護源自數據的模型

B、分類一個測試樣例開銷很大

C、最近鄰分類器基于全局信息進行預測

D、可以生產任意形狀的決策邊界

答案：C

181.通過()，計算頻數、眾數、中位數等一個或多個數據指標，探索數據的分布結

構。

A、概率統計法

B、匯總統計法

C、可視化法

D、分類統計法

答案：B

182.MapReduce是一種()計算模型

A、集中式；

B、分布式

C、離散式

D、放射式

答案：B

183.一種商品價格變動與由此引起另外一種商品需求量相對變動的比率稱為()

A、需求價格彈性

B、供給價格彈性

C、需求交叉彈性

D、供給交叉彈性

答案：C

184.請問以下何者屬于時間序列的問題？

A、信用卡發卡銀行偵測潛在的卡奴

B、基金經理人針對個股做出未來價格預測

C、電信公司將人戶區分為數個群體

D、以上均不是

答案：B

185.非參數檢驗是針對()分布情況做的假設。

A、總體

B、局部

C、個體

答案:A

186.分類器效果檢驗中的準確率是指()

A、預測正確的數據在總數據中的比例

B、預測為正的數據在總數據中的比例

C、預測為正的數據中實際為正的數據所占比例

D、實際為正的數據中被預測為正的數據所占比例

答案：C

187.《數據安全法》發布執行時間0。

A、2021年9月1日；

B、2021年10月1日；

C、2021年11月1日

D、2021年12月1日

答案：A

188.實際接入的指標數占應接指標總數的比例,統計時又分線上和線下接入率稱

為()

A、指標數據自動采集率；

B、指標數據接入率

C、指標數據接入及時率；

D、指標數據完整率

答案：B

189.關于回歸分析,下列說法中錯誤的是0

A、作回歸分析的變量之間要有實際意義,不能把毫無關聯的兩種現象隨意進行回

歸分析,要結合專業知識對兩事物之間是否存在因果關系作出合理解釋和結論。

B、在進行線性回歸分析進行的數據準備的時候,要求因變量y和自變量x都是符

合總體正態的隨機變量。

C、回歸直線不要隨意外延

D、所有非線性回歸都可以轉化為線性回歸

答案：D

190.凈現值、內部收益率、獲利指數指標之間的數量關系()NPV>0

Av當PK1,IRR>iNPV>0

B、當Pl>1,IRR>iNPV<0

C、當Pl<1時，IRR>i,NPV<0、當DPI>1IRR>i,時，

答案：B

191.關于K均值和DBSCAN的比較,以下說法不正確的是

A、K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。

B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。

C、K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同

形狀的簇。

D、K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現，但是DBSCAN會

合并有重疊的簇。

答案：A

192..人們購買制冷用空調主要是為了在夏天獲得涼爽空氣,這屬于空調產品整

體概念中的()

A、有形產品

B、直接產品

C、核心產品

D、主要產品

答案：C

193.某牙膏廠原來生產兩面針藥物牙膏,現在又增加牙刷生產,這屬于()

A、同心多元化

B、水平多元化

C、集團多元化

D、相關多元化

答案：B

194.在發生或者可能發生個人信息泄露、毀損、丟失的情況時，應當立即采取()

措施,按照規定及時告知用戶并向有關主管部門報告。()

A\彌補

B、補救

C、救援

D、相關

答案：B

多選題

1.以下算法中對缺失值敏感的有()

A、Logistic回歸

B、SVM算法

C、CART決策樹

D、樸素貝葉斯

答案：AB

2.以下關于皮爾森相關分析敘述正確的是()

A、兩變量獨立，兩者的皮爾森相關系數必然等于0

B、兩變量皮爾森相關系數不等于0,兩者必然不獨立

C、皮爾森相關系數是否等于零,不能指明兩變量是否獨立

D、兩變量不獨立，兩者的皮爾森相關系數必然不等于0

答案：AB

3.配合一元線性回歸方程須具備下列前提條件0

A、現象間確實存在數量上的相互依存關系

B、現象間的關系是直線關系，這種直線關系可用散點圖來表示

C、具備一組自變量與因變量的對應資料,且能明確哪個是自變量,哪個是因變量

D、兩個變量之間不是對等關系

答案：ABCD

4.下面關于季度模型的敘述,不正確的是0

A、季度模型以季度數據為樣本

B、季度模型主要用于季度預測

C、季度模型注重長期行為的描述

D、季度模型一般規模較大

答案：AB

5.如果自變量有連續型變量,則適用的分類預測方法有0

A、邏輯回歸

B、神經網絡

GSVM算法

D、C4.5算法

答案：ABC

6.在比較不同預測方法的精確度時,通常采用()等誤差指標來衡量預測誤差的大

小。

A、絕對誤差

B、相對誤差

C、平均誤差

D、隨機誤差

答案：ABC

7.以下說法正確的有()

A、評價預測精度是通過測量與分析預測誤差進行的

B、絕對誤差是實際觀測值與預測值的離差

C、相對誤差反映實際觀測值與預測值之間差異的相對程度

D、平均誤差反映實際觀測值與預測值之間的平均差異

答案：ABCD

8.產品成本費用按其與產量變化的關系分為()

A、可變成本

B、固定成本

C、付現成本

D、沉沒成本

答案：AB

9.下面給出的t檢驗的結果，0表明接受原假設,顯著性水平為0.05o

A、0.000

B、0.039

C、0.092

D、0.124

答案：CD

10.回歸變差(或回歸平方和)是指()

A、被解釋變量的實際值與平均值的離差平方和

B、被解釋變量的回歸值與平均值的離差平方和

C、被解釋變量的總變差與剩余變差之差

D、解釋變量變動所引起的被解釋變量的變差

答案：BCD

11.在ExceI中,要選定A到E列單元格,操作正確的是

A、用鼠標左鍵單擊列號

A,然后向右拖動鼠標至列號

E,再釋放鼠標左鍵

B、左鍵單擊列號

A,再按下shift鍵不放并用鼠標左鍵單擊列號

E,最后釋放shift鍵

C、單擊列號

A,然后先按下Ctrl鍵不放,再用鼠標單擊B.C,D,E列號,最后釋放CtrI鍵

D、按shift鍵不放，用鼠標左鍵單擊

A,B,C,D,E的每個列號

答案：ABC

12.^ijApriori算法計算頻繁項集可以有效降低計算頻繁集的時間復雜度。在以

下的購物籃中產生支持度不小于3的候選3-項集，在候選2-項集中需要剪枝的是

0ID項集。

1面包.牛奶

2面包.尿布.啤酒.雞蛋

3牛奶.尿布.啤酒.可樂

4面包.牛奶.尿布.啤酒

5面包.牛奶.尿布.可樂

A、啤酒.尿布

B、啤酒.面包

C、面包.尿布

D、啤酒.牛奶

答案：BD

13.大數據技術的兩大核心：

A、分布式存儲GFS'HDFS

B、分布式傳輸Transmission

C、分布式采集Collection

Dx分布式處理MapReduce

答案：AD

14.概率分析中，應計算出()表明該風險因素的風險程度。

A、變異系數

B、期望值

C、方差

D、標準差

答案：ABCD

15.數據科學家的3c精神

A、創造性地工作

B、批判性地思考

C、系統性地處理

D、好奇性地提問

答案：ABD

16.相關分析的任務有()

A、判定現象之間有無關系

B、判定現象之間關系的方向

C、判定相關關系的緊密程度

D、說明現象之間聯系的具體形式

答案：ABCD

17.元組在某些屬性上缺少值是常有的。在實際數據中,描述處理該問題的各種方

法有()

A、直接刪除

B、.使用屬性的平均值填充空缺值

C、使用一個全局常量填充空缺

D、使用與給定元組屬同一類的所有樣本的平均值

答案：ABC

18.如下表student中，如何篩選type為包含數學或語文的記錄？

IDtypescore

A01數學78

A02語文76

A03英語90

A04數學68

A05英語84

A、seIect*fromstudentwheretype=,>數學"andtype=M語文”

B、seIect*fromstudentwheretype二“數學"ortype=,J語文”

C\seIect*fromstudentwheretypein（M數學"，“語文"）

D、seIect*fromstudentwheretypein(M數學"？“語文")

答案：BC

19.以下哪些變量使用RFM方法構造出來的？()

A、最近3期境外消費金額

B、最近6期網銀消費交易筆數

C、信用額度

D、距最近一次逾期的月數

答案：ABD

20.以下關于邏輯回歸的說法正確的是()

A、應用邏輯回歸時,異常值會對模型造成很大的干擾。

B、邏輯回歸的自變量必須是分類變量,因此要對連續型變量進行離散化處理。

C、邏輯回歸對模型中自變量的多重共線性較為敏感。

D、邏輯回歸屬于分類算法。

答案：ACD

21.主成分分析計算選擇相關系數計算法時,確定主成分個數的致原則包括()

A、特征根值大于1

B、特征根值大于3

C、累積特征根值加總占總特征根值的80%以上

D、累積特征根值加總占總特征根值的90%以上

答案：AC

22.大數據應用建設及運營過程中如發生數據安全問題,應立即暫停大數據應用

建設或運營工作，向0部門匯援。

A、互聯網部

B、安監部

C、法規部

D、相關專業管理部門

答案：ABCD

23.下列關于統計量的表述中,正確的有()

A、估計同一個總體參數可以用多個不同的統計量

B、統計量是樣本的函數

C、.統計量不含有總體的參數

D、統計量是隨機變量

答案：ABD

24.下列對ID3算法的描述,正確的是0

A、每個節點的分支度都不相同

B、使用InformationGain作為節點分割的依據

C、可以處理數值型態的字段

D、方法處理空值的字段

答案：ABD

25.數據科學中的主流語音工具0

A、R

B、C++

C\Java

D、Python

答案：AD

26.定基發展速度與環比發展速度的關系有()。

A、各環比發展速度之和等于相應的定基發展速度

B、各環比發展速度之積等于相應的定基發展速度

C、兩個環比發展速度之商等于相應的定基發展速度

D、兩個定基發展速度之商等于相應的環比發展速度

答案：BD

27.處理噪聲數據的常用方法。

A、分箱

B、聚類

C、回歸

D、對比

答案：ABC

28.行業分析數據采集方法有I)o

A、一手資料

B、實地考察法

C、專家訪談法

D、收集媒體信息

答案：ABCD

29.貨幣時間價值用相對值來表示時,在數量上應當理解為扣除0后的社會平均

利潤率。

A、時間因素

B、通貨膨脹因素

C、純粹利率

D、風險因素

答案：BD

30.商業模式描述正確的是：

A、B2B--商家對商家

B、B2C一商家對人

C、020一線上對線下

D、C2C一人對人

答案：ABCD

31.以下屬于聚類算法的是0

A、K均值

B、DBSCAN

C\Apriori

D、knn

答案：AB

32.KANO模型定義的顧客需求層次有()

A、興奮型需求

B、喜愛型需求

C、基本型需求

D、期望型需求

答案：ACD

33.根據分析內容和側重面不同,風險分析的方法有()

A、敏感性分析

B、概率分析

C、經濟效益分析

D、盈虧平衡分析

答案：ABD

34.在全面調查和抽樣調查中都存在的誤差是0

A、系統誤差

B、登記性誤差

C、責任心誤差

D、技術性誤差

答案：BCD

35.敏感個人信息劃定依據()

A、與人格尊嚴相關

B、與人身.財產安全相關

C、不滿十四周歲未成年人的個人信息

D、與公司管理要求相關

答案：ABC

36.在客戶關系管理中,客戶的生命周期都包括()階段。

A、潛在客戶

B、響應客戶

C、即得客戶

D、流失客戶

答案：ABCD

37.以下屬于數據預處理的是：）

A、缺失值填充

B、噪聲數據剔除

C、異常值識別

D、數據可視化

答案：ABC

38.我們可以用哪種方式來避免決策樹過度擬合的問題？0

A、利用修剪法來限制樹的深度

B、利用盆栽法規定每個節點下的最小的記錄數

C、利用逐步回歸法來刪除部分數據

D、目前并無適合的方法來處理這問題

答案：AB

39.在有關數據倉庫測試,下列說法中正確的是0

A、在完成數據倉庫的實施過程中,需要對數據倉庫進行各種測試.測試工作中要

包括單元測試和系統測試

B、當數據倉庫的每個單獨組件完成后,就需要對他們進行單元測試

C、系統的集成測試需要對數據倉庫的所有組件進行大量的功能測試和回歸測試

D、在測試之前可以不制定詳細的測試計劃，測試過程中實時調整。

答案：ABC

40.關于基準收益率的表述,正確的是()

A、基準收益率越高越好

B、基準收益率越低越好，但不能低于銀行貸款利率

C、可以采用項目加權平均資金成本為基礎確定基準收益率

D、可以采用國家有關部門或行業統一發布的行業基準收益

率

答案：CD

41.分箱方法有哪些？()

A、等深分箱

B、等寬分箱

C、數據標準化

D、自定義區間法

答案：ABD

42.數據類型：

A、離散Q型

B、連續性

C、符號型

D、文本型

答案：ABCD

43.營銷觀念是營銷過程中如何處理0利益關系。

Av企業

Bx員工

C、顧客

D、社會

答案：ACD

44.HDFS(分布式文件系統)作為Hadoop生態系統的數據存儲基礎,其特點為()

A、支持超大文件

B、基于商用硬件

C、流式數據訪問

D、高吞吐量

答案：ABCD

45.隨機抽樣方法有0

A、等距隨機抽樣

B、綜合隨機抽樣

C、簡單隨機抽樣

D、分群隨機抽樣

答案：ACD

46.能消除時間序列中的不規則變動和季節變動的方法是

A、移動平均法

B、指數平滑法

C、時間序列乘法模型

D、季節指數

答案：AD

47.關于數據范式描述準確的是：

A、經驗科學是第一范式，主要研究模型是科學實驗；

B、理論科學是第二范式，主要研究模型是數學模型；

C、計算科學是第三范式,主要研究模型是計算機仿真和模擬，第三范式是“人腦+

電腦”，人腦是主角；

D、數據密集型科學是第四范式,的主要研究模型是數據挖掘卻機器學習，特別是

機器學習，第四范式是“電腦+人腦”，電腦是主角。

答案：ABCD

48.如下表student中，如何篩選type為包含數學或語文的記錄？0

AvseIect*fromstudentwheretype="數學”andtype="語文”

B、seIect*fromstudentwheretype="數學"ortype="語文”

Cvselect*fromstudentwheretypein（"數學”,“語文”）

D、seiect*fromstudentwheretypein（"數學"?”語文"）

答案：BC

49.下列項目中，其變動可以改變盈虧平衡點位置的因素有

A、單價

B、單位變動成本

C、銷量

D、固定成本

答案：ABCD

50.某種產品的生產總費用2003年為50萬元，比2002

年多2萬元,而單位產品成本2003年比2002年降低5%,則()

A、生產費用總指數為104.17%

B、生產費用指數為108.56%

C、單位成本指數為95%

D、產量指數為109.65%

E、由于成本降低而節約的生產費用為2.63萬元

答案：ACDE

51.按照性質,預測方法大致可分為()。

A、定性預測

B、情景預測

C、時間序列預測

D、回歸預測

答案：ACD

52.以下屬于分類器評價或比較尺度的有0

A、預測準確度

B、召回率

C、模型描述的簡潔度

D、F1-Score

答案：ABD

53.如下哪些不是基于規則的分類器的特點()

A、規則集的表達能力遠不如決策樹好

B、基于規則的分類器都對屬性空間進行直線劃分,并將類指派到每個劃分

C、無法被用來產生更易于解釋的描述性模型

D、非常適合處理類分布不平衡的數據集

答案：AC

54.數據離散化是指為了數據分析的需要，將連續數據轉換為離散型數據的過程。

數據離散化的方法有()

A、隨機取值

B、等距離散法

C、數值規約

D、等頻離散法

答案：BD

55.缺失值的處理方法有哪些？()

A、用平均值填充

B、忽略缺失記錄

C、以任意數據填充

D、用默認值填充

答案:ABD

56.()這些數據特性都是對聚類分析具有很強影響的。

A、高維性

B、規模

C、稀疏性

D、噪聲和離群點

答案：ABCD

57.以下屬于數據規約方法的是0

A、數據離散化

B、數據標準化

C、噪聲數據識別

D、數據壓縮

答案：AD

58.在假設檢驗中，當我們做出拒絕原假設而接受備擇假設的結論時,表示()

A、有充足的理由否定原假設

B、原假設必定是錯誤的

C、犯錯誤的概率不大于a

D、犯錯誤的概率不大于b

E、在H。成立的情況下發生了小概率事件

答案：ACE

59.電子元器件：

A、電子管

B、晶體管

C、小規模中規模集成電路

D、大規模或超大規模集成電路

答案：ABCD

60.若檢驗統計量F近似等于1.說明()

A、組間方差中不包含系統因素的影響

B、組內方差中不包含系統因素的影響

C、組間方差中包含系統因素的影響

D、方差分析中不應拒絕原假設

答案：AD

61.統計決策的基本原則是()

Av可行性

B、發展性

C、合理性

D、經濟性

答案：ACD

62.促銷預算的方法主要有()。

A、量入為出法

B、競爭對等法

C、銷售比例法

D、目標任務法

答案：ABCD

63.以下哪個分布是右偏分布？0

A、均勻分布

B、卡方分布

C、F分布

D、對數正態分布

答案：BCD

64.大數據在今天這個時間點上爆發的原因有哪些？()

A、各種傳感器無時無刻不在為我們提供大量的數據

B、各種監控設備無時無刻不在為我們提供大量的數據

C、各種智能設備無時無刻不在為我們提供大量的數據

D、互聯網的收集和積累

答案:ABCD

65.數據挖掘的預測建模任務主要包括哪幾大類問題？0

A、分類

B、回歸

C、模式發現

D、模式匹配

答案：AB

66.從復雜度及價值高低兩個維度,可以將數據分析分為()

Av描述性分析(DescriptiveAnalytics)

B、診斷性分析(DiagnosticAnalytics)

C\預測性分析(PredictiveAnaIytics)

D、規范性分析(PrescriptiveAnalytics)

答案：ABCD

67.下面有關HAVING子句的說法中正確的是()

A、HAVING子句必須與GROUPBY子句同時使用，不能單獨使用

B、使用HAVING子句的同時不能使用WHERE子句

C、使用HAVING子句的同時可以使用WHERE子句

D、使用HAVING子句的作用是限定分組的條件

答案：ACD

68.在作邏輯回歸時,如果區域這個變量,當Region二A時Y取值均為1,無法確定

是否出現的是哪個問題？

A、共線性

B、異常值

C、擬完全分離(Quasi-pleteseparation)

D、缺失值

答案：ABD

69.以下哪個聚類分析的方法是利用統計學定義的距離進行度量()

A、層次聚類法

B、快速聚類法(K-Means)

C、基于密度的聚類法

D、基于網格的聚類法

答案：AB

70.方差分析的基本假設前提包括()

A、各處理條件下的樣本均來自正態總體

B、各處理條件下的樣本相互獨立

C、各處理條件下樣本的方差都相等

D、各處理條件下樣本均值相等，方差可以不等

答案：ABC

71.季節變動主要是由()引起的。

A、自然災害

B、政治事件

C、制度.法津習俗

D、自然界的季節變化

答案：CD

72.以下說法正確的有哪些？()

A、大數據僅僅是講數據的體量大

B、大數據對傳統行業有幫助

C、大數據會帶來機器智能

D、大數據是一種思維方式

答案：BCD

73.下列公式正確的是()

A、流動資金二流動資產-流動負債

B、流動資產二應收賬款+存貨

C、流動負債=應付賬款+預收賬款

D、流動資金本年增加額二本年流動資金-上年流動資金

答案：ACD

74.決策樹法分析問題的主要步驟包括()。

A、結構化問題

B、設計可能結果發生的概率

C、設計結果的得益

D、分析問題

答案：ABCD

75.下列說法中不正確的是()

A、任何兩個變量都具有相關關系

B、人的知識與其年齡具有相關關系

C、散點圖中的各點是分散的沒有規律

D、根據散點圖求得的回歸直線方程都是有意義的

答案：ACD

76.投資項目的現金流量中經營成本與會計中的“總成本費用”概念有根本的不

同,不包括

A、利息支出

B、攤銷費

C、折舊費

D、維修費

答案：ABC

77.符合下列情形之一的,個人信息處理者方可處理個人信

息

A、取得個人的同意；

B、為訂立.履行個人作為一方當事人的合同所必需，或者

按照依法制定的勞動規章制度和依法簽訂的集體合同實施人力

資源管理所必需；

C、為履行法定職責或者法定義務所必需;

D、為應對突發公共衛生事件,或者緊急情況下為保護自然人的生命健康和財產安

全所必需；

E、為公共利益實施新聞報道.輿論監督等行為,在合理的范圍內處理個人信息；

F、依照本法規定在合理的范圍內處理個人自行公開或者其他已經合法公開的個

人信息；

G、法律.行政法規規定的其他情形。

答案：ABCDEFG

78.大數據四大特征：

A、速度快

B、數據量大

C、價值密度低

D、類型多

答案：ABCD

79.確定一個投資方案可行的必要條件是0。

A、凈現值大于零

B、現值指數大于1

C、投資回收期小于1年

D、內部報酬率較高

答案：AB

80.以下屬于聚類算法的是()

A、K均值

B、DBSCAN

C\Apriori

Dxk-medoids

答案：ABD

81.下列何種算法可以幫助我們做數值的預測(Prediction)?

A、Apriori

B、DecisionTree

CvNaiveBayes

D、LinearRegression

答案：BD

82.層次聚類的聚類方式有0

A、凝聚方式聚類

B、分解方式聚類

C、Q型聚類

D、R型聚類

答案：AB

83.有下列情形之一的,個人信息處理者應當事前進行個人信息保護影響評估,并

對處理情況進行記錄：

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

大數據挖掘分析專業考試復習題庫（含答案）

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

大數據挖掘分析專業考試復習題庫（含答案）

文檔簡介

溫馨提示

最新文檔

評論

相關文檔