




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
試卷科目:大數據挖掘技術練習大數據挖掘技術練習(習題卷13)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數據挖掘技術練習第1部分:單項選擇題,共51題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.在利用linear_model.LinearRegression()構造的reg對象訓練模型后,可以通過以下哪行代碼查看回歸模型系數()。A)reg._coefB)reg._coefficientC)reg.coefficient_D)reg.coef_答案:D解析:[單選題]2.屬于定量的屬性類型是A)標稱B)序數C)區間D)相異答案:C解析:[單選題]3.按A,B,C,D打分的考試成績數據屬于A)數值型(連續)B)數值型(離散)C)序數型(Ordinal)D)標稱型(Nominal)答案:C解析:[單選題]4.有如下SELECT語句:SELECT*FROM工資WHERE基本工資<=3000AND基本工資>=1000;,下列與該語句等價的是______。A)SELECT*FROM工資WHERE基本工資BETWEEN1000AND3000;B)SELECT*FROM工資WHERE基本工資BETWEEN3000AND1000;C)SELECT*FROM工資WHERE基本工資FROM1000INTO3000;D)SELECT*FROM工資WHERE基本工資FROM3000INTO1000;答案:A解析:[單選題]5.哪個選項是使用PyInstaller庫對Python源文件打包的基本使用方法()A)pip-hB)pipinstall<擬安裝庫名>C)pipdownload<擬下載庫名>D)pyinstaller需要在命令行運行:>pyinstaller<Python源程序文件名>答案:D解析:[單選題]6.線性回歸并沒有對數據的分布進行任何假設,而邏輯回歸隱含了一個基本假設:每個樣本均獨立服從于()A)泊松分布B)伯努利分布(0-1分布)C)高斯(正態)分布D)伽馬分布答案:B解析:[單選題]7.已知:則s的取值是A)10B)12C)13D)15答案:D解析:[單選題]8.以下哪個不是數據清理的方法()A)填充缺失值B)光滑噪聲C)識別離群點D)數據變換答案:D解析:[單選題]9.TCP/IP協議按照從底層到高層的順序,除了應用層之外,每一層都有與其相對應的PDU(ProtocolDataUnit,協議數據單元),依次為()A)Bit、Segment、Packet、FrameB)Bit、Frame、Packet、SegmentC)Packet、Bit、Frame、SegmentD)Bit、Packet、Frame、Segment答案:B解析:[單選題]10.分析判斷PGW是否存在業務受限的情況采用哪個指標A)PGW承載容量平均利用率B)PGW承載容量峰值利用率C)PGW平均負荷D)PGW數據吞吐容量利用率答案:B解析:[單選題]11.基于輸入的用戶信息,通過模型的訓練學習,找出數據中的規律和趨勢,以確定未來目標數據的預測值()A)聚類B)分類C)預測D)關聯答案:C解析:[單選題]12.下列有關Apriori算法的說法中不正確的是()A)Apriori算法是關聯分析中最常用的算法之一。B)應用Apriori算法時,需要先設定模型的最小支持度、最小置信度等閾值。C)應用Apriori算法時,輸入的數據可以是連續型數據也可以是離散型數據。D)Apriori算法掃描數據庫的次數依賴于最大頻繁項集中項的數量。答案:C解析:[單選題]13.在Requests庫的get()方法中,timeout參數用來約定請求的超時時間,請問該參數的單位是什么?A)分鐘B)毫秒C)秒D)微秒答案:C解析:題型:[單選題]14.某文本分類需求,存在一定的數據缺失情況且數據規模較小,能做增量式訓練要求的是哪種算法A)貝葉斯B)決策樹C)SVMD)邏輯回歸答案:A解析:[單選題]15.下列屬于數據挖掘任務的是()。A)根據年齡對顧客進行分組B)統計每個學生的平均成績C)協調公司各部門工作D)利用歷史記錄預測公司的未來股價答案:D解析:[單選題]16.以下關于人工神經網絡(ANN)的描述錯誤的有A)神經網絡對訓練數據中的噪聲非常魯棒B)可以處理冗余特征C)訓練ANN是一個很耗時的過程D)至少含有一個隱藏層的多層神經網絡答案:A解析:[單選題]17.皮爾森相關系數取值為()時說明兩個對象最不相似。A)-1B)0.05C)1D)0答案:A解析:[單選題]18.關于K均值和DBSCAN的比較,以下說法不正確的是()。A)K均值丟棄被它識別為噪聲的對象,而DBSCAN一般聚類所有對象。B)K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C)K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。D)K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是DBSCAN會合并有重疊的簇答案:A解析:[單選題]19.下面選項中t不是s的子序列的是()A)s=<{2,4},{3,5,6},{8}>B)s=<{2,4},{3,5,6},{8}>C)s=<{1,2},{3,4}>D)s=<{2,4},{2,4}>答案:C解析:[單選題]20.在基于圖的簇評估度量表里面,如果簇度量為proximity(Ci,C),簇權值為mi,那么它的類型是()。A)基于圖的凝聚度B)基于原型的凝聚度C)基于原型的分離度D)基于圖的凝聚度和分離度答案:C解析:[單選題]21.自然語言理解是人工智能重要應用領域,下面()不是人工智能要實現的目標A)理解人講的話B)對自然語言表示的信息分析概括C)欣賞音樂D)機器翻譯答案:C解析:[單選題]22.SQL語句中進行空值運算時,需要用到的短語是______。A)NULLB)ISNULLC)=NULLD)=ISNULL答案:B解析:[單選題]23.將多個指標轉化為少數幾個指標的一種統計分析方法是()。A)數據預處理;B)數據降維C)主成分分析D)假設檢驗答案:C解析:[單選題]24.()提供的支撐技術,有效解決了大數據分析、研發的問題,比如虛擬化技術、并行計算、海量存儲和海量管理等。A)點計算B)線計算C)云計算D)面計算答案:C解析:[單選題]25.關于DBSCAN聚類算法的描述錯誤的是()A)是一種基于密度的聚類算法B)能夠處理各種形狀和大小的簇C)能夠處理密度變化較大的簇D)處理高維數據時開銷較大答案:C解析:[單選題]26.市場部門提出高價值終端換機用戶的識別需求,利用某段時間的O域數據暫無法挖掘的特征是A)重度游戲用戶識別B)終端性能不匹配用戶識別C)高頻次換機用戶識別D)終端質差用戶識別答案:C解析:[單選題]27.多維空間中最適合的異常點檢測方法是A)正態分布圖B)等價圖C)馬氏距離D)散點圖答案:C解析:[單選題]28.貝葉斯決策是根據()進行決策的一種方法。A)極大似然概率B)先驗概率C)邊際概率D)后驗概率答案:D解析:[單選題]29.在Numpy包中,計算中位數的函數為()A)numpy.var()B)numpy.mean()C)numpy.std()D)numpy.median()答案:D解析:[單選題]30.終端分版本指標量化分析中,萬終端用戶投訴次數的定義為A)終端時間業務范圍內投訴量÷查詢終端總用戶數×10000B)終端時間范圍內投訴量÷查詢終端總用戶數×10000C)終端時間業務范圍內重復投訴用戶數÷查詢終端總投訴用戶數D)投訴用戶數÷終端用戶數×10000答案:A解析:[單選題]31.求?學生成績?數據表中的平均分,正確的SQL語句是______。A)SELECTMAX(成績)FROM學生成績;B)SELECTMIN(成績)FROM學生成績;C)SELECTAVG(成績)FROM學生成績;D)SELECTSUM(成績)FROM學生成績;答案:C解析:[單選題]32.下列關于大數據的分析理念的說法中,錯誤的是()A)在數據基礎上傾向于全體數據而不是抽樣數據B)在分析方法上更注重相關分析而不是因果分析C)在分析效果上更追究效率而不是絕對精確D)在數據規模上強調相對數據而不是絕對數據答案:D解析:[單選題]33.下面哪個關鍵字用來定義函數?A)functionB)defineC)defD)class答案:C解析:[單選題]34.字典對象的______________方法返回字典的?值?列表A)keys()B)key()C)values()D)items()答案:C解析:[單選題]35.根據性能管理應用落地手冊,在DNS解析環節中,問題定界為終端原因的Resultcode為()A)0B)1C)2D)5答案:B解析:[單選題]36.下列錯誤的是()A)查準率/準確率(precision):P=TP/(TP-FP)B)查準率(precision):被認定為正例的里面,判斷正確的比例C)查全率/召回率/靈敏度(recall):R=TP/(TP+FN)D)查全率(recall):真實正例里,被判斷出為正例的比例答案:A解析:[單選題]37.某小區60%居民訂晚報,45%訂青年報,30%兩報均訂,隨機抽一戶。則至少訂一種報的概率為()A)0.82B)0.85C)0.80D)0.75答案:D解析:[單選題]38.下面不屬于創建新屬性的相關方法的是:A)特征提取B)特征修改C)映射數據到新的空間D)特征構造答案:B解析:[單選題]39.下面列出的條目中,下列不是數據倉庫基本特征的是:()A)數據倉庫是面向主題的B)數據倉庫的數據是集成的C)數據倉庫的數據是非時變的D)數據倉庫的數據是非易失的答案:C解析:[單選題]40.以下不屬于聚類算法的是:A)K均值B)DBSCANC)AprioriD)Jarvis-Patrick(JP)答案:C解析:[單選題]41.一種商品價格變動與由此引起另外一種商品需求量相對變動的比率稱為()A)需求價格彈性B)供給價格彈性C)需求交叉彈性D)供給交叉彈性答案:C解析:[單選題]42.假設{BCE}為一頻繁項目集(FrequentItemset),則根據AprioriPrinciple以下何者不是子頻繁項目?A)BCB)CEC)CD)CD答案:D解析:[單選題]43.Requests庫中,下面哪個屬性代表了從服務器返回HTTP協議內容部分猜測的編碼方式?A)apparent_encodingB)encodingC)textD)headers答案:A解析:題型:[單選題]44.使用零均值規范化方法,年收入屬性的均值為65,標準差為12,則年收入59萬元規范化后為()。A)-0.2B)-0.5C)0.3D)0.5答案:B解析:[單選題]45.使用python處理缺失值的方法中敘述錯誤的是()。A)isnull()判斷缺失值B)dropna()刪除缺失值C)interpolate()使用中位數填充缺失值D)fillna()填充缺失值答案:C解析:interpolate()指用線性插值法[單選題]46.以下哪種算法是分類算法()。A)EMB)C4.5C)DBSCAND)K-Mean答案:B解析:[單選題]47.在基本K均值算法里,當鄰近度函數采用()的時候,合適的質心是簇中各點的中位數。A)曼哈頓距離B)平方歐幾里德距離C)余弦距離散度D)Bregman散度答案:A解析:[單選題]48.Hive通常被稱作()。A)數據地圖B)數據能力C)數據倉庫D)數據應用答案:C解析:[單選題]49.基本數據的元數據是指()A)基本元數據包括與數據源、數據倉庫、數據集市和應用程序等結構相關的信息B)基本元數據包括與企業相關的管理方面的數據和信息C)基本元數據包括日志文件和建立執行處理的時序調度信息D)基本元數據包括關于裝載和更新處理、分析處理以及管理方面的信息答案:A解析:[單選題]50.下面哪個屬于映射數據到新的空間的方法?A)傅立葉變換B)特征加權C)漸進抽樣D)維歸約答案:A解析:[單選題]51.有關頻繁項集的敘述中正確的是()。A)頻繁項集是滿足最小支持度閾值和最小置信度閾值的項集B)頻繁項集是滿足最小支持度閾值的項集C)頻繁項集是滿足最小置信度閾值的項集D)頻繁項集是任何項集答案:B解析:第2部分:多項選擇題,共17題,每題至少兩個正確答案,多選或少選均不得分。[多選題]52.關于VoLTE接通率指標,下面選項正確的是()A)VoLTE業務接入性指標B)可能受到用戶終端影響C)體現VoLTE用戶通話保持性D)可能受到用戶VoLTE業務開通影響答案:ABD解析:[多選題]53.關于IP地址,以下說法不正確的有()A)11/8是一個A類地址B)11/8是一個A類地址C)55是一個子網廣播地址D)是一個子網網絡地址答案:BCD解析:[多選題]54.在探索性數據分析中,認為最有代表性,最能反映數據重要特征的五數概括,包括:A)中位數Q2B)四分位數Q3C)最小值D)最大值答案:ABCD解析:[多選題]55.統計決策的基本原則是()A)可行性B)發展性C)合理性D)經濟性答案:ACD解析:[多選題]56.決策樹算法的優點有()A)計算量簡單,可解釋性強B)比較適合處理有缺失屬性值的樣本C)能夠處理不相關的特征D)減小了過擬合現象答案:ABC解析:[多選題]57.檢索student表中的前3條記錄信息,可以使用下面______SQL語句A)select*fromstudentlimit0,3;B)select*fromstudentlimit3,0;C)select*fromstudentlimit1,3;D)select*fromstudentlimit3;答案:AD解析:[多選題]58.物聯網端到端業務質量分析中系統功能需求中要求信令平臺至少包括A)關鍵指標監控B)用戶記錄查詢C)信令回溯D)用戶管理答案:ABC解析:[多選題]59.根據《中國移動大數據安全管控分類分級實施指南》,以下哪些數據屬于B類數據A)短信、彩信、話音等通信內容B)用戶通訊錄、好友列表、群組列表等用戶資料數據C)用戶上網訪問內容D)即時通信內容答案:ABCD解析:[多選題]60.關于基準收益率的表述,正確的是()A)基準收益率越高越好B)基準收益率越低越好,但不能低于銀行貸款利率C)可以采用項目加權平均資金成本為基礎確定基準收益率D)可以采用國家有關部門或行業統一發布的行業基準收益率答案:CD解析:[多選題]61.作為VoLTE語音方案中關鍵的信令和語音承載通道,以下那個網絡為用戶的語音業務實現端到端的QoS質量保障?A)EPCB)TDSCDMAC)IMSD)GSM答案:AC解析:[多選題]62.關聯規則的評價指標A)均方誤差B)均方根誤差C)支持度D)置信度答案:CD解析:[多選題]63.我們可以用哪種方式來避免決策樹過度擬合的問題?()A)利用修剪法來限制樹的深度B)利用盆栽法規定每個節點下的最小的記錄數C)利用逐步回歸法來刪除部分數據D)目前并無適合的方法來處理這問題答案:AB解析:[多選題]64.敏感性分析的計算指標有()A)盈虧平衡點B)敏感度系數C)臨界點D)凈現值答案:BCD解析:[多選題]65.以下哪個聚類分析的方法是利用統計學定義的距離進行度量()A)層次聚類法B)快速聚類法(K-Means)C)基于密度的聚類法D)基于網格的聚類法答案:AB解析:[多選題]66.大數據應用建設及運營過程中如發生數據安全問題,應立即暫停大數據應用建設或運營工作,向()部門匯報。A)互聯網部B)安監部C)法規部D)相關專業管理部門答案:ABCD解析:[多選題]67.()都屬于分裂的層次聚類算法。A)二分B)MSTC)ChameleonD)組平均答案:AB解析:[多選題]68.以下哪些地址是9/28子網內的主機可用地址?A)4B)9C)6D)1E)Noneoftheabove答案:AC解析:第3部分:判斷題,共20題,請判斷題目是否正確。[判斷題]69.聚類分析可以看作是一種非監督的分類。A)正確B)錯誤答案:對解析:[判斷題]70.在一定時期和一定產銷量范圍內,固定成本與產品的產銷量多少沒有關系,只有可變成本才與產品產銷量的增減變化發生關系。A)正確B)錯誤答案:對解析:[判斷題]71.分別是用戶給定的最小支持度和最小置信度的閾值。A)正確B)錯誤答案:對解析:[判斷題]72.無法刪除集合中指定位置的元素,只能刪除特定值的元素。A)正確B)錯誤答案:對解析:[判斷題]73.數據取樣時,除了要求抽樣時嚴把質量關外,還要求抽樣數據必須在足夠范圍內有代表性。()A)正確B)錯誤答案:對解析:[判斷題]74.給定由兩次運行K均值產生的兩個不同的簇集,誤差的平方和最大的那個應該被視為較優。A)正確B)錯誤答案:錯解析:[判斷題]75.決策樹中包含根結點、葉結點、內部結點和外部結點。A)正確B)錯誤答案:錯解析:[判斷題]76.主成分分析是一種在原來變量中篩選大貢獻率變量的方法A)正確B)錯誤答案:錯解析:[判斷題]77.Python集合可以包含相同的元素。A)正確B)錯誤答案:錯解析:[判斷題]78.尋找模式和規則主要是對數據進行干擾,使其符合某種規則以及模式。A)正確B)錯誤答案:錯解析:[判斷題]79.邏輯回歸模型是用來解決回歸問題的。A)正確B)錯誤答案:錯解析:[判斷題]80.已知x=list(range(20)),那么語句x[::2]=[]可以正常執行。A)正確B)錯誤答案:錯解析:[判斷題]81.使用Python列表的方法insert()為列表插入元素時會改變列表中插入位置之后元素的索引。A)正確B)錯誤答案:對解析:[判斷題]82.神經網絡對噪音數據具有高承受能力,并能對未經過訓練的數據具有分類能力,但其需要很長的訓練時間,因而對于有足夠長訓練時間的應用更合適。()A)正確B)錯誤答案:對解析:[判斷題]83.OLAP技術側重于把數據庫中的數據進行分析、轉換成輔助決策信息,是繼數據庫技術發展之后迅猛發展起來的一種新技術。()A)正確B)錯誤答案:對解析:[判斷題]84.以追加模式打開文件時,文件指針指向文件尾。A)正確B)錯誤答案:對解析:[判斷題]85.二進制文件不能使用記事本程序打開。A)正確B)錯誤答案:錯解析:[判斷題]86.在多元線性回歸模型中,變量顯著性檢驗(t檢驗)與方程顯著性檢驗(F檢驗)是一致的。A)正確B)錯誤答案:錯解析:[判斷題]87.使用歷史記錄預測某公司未來的股票價格,是數據挖掘任務。A)正確B)錯誤答案:對解析:[判斷題]88.資本成本就是資金的時間價值。A)正確B)錯誤答案:錯解析:第4部分:問答題,共12題,請在空白處填寫正確答案。[問答題]89.Python語句如下S1=[1,2,3,4]S2=[5,6,7]Print(len(s1+s2))以上代碼的運行結果是()答案:7;解析:[問答題]90.數據規范化有兩種常用方式____和____答案:均值-方差規范化|極差規范化解析:[問答題]91.決策樹的剪枝一般通過____決策樹整體的損失函數或代價函數來實現。答案:極小化解析:[問答題]92
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 降低留置針堵管發生率:PDCA質量持續改進
- 3-1組合邏輯電路的分析
- 福建省廈門市2023~2024學年高一數學下學期第二次月考試卷
- 四川省甘孜藏族自治州稻城縣2025年小升初數學高頻考點模擬卷含解析
- 山東省青島市膠州實驗2024-2025學年3月初三模擬考試語文試題含解析
- 上海電子信息職業技術學院《英語:寫作》2023-2024學年第二學期期末試卷
- 煙臺南山學院《工程法律實務》2023-2024學年第二學期期末試卷
- 山東省濰坊市諸城市2025年初三二診模擬物理試題試卷含解析
- 武漢海事職業學院《基礎醫學概論Ⅱ3(病理學)》2023-2024學年第一學期期末試卷
- 西安健康工程職業學院《跨文化交際理論導論俄》2023-2024學年第二學期期末試卷
- 五一安全教育主題班會
- 2025年高考英語二輪復習專題01 閱讀理解之細節理解題(課件)(新高考)
- GB/T 27030-2025合格評定第三方符合性標志的通用要求
- 國家衛計委-醫院感染管理質量控制指標2024年版
- 超星爾雅學習通《軍事理論(中北大學)》2025章節測試附答案
- 2025年鄭州澍青醫學高等專科學校單招職業適應性測試題庫新版
- 預制菜烹飪知識培訓課件
- 教學設計-3.7函數圖形的描繪
- 《數字資源利用》課件
- 《馬達保護器培訓》課件
- 消防安全重點單位管理
評論
0/150
提交評論