人工智能自然語言技術練習(習題卷7)_第1頁
人工智能自然語言技術練習(習題卷7)_第2頁
人工智能自然語言技術練習(習題卷7)_第3頁
人工智能自然語言技術練習(習題卷7)_第4頁
人工智能自然語言技術練習(習題卷7)_第5頁
已閱讀5頁,還剩49頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

試卷科目:人工智能自然語言技術練習人工智能自然語言技術練習(習題卷7)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能自然語言技術練習第1部分:單項選擇題,共116題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.sigmoid激活函數在反向傳播是可能會造成梯度消失,那么以下哪個激活函數可以對其進行改進A)coshB)sinC)tanhD)sigmoid答案:C解析:[單選題]2.BERT中遮蔽了多少詞A)10%B)12%C)15%D)20%答案:C解析:[單選題]3.()函數用于搜索搭配詞語。A)concordanceB)common_contextsC)collocationsD)Sorted答案:C解析:[單選題]4.什么是SVM,如何去理解SVMA)一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別B)兩個變量之間的關系是二次函數的關系,圖像是條拋物線C)兩個變量之間的關系是一次函數關系的關系D)它是一種二類分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器,其學習策略便是間隔最大化,最終可轉化為一個凸二次規劃問題的求解答案:D解析:[單選題]5.以下幾種說法當中,關于隨機森林的說法錯誤的是A)隨機森林的結果是多數表決表決的B)隨機森林對異常值不敏感C)隨機森林是減少模型的方差D)組成隨機森林的樹可以串行生成答案:D解析:[單選題]6.怎樣解決梯度消失A)對于RNN,可以通過梯度截斷,避免梯度消失B)可以通過添加正則項,避免梯度爆炸C)使用LSTM等自循環和門控制機制,避免梯度爆炸D)優化激活函數,譬如將sigmold改為relu,避免梯度消失答案:D解析:[單選題]7.Transformer的編碼層是總共是有幾層構成的A)1B)2C)3D)4答案:B解析:[單選題]8.小概率事件怎么理解?()A)發生可能性不大的事件B)發生可能性大的事件C)發生可能性不去確定的事件D)以上都正確答案:A解析:[單選題]9.SVM中的泛化誤差代表什么?A)分類超平面與支持向量的距離B)SVM對新數據的預測準確度C)SVM中的誤差閾值D)不確定答案:B解析:[單選題]10.大五碼非漢字區第一字節ASCII碼的范圍()A)161-163B)64-126C)164-249D)161-254答案:A解析:[單選題]11.基于()的n-gram模型參數空間最小,可以構造高元模型,用于描述長距離的語言約束關系A)詞性B)詞C)詞自動聚類D)其余三項都可以答案:A解析:[單選題]12.以下哪種模型是自然語言處理后Bert時代的預訓練模型A)Word2VecB)RNNC)XLNetD)LSTM答案:C解析:[單選題]13.樸素貝葉斯分類的思想A)使用訓練數據構造決策樹進行分類B)利用先驗知識層層迭代,窮舉所有的可能C)利用貝葉斯定理,使用先驗概率求后驗概率D)相似的對象分到一類中答案:C解析:[單選題]14.詞法分析器的輸出結果就是()A)記號B)相應條目在符號表中的位置相應條目在符號表中的位置C)記號與屬性二元組D)屬性值答案:C解析:[單選題]15.關系抽取中通過實體去尋找句子中的幾元組模型A)1B)2C)3D)4答案:C解析:[單選題]16.下列幾個說法表示K-NN的優點?A)對內存要求較高,因為該算法存儲了所有訓練數據B)簡單易用,相比其他算法,KNN算是比較簡潔明了的算法。即使沒有很高的數學基礎也能搞清楚它的原理。C)預測階段可能很慢D)對異常值敏感答案:B解析:[單選題]17.步長strides=[1,3,3,1]能是張量縱向移動()A)1像素B)4像素C)3像素D)2像素答案:C解析:[單選題]18.LSTM可以做特征提取,在以下的幾個模型當中,哪個模型中使用到了A)bertB)GPTC)GPT-2D)ELMO答案:D解析:[單選題]19.softmax是多分類中常用的函數,它又叫什么函數A)概率B)歸一化C)損失函數D)空間答案:B解析:[單選題]20.屬于特征提取方法的是()。A)BOW模型B)數據標準化C)訓練模型D)模型融合答案:A解析:[單選題]21.線性回歸一般形式為Y=W*X+b,值域在[-∞,+∞],那么可以通過以下哪種方式進行分類呢A)加入非線性變換sigmoidB)再加入一個線性變化C)加入一個正則化D)使用均方誤差作為損失答案:A解析:[單選題]22.tensorflow里的函數con1d是進行什么操作A)二維卷積B)一維卷積C)GRU操作D)lstm操作答案:B解析:[單選題]23.什么是特征工程,如何去理解特征工程A)特征工程就是對原始的數據做一系列的處理B)特征工程就是使用各種算法實現結果C)特征工程就是聚類和降維D)特征工程就是回歸和分類答案:A解析:[單選題]24.以下關于LDA和PCA兩個模型的相同點描述正確的是?A)兩者均可以對數據進行降維B)都屬于無監督學習C)都屬于有監督學習D)都可以即做分類又做回歸答案:A解析:[單選題]25.以下四個選項中描述的是PCA缺點的是哪個?A)僅僅需要以方差衡量信息量,不受數據集以外的因素影響B)各主成分之間正交,可消除原始數據成分間的相互影響的因素。C)主成分各個特征維度的含義具有一定的模糊性,不如原始樣本特征的解釋性強。D)計算方法簡單,主要運算是特征值分解,易于實現。答案:C解析:[單選題]26.tf.Graph.finalize()的作用是什么A)返回圖中的操作節點列表B)為節點創建層次化的名稱,并返回一個上下文管理器C)返回圖中的操作節點列表D)完成圖的構建,即將其設置為只讀模式答案:D解析:[單選題]27.在調整NNLM的權重時,使用的方法是什么A)BP+SGDB)BPC)SGDD)BP+BGD答案:A解析:[單選題]28.掃描器所完成的任務就是從字符串形式的源程序中識別出一個個具有獨立含義的最小語法單位即()A)字符B)單詞C)句子D)句型答案:B解析:[單選題]29.sigmoid激活函數的模型曲線是()?A)X型B)S型C)U型D)L型答案:B解析:[單選題]30.謂詞相關特征之一()A)動詞原形B)語態C)父類框架D)謂語動詞答案:B解析:[單選題]31.對于k-NN分類器,以下哪個陳述是正確的?A)k值越大,分類精度越好B)k值越小,決策邊界越光滑C)決策邊界是線性的D)k-NN不需要顯式的訓練步驟答案:D解析:[單選題]32.XGBoost雖然也是個算法,但是這個算法的本質其實是很么算法A)隨機森林B)GBDTC)線性回歸D)邏輯回歸答案:B解析:[單選題]33.使用了mini-batch后,可以得到怎樣的下降效果?A)損失函數值一直下降B)損失函數值總體趨勢下降C)比梯度下降速度快D)梯度下降不明顯答案:B解析:[單選題]34.現有一份大小為n的數據集,如果采用mini-batch的方式,那么它的大小應該是多少A)1B)mC)0D)大于2,小于m答案:A解析:[單選題]35.交叉檢驗的方法不包括以下幾項A)口頭信息、書面信息與實際狀況之間的驗證B)不同數據和信息之間的關系的合理性驗證C)不同時間的關聯數據之間的合理性驗證D)同一個人對不同問題提供的信息的驗證答案:D解析:[單選題]36.Word2Vec常用到中文同義詞替換,以下說法錯誤的是A)Word2Vec基于概率統計B)Word2Vec結果符合當前預料環境C)Word2Vec得到的都是語義上的同義詞D)Word2Vec受限于訓練語料的數量和質量答案:C解析:[單選題]37.多分類問題的最后一層一般用什么激活函數A)sigmoidB)tanhC)softmaxD)relu答案:C解析:[單選題]38.()根據文本的不同特征劃分為不同的類A)文本概括B)文本分類C)文本聚類D)都可以答案:C解析:[單選題]39.以下四個選項當中,關于帶有深度限制的按葉子生長(leaf-wise)算法,主要做了什么事情,描述正確的是?A)增加了一個最大深度的限制,在保證高效率的同時防止過擬合B)先把連續的浮點特征值離散化成k個整數,同時構造一個寬度為k的直方圖C)不確定D)以上都正確答案:A解析:[單選題]40.決策樹算法的缺點是()。A)學習時間長,且效果不可保證B)易出現過擬合,易忽略數據集屬性的相關性C)時空復雜度高,樣本容量較小或數據集偏斜時容易誤分D)對非線性問題沒有通用解決方案答案:B解析:[單選題]41.概率圖中的有向邊表示的是什么A)表示單向的依賴B)表述互相依賴關系C)表示無依賴關系D)不確定答案:A解析:[單選題]42.決策樹有很多的優點,但是它也有缺點那么,構建決策樹時有可能會造成什么缺點A)可能會對缺失值很敏感B)無法處理不相關的數據C)可能產生過渡匹配問題D)計算的復雜度很高答案:C解析:[單選題]43.LSTM的輸出有兩個:當前時刻LSTM輸出值、和()A)輸入門B)遺忘門C)當前時刻的單元狀態D)更新門答案:C解析:[單選題]44.詞性標注最困難的是:()A)兼類詞B)外來詞C)新詞D)未登錄詞答案:A解析:[單選題]45.神經網絡的訓練過程,經常要做數據劃分,以下說法正確的是?A)可以不設置訓練集B)可以不設置測試集C)可以不設置驗證集D)不確定答案:C解析:[單選題]46.下列關于doc2vec算法的描述錯誤的是?()A)DM模型在給定上下文和文檔向量的情況下預測單詞的概率B)DM模型在訓練時,首先將每個文檔的ID和語料庫中的所有詞初始化一個K維的向量C)DBOW模型的訓練方法是忽略輸入的上下文,讓模型去預測段落中的隨機一個單詞D)在預測單詞的概率時,利用了部分文檔的語義。答案:D解析:[單選題]47.SVM的應用也很廣泛,支持向量機(SVM)是一個什么算法A)分類B)回歸C)聚類D)降維答案:A解析:[單選題]48.在決策樹的可視化中可以用以下哪個獲取決策樹葉子節點的個數A)plotTreeB)plotNodeC)getTreeDepthD)getNumLeafs答案:D解析:[單選題]49.異質集成(系統中個體學習器的類型不同)中,個體學習器又被稱為?組建學習(componentlearner)?A)基學習器B)組建學習C)不能判斷D)以上都正確答案:B解析:[單選題]50.tanh的取值范圍是多少?A)+1和-1B)+0和-1C)+1和0D)+2和-2答案:A解析:[單選題]51.在自然語言中,主要應用到的是深度學習神經網絡是以下哪個A)ANNB)CNNC)RNND)XNN答案:C解析:[單選題]52.在優化算法中,學習率會:A)保持不變B)持續減小C)持續增大D)不變答案:B解析:[單選題]53.NiLTK的安裝步驟為()。A)安裝NLP虛擬環境→安裝NLTK一→檢查是否存在NLTK→下載NLTK數據包B)安裝NLTK→安裝NLP虛擬環境→檢查是否存在NLTK→下載NLTK數據包C)安裝NLP虛擬環境一安裝NLTK一下載NLTK數據包一檢查是否存在NLTKD)下載NLTK數據包→安裝NLP虛擬環境→安裝NLTK→檢查是否存在NLTK答案:A解析:[單選題]54.關于機器學習的聚類中的肘部法則是指()A)就是從K值和代價函數J的二維圖中找出J下降變平滑的拐點對應的K值。B)最大K值C)最小K值D)隨機K值答案:A解析:[單選題]55.常用的激活函數,修正線性單元指的是以下哪個選項?A)sigmoidB)tanhC)reluD)leakyrelu答案:C解析:[單選題]56.可以實現關鍵詞歸一化的技術是__?A)詞形還原(Lemmatization)B)探測法(Soundex)C)余弦相似度(CosineSimilarity)D)N-grams答案:A解析:詞形還原有助于得到一個詞的基本形式,例如:playing->play,eating->eat等;其他選項的技術都有其他使用目的。[單選題]57.不屬于情感分析應用的是()。A)信息檢索B)遠程通信C)機器翻譯D)語音識別答案:B解析:[單選題]58.以下哪種方法中,模型參數不是根據在某個語料庫上通過統計計數得到。A)Witten-Bell算法B)Good-Turing估計C)扣留估計D)線性折扣算法答案:C解析:[單選題]59.NLP任務的標準流程中第一步是做什么A)預處理B)特征提取C)特征工程D)wordembedding答案:A解析:[單選題]60.下列哪個不屬于常用的文本分類的特征選擇算法?()A)卡方檢驗值B)互信息C)信息增益D)主成分分析答案:D解析:[單選題]61.BeamSearch(集束搜索)的作用A)增加在空間的消耗B)增加搜索的時間C)減少準確率D)減少搜索所占用的空間和時間答案:D解析:[單選題]62.處理文本詞的時候,經常會遇到衡量詞不全面,那么TF-IDF可以怎么解決A)使用one-hotB)使用bagofwordC)使用Word2VecD)不確定答案:C解析:[單選題]63.Adam算法的核心是A)強化了RMSprop算法B)強化了動量梯度算法C)同時使用Momentum和RMSprop算法D)沒有核心答案:C解析:[單選題]64.以下哪個算法,既可以做分類又可以做降維A)PCAB)LDAC)K-MeansD)SVM答案:D解析:[單選題]65.導出數據Data到微軟的Excel文件,pandas用到的方法是A)A:df.to_csv()B)B:df.to_excel()C)C:df.to_sql()D)D:df.to_json()答案:B解析:[單選題]66.tf.Graph.get_operations()的作用是什么A)返回圖中的操作節點列表B)為節點創建層次化的名稱,并返回一個上下文管理器C)返回圖中的操作節點列表D)完成圖的構建,即將其設置為只讀模式答案:C解析:[單選題]67.在應用高斯核SVM之前,通常都會對數據做正態化(normalization),下面對特征正態化的說法哪個是正確的?1.對特征做正態化處理后,新的特征將主導輸出結果2.正態化不適用于類別特征3.對于高斯核SVM,正態化總是有用A)1B)1和2C)1和3D)2和3答案:B解析:[單選題]68.專家系統是一個復雜的智能軟件,它處理的對象是用符號表示的知識,處理的過程是()的過程。A)思考B)回溯C)推理D)遞歸答案:C解析:[單選題]69.語料庫的加工方式不包括A)人工方式B)半自動方式C)自動方式D)干預方式答案:D解析:[單選題]70.下列哪項不是文本分析的過程步驟?()A)詞法分析B)句法分析C)文本分析D)語義分析答案:C解析:馬鈴薯是是蔬菜。[單選題]71.在NLP任務當中機器翻譯任務所使用的的模型屬于什么模型A)基于統計的語言模型B)基于神經網絡的語言模型C)預訓練模型D)編解碼模型答案:A解析:[單選題]72.關于k-NN算法的應用,以下說法正確的是?A)可用于分類B)可用于回歸C)可用于分類和回歸D)聚類答案:C解析:[單選題]73.下面哪個網絡常用于NLP任務中A)ANNB)CNNC)RNND)XNN答案:C解析:[單選題]74.下列關于基尼系數和熵說法正確的是A)基尼系數更偏向于連續值B)熵更偏向于離散值C)基尼系數的計算需要對數的運算D)熵運算起來更加的高效答案:A解析:[單選題]75.不同于通常涉及大量的規則編碼的早期嘗試語言處理,現代NLP算法是基于()A)自動識別B)機器學習C)模式識別D)算法輔助答案:B解析:[單選題]76.以下哪個選項的框架對Cache命中率優化A)XGBoostB)隨機森林C)GBDTD)LightGBM答案:D解析:[單選題]77.在反向傳播中,會出現誤差逐漸變小,使得網絡層的學習速率越來越低,這種現象被稱為什么A)梯度上升問題B)梯度優化C)梯度消失問題D)梯度下降法答案:C解析:[單選題]78.歸一化的公式方式為:A)通過中值和均值進行確定B)通過平均值和最小值確定C)通過方差和均值確定D)通過標準差和均值確定答案:C解析:[單選題]79.以下四個選項中代表的隨機森林縮寫的是哪個?A)RFB)GBDTC)XGBoostD)LightGBM答案:A解析:[單選題]80.以下幾個模型中哪個模型在建模的時候與詞的位置無關A)OpenAIGPTB)ELMoC)BERTD)ULMFit答案:C解析:BERTTransformer架構將句子中每個詞和所有其他詞之間的關系建模,以生成注意力分數。這些注意力分數隨后被用作所有詞表示的加權平均值的權重,它們被輸入到完全連接的網絡中以生成新的表示。[單選題]81.預訓練模型的思路說法正確的是__?A)特征提取的地層差異性比較大B)所有的任務都是一樣的C)在做特征提取的時候,底層的特征的提取往往是極其相似的D)以上都正確答案:A解析:[單選題]82.下面哪個不是常用的分類器A)lassoB)SVCC)HMMD)CRF答案:A解析:[單選題]83.怎么去理解?非線性?A)兩個變量之間的關系是一次函數的關系B)圖像是條直線C)兩個變量之間的關系不是是一次函數的關系D)不確定答案:C解析:[單選題]84.下面哪個函數的現狀是S曲線型的A)Sigmoid函數B)tanh函數C)ReLUD)cosh答案:C解析:[單選題]85.下列幾個選項中,關于RMSprop算法的特點描述正確的優哪些?A)指數加權平均數求和B)指數加權平均數先平方再開方C)指數加權平均數求微分D)指數加權平均數求均方誤差答案:B解析:[單選題]86.以下四個選項中能實現對比兩個矩陣是否相等的是哪個函數?A)c=tf.greater(a,b)B)a=tf.subtract(a,b)C)b=tf.equal(a,b)D)d=tf.matmul(a,b)答案:C解析:[單選題]87.關于NLP中常用的Glove說法錯誤的是A)可以學習的到詞向量B)學習得到的詞向量可以區分一詞多意C)通過局部數據來訓練計算的D)通過全局數據來統計共現概率答案:C解析:[單選題]88.什么是正則表達式?()A)正確表達式B)程序員經常使用的編程語言表達式的集合C)一種排序算法D)用來匹配文本字符串(如特定字符、單詞或字符模式)的一種工具答案:D解析:[單選題]89.常用的特征縮放方法是()A)原始特征減去其平均值,然后除于其標準差B)同時除于一個極大值C)同時除于一個極小值D)原始特征減去平均值答案:A解析:[單選題]90.馬爾可夫模型的基本特征不包括A)無后效性B)遍歷性C)吸收性D)相關性答案:D解析:[單選題]91.在語義網絡中,用()來標明類與子類之間的關系。A)實例聯系B)泛化聯系C)聚集聯系D)屬性聯系答案:B解析:[單選題]92.馬爾可夫模型的三個基本問題不包括A)估值問題B)尋找狀態序列C)學習模型參數D)學習模型參數答案:D解析:[單選題]93.以下四個選項中,找出一個與其他三個不相同的模型A)ELMoB)GPTC)BERTD)Nltk答案:D解析:[單選題]94.關于K-Means以下說法正確的是?A)是無監督學習B)是有監督學習C)是半監督學習D)是強化學習答案:A解析:[單選題]95.提取關鍵詞的常見方法是()A)詞頻B)標簽C)分詞D)關鍵字答案:A解析:[單選題]96.以下哪些方法不可以直接來對文本分類?A)KmeansB)決策樹C)支持向量機D)KNN答案:A解析:[單選題]97.假如經過測試后發現模型欠擬合了,以下哪種做法是不正確的A)增加新特征B)減少正則化參數C)選擇更好的模型D)加入Dropout答案:D解析:[單選題]98.下列是對于Batch歸一化的描述,其中它的流程步驟不包括下列哪個選項?A)求每個訓練批次數據的均值B)求每個訓練批次數據的方差C)使用求得的均值和方差對該批次的訓練數據做歸一化,獲得0-1分布D)求每個訓練批次的和答案:D解析:[單選題]99.在RNN循環神經網絡中,在反向傳播過程中很容易發生梯度消失現象,它與什么因素相關A)激活函數求導B)學習率C)批處理數D)網絡層數答案:A解析:[單選題]100.K-NN中的K可以代表什么意思A)代價B)學習率C)不確定D)K個最近的鄰居答案:D解析:[單選題]101.通過以下哪種方式可以得到加權平均值A)局部平均值B)局部方差C)全局平均值D)全局方差答案:A解析:[單選題]102.tf.cast函數的返回值數據類型是什么A)整數型B)布爾型C)浮點型D)字符串答案:C解析:[單選題]103.神經網絡中常用的dropout函數,下列選項中關于它的描述正確的是?A)屬于正則處理B)一個激活函數C)用于分割數據集D)用于將數據樣本多樣化答案:A解析:[單選題]104.基于轉換的錯誤驅動的學習算法如下:(1)初始標注;(2)獲取規則;(3)生成候選規則集;它們是按照什么順序進行的?A)(1)(2)(3)B)(1)(3)(2)C)(2)(1)(3)D)(2)(3)(1)答案:B解析:[單選題]105.知識圖譜中的邊稱為?A)連接邊B)關系C)屬性D)特征答案:B解析:[單選題]106.在處理文本是,關于NLP中句法結構分析的說法正確的是A)神經網絡可以準確地確定句子的句法結構B)機器學習的KNN算法就可以獲取到句子的句法結構C)機器學習的K-Means算法就可以獲取到句子的句法結構D)不確定答案:A解析:[單選題]107.算法經常出現過擬合,以下四個選項中,哪個不容易陷入過擬合A)未剪枝的決策樹B)隨機森林C)不加正則的線性回歸D)不加正則的邏輯回歸答案:B解析:[單選題]108.tf.Variable(tf.random_normal([20,10,5,16])),在該操作中,關于定義的卷積核高度是多少?A)10B)6C)16D)20答案:D解析:[單選題]109.如果文法中的每一條產生式A→β的形式,其中A是一個非終結符,β是終結符和/或非終結符組合(例如,Y→y),那么這種文法就稱為A)0型文法B)1型文法C)2型文法D)左線性文法答案:C解析:[單選題]110.以下哪個方法可以在文本當中提取到人名,地名等A)詞干提取(Stemming)B)詞形還原(Lemmatization)C)停用詞消除(StopWordRemoval)D)命名實體識別(NamedEntityRecognition)答案:D解析:[單選題]111.在工業應用中經常會碰到NLP中的文本分類,文本分類屬于以下哪種任務?A)分類B)回歸C)聚類D)降維答案:A解析:[單選題]112.對于超參數隨機取值指的是?A)隨機選擇標尺取值B)隨機取值就是有效范圍內隨機均勻取值C)選擇合適的標尺進行取值D)隨機的進行均勻的取值答案:C解析:[單選題]113.在執行了以下的文本清理步驟之后,可從下面的語句中生成多少三元組短語(trigram):停用詞移除使用單一空格替換標點符號「#Analytics-vidhyaisagreatsourcetolearn@data_science.」A)3B)4C)5D)6答案:C解析:在執行了停用詞移除和標點符號替換之后,文本變成:「Analyticsvidhyagreatsourcelearndatascience」,三元組短語--Analyticsvidhyagreat,vidhyagreatsource,greatsourcelearn,sourcelearndata,learndatascience[單選題]114.線性回歸使用的目標函數是以下哪個A)信息增益B)信息熵C)交叉熵D)均方誤差答案:D解析:[單選題]115.通常的語義角色標注分為()個步驟:①識別、②分類、③剪枝、④后處理A)①②③④B)①③④C)①②④D)①④答案:A解析:[單選題]116.如何去理解牛頓法?A)實現簡單,當目標函數是凸函數時,梯度下降法的解是全局解。一般情況下,其解不保證是全局最優解,梯度下降法的速度也未必是最快的B)是一種在實數域和復數域上近似求解方程的方法C)改善每次需要求解復雜的Hessian矩陣的逆矩陣的缺陷,它使用正定矩陣來近似Hessian矩陣的逆,從而簡化了運算的復雜度D)不確定答案:B解析:第2部分:多項選擇題,共57題,每題至少兩個正確答案,多選或少選均不得分。[多選題]117.網絡結構分別都有哪些形式,以下選項中正確是?A)星形結構:具有一個中心結點,所有通訊都通過它。B)環形結構:網絡結點連成一個封閉的環形。C)總線結構:具有一個共享總線,所有結點掛在上面,又稱樹形結構D)以上都正確答案:ABCD解析:[多選題]118.關于激活函數sigmoid的說法,以下正確的有哪些?A)將負的權值映射到正值B)將輸出數據壓縮到[0,1]集合范圍C)能解決非線性分類問題D)將正權值映射到負數答案:ABC解析:[多選題]119.語言模型分為哪幾類A)統計的語言模型B)機器學習的語言模型C)神經網絡的語言模型D)不確定答案:AC解析:[多選題]120.關于數據集DataSet的一般特性有哪些():A)連續性B)維度C)稀疏性D)分辨率答案:BCD解析:[多選題]121.seq2seq可以做機器翻譯等之類的NLP任務,那么在編碼器中可以用以下哪些模型做特征提取?A)CNNB)RNNC)LSTMD)SVM答案:ABC解析:[多選題]122.如果使用到了mini-batch,那么每次選擇的批量大小為多少是比較合適的?A)16B)32C)64D)128答案:ABCD解析:[多選題]123.關于KNN算法,下列說法正確的是()A)無需參數估計,無需訓練B)既能解決分類問題也能解決回歸問題C)對變量之間的共線性比較敏感D)可解釋性較差,無法給出像決策樹那樣的規則答案:ABCD解析:[多選題]124.以下四個選項當中,關于LDA說法正確的是A)可以通過經驗主觀判斷、不斷調試、操作性強、最為常用,的方式確定LDA中Topic的個數B)包含線性判別分析,概率主題模型,兩種含義C)LDA中包含一個gamma函數D)以上都正確答案:ABCD解析:[多選題]125.人工智能中有三大主義,其中連接主義中,以下描述正確的是哪些?A)基礎理論是神經網絡B)深度學習屬于連接主義C)又稱仿生學派D)產生在20世紀50年代產生答案:ABCD解析:[多選題]126.數據切分階段中,下列關于數據的訓練集和驗證集的劃分,描述正確的有哪些?A)不一定需要驗證集B)數據集數量較少時,訓練集和測試集比例可以是7:3C)任何數量的數據集,都應遵守訓練集和測試集比例7:3的原則D)大數據量的驗證集,可以不遵循訓練集和測試集比例7:3的原則答案:ABD解析:[多選題]127.NLP在工業中的應用A)語音識別B)自動翻譯C)控制裝置D)人臉識別答案:ABC解析:[多選題]128.文本表示分類(基于表示方法)A)短文本表示B)One-hot表示C)詞表示D)CBOW答案:BD解析:[多選題]129.LightGBM為什么在Leaf-wise之上增加一個最大深度的限制A)高效率B)低效率C)防止過擬合D)防止欠擬合答案:AC解析:[多選題]130.SVM在工業中有廣泛的應用,以下說法正確的是A)文本分類B)圖片分類C)新聞聚類D)以上都對答案:ABCD解析:[多選題]131.以下幾種網絡中,哪些屬于神經網絡A)NN(標準神經網絡)B)CNN(卷積神經網絡)C)RNN(循環神經網絡)D)以上都是答案:ABCD解析:[多選題]132.模型評估方法有哪些?A)Holdout檢驗B)不確定C)自助法D)交叉檢驗答案:ACD解析:[多選題]133.以下選項中,哪些是自然語言處理的應用?A)輿情分析B)文本分類C)自動文摘D)問答系統答案:ABCD解析:[多選題]134.概率圖模型中的邊可以分為哪幾種A)有向邊B)不確定C)無向邊D)以上都正確答案:AB解析:[多選題]135.下列選項中關于高維數據處理描述正確的是?A)為了提高復雜關系的擬合能力B)在特征工程中經常會把一階離散特征兩兩組合C)構成高階組合特征D)以上都正確答案:ABCD解析:[多選題]136.LightGBM中使用了直方圖操作,這樣的好處是什么A)最明顯就是內存消耗的升高B)直方圖算法不僅不需要額外存儲預排序的結果C)可以只保存特征離散化后的值D)以上都正確答案:BC解析:[多選題]137.自然語言處理的主要難點不包括以下哪兩項A)語言獨立性B)語言歧義性C)多國語言D)語境答案:AC解析:[多選題]138.以下選項中關于集合外一個點,到該集合的距離,描述正確的是哪些選項A)是該點到集合邊界點的最短距離B)是該點到集合內所有點的最短距離C)是該點到集合內任意一點的距離D)是該點到集合內非邊界點的某點的距離答案:AB解析:[多選題]139.ELMO的優缺點分別都有哪些A)解決了一詞多意B)適用范圍廣C)LSTM特征提取能力比Transformer若D)拼接的方式雙向融合能力偏弱答案:ABC解析:[多選題]140.以下()是NLP的應用場景。A)百度翻譯B)圖靈機器人C)微信語音轉文字D)新聞分類答案:ABCD解析:[多選題]141.下列關于LightGBM有什么優點,說法正確的是A)更快的訓練速度B)更低的內存消耗C)更好的準確率D)分布式支持,可以快速處理海量數據答案:ABCD解析:[多選題]142.深度學習文本分類方法有哪些A)特征工程B)TextCNNC)分類器D)FastText答案:BD解析:[多選題]143.以下算法,屬于分類器都有哪些??A)樸素貝葉斯B)最大熵C)SVMD)神經網絡答案:ABCD解析:[多選題]144.BP算法中最重要的兩個環節,分別是什么?A)激勵傳播B)權重更新C)信息傳播D)激活函數答案:AB解析:[多選題]145.過擬合既然是不好的現象,我們應該如何解決A)增加樣本數量B)加入正則化C)Dropout降低模型復雜度D)減少迭代次數答案:ABCD解析:[多選題]146.聚類算法中應該注意的問題有哪些A)C值如何確定B)初始質心的選取C)質心的計算D)算法停止的條件答案:ABCD解析:[多選題]147.循環神經網絡包含以下哪幾種A)RNNB)CNNC)LSTMD)GRU答案:ACD解析:[多選題]148.下列四個選項中,哪些選項屬于激活函數A)reluB)dropoutC)sigmoidD)softmax答案:ABCD解析:[多選題]149.在預處理階段,我們一般將數據集分為哪幾個類別A)訓練集B)驗證集C)測試集D)批處理集答案:ABC解析:[多選題]150.常用的聚類方法有()A)KMeansB)感知機C)NBMD)DBSCAN答案:AD解析:[多選題]151.無監督學習是機器學習算法中一個大分支,那么以下幾個選項中屬于無監督學習的是A)聚類B)降維C)分類D)回歸答案:AB解析:[多選題]152.以下四個選項中,經典的概率模型有哪些?A)不確定B)古典概型C)幾何概型D)以上都正確答案:BC解析:[多選題]153.類別特征處理,可以使用以下哪些方式A)序列編號B)線性回歸C)獨熱編碼D)SVM答案:AC解析:[多選題]154.以下關于概率圖模型的表述正確的是A)有向圖:貝葉斯網絡B)有向圖:馬爾可夫隨機場C)無向圖:貝葉斯網絡D)無向圖:馬爾可夫隨機場答案:AD解析:[多選題]155.以下四個算法中,有哪些算法是屬于決策樹算法的A)SVMB)ID3C)C4.5D)CART答案:BCD解析:[多選題]156.以下哪幾個?門?屬于LSTMA)輸入門B)遺忘門C)輸出門D)更新門答案:ABC解析:[多選題]157.在神經網絡中,如果單個神經元能解決什么問題A)與B)或C)非D)異或答案:ABC解析:[多選題]158.神經風格遷移也有非常廣泛的應用,其中神經風格遷移過程包括?A)創建網絡B)損失函數最小化C)梯度下降過程LOSS最小化D)數據清洗答案:ABC解析:[多選題]159.下列關于網絡模型訓練中的梯度消失問題,描述錯誤的都有哪些選項?A)梯度下降會增加學習次數B)多使用梯度爆炸,增加計算效率提升模型準確率C)梯度下降可以減少計算量,建議使用D)梯度爆炸會增大計算量,編寫代碼時避免梯度爆炸答案:BC解析:[多選題]160.以下四個選項中,可以把關鍵詞轉化為其基本形式的方法有哪些A)詞形還原(Lemmatization)B)LevenshteinC)詞干提取(Stemming)D)探測法(Soundex)答案:AC解析:[多選題]161.常用分類器有哪些A)樸素貝葉斯B)最大熵C)SVMD)神經網絡答案:ABCD解析:[多選題]162.文本向量化的兩種表示方法是。()A)獨熱編碼B)Z-ScoreC)歸一化D)詞嵌入答案:AD解析:[多選題]163.概率圖模型中的生成式模型與判別式模型在統計學角度與相比,有什么優點?A)適用較多類別的識別B)能更充分利用先驗知識C)分類邊界更靈活D)研究單類問題靈活性強答案:BD解析:[多選題]164.谷歌開源出來的BERT,一般可以用于下列哪些任務A)情感分析B)垃圾郵件過濾C)命名實體識別D)問答系統答案:ABCD解析:[多選題]165.以下是針對k-NN算法給出的兩條陳述,其中哪一條是真的?A)我們可以借助交叉驗證來選擇k的最優值B)不能判斷C)歐氏距離對每個特征一視同仁D)以上都正確答案:AC解析:[多選題]166.智能問答系統主要依靠的關鍵基礎和技術包括以下哪些選項?()A)大量高質量的數據和知識B)強大的自然語言處理技術C)強大的機械語言處理技術D)需要大量的標準訓練語料答案:ABD解析:[多選題]167.搜索是常見的NLP應用,那么以下幾個選項中,哪些可能是實現搜索的一部分A)用協同過濾模型(CollaborativeFilteringmodel)來檢測相似用戶表現(查詢)B)在術語中檢查Levenshtein距離的模型C)將句子譯成多種語言D)不確定答案:AB解析:[多選題]168.所有主題模型都基于以下()基本假設。A)每個文檔包含多個主題B)每個主題包含多個詞C)詞由主題構成D)主題與詞無關答案:AB解析:[多選題]169.自然語言處理應用?A)客服系統B)查找同義詞C)道標識別D)文本挖掘答案:ABD解析:[多選題]170.下列哪些選項對于搜索參數的方式,是正確的?A)沒有足夠計算資源,通過每天觀察,不斷調整參數B)同時試驗多種模型,獲得學習曲線C)沒有足夠計算資源,通過試驗多種模型,獲得學習曲線D)擁有足夠資源時,通過每天觀察一個參數,來進行調整答案:AB解析:[多選題]171.當然樸素貝葉斯也有很多的缺點,以下關于它缺點描述正確的是?A)對缺失數據不太敏感B)分類效果不穩定C)先驗模型可能導致結果不佳D)不適合增量式訓練答案:AC解析:[多選題]172.以下是兩個陳述。以下兩個陳述中哪一項是正確的?A)k-NN是一種基于記憶的方法,即分類器會在我們收集新的訓練數據時立即進行調整。B)不確定C)在最壞的情況下,新樣本分類的計算復雜度隨著訓練數據集中樣本數量的增加而線性增加D)以上都正確答案:AC解析:[多選題]173.ELMO分為哪兩個階段A)Pre-training(預訓練)B)word-embedding(詞嵌入)C)Feature-based(微調)D)不確定答案:AC解析:第3部分:判斷題,共66題,請判斷題目是否正確。[判斷題]174.神經機器翻譯是通過一個稱為遞歸神經網絡(RNN)的大型人工神經網絡對整個過程進行建模的方法。A)正確B)錯誤答案:對解析:[判斷題]175.隨著批量數目增大,處理相同數據量的速度越快。A)正確B)錯誤答案:對解析:[判斷題]176.one-hot表示的結果能保留詞語在句子中的位置信息。錯A)正確B)錯誤答案:錯解析:[判斷題]177.離散型的表示方式只有one-hotA)正確B)錯誤答案:錯解析:[判斷題]178.在做NLP任務時,數據處理是不可缺少的部分A)正確B)錯誤答案:對解析:[判斷題]179.CrossEntropyLoss是tensorflow中動態優化器A)正確B)錯誤答案:錯解析:[判斷題]180.命名實體識別不是序列標注問題。錯A)正確B)錯誤答案:錯解析:[判斷題]181.機器學習算法=模型表征+模型評估+優化算法。A)正確B)錯誤答案:對解析:[判斷題]182.Relu激活函數,整個過程的計算量小A)正確B)錯誤答案:對解析:[判斷題]183.BP算法和神經網絡是相同的A)正確B)錯誤答案:錯解析:[判斷題]184.混淆矩陣也稱誤差矩陣A)正確B)錯誤答案:對解析:[判斷題]185.上下文有關文法(1型)的分析算法過于復雜,不便于實際應用A)正確B)錯誤答案:對解析:[判斷題]186.要確定最優狀態序列,一種方法是把所有可能的狀態序列的概率求出來,從中選出概率最大的序列。A)正確B)錯誤答案:對解析:[判斷題]187.神經網絡中非線性變換叫做傳遞函數或者激活函數A)正確B)錯誤答案:對解析:[判斷題]188.在GRU中sigmoid激活函數的作用是作為一個"門"A)正確B)錯誤答案:對解析:[判斷題]189.在簡單的插值模型中,權值僅僅是一個常數。A)正確B)錯誤答案:對解析:[判斷題]190.深度學習需要逐層的分析,而機器學習是端到端的學習A)正確B)錯誤答案:錯解析:[判斷題]191.laplace法則計算公式中T為訓練實例的種類數A)正確B)錯誤答案:對解析:[判斷題]192.語料庫構建不包括結構性A)正確B)錯誤答案:錯解析:[判斷題]193.seq2seq和Transformer的模型結構是完全不相同A)正確B)錯誤答案:錯解析:[判斷題]194.s.startswith(t),測試是否以t開頭A)正確B)錯誤答案:對解析:[判斷題]195.通俗來講,所謂因子圖就是對函數進行因子分解得到的一種概率圖A)正確B)錯誤答案:對解析:[判斷題]196.NNLM和N-Gram是完全相同的A)正確B)錯誤答案:錯解析:[判斷題]197.為了進行中文的分詞或者詞性標注等處理,可以使用的導入模塊語句為importjieba。對A)正確B)錯誤答案:對解析:[判斷題]198.將隱馬爾科夫模型表示成五元組的形式,其中V為發射概率集合。A)正確B)錯誤答案:錯解析:[判斷題]199.CBOW中是使用中心詞預測上下文單詞的A)正確B)錯誤答案:錯解析:[判斷題]200.GPT中最大的缺點就是不能解決一詞多意問題A)正確B)錯誤答案:錯解析:[判斷題]201.深度學習省去了人工的提取特征,可以自動提取特征A)正確B)錯誤答案:對解析:[判斷題]202.語料庫是為某一個或多個應用而專門收集的、有一定結構的、有代表性的、可以被計算機程序檢索的、具有一定規模的語料的集合。對A)正確B)錯誤答案:對解析:[判斷題]203.LightGBM犧牲了一定的精度,但是提升了速度A)正確B)錯誤答案:錯解析:[判斷題]204.LightGBM占用的內存變大了A)正確B)錯誤答案:錯解析:[判斷題]205.特征歸一化可以用到SVM,邏輯回歸,線性回歸等模型中A)正確B)錯誤答案:對解析:[判斷題]206.RNN的多對一結構通常用于處理序列分類問題。對A)正確B)錯誤答案:對解析:[判斷題]207.機器翻譯是自然語言處理中最為人所熟知的場景,國內外有很多比較成熟的機器翻譯產品,如百度翻譯等。A)正確B)錯誤答案:對解析:[判斷題]208.RNN是NLP的核心網絡之一A)正確B)錯誤答案:對解析:[判斷題]209.樸素貝葉斯分類是基于類條件獨立假設A)正確B)錯誤答案:對解析:[判斷題]210.XGBoost的本質其實就是一個隨機森林A)正確B)錯誤答案:錯解析:[判斷題]211.交叉檢驗的缺點是:最初的訓練數據比較少,所以得到的概率估計也不會太可靠A)正確B)錯誤答案:錯解析:[判斷題]212.支持向量是最靠近決策表面的數據點A)正確B)錯誤答案:對解析:[判斷題]213.在LSTM中常用的激活函數有sigmoid和tanhA)正確B)錯誤答案:對解析:[判斷題]214.Boosting方法(Schapire,1990)是一種用來提高弱(Weak)分類算法準確度的方法,識別錯誤率小于1/2,也即準確率僅比隨機猜測略高。A)正確B)錯誤答案:對解析:[判斷題]215.NLTK的nltk.corpus模塊可用于語料庫的獲取。對A)正確B)錯誤答案:對解析:[判斷題]216.感知機利用誤分類最小策略,求得分離超平面,不過此時的解有無窮多個。A)正確B)錯誤答案:對解析:[判斷題]217.在模型輸入的時候,我們并不需要對文本進行處理A)正確B)錯誤答案:錯解析:[判斷題]218.LightGBM支持分布式和并行計算A)正確B)錯誤答案:對解析:[判斷題]219.文本情感傾向性分析就是對網頁進行輿情分析。錯A)正確B)錯誤答案:錯解析:[判斷題]220.在自然語言領域RNN的特征提取效果不如CNN,因為CNN有卷積操作A)正確B)錯誤答案:錯解析:[判斷題]221.Excel支持正則表達式。對A)正確B)錯誤答案:對解析:[判斷題]222.基于實例的學習的核心是兩個實例間的相似度或成距離的度量A)正確B)錯誤答案:對解析:[判斷題]223.XGBoost對GBDT的速度上和效率上做了很大的提升A)正確B)錯誤答案:對解析:[判斷題]224.平行語料庫的目的側重于特定語言現象的對比A)正確B)錯誤答案:錯解析:[判斷題]225.好的初始估計對于發射概率是非常重要的。A)正確B)錯誤答案:對解析:[判斷題]226.CNN卷積核(窗口)的大小是一個參數,可以自己選定A)正確B)錯誤答案:對解析:[判斷題]227.決策樹的學習目標是:根據給定的訓練數據集合構建一個決策樹模型,使它能夠對實例進行正確的分類A)正確B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論