




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第頁大數據復習測試有答案1.下列對Numpy和pandas的理解不正確的是()A、.numpy是基礎數據類型,pandas是擴展數據類型B、numpy關注數據的結構表達,pandas關注數據的應用表達C、pandas基于numpy構建,性能不如numpy,應避免使用D、numpy中使用維度表達數據間的關系,pandas中關注于數據與索引之間的關系【正確答案】:C解析:
這道題考察的是對Numpy和pandas庫的理解。Numpy是Python的一個開源的數值計算擴展,提供了大量的數學函數工具,是Python科學計算的基礎包。Pandas是基于Numpy的一種工具,提供了快速、靈活和富有表達力的數據結構,旨在使“關系”或“標簽”數據的處理工作變得既簡單又直觀。它旨在成為高級數據分析和操作的必備工具,其性能已經足夠優化,不應簡單避免使用。A選項,numpy提供的是多維數組對象及派生對象(如:掩碼數組和矩陣)和用于數組快速操作的各種API,是基礎數據類型;pandas提供了DataFrame等高級數據結構和數據分析工具,是擴展數據類型。A選項正確。B選項,numpy主要關注數據的結構表達,如數組的形狀、維度等;而pandas則更關注數據的應用表達,如數據的清洗、轉換、合并等操作。B選項正確。C選項,pandas確實是基于numpy構建的,但說其性能不如numpy并應避免使用是不準確的。pandas在數據處理方面提供了很多便利,且其性能在很多情況下已經足夠優化。C選項錯誤。D選項,numpy使用維度來表達數據間的關系,如二維數組中的行和列;而pandas則更關注于數據與索引之間的關系,如DataFrame中的行索引和列索引。D選項正確。綜上所述,不正確的理解是C選項。2.下列關于轉換描述不正確的是()A、轉換完成基本的數據轉換B、轉換主要由步驟和跳構成C、轉換中的步驟基本同時啟動D、轉換中的步驟會等前一個步驟執行完成后才會執行【正確答案】:D解析:
這道題考察的是對數據轉換(ETL過程中的一部分)的理解。在ETL(提取、轉換、加載)過程中,轉換是核心環節,它負責將數據從一種格式或結構轉換為另一種。轉換確實主要由步驟和跳構成,步驟定義了具體的轉換操作,而跳則定義了步驟之間的執行順序。轉換中的步驟并不總是同時啟動,而是根據跳的定義,可能順序執行,也可能并行執行。因此,選項D中的描述“轉換中的步驟會等前一個步驟執行完成后才會執行”是不準確的,因為步驟的執行順序取決于跳的定義。3.設a=np.array([[1,2,3],[4,5,6]]),則a.ndim的值是()A、6B、2C、3D、1【正確答案】:B4.以下說法錯誤的是()A、主成分分析.屬性子集選擇為維歸約方法.B、直方圖.聚類.抽樣和數據立方體聚集為數量歸約方法。C、用于規約的時間可以超過或抵消在規約后的數據上挖掘節省的時間。D、數據歸約的目的用于幫助從原有龐大數據集中獲得一個精簡的數據集合,并使這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘顯然效率更高,并且挖掘出來的結果與使用原有數據集所獲得結果是基本相同。【正確答案】:C解析:
這道題考察的是對數據歸約方法的理解。主成分分析、屬性子集選擇確實屬于維歸約方法,直方圖、聚類、抽樣和數據立方體聚集是數量歸約方法,這些都是數據歸約的常見手段,用于減少數據量同時盡量保持數據特性。數據歸約的目的是為了獲得一個精簡但保持原有數據集完整性的數據集,以提高數據挖掘效率,同時保證挖掘結果的一致性。而C選項的說法,用于規約的時間通常不會超過或抵消在規約后的數據上挖掘節省的時間,這是不合邏輯的,因為數據歸約的主要目的就是為了提高效率。5.在pandas中,下列哪個方法不能完成值轉換()A、mapB、fillnaC、replaceD、reindex【正確答案】:D解析:
這道題考察的是對pandas庫中數據轉換方法的理解。在pandas中,`map`方法可以用于將一個函數應用于Series中的每一個元素,實現值的轉換;`fillna`方法用于填充NA/NaN值,也可以看作是一種值轉換;`replace`方法用于替換數據中的值,同樣能實現值轉換。而`reindex`方法主要用于改變DataFrame或Series的索引,與值轉換無關。因此,不能完成值轉換的方法是`reindex`,選項D正確。6.設a=np.array([[1,2,3],[4,5]]),則a.size的值是()A、6B、3C、2D、5【正確答案】:C7.處理噪聲的方法一般有()A、分箱B、回歸C、聚類D、以上都是【正確答案】:D8.影響數據質量問題的因素有哪些()A、準確性.完整性.一致性B、相關性.時效性C、可信性.可解釋性D、以上都是【正確答案】:D解析:
這道題考察對數據質量問題的全面理解。數據質量涉及多個方面,包括數據的準確性(數據值是否正確)、完整性(數據是否完整無缺失)、一致性(數據在不同來源或時間點是否保持一致)。同時,數據的相關性(數據是否與目標問題相關)、時效性(數據是否及時更新)也是重要的考量因素。可信性(數據是否可靠)和可解釋性(數據是否易于理解)同樣對數據質量有重要影響。因此,所有這些因素共同構成了影響數據質量問題的全面考量,答案選D。9.下列關于轉換描述不正確的是()A、轉換由步驟.跳和注釋組成B、轉換里的步驟按照跳定義的順序依次執行C、轉換里的步驟幾乎同時啟動D、轉換是完成針對數據的基礎轉換【正確答案】:B解析:
這道題考察的是對ETL(提取、轉換、加載)過程中“轉換”概念的理解。在ETL中,轉換通常指的是對數據進行處理和修改的過程。轉換確實可以包含步驟、跳(用于控制流程)和注釋。轉換的步驟并不一定是按照跳定義的順序依次執行,而是可以根據跳的邏輯進行條件分支或循環等復雜控制,因此B選項的描述是不準確的。轉換里的步驟通常是依次執行,而不是“幾乎同時啟動”,所以C選項描述也不準確,但題目要求選出不正確的描述,B選項的不準確性更為明顯。轉換確實是完成針對數據的基礎轉換,這是轉換的基本定義。綜上所述,B選項描述不正確。10.處理文本文件如果出現亂碼現象,應該查看()A、文件編碼B、打開模式C、是否指定了合適的分隔符D、是否指定了合適的字段長度【正確答案】:A解析:
這道題考察的是處理文本文件時遇到亂碼現象的原因。亂碼通常是由于文件編碼與查看或編輯該文件的程序所使用的編碼不匹配造成的。因此,遇到亂碼時,首先應該檢查的是文件的編碼方式。選項A“文件編碼”正是解決亂碼問題的關鍵所在。其他選項如打開模式、分隔符、字段長度等,雖然也是處理文本文件時需要考慮的因素,但與亂碼現象無直接關聯。11.在2020年6月1日,學生張三提供了緊急聯系人的相關信息隨后學校的管理團隊與2020年6月4日將其輸入學生數據庫從提交信息到錄入數據庫,中間延遲了3天,此案例體現了數據質量的哪一特性?A、準確性B、完整性C、唯一性D、及時性【正確答案】:D解析:
這道題考察的是對數據質量特性的理解。數據質量有多個維度,包括準確性、完整性、唯一性和及時性。根據題干描述,學生張三提供了緊急聯系人的信息,但學校管理團隊在3天后才將其錄入數據庫,這明顯體現了數據處理的延遲,即數據沒有及時被處理。因此,這個案例體現了數據質量的“及時性”特性。12.pandas的很多方法都會返回一個新的DataFrame,如果希望方法進行數據的原地修改,可以設置以下哪個參數()A、inplaceB、axisC、indexD、columns【正確答案】:A解析:
這道題考察的是pandas庫中DataFrame對象方法的使用。在pandas中,很多方法默認返回一個新的DataFrame對象,而不是修改原始對象。如果想要在原地修改數據,即不創建新的DataFrame,而是直接修改原始DataFrame,需要設置參數`inplace=True`。因此,正確答案是A。13.pandas中用于去重的操作是()A、duplicatedB、get_dummiesC、drop_duplicatesD、pivot【正確答案】:C解析:
這道題考察的是對pandas庫中數據去重操作的理解。在pandas中,`drop_duplicates`方法用于去除數據中的重復行,保留第一次出現的行。`duplicated`方法用于標記重復的行,返回布爾值。`get_dummies`用于將分類變量轉換為啞變量/指標矩陣。`pivot`用于重塑、透視和創建派生數據,不是用于去重的。因此,正確答案是C。14.pandas中提供的計算啞變量的函數是()A、get_dummiesB、concatC、pivotD、is_na【正確答案】:A解析:
這道題考察的是對pandas庫中函數功能的了解。在pandas中,`get_dummies`函數用于將分類變量轉換為啞變量(或稱為指示器變量),這是處理分類數據時常用的技術。而`concat`用于合并數據,`pivot`用于重塑數據,`is_na`用于檢測數據中的缺失值。因此,正確答案是A。15.下列表達式正確表達一個非數字字符的是()A、\DB、\dC、[0-9]D、[0123456789]【正確答案】:A16.設df=pd.DataFrame(np.arange(12).reshape((3,4))),以下語句出錯的是()A、df[1]=12B、df[:2]=12C、df[1]=[8,7,8]D、df[1]=[9,8,8,8]【正確答案】:D解析:
這道題考察的是對Pandas庫中DataFrame對象操作的理解。首先,創建一個3行4列的DataFrame對象df。接著分析每個選項:A.`df[1]=12`:將第二列的所有值設置為12,這是正確的。B.`df[:2]=12`:將前兩行的所有值設置為12,這也是正確的。C.`df[1]=[8,7,8]`:將第二列的值設置為[8,7,8],長度與DataFrame的行數相匹配,因此是正確的。D.`df[1]=[9,8,8,8]`:嘗試將第二列的值設置為[9,8,8,8],但這里列表的長度是4,而DataFrame只有3行,因此會引發錯誤。因此,選項D是錯誤的。17.正則表達式[a-z].*3可以配置abc3abc3a3幾次()A、0B、1C、2D、3【正確答案】:B18.以下不屬于數據集成的方法是()A、聯邦數據庫B、中間件集成C、數據復制D、數據壓縮【正確答案】:D解析:
這道題考察對數據集成方法的了解。數據集成是指將不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。聯邦數據庫、中間件集成和數據復制都是常見的數據集成方法,它們分別通過不同的技術手段實現數據的統一管理和訪問。而數據壓縮是一種減少數據存儲空間或傳輸時間的技術,并不屬于數據集成的方法。因此,選項D是不屬于數據集成的方法。19.下列關于為什么要做數據清理描述錯誤的是()A、數據有重復B、數據有錯誤C、數據有缺失D、數據量太大【正確答案】:D20.在Kettle中,如果定義了變量hostname,則在程序中調用的形式為()A、%hostname%B、${hostname}C、hostnameD、"hostname"【正確答案】:B解析:
這道題考察的是對Kettle中變量調用方式的理解。在Kettle中,變量是通過特定的語法來調用的,這是為了區分變量名和普通的字符串。根據Kettle的官方文檔和常規使用習慣,變量在程序中的調用形式為"${變量名}"。因此,對于題目中定義的變量hostname,正確的調用形式應為"${hostname}"。21.下列關于數據清理描述錯誤的是()A、數據清理能完全解決數據質量差的問題B、數據清理在數據分析過程中是不可或缺的一個環節C、數據清理的目的是提高數據質量D、可以借助Kettle來完成大量的數據清理工作【正確答案】:A22.在大部分數據項目中,下列哪個環節占用的時間最長()A、數據預處理B、數據分析C、數據可視化D、數據導入導出【正確答案】:A解析:
這道題考察的是對數據項目各環節時間占用的理解。在數據科學項目中,數據預處理包括清洗、轉換、集成等多個步驟,通常是最耗時的一環,因為它涉及對原始數據的整理,使其適合后續分析。相比之下,數據分析和數據可視化雖然重要,但通常耗時較短。數據導入導出則是一個相對快速的過程。因此,數據預處理是這四個環節中占用時間最長的。23.設df=pd.DataFrame(np.arange(12).reshape((3,4))),以下語句出錯的是()A、df[1]=12B、df[:2]=12C、df[1]=[8,8,8]D、df[1]=[8,8,8,8]【正確答案】:D解析:
這道題考察的是對Pandas庫中DataFrame對象操作的理解。在Pandas中,DataFrame的行和列可以通過標簽、位置或布爾索引來訪問和修改。A選項:`df[1]=12`,這是正確的,它將第二列的所有值設置為12。B選項:`df[:2]=12`,這也是正確的,它將前兩行的所有列的值設置為12。C選項:`df[1]=[8,8,8]`,這是正確的,它將第二列的值設置為列表[8,8,8],列表的長度與DataFrame的行數相匹配。D選項:`df[1]=[8,8,8,8]`,這是錯誤的,因為列表的長度(4)超過了DataFrame的行數(3),這會導致長度不匹配的錯誤。因此,答案是D。24.下列表達式能匹配到偶數的是()A、\d*[^13579]B、\b\d*[02468]\bC、\d*[02468]D、\d+[02468]【正確答案】:B25.數據倉庫的數據是隨著時間變化而變化的,以下說法不正確的是()A、數據倉庫隨著時間變化不斷增加新的數據內容。B、數據庫隨著時間變化不斷刪去舊的數據內容。C、數據倉庫中包含大量的匯總數據,這些數據中很多跟時間相關,因此這些數據要隨著時間的變化不斷地進行重新匯總。D、所著時間的更新,源數據里的數據可能會更新,這時需要更新數據倉庫中的數據。【正確答案】:D解析:
這道題考察對數據倉庫特性的理解。數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。A選項正確,因為數據倉庫是隨時間不斷積累數據的,新的數據內容會被不斷增加進去。B選項錯誤,因為數據倉庫的特點是數據的穩定性,它不會隨時間刪除舊的數據內容,而是保留歷史數據以供分析。C選項正確,數據倉庫中包含大量的匯總數據,這些數據往往與時間相關,并需要隨時間變化進行重新匯總。D選項的表述雖然接近實際操作,但在此題的語境下被視為不正確,因為題目要求選出“不正確”的說法。實際上,在數據倉庫的維護中,確實需要定期更新數據以反映源數據的變化,但這與B選項的錯誤性質不同,B選項的錯誤在于對數據倉庫特性的誤解。綜上所述,B選項是不正確的說法,因為它違背了數據倉庫數據穩定性的核心特性。26.pandas的很多方法都有指定軸向的參數,是()A、inplaceB、axisC、lablesD、sort【正確答案】:B解析:
這道題考察的是對pandas庫中方法參數的理解。在pandas庫中,很多方法都包含指定軸向的參數,這個參數通常用于指定操作是沿著行還是列進行。根據pandas的官方文檔和常見用法,這個參數是`axis`,其中`axis=0`代表沿著行的方向(縱向),`axis=1`代表沿著列的方向(橫向)。因此,正確答案是B。27.Kettle提供了輕量級的HTTP服務器,用于遠程執行作業和轉換或在集群中并行執行作業和轉換,它是()A、PanB、SpoonC、KitchenD、Carte【正確答案】:D解析:
這道題考察的是對Kettle工具組件的理解。Kettle是一個開源的ETL工具,它提供了多個組件用于數據處理。其中,Carte是Kettle提供的一個輕量級的HTTP服務器,它允許用戶遠程執行作業和轉換,或者在集群環境中并行執行作業和轉換。根據這個知識點,我們可以確定答案是D。28.在pandas的merge函數中,下列哪個參數不是用來指定連接鍵的()A、onB、left_on.right_onC、left_index.right_indexD、suffixes【正確答案】:D解析:
這道題考查對pandas中merge函數參數的理解。在merge函數中,on、left_on/right_on、left_index/right_index都可用于指定連接鍵。而suffixes參數主要用于處理合并時列名沖突的后綴,并非用于指定連接鍵。所以這道題應選D選項。29.下列表達式中沒有正確表達"以p開始,后跟至少一個y的字符串"的是()A、py+B、pyy*C、py{1,}D、py?【正確答案】:D解析:
這道題考察的是正則表達式的基本語法和含義。-A選項`py+`表示"p"后跟至少一個"y",符合題目要求。-B選項`pyy*`表示"p"后跟至少一個"y"(因為`y*`表示0個或多個"y",但前面已經有一個"y"了,所以至少有一個),也符合題目要求。-C選項`py{1,}`表示"p"后跟至少一個"y"(`{1,}`表示至少1個),同樣符合題目要求。-D選項`py?`表示"p"后跟0個或1個"y",這與題目要求的"至少一個y"不符。因此,D選項沒有正確表達題目要求的字符串模式。30.某公司入職申請表上記錄了職工年齡記錄,規定年齡需要在18到60之間。假設某條記錄為61或N/A,將被視為數據失效。此案例體現了數據質量的哪一特性?A、準確性B、完整性C、唯一性D、及時性【正確答案】:A解析:
這道題考察的是對數據質量特性的理解。數據質量包括多個方面,其中“準確性”指的是數據值與其真實值之間的接近程度。在這個案例中,年齡記錄超出規定范圍(18到60歲)或被標記為“N/A”,都被視為數據失效,這直接指向了數據準確性的問題。因此,正確答案是A,即“準確性”。31.下列CDC方案不具有侵入性的是()A、基于源數據B、基于快照C、基于日志D、基于觸發器【正確答案】:C解析:
這道題考察的是對數據變更捕獲(CDC)方案的理解。CDC技術用于捕獲數據庫中的數據變更,并將這些變更數據提供給其他系統或應用。其中,“基于日志”的CDC方案是通過讀取數據庫的日志文件來獲取數據變更信息,這種方式不需要對數據庫進行侵入性操作,如修改數據庫結構或增加額外的數據庫負載。因此,選項C“基于日志”是不具有侵入性的CDC方案。32.下列關于轉換和作業說法不正確的是()A、轉換可以調用轉換B、作業可以調用轉換C、作業可以調用作業D、轉換可以調用作業【正確答案】:D解析:
這道題考察的是對ETL(提取、轉換、加載)過程中轉換和作業之間調用關系的理解。在ETL工具中,通常轉換是用來處理數據的,作業則是用來調度和管理任務的。轉換可以調用其他轉換,以實現復雜的數據處理邏輯,作業可以調用轉換來執行數據處理任務,也可以調用其他作業來組織和管理任務流程。但是,轉換通常不直接調用作業,因為作業是用來控制和管理整個ETL流程的,而不是被單個轉換所調用。所以,選項D“轉換可以調用作業”是不正確的。33.以下說法錯誤的是()A、雪花模型有多個相互依賴的維表,加載時要注意先后順序B、雪花模型是在基于星型模型之上拓展來的,每一個維度可以再擴散出更多的維度,根據維度的層級拆分成顆粒度不同的多張表C、雪花模型的主維表和次維表之間是N對1的關系D、事實表和維表之間通過業務鍵關聯【正確答案】:D解析:
這道題考察的是對數據倉庫中雪花模型的理解。雪花模型是數據倉庫設計中的一種模式,它擴展了星型模型,允許維度表進一步細分為更小的、更具體的表。A選項正確,雪花模型確實包含多個相互依賴的維表,加載時確實需要注意先后順序。B選項也正確,雪花模型是在星型模型的基礎上擴展而來的,允許每個維度進一步細分為更多的維度,形成顆粒度不同的多張表。C選項描述準確,雪花模型中的主維表和次維表之間確實是N對1的關系,即多個次維表可以與一個主維表相關聯。D選項錯誤,事實表和維表之間通常是通過外鍵關聯的,而不是業務鍵。業務鍵是業務系統中的唯一標識符,而外鍵是數據倉庫中用于關聯事實表和維表的鍵。因此,答案是D。34.下列哪個元字符標識了單詞邊界()A、^B、$C、\BD、\b【正確答案】:D解析:
這道題考察的是正則表達式中的元字符知識點。在正則表達式中,元字符有特殊的意義,用于定義搜索或匹配文本的規則。對于單詞邊界的標識,我們知道:-`^`表示行的開始。-`$`表示行的結束。-`\B`表示非單詞邊界。-`\b`正是表示單詞邊界。因此,根據題目要求,標識單詞邊界的元字符是`\b`,所以正確答案是D。35.以下說法不正確的是()A、查找維度時,要正確的查找代理鍵B、查找維度時,注意數據完整性問題C、數據延遲指的就是維度表數據延遲D、先加載維度表,接著加載事實表【正確答案】:C解析:
這道題考察的是對數據倉庫中維度表相關操作的理解。在數據倉庫設計中,維度表是用來存儲維度的詳細信息的,而事實表存儲的是與維度相關的度量值。A選項提到“查找維度時,要正確的查找代理鍵”,這是正確的,因為代理鍵是維度表中用來唯一標識每一行的鍵。B選項說“查找維度時,注意數據完整性問題”,這也是正確的,因為數據完整性是數據倉庫設計中的一個重要考慮因素。C選項表述“數據延遲指的就是維度表數據延遲”,這是不正確的。數據延遲可以存在于維度表,也可以存在于事實表,或者兩者都存在。因此,不能將數據延遲僅僅歸結為維度表的數據延遲。D選項“先加載維度表,接著加載事實表”是正確的,因為在數據倉庫的加載過程中,通常需要先加載維度表,以便在加載事實表時能夠正確地關聯維度信息。綜上所述,不正確的說法是C選項。36.數據歸約的方法有()A、維歸約B、數量歸約C、數據壓縮D、以上都是【正確答案】:D37.數據集成的過程中需要處理的問題有()A、實體識別B、冗余與相關性分析。C、數據沖突和檢測D、以上都是【正確答案】:D38.轉換創建并保存后的文件后綴名是()A、*.ktrB、*.kpjC、*.kjrD、*.kjb【正確答案】:A解析:
這道題考察的是對特定軟件或工具操作后生成文件后綴名的了解。在多種軟件和工具中,執行轉換操作并保存后,生成的文件通常會有特定的后綴名。根據常見的文件后綴名知識,轉換創建并保存后的文件后綴名往往是“.ktr”。這是因為在很多應用場景中,“.ktr”被用作表示轉換后文件的標識。39.下列說法錯誤的是()A、數據倉庫就是數據庫。B、業務鍵通常來源于業務系統C、事實表加載前,先加載維表D、星型模型的各個維表之間沒有依賴關系【正確答案】:A解析:
這道題考察的是對數據倉庫相關概念的理解。數據倉庫與數據庫雖然都是存儲數據的,但它們在結構、用途等方面存在顯著差異。業務鍵確實通常來源于業務系統,用于標識業務實體。在數據倉庫的加載過程中,通常先加載維表,再加載事實表,以確保數據的一致性。星型模型是一種常見的數據倉庫模型,其中各個維表之間確實沒有依賴關系,它們都是圍繞事實表展開的。因此,選項A的說法是錯誤的。40.學校要求新生家長填一份表格,里面要填寫學生的姓名.地址和出生日期。到新學期的第一周結束的時候,對表格中的“緊急聯系電話”這個字段進行完整性度量。學校有300名學生,在300個潛在記錄中有294個記錄被填寫。此案例體現了數據質量的哪一特性?()A、準確性B、完整性C、唯一性D、一致性【正確答案】:B解析:
這道題考察的是對數據質量特性的理解。數據質量包括多個方面,其中“完整性”指的是數據的全面性和無缺失。根據題目描述,學校要求填寫的表格中“緊急聯系電話”這一字段,在300個潛在記錄中有294個被填寫,這體現了數據的完整性度量。因此,正確答案是B,即“完整性”。41.下列表達式不能匹配字符串abc123的是()A、\w+B、\w{3,}C、\w{3,}\dD、\w{3,}+\d【正確答案】:D42.將兩個DataFrame串接在一起使用下列哪個方法()A、mergeB、concatC、joinD、get_dummies【正確答案】:B解析:
這道題考察的是對Pandas庫中DataFrame操作的理解。在Pandas中,`concat`函數用于沿著一條軸將多個對象堆疊到一起,這正是將兩個DataFrame串接在一起的操作。而`merge`用于根據一個或多個鍵將不同DataFrame的行連接起來,`join`也是用于合并兩個或多個DataFrame,但更多是基于索引的合并,`get_dummies`則是用于將分類變量轉換為啞變量/指示器變量。因此,正確答案是B。43.設df=pd.DataFrame(np.arange(12).reshape(3,4),index=range(3,0,-1)),下列哪個語句返回的值不為空()A、df.iloc[3:1]B、df.loc[3:1]C、df.iloc[1:1]D、df.loc[3:1:-1]【正確答案】:B解析:
這道題考察的是對pandas庫中DataFrame對象索引的理解。首先,我們創建一個DataFrame對象df,其索引為[3,2,1]。對于選項A,`df.iloc[3:1]`嘗試訪問不存在的索引3到1,返回空。對于選項B,`df.loc[3:1]`使用標簽索引,返回索引3到1的所有行,即整個DataFrame,不為空。對于選項C,`df.iloc[1:1]`嘗試訪問索引1到1,但Python切片是左閉右開的,所以返回空。對于選項D,`df.loc[3:1:-1]`嘗試逆序訪問索引,但步長為-1時,起始索引應小于結束索引,所以返回空。因此,正確答案是B。44.下列關于作業描述不正確的是()A、作業由作業項.跳和注釋組成B、作業里不能設計循環路徑C、作業里必須包含一個且只能有一個START作業項D、作業項通常按定義的順序依次執行【正確答案】:B解析:
這道題考察的是對作業(如計算機程序或生產流程中的作業)的基本組成和規則的理解。A選項描述的是作業的基本組成,作業確實由作業項、跳和注釋組成,這是正確的。B選項說“作業里不能設計循環路徑”,這是不正確的。在實際應用中,作業里是可以設計循環路徑的,比如循環執行某個操作,直到滿足特定條件。C選項指出“作業里必須包含一個且只能有一個START作業項”,這是正確的。START作業項表示作業的開始,每個作業都應該有一個明確的起點。D選項說“作業項通常按定義的順序依次執行”,這也是正確的。作業項的執行順序是根據作業的定義來確定的,通常按照定義的順序依次執行。綜上所述,不正確的描述是B選項。45.以下說法錯誤的是()A、時間.日期維屬于生成維B、混合維較少用,實現比緩慢變化維中的類型1.類型2.類型3三種類型復雜。C、雜項維的屬性通常可以分為特定的幾個分類D、類型2緩慢變化維,不會直接覆蓋以前的版本,每次更新會生成新的記錄【正確答案】:C解析:
這道題考察的是對數據倉庫中維度類型的理解。生成維通常是基于事務或事件的時間、日期等自然屬性構建的,所以A選項正確。混合維確實實現起來較為復雜,不如緩慢變化維中的類型1、類型2、類型3直觀,因此B選項也是正確的。類型2緩慢變化維在更新時不會覆蓋舊版本,而是保留歷史記錄,生成新的記錄,D選項描述準確。而C選項提到的“雜項維的屬性通常可以分為特定的幾個分類”,這并不是一個普遍適用的規則,雜項維的屬性分類取決于具體的業務需求和設計,因此C選項是錯誤的。46.下列哪個元字符表示非單詞字符()A、\wB、\WC、\dD、\s【正確答案】:B解析:
這道題考察的是正則表達式中的元字符含義。在正則表達式中,元字符具有特定的含義,用于匹配字符串中的特定模式。其中,`\w`表示匹配任何單詞字符,`\W`表示匹配任何非單詞字符,`\d`表示匹配任何數字,`\s`表示匹配任何空白字符。根據題目要求,表示非單詞字符的元字符是`\W`,因此正確答案是B。47.下列關于開始作業項描述不正確的是()A、一個作業中有且僅有一個開始作業項B、一個作業中至少有一個開始作業項C、開始作業項標識了作業的起點D、開始作業項可以做定時調度【正確答案】:B解析:
這道題考察的是對作業調度中“開始作業項”概念的理解。在作業調度中,開始作業項是一個重要的概念,它標識了作業的起點,并且在一個作業中,開始作業項是唯一的,意味著一個作業只能有一個起點。同時,開始作業項也可以進行定時調度,以滿足特定的作業執行需求。根據這些知識點,我們可以分析每個選項:A.正確,一個作業中有且僅有一個開始作業項,這是作業調度的基本要求。B.錯誤,一個作業中只能有一個開始作業項,而不是“至少有一個”。C.正確,開始作業項確實標識了作業的起點,這是它的基本功能。D.正確,開始作業項可以進行定時調度,以滿足特定的作業執行時間要求。綜上所述,選項B描述不正確,因為它違反了作業調度中關于開始作業項的唯一性原則。48.對多級索引數據,Pandas的下列哪種方法將數據集的行旋轉為列()。A、stackB、unstackC、pivotD、replace【正確答案】:B解析:
這道題考察的是Pandas庫中處理多級索引數據的方法。在處理多級索引(也稱為層次化索引)時,`unstack`方法可以將數據的行旋轉為列,即將最內層索引“旋轉”到列標簽上,形成一個新的DataFrame。而`stack`方法則是將列旋轉為行,`pivot`用于重塑數據,`replace`用于替換數據中的值。因此,正確答案是B。49.csv文件導入步驟不能處理以下什么哪種類型的文件()A、逗號分隔的文本文件B、兩個冒號分隔的文本文件C、分隔符是正則表達式[,,:;]的文本文件D、每個字段固定寬度的文本文件【正確答案】:D解析:
這道題考察的是對csv文件導入步驟的理解。csv文件導入主要處理的是分隔符分隔的文本文件。選項A是逗號分隔的文本文件,顯然csv可以處理。選項B是兩個冒號分隔的文本文件,通過設置分隔符為冒號,csv導入也能處理。選項C的分隔符是正則表達式[,,:;]的文本文件,意味著文件可以用逗號、冒號或分號作為分隔符,csv導入同樣可以處理。而選項D,每個字段固定寬度的文本文件,不是通過分隔符來分隔字段的,因此csv文件導入步驟不能處理這種類型的文件。50.在pandas的merge函數中,下列哪個參數用于設定重名列的后綴()A、onB、left_on.right_onC、left_index.right_indexD、suffixes【正確答案】:D解析:
這道題考察的是對pandas庫中merge函數參數的理解。在pandas的merge函數中,用于設定重名列的后綴的參數是'suffixes'。這個參數允許用戶為左右兩個DataFrame中相同的列名添加后綴,以便在合并后的DataFrame中區分這些列。因此,正確答案是D。51.下列方法不是數據變換的有()A、光滑B、抽樣C、規范化D、屬性構造【正確答案】:B52.對多級索引數據,Pandas的下列哪種方法將數據集的列旋轉為行()。A、stackB、unstackC、pivotD、replace【正確答案】:A解析:
這道題考察的是Pandas庫中處理多級索引數據的方法。在處理多級索引(也稱為層次化索引)時,`stack`方法可以將數據的列“壓縮”到行索引中去,實現列到行的轉換。而`unstack`方法則是將行索引“展開”到列中去,與題目要求相反。`pivot`方法用于重塑、透視或創建派生數據表,`replace`方法用于替換數據中的值。因此,根據題目要求,正確答案是A。53.下列關于pandas描述不正確的是()A、pandas是一個基于BSD開源協議的開源庫,提供了用于python編程語言的高性能.易于使用的數據結構和數據分析工具。B、pandas是基于numpy構建的C、pandas最早是作為金融數據分析工具而開發出來。D、pandas最擅長處理字符串,在實際開發中經常用pandas來處理字符串【正確答案】:D解析:
這道題考察的是對pandas庫的理解。pandas確實是一個基于BSD開源協議的開源庫,提供了高性能、易于使用的數據結構和數據分析工具,所以A選項描述正確。pandas是基于numpy構建的,用于處理和分析數據,B選項也正確。pandas最初是作為金融數據分析工具而開發的,因此C選項描述也是準確的。至于D選項,pandas雖然可以處理字符串,但它最擅長的并不是處理字符串,而是數據處理和分析,因此D選項描述不正確。54.設df=pd.DataFrame(np.arange(12).reshape((3,4))),以下語句出錯的是()A、df[5]=12B、df[0]=df[1]>3C、df[2]=df[5]+1D、df[5]=[8,8,8]【正確答案】:C解析:
這道題考察的是對Pandas庫中DataFrame對象操作的理解。首先,我們創建一個3行4列的DataFrame對象df。接著分析每個選項:A.`df[5]=12`:此操作嘗試給df添加一個新列,列名為5,所有值為12。這是合法的。B.`df[0]=df[1]>3`:此操作將df的第0列設置為df的第1列中大于3的元素對應為True,否則為False。這也是合法的。C.`df[2]=df[5]+1`:在執行此操作前,df中并不存在名為5的列,因此嘗試訪問`df[5]`會引發錯誤。所以,這個選項是錯誤的。D.`df[5]=[8,8,8]`:此操作嘗試給df添加一個新列,列名為5,值為[8,8,8]。這是合法的。綜上所述,選項C是錯誤的,因為在執行該操作前,df中并不存在名為5的列。55.下列CDC方案可以實時監測到源數據變化的是()A、基于源數據B、基于觸發器C、基于日志D、基于快照【正確答案】:B解析:
這道題考察的是對數據變更捕獲(CDC)方案的理解。在數據集成和同步領域,CDC技術用于捕獲源數據庫中的數據變化。基于觸發器的CDC方案通過在源數據庫上設置觸發器來實時監測數據變化,每當數據發生變化時,觸發器都會被激活并捕獲這些變化。因此,選項B“基于觸發器”是可以實時監測到源數據變化的CDC方案。56.Kettle在讀取數據庫時,如果出現中文亂碼,可以設置以下哪個參數進行解決()A、hostB、characterEncodingC、serverTimeZoneD、user【正確答案】:B解析:
這道題考察的是對Kettle讀取數據庫時中文亂碼問題的解決方法。在數據庫操作中,如果出現中文亂碼,通常是因為字符編碼設置不正確。在Kettle中,可以通過設置`characterEncoding`參數來指定字符編碼,從而解決中文亂碼問題。因此,正確答案是B。57.下列CDC方案不能檢測到物理刪除的是()A、基于源數據B、基于快照C、基于日志D、基于觸發器【正確答案】:A解析:
這道題考察的是對數據變更捕獲(CDC)方案的理解。CDC技術用于捕獲數據庫中的數據變更,包括插入、更新和刪除操作。-A選項“基于源數據”:直接訪問源數據通常只能看到當前的數據狀態,無法直接檢測到歷史變更,包括物理刪除。-B選項“基于快照”:快照可以記錄某一時刻的數據狀態,通過比較不同時間點的快照,可以檢測到物理刪除。-C選項“基于日志”:數據庫日志記錄了所有的數據變更操作,包括物理刪除,因此可以檢測到。-D選項“基于觸發器”:觸發器可以在數據變更時執行特定的操作,包括記錄物理刪除事件,因此也能檢測到物理刪除。綜上所述,A選項“基于源數據”是不能檢測到物理刪除的CDC方案。58.一家工廠現有1000名在職職工。但職工數據庫顯示了1001份不同的職工記錄。其中兩條記錄除了名字王圓圓和王源源不同外,其他字段如住址.聯系方式等全部相同,可能是將該職工使用了曾用名。此案例體現了數據質量的哪一特性?A、準確性B、完整性C、唯一性D、及時性【正確答案】:C解析:
這道題考察的是對數據質量特性的理解。數據質量的特性包括準確性、完整性、唯一性和及時性。在這個案例中,職工數據庫出現了重復記錄,即兩條除了名字不同外其他都相同的記錄,這明顯違反了數據的唯一性要求。唯一性要求數據庫中的每條記錄都是獨一無二的,不能有重復。因此,這個案例體現了數據質量的唯一性特性。59.轉換里最基本的組成部分是(),它通過Hop(跳)進行連接。A、數據行B、步驟C、作業項D、注釋【正確答案】:B解析:
這道題考察的是對轉換(Transformation)概念的理解。在數據處理或工作流管理中,轉換通常指的是一系列步驟或操作的集合,用于實現特定的數據處理或業務邏輯。在這些步驟之間,通常通過某種機制(如“跳”或“Hop”)進行連接和控制流程。因此,轉換里最基本的組成部分是“步驟”,這些步驟通過“跳”進行連接,以定義和執行轉換的邏輯。60.作業創建并保存后的文件后綴名是()A、*.ktrB、*.kpjC、*.kjrD、*.kjb【正確答案】:D解析:
這道題考察的是對特定軟件或作業系統文件后綴名的了解。在多種作業創建和保存的場景中,文件后綴名用于標識文件的類型或格式。根據常見的作業管理系統或相關軟件的文件命名規則,作業創建并保存后的文件通常使用“*.kjb”作為后綴名,這符合行業內的標準命名習慣。61.在使用kettle讀取mysql數據庫時,下列做法不正確的是()A、將mysql連接器下載到kettle的lib目錄B、創建mysql數據庫連接C、如果啟動Kettle后,再mysql連接器已經下載到kettle的lib目錄,可以不重啟kettle,直接創建數據庫連接D、創建mysql數據庫連接時,一定要指定連接的名稱【正確答案】:C解析:
這道題考察的是對Kettle讀取MySQL數據庫操作的理解。在使用Kettle時,確實需要將MySQL連接器下載到Kettle的lib目錄下,以便Kettle能夠識別并連接到MySQL數據庫,這是選項A的內容,正確。接著,創建MySQL數據庫連接是使用Kettle進行數據庫操作的基本步驟,這是選項B的內容,也是正確的。在創建數據庫連接時,指定連接的名稱是一個好習慣,有助于在后續操作中快速識別和選擇數據庫連接,這是選項D的內容,同樣正確。然而,如果MySQL連接器是在啟動Kettle之后才下載到lib目錄的,那么需要重啟Kettle,以便它能夠加載新的連接器,這是選項C的內容,是不正確的。因此,答案是C。62.對于使用固定分隔符分隔的文本文件,不能使用下列哪個步驟進行讀取()A、CSVfileinputB、FixedfileinputC、TextfileinputD、JavaScript【正確答案】:B解析:
這道題考察的是對文本文件讀取方法的理解。在處理使用固定分隔符分隔的文本文件時,通常會用到特定的讀取方法。CSVfileinput(A選項)和Textfileinput(C選項)都是常見的讀取固定分隔符文本文件的方法。而JavaScript(D選項)作為一種編程語言,也提供了讀取和處理文本文件的能力。然而,Fixedfileinput(B選項)通常指的是讀取固定長度字段的文件,而不是使用分隔符分隔的文件,因此不適用于本題描述的文本文件類型。所以正確答案是B。63.下列關于使用參照表清洗數據說法錯誤的是()A、有些數據無法從內部發現錯誤,需要結合外部的數據進行參照B、只要方法得當,數據內部是可以發現錯誤的,不需要借助參照表C、使用參數表可以校驗數據的準確性D、使用參照表可以處理數據的一致性【正確答案】:B解析:
在數據清洗過程中,雖然通過適當的方法可以在數據內部發現一些錯誤,但參照表的使用仍然是非常重要的。參照表不僅可以用來校驗數據的準確性,還可以幫助處理數據的一致性,特別是當數據內部檢查無法識別出所有錯誤時,外部參照數據往往能夠提供更多有價值的信息。因此,不能斷言不需要借助參照表。64.下列哪種方法基于一個或多個鍵連接多個DataFrame中的行()。A、pivotB、concatC、mergeD、combine_first【正確答案】:C解析:
這道題考察的是對Pandas庫中DataFrame操作的理解。在Pandas中,連接多個DataFrame的行通常使用幾種不同的方法。其中,`merge`函數是基于一個或多個鍵來連接不同的DataFrame的行,它類似于SQL中的JOIN操作。而`pivot`是用于重塑數據的,`concat`是沿著一條軸將多個對象堆疊到一起,`combine_first`則是用于合并兩個DataFrame,用第一個DataFrame中的非NA值填充第二個DataFrame中的NA值。因此,正確答案是C。65.下列哪個元字符表示非空白字符()A、\SB、\WC、\dD、\s【正確答案】:A解析:
這道題考察的是正則表達式中的元字符知識點。在正則表達式中,元字符有特定的含義,用于匹配特定的字符集合。其中,\S表示匹配任何非空白字符,包括字母、數字、標點符號等;\W表示匹配任何非單詞字符,即除了字母、數字和下劃線以外的字符;\d表示匹配任何數字;\s表示匹配任何空白字符,如空格、制表符、換行符等。因此,根據題目要求,表示非空白字符的元字符是\S,所以答案是A。66.以下說法錯誤的是()A、數據預處理的主要流程為數據清理、數據集成、數據變換與數據歸約.B、數據清理、數據集成、數據變換、數據歸約這些步驟在數據預處理活動中必須順序使用。C、冗余數據的刪除既是一種數據清理形式,也是一種數據歸約。D、整個預處理過程要盡量人機結合,尤其要注重和客戶以及專家多交流。【正確答案】:B解析:
這道題考察的是對數據預處理流程的理解。數據預處理確實包括數據清理、數據集成、數據變換與數據歸約這些主要步驟。但這些步驟在實際操作中并不一定要嚴格按照順序執行,可以根據具體的數據情況和需求靈活調整。因此,選項B的說法是錯誤的。其他選項A、C、D都是對數據預處理活動的正確描述。67.在一個轉換里,步驟的名稱要求具有唯一性,步驟與步驟之間的數據以()形式進行傳遞。A、數據行B、變量C、結果對象D、參數【正確答案】:A解析:
這道題考察的是對轉換步驟間數據傳遞方式的理解。在數據處理或ETL(提取、轉換、加載)流程中,步驟之間的數據傳遞是一個核心環節。通常,數據在這些步驟間以“數據行”的形式進行傳遞,確保數據的連續性和完整性。選項A“數據行”準確描述了這一傳遞方式,而其他選項如變量、結果對象或參數,雖然在數據處理中有所應用,但不是步驟間數據傳遞的主要形式。因此,正確答案是A。68.設a=np.array([[1,2,3],[4,5]]),則a.shape的值是()A、(2,)B、2C、(2,2)D、(2,3)【正確答案】:A69.正則表達式[a-z].*?3可以配置abc3abc3a3幾次()A、0B、1C、2D、3【正確答案】:D解析:
這道題考察的是對正則表達式匹配規則的理解。正則表達式`[a-z].*?3`的含義是匹配以小寫字母開頭,后面跟著任意字符(包括0個),最后是一個數字3的字符串。在字符串"abc3abc3a3"中,這樣的模式出現了三次,分別是"abc3"、"abc3"和"a3",所以答案是D。70.kettle中用來進行可視化編程的集成開發環境為()A、PanB、SpoonC、KitchenD、Carte【正確答案】:B解析:
這道題考察的是對Kettle工具中各個組件功能的了解。Kettle是一款開源的ETL工具,用于數據的抽取、轉換和加載。其中,Spoon是Kettle提供的圖形界面工具,用于進行可視化編程,它集成了開發環境,方便用戶通過拖拽和配置的方式設計ETL流程。因此,正確答案是B。71.在pandas中,read_json方法讀入json文本時,哪個參數指示了解釋json字符串的格式()A、orientB、typC、path_or_bufD、dtype【正確答案】:A解析:
這道題考察的是對pandas庫中read_json方法參數的理解。在pandas的read_json方法中,'orient'參數用于指示解釋json字符串的格式,它決定了DataFrame的行和列如何從json數據中解析出來。其他選項,如'typ'、'path_or_buf'和'dtype',分別用于指定數據類型、文件路徑或緩沖區以及列的數據類型,與題目要求的解釋json字符串格式的功能不符。因此,正確答案是A。72.關于Dummy步驟說法錯誤的是()A、可以起一個臨時匯總的作用B、可以做為以測試為目的的占位符C、Dummy在實際開發中不會用到D、在實際開發中可能需要Dummy步驟【正確答案】:C解析:
這道題考察的是對Dummy步驟的理解。Dummy步驟在軟件開發中是一個常見的概念,它主要用于臨時匯總或作為測試目的的占位符。在實際開發中,Dummy步驟是有其應用場景的,比如在進行模塊測試或系統集成時,可能會使用Dummy步驟來模擬某些未完成的功能或數據。因此,選項C“Dummy在實際開發中不會用到”是錯誤的。73.在運行轉換腳本時,如果發現最后的數據行數嚴重不足,可以借助下列哪個功能快速定位問題所在()A、查看步驟度量B、查看日志文件C、檢查數據源D、檢查字段類型【正確答案】:A解析:
這道題考察的是對數據處理過程中問題定位的理解。在運行轉換腳本時,如果數據行數嚴重不足,通常意味著在某個處理步驟中出現了數據丟失。為了快速定位問題,需要查看每個步驟的處理度量,比如輸入行數、輸出行數等,從而確定是哪個步驟導致了數據丟失。因此,正確答案是A,查看步驟度量。1.在轉換中,只能定義單向執行通道,不能設計成循環結構。()A、正確B、錯誤【正確答案】:A解析:
在數據轉換或流程轉換中,單向執行通道指的是信息或數據只能按照一個特定的方向流動,通常從起點到終點,中間沒有循環或回溯的可能性。這種結構確保了轉換過程的線性和一致性,有助于簡化流程和提高效率。循環結構則允許數據或信息在達到某個點后重新返回并開始一個新的循環,這可能導致數據處理變得復雜,并可能引入不必要的重復或循環依賴。在某些轉換場景中,為了避免數據重復處理或確保數據流的單向性,確實可能只設計單向執行通道,而不使用循環結構。然而,需要注意的是,這并不意味著在所有轉換中都絕對不能使用循環結構。是否使用循環結構取決于具體的轉換需求和場景。在某些情況下,循環結構可能是必要的或有益的。因此,題目中的敘述“在轉換中,只能定義單向執行通道,不能設計成循環結構”是一個過于絕對的說法。實際上,是否使用單向執行通道或循環結構取決于具體的轉換需求和應用場景。在某些轉換中,確實可能只能定義單向執行通道,但這并不意味著在所有情況下都不能設計成循環結構。2.在轉換或者作業中使用變量會增加腳本的復雜性,在開發過程中應該盡量避免使用。()A、正確B、錯誤【正確答案】:B解析:
在編程和腳本編寫中,變量的使用是非常基礎和重要的。變量能夠存儲和表示數據,使得代碼更加靈活和可重用。通過使用變量,我們可以避免在代碼中重復硬編碼值,使得代碼更易于維護和修改。盡管使用變量可能會在一定程度上增加腳本的復雜性,但這種復雜性是必要和有益的,因為它提高了代碼的可讀性和可維護性。在轉換或作業中使用變量并不是應該避免的事情,相反,它是編程中的一個基本和重要的工具。3.事務事實表記錄的是事務層面的事實,保存的是最原子的數據,也稱“原子事實表”。()A、正確B、錯誤【正確答案】:A解析:
事務事實表在數據倉庫中確實用于記錄事務層面的細節數據,這些數據是最原子、最基礎的數據記錄,通常涵蓋了業務過程中的每一次具體活動或交易。這種事實表因其詳細和原子的特性,常被稱為“原子事實表”。事務事實表的設計和使用是數據倉庫構建中非常關鍵的部分,它有助于用戶深入理解和分析業務活動的具體情況。4.在Kettle中,不存在單一的清洗步驟,清洗工作往往需要結合多個步驟才能組合完成。()A、正確B、錯誤【正確答案】:A解析:
在Kettle(也稱為PentahoDataIntegration)中,數據清洗通常是一個復雜的過程,它確實不是通過單一的步驟就能完成的。這些步驟常常需要根據實際數據情況和需求進行組合和調整,以實現所需的數據清洗目標。在Kettle中,清洗工作確實需要結合多個步驟才能組合完成。5.在進行數據挖掘時,只要模型足夠好,就算訓練的數據質量不高,也能得到一個較好的模型()A、正確B、錯誤【正確答案】:B解析:
在進行數據挖掘時,模型的好壞并不僅僅取決于模型本身的復雜性或優化程度,更重要的是訓練數據的質量。因此,高質量的訓練數據是構建好模型的關鍵。僅僅依賴一個好的模型而不注重數據質量,往往會導致模型在真實環境中表現不佳,出現過擬合、欠擬合等問題。在進行數據挖掘時,除了需要選擇合適的模型并進行優化外,還需要確保訓練數據的質量和完整性,這樣才能得到一個較好的模型。6.pivot在調用時,如果遇到index/cloumn對不一唯一時,會報錯。()A、正確B、錯誤【正確答案】:A解析:
在數據處理和編程中,pivot操作通常用于將數據集從一種格式轉換為另一種格式,例如從長格式轉換為寬格式。在執行pivot操作時,通常需要指定index(行索引)和columns(列名),以定義新數據集的結構。如果指定的index/column對不是唯一的,也就是說,存在多個行具有相同的index和column組合,那么pivot操作通常會遇到問題,因為它無法確定如何將這些行合并成一個唯一的單元格。大多數數據處理庫或工具在這種情況下會報錯,因為它們無法處理這種不明確的情況。當執行pivot操作時,如果遇到index/column對不唯一的情況,通常會報錯。7.pandas中,merge方法只能按列進行連接。()A、正確B、錯誤【正確答案】:B解析:
在pandas中,`merge`方法確實主要是用于按列進行連接,它可以根據兩個DataFrame之間的共同列進行內連接、外連接、左連接或右連接。然而,這并不意味著`merge`方法只能按列進行連接。事實上,pandas提供了靈活的數據操作功能,雖然`merge`方法主要面向列的連接,但也可以結合其他方法,如`set_index`等,來實現基于行或其他條件的連接或匹配。`merge`方法主要用于按列進行連接,但并不意味著它只能按列進行連接。8.在kettle的設置界面,如果設置框的右邊帶有菱形的$符號,則可以在相應設置框中使用變量引用()A、正確B、錯誤【正確答案】:A解析:
在Kettle這個ETL工具中,其界面設計往往包含了許多用于配置和設置的功能選項。其中,設置框旁邊的符號通常用來表示某種特定的功能或屬性。當設置框的右邊帶有菱形的$符號時,這通常意味著該設置框支持變量引用。變量引用在ETL過程中是非常有用的功能,它允許用戶定義一些可重復使用的值,并在需要的地方通過變量名來引用這些值。這樣做的好處是可以提高配置的靈活性和可維護性。在Kettle的設置界面,如果設置框的右邊帶有菱形的$符號,確實可以在相應設置框中使用變量引用。9.星型模型匯中,事實表是模型的中心,外圍是若干張維表,每張維表都和事實表直接連接。()A、正確B、錯誤【正確答案】:A解析:
在星型模型中,事實表確實位于模型的中心,它存儲了關于業務過程的具體度量或事實。這些事實通常是通過聚合操作從底層詳細數據計算得出的。外圍的維表則提供了描述業務過程的上下文信息,如時間、地點、產品等。每張維表都與事實表直接連接,通過這種連接方式,可以方便地通過維表對事實表中的數據進行切片和切塊操作,從而進行多角度、多層次的數據分析。星型模型的設計使得數據查詢和分析變得高效且直觀,是數據倉庫中常用的一種數據模型。10.OLAP技術側重于把數據庫中的數據進行分析.轉換成輔助決策信息,是繼數據庫技術發展之后迅猛發展起來的一種新技術。()A、正確B、錯誤【正確答案】:A解析:
無需修改。11.在使用read_csv讀取文件時,如果sep指定為兩個字符,則會采用Python方式進行數據解析。()A、正確B、錯誤【正確答案】:A解析:
在Python的pandas庫中,`read_csv`函數用于讀取CSV文件,其中`sep`參數是用來指定字段分隔符的。默認情況下,`sep`是`,`,表示字段之間是由逗號分隔的。然而,關于`sep`參數的使用,需要澄清一點:`sep`通常預期是一個單一的字符,作為字段之間的分隔符。在大多數CSV文件中,字段是由單一的字符(如逗號或制表符)分隔的。此外,`read_csv`函數在解析數據時采用的是C引擎或Python引擎,這通常是由函數的內部邏輯自動選擇的,而不是由`sep`參數的兩個字符來決定的。C引擎通常更快,但在某些復雜或不規則的數據結構下,可能會使用Python引擎作為備選方案。因此,題目中的敘述“在使用read_csv讀取文件時,如果sep指定為兩個字符,則會采用Python方式進行數據解析”是不準確的。`sep`參數不應設置為兩個字符,且其值并不直接決定使用哪種引擎進行解析。12.脫字符^有兩個作用,一個用于表示起始位置,另一個是用來對字符集取。()A、正確B、錯誤【正確答案】:A解析:
脫字符^在正則表達式中確實有兩個主要作用。首先,它常被用作表示一個字符串或行的起始位置。其次,它也可以用來對字符集進行取反操作,即表示字符集中不包含該字符集內的某個或某些字符。13.設a=np.arange(4);b=a.astype(a.type),因為a的類型實際沒發生變化,為了提高性能,不會發生數據的復制。()A、正確B、錯誤【正確答案】:B14.數據清理試圖填充空缺的值、識別孤立點、消除噪聲,并糾正數據中的不一致性。()A、正確B、錯誤【正確答案】:A解析:
數據清理是數據處理中的一個重要步驟,主要目的是為了提高數據質量。它包括一系列操作,如填充空缺的值、識別孤立點、消除噪聲以及糾正數據中的不一致性。填充空缺的值是數據清理中的一個關鍵步驟,用于處理數據集中的缺失值,通常使用均值、中位數、眾數或某種預測模型來填充這些缺失值。消除噪聲也是數據清理的一個重要方面,噪聲可能由于各種因素(如設備故障、環境因素等)引入數據集中,消除噪聲可以減少數據的不確定性。糾正數據中的不一致性同樣是數據清理的一個關鍵環節,不一致性可能由于多種原因產生,如不同的數據輸入格式、單位不統一等,通過數據清理可以確保數據的一致性和準確性。15.作業和轉換中的注釋對數據處理本身不具有任何意義,在設計過程中可以忽略它。()A、正確B、錯誤【正確答案】:B解析:
注釋在數據處理和程序設計過程中具有非常重要的意義,盡管它們不直接參與數據處理操作,但它們對于代碼的理解、維護和調試至關重要。注釋可以幫助開發人員和其他相關人員理解代碼的功能、邏輯和意圖,從而提高代碼的可讀性和可維護性。在作業和轉換過程中,注釋可以幫助記錄數據的來源、處理方法和轉換規則,這對于后續的數據分析和問題排查非常有幫助。如果忽略了注釋,可能會導致后續人員難以理解和使用這些數據和程序,增加了出錯的可能性。在設計過程中,注釋不僅不能被忽略,反而應該被認真對待和編寫。16.在“數據庫連接”窗口中,在一個作業或轉換范圍內連接名稱不能重復。()A、正確B、錯誤【正確答案】:A解析:
在數據庫管理和處理中,每一個連接通常都有一個唯一的標識,即連接名稱。因此,在“數據庫連接”窗口中,確保在一個作業或轉換范圍內連接名稱的唯一性是非常重要的。這有助于保持數據庫操作的準確性和可靠性。17.pandas中,concat和merge方法的功能是一樣的,都是做數據集的合并。()A、正確B、錯誤【正確答案】:B解析:
在pandas庫中,`concat`和`merge`方法雖然都是用于處理數據集的合并,但它們的功能并不完全相同。`concat`方法主要用于沿著一條特定的軸連接兩個或多個pandas數據結構(如Series、DataFrame等)。它可以按照行或列的方向進行拼接,即將多個數據結構堆疊在一起。這種方法并不考慮數據結構之間的鍵(key)關系,只是簡單的拼接。而`merge`方法則是基于數據之間的共同列(或鍵)來進行合并的。它類似于數據庫中的連接操作,可以根據一個或多個鍵將兩個數據集連接起來。在合并過程中,`merge`會考慮這些鍵的匹配情況,并據此生成新的數據集。因此,雖然`concat`和`merge`都可以用于數據集的合并,但它們的合并方式和應用場景是不同的。題目中的敘述將這兩個方法的功能等同起來,這是不準確的。18.CSV文件輸入步驟可以處理多個文件。()A、正確B、錯誤【正確答案】:B解析:
CSV文件輸入步驟通常是指將數據從CSV(逗號分隔值)文件中導入到某個系統或程序中的過程。這個過程通常是針對單一文件進行操作的,即一次只能處理一個CSV文件。雖然技術上可以通過循環或批處理的方式連續處理多個CSV文件,但這通常涉及到多個步驟或多次操作,而不是單一的CSV文件輸入步驟。因此,題目中的敘述“CSV文件輸入步驟可以處理多個文件”是不準確的。19.pandas中,merge方法連接的兩個表要求有相同的列名,或者不能連接。()A、正確B、錯誤【正確答案】:B解析:
在pandas中,merge方法用于連接兩個DataFrame對象,并不要求兩個表必須有完全相同的列名才能進行連接。實際上,merge方法主要通過指定的列(或索引)來對齊數據,這些列可以具有不同的列名,只需要在調用merge方法時明確指定哪些列用于連接即可。merge方法的關鍵參數包括'left_on'、'right_on'、'how'等,其中'left_on'和'right_on'參數分別用于指定左側和右側DataFrame中用于連接的列。如果兩個DataFrame中用于連接的列具有相同的列名,則可以直接使用'on'參數來指定。如果列名不同,則需要分別使用'left_on'和'right_on'參數來指定。20.在作業設計中,作業項必須要求有唯一的名字。()A、正確B、錯誤【正確答案】:B解析:
在作業設計中,雖然為作業項提供一個清晰、明確的名稱是有幫助的,以便于學生理解和識別,但并不是每個作業項都必須要有唯一的名字。作業設計更注重的是作業內容的質量、難度、與課程目標的契合度等方面,而作業項的名字并不是絕對必要的。有時候,同一類型的作業項可能會使用相同的名稱,或者不同的作業項可能使用相似的名稱來描述它們的主要特征或要求。作業設計中,作業項的名字并非必須要求唯一,重要的是作業的內容和質量。21.ndarray的size屬性是看數組占有多少內存空間。()A、正確B、錯誤【正確答案】:B解析:
在NumPy庫中,`ndarray`的`size`屬性并不表示數組占用的內存空間大小。`size`屬性返回的是數組中所有元素的個數,即`shape`屬性中各個維度大小的乘積。如果要查看數組占用的內存空間大小,通常會使用`nbytes`屬性,該屬性返回的是數組元素在內存中占用的字節數。`nbytes`的計算基于數組元素的類型和數據量。`ndarray`的`size`屬性并不表示數組占有的內存空間。22.對ndarray的切片是原始數組的視圖,數據不會被復制。()A、正確B、錯誤【正確答案】:A解析:
這道題正確,因為對ndarray的切片操作確實是返回原始數組的視圖,不會復制數據,修改切片內容會影響原始數組。23.Pandas在讀取文件時,read_csv讀取帶分隔符的數據,read_table是讀取數據庫的表。()A、正確B、錯誤【正確答案】:B解析:
Pandas是一個強大的Python數據分析庫,它提供了多種函數用于讀取不同類型的數據文件。其中,`read_csv`函數主要用于讀取以逗號(或其他指定分隔符)分隔的CSV文件。而`read_table`函數實際上也是用于讀取文本文件,其默認的分隔符是制表符(tab),但也可以設置為其他分隔符。它并不是專門用來讀取數據庫的表。對于從數據庫中讀取數據,Pandas通常使用SQL查詢語句結合數據庫連接來實現。`read_table`并不是用來讀取數據庫的表,而是用來讀取特定分隔符(默認為制表符)分隔的文本文件。24.Kettle提供了大量的數據清洗步驟,沒有必要再使用腳本組件來做數據清理。()A、正確B、錯誤【正確答案】:B解析:
Kettle確實提供了大量的數據清洗步驟,這些步驟可以大大簡化數據清洗的過程。然而,這并不意味著沒有必要再使用腳本組件。在某些復雜的清洗任務或特定的業務邏輯下,腳本組件(如JavaScript、Python等)可能提供更大的靈活性和控制力。使用腳本組件,用戶可以自定義清洗邏輯,處理復雜的數據結構或執行特定的數據轉換。這些功能可能超出了Kettle內置步驟的能力范圍。因此,雖然Kettle提供了豐富的數據清洗步驟,但在某些情況下,使用腳本組件進行數據清洗仍然是必要的。25.文本文件輸入步驟可以處理多個文件。()A、正確B、錯誤【正確答案】:A解析:
文本文件輸入步驟通常指的是在計算機程序中讀取和處理文本文件的過程。這個過程可以針對單個文件進行,也可以針對多個文件進行。當需要處理多個文件時,可以通過循環或其他編程結構來依次讀取和處理每個文件。26.在使用cut函數進行數據離散化時,只能指定邊界值來劃分面元。()A、正確B、錯誤【正確答案】:B解析:
在使用cut函數進行數據離散化時,不僅能指定邊界值來劃分面元,還能通過指定面元數量等方式來劃分。27.Kettle中的步驟是順序執行的。()A、正確B、錯誤【正確答案】:B解析:
Kettle中的步驟可以配置為順序執行,也可以配置為并行執行。28.在獲取數據時,我們一般會找一些權威機構獲取數據,這主要體現了數據的相關性()A、正確B、錯誤【正確答案】:B解析:
在獲取數據時,選擇權威機構作為數據來源,這主要體現的是數據的可靠性和準確性,而非數據的相關性。數據的相關性是指兩個或多個變量之間存在的關聯性或相互依賴的程度。而權威機構提供的數據往往被認為是可信的,因為它們經過了專業的收集、分析和驗證。在獲取數據時找權威機構獲取,這主要體現的是數據的可靠性和準確性,而不是數據的相關性。29.運行轉換或者作業時,無論在什么時候都應該把日志級別設置到盡可能詳細,這樣方便程序的維護及查錯。()A、正確B、錯誤【正確答案】:B解析:
雖然詳細的日志級別可以提供更多的信息,有助于程序的維護和查錯,但在運行轉換或作業時,并不是在任何時候都應該把日志級別設置到盡可能詳細。這是因為過于詳細的日志記錄可能會產生大量的日志數據,這既會占用大量的存儲空間,又可能影響程序的性能。因此,通常的做法是,在開發或調試階段將日志級別設置為較詳細的級別,以便及時發現和解決問題。而在生產環境或正常運行時,應適當降低日志級別,以減少日志數據量,提高程序性能。30.在一個作業中,有且僅有一個START作業項,它標識了作業的執行起點。()A、正確B、錯誤【正確答案】:A解析:
在作業管理中,每個作業通常都會有一個明確的開始點,即START作業項。這個作業項標識了作業的執行起點,是作業執行流程的開始。一個作業中確實有且僅有一個START作業項,用以標識作業的執行起點。31.pivot方法可以指定不同的聚合方式。()A、正確B、錯誤【正確答案】:B解析:
在數據分析和處理中,`pivot`方法通常用于重新排列數據集的結構,而不是用于指定聚合方式。它通常用于將行轉換為列或將列轉換為行,以便更好地展示或分析數據。聚合方式(如求和、平均值、計數等)通常是通過其他方法或函數來指定的,比如`groupby`后的聚合函數。`pivot`方法本身并不提供指定不同聚合方式的功能。32.在作業項之間,數據以結果對象的方式進行傳遞。A、正確B、錯誤【正確答案】:A解析:
在編程和軟件開發中,數據確實經常以對象的形式在作業項或模塊之間進行傳遞。33.“去除重復記錄(哈希)”步驟可以對沒排序的數據集進行排重。()A、正確B、錯誤【正確答案】:A解析:
哈希技術是一種用于處理大量數據的方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025醫療設備采購合同范本
- 《2025年挖掘機租賃合同》
- 廣西河池市鳳山縣2023-2024學年十校聯考最后數學試題含解析
- 廣西陸川縣聯考2023-2024學年中考沖刺卷數學試題含解析
- 護理操作與臨床護理模擬考試題庫
- 酒店房間裝潢設計與施工合同
- 遼寧省營口市蓋州市2023-2024學年三年級下學期5月期中科學試題(含答案)
- 1997購房合同標準文本
- 二手商業樓房買賣合同樣本
- 2025年計算機二級考試學習點滴分享試題及答案
- 解除租賃合同的協議
- 2025-2030中國碳纖維預浸料行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030中國機器人碼垛系統行業市場發展趨勢與前景展望戰略研究報告
- 2025年上半年廣東深圳市光明區建筑工務署招聘特聘專干一般專干7人重點基礎提升(共500題)附帶答案詳解
- 2024年中國機械工業集團有限公司國機集團總部招聘筆試真題
- 2025年湖北省高考模擬檢測卷(二)-解析卷
- 2025年長春師范高等專科學校單招職業技能考試題庫必考題
- 人工智能對文化產業的創新與發展
- 2025年全屋定制家居市場分析與經營計劃
- 電動汽車結構原理與檢修課件:慢充系統檢修
- 2025年中國旅行車市場調查研究報告
評論
0/150
提交評論