




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據分析技術習題答案.大數據分析的基礎包含哪五個方面?(1)數據挖掘與分析從廣義的角度出發,數據挖掘算法是大數據分析的重要核心內容。只有特定的數據挖掘算法 處理不同業務場景所產生的數據類型和結構,才能獲得高質量的價值數據。同時,隨著數據 挖掘算法地不斷優化,使其能夠處理更多、更大和更復雜的數據內容。(2)數據可視化分析大數據可視化分析因其直觀,易讀,易理解,不僅被大數據分析科學家使用,也大量地使用 在普通客戶的業務需求之中。大數據可視化分析能夠非常高效地將晦澀難懂,抽象的數據, 以清晰、直接的各種圖形和表格非常簡單描述出數據背后所蘊含的豐富故事。(3)預測分析大數據預測分析是大數據分析的重要
2、應用,通過應用數據挖掘算法找到特定業務領域的大數 據特點,并建立符合行業特征的數據模型,實現對未來業務數據進行有效的預測,幫助優化 不同行業、企業的經營和決策。(4)語義分析大數據語義分析用于對網絡數據的分析和挖掘,通過對用戶不同行為產生的不同數據,例如, 評論關鍵詞、搜索關鍵詞、產品關鍵詞等特定行業的上下文語義,有針對性地分析和判斷用 戶需求和行為模式,為企業和用戶提供更好的服務和體驗。(5)數據分析和質量管理大數據不僅僅只有海量的數據,更需要其高質量的數據和數據管理作為重要支撐。高質量的 數據能夠更加精準地針對特定業務數據提供更有價值的數據分析結果。.大數據分析有什么作用?(1)進一步提升
3、工作效率面對需要處理的海量數據,不僅需要花費大量的人力、物力和財力對其進行有效存儲、管理 和維護,還要對其實施有效地分析處理才能發現變量和常量等數據之間隱藏的內在關聯。因 此,數據分析能夠通過正確的呈現方式,將數據之間千絲萬縷的關系和規律進行簡單地描述, 從而提升工作效率。(2)讓業務和數據變得更加易于理解、可讀傳統的數據庫管理系統往往不能非常直觀地呈現出數據整體和局部的狀態和聯系。不僅對于 專業數據科學家,還包括普通用戶,要及時,高效地理解和掌握某個領域或業務當中海量的 結構化數據表,甚至是半結構化和非結構化的數據,都是十分困難的事情。通過應用大數據 分析技術能夠讓復雜的數據變得可讀、可理解
4、,有利于數據工作者和客戶能夠對數據進行更 優化的歸納和總結,并使得特定的業務數據變得更加有邏輯,條理更加清晰。(3)業務開展更加精準大數據分技術的目的就是為了在海量數據之中發現知識,用科學的統計方法幫助人們精準定 位業務過程中可能存在的問題和機會,從而防止了業務實施過程中的失誤,使得業務實施的 路線和方向更加明確和精準。.大數據分析有哪些技術?Python.簡述HADOOP框架。Hadoop是主流的大數據存儲和分析平臺之一。它是來源于Apache基金會以Java編寫的開 源分布式框架工程。其核心組件是IIDFS、YARN和MapReduce,其它組件為:HBase HIVE Zookeeper
5、 Spark Kafka Flume、Ambari 和 Sqoop 等。這 些組件共同提供了一套完成服務或更高級的服務。Hadoop可以將大規模海量數據進行分布式并行處理。Hadoop具有高度容許錯性、可擴展性、 司可靠性和穩定性。.簡述HADOOP核心組件和工作原理。HADOOP有三個核心組件:HDFS (數據存儲)、MapReduce (分布式離線計算)和YARN (資源 調度)HDFS (Hadoop Distributed File System) Hadoop 分布式文件系統HDFS屬于Hadoop的底層核心組件。它是分布式文件系統的一種,并具備以下特點:海量數據和流式數據訪問讀寫交
6、互能力高度容錯能力移動計算部署方便MapReduce是建立在HDFS之上的數據映射和化簡并行處理技術。它是一種具有線性特 質的,可擴展的編程模型。它對網絡服務器日志等半結構化和非結構化數據的處理非常有效。MAP和REDUCE分別代表 兩種函數。前者主要負責將一個任務進行碎片化處理,后者主要負責將各種碎片化信息進行重組匯總。YARN (Yet Another Resource Negotiator)或第二代 MapReduce由于第一代MapReduce存在一定的局限性,例如Jobtracker既要負責資源管理,又要監控、 跟蹤、記錄和控制任務,成為整個MapReduce的性能瓶頸。最重要的是,
7、第一代MapReduce在系統的整體資源利用率 方面相對較低。因此,為了優化和提升MapReduce的性能和資源利用率,Hadoop引入了 YARN專門用于整合 Hadoop集群資源,并支持其他分布式計算模式。YARN 的組成局部主要由三個組件:ResourceManager NodeManager 和 ApplicationMaster。.簡述HIVE、Spark和HBase的特點。(1)Hive具有如下特點:可擴展性由于Hive是建立在Hadoop之上,因此有與Hadoop集群一樣的擴展性。Hive可以在不用重 新啟動服務的前提下實現集群規模的自由擴展。可延展性Hive可以通過編寫更加靈活
8、多樣的HQL語言實現比MapReduce更豐富的函數。容錯性Hive可以使用Hadoop集群的超強冗余性實現數據的容錯性。Hive本身的元數據那么存放在 mysql數據庫中。Spark具有如下特點:運行速度快Spark使用基于高速緩存的分布式實時計算框架。與MapReduce不斷重復使用磁盤輸入輸出 保存計算結果相比,Spark最大優勢在于能夠高效地使用高速緩存進行迭代重復計算。只有 在內存缺乏的情況,Spark才會使用磁盤輸入和輸出。簡單易用可以通過Java, Scala, Python, R和SQL等不同語言快速去編寫Spark程序,允許開發人員 使用自己熟悉的語言編寫Spark程序,極大
9、地提升了 Spark的普及范圍。同時,Spark自帶 80多個高級操作符,能夠更容易地創立Spark并行應用程序,并能夠與Java, Scala, Python, R 和SQL shell交互。普適通用Spark是一個分布式計算框架,不僅能夠實現MapReduce的場景功能,更能在更多業務場景 中展露頭角。Spark既有可以實現離線計算的Spark SQL模塊,也有可以實現實時計算的 Spark Streaming模塊以及封裝了常用的機器學習庫Mlib和圖計算庫Graphxo 運行方式多樣性Spark有兩種運行方式:StandAlone和YARN。在StandAlone模式下用戶可以在Hado
10、op集 群的一組或全部機器中靜態分配資源,與Hadoop MR同時運行,用戶可以在HDFS上運行專 屬的Spark任務。 在YARN模式中,Hadoop用戶可以簡單的把Spark運行在YARN中,像 其他運行在Spark上層的模塊一樣充分利用Spark的強大計算能力。HBase具有如下特點:高可靠性HBase基于Hadoop的HDFS分布式文件架構,具有極強的可靠性。高性能HBase是面向實時查詢的分布式數據庫,能夠非常高效地查詢和寫入數據,實現高并發和實 時處理數據。彈性可擴展HBase建立在Hadoop的HDFS之上,通過線性方式從下到上靈活地增刪節點來進行擴展,并 且被眾多企業廣泛地使用
11、在緩存服務器方面。面向列的操作HBase面向列來進行存儲和查詢的,包括:行鍵(Row Key) 列族(Column Family)、列 修飾符(Column Qualifier)、數據(Value)和時間戳(TimeStamp)和類型(Type),# 4.簡述 Kafka、Flume、Sqoop 和 Zookeeper 的組織架構。(1)Kafka生產者Producer:用于向Kafka集群以Topic的方式發送消息。主題Topic: 一個Topic類似于一個消息流的名字。消費者Consumer:用于不斷地向Kafka集群接收并處理消息流。(2)FlumeSource:數據的來源和方式Chan
12、nel:數據的緩沖池Sink:定義了數據輸出的方式和目的地Flume的關鍵流程是首先通過source獲取到數據源的數據,然后將數據緩存在Channel當 中以保證數據傳輸過程中不喪失,最后通過Sink將數據發送到指定的位置。(3)SqoopSqoop Server:所有的連接器Connectors都安裝在Sqoop Server上便于統一管理。其中, Connectors負責數據讀寫,Metadata負責管理數據庫的元數據。Sqoop Client:通過瀏覽器或者CLI實現客戶端的REST API、JAVA APR WEB UI以及CL I 控制臺與Sqoop Server的交互。(4)Zoo
13、keeperLeader:所有Zookeeper服務器中只有一個Leader被選舉出來,作為整個ZooKeeper集 群的主節點,其它節點都是Follower或Observer。Leader是所有應用程序事務請求的最高 協調和決定者,統一管理集群事物的執行順序,保證整個集群內部消息處理的先進先出。Observer:主要應用于需要處理更多負載或者跨機房的應用場景用于提升系統可擴展性, 提升讀取速度,但Observer不參與選舉投票。Follower:接收Client的請求,返回響應給Client,并參與Leader的選舉投票。Client:事務請求發送者.請簡要介紹一下機器學習的開發流程。(1)
14、獲取數據:從指定數據源獲取業務數據(2)數據預處理:對源數據進行數據清理(處理缺失值、重復值和邏輯錯誤值)、數據集 成(處理實體數據識別和冗余問題)、數據規約(用較小的數據替換較大的源數據)(3)特征工程:數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。 其目的是最大限度地從原始數據中提取特征以供算法和模型使用。(4)模型訓練:通過導入指定的特征數據,對模型進行訓練和優化。(5)模型評估:使用損失函數對模型進行評估。(6)應用預測:將測試數據導入評估后的模型中進行檢驗。.請簡要介紹一下機器學習的實施步驟。(1)針對具體的業務需求,選擇合適的基本模型。模型就是一組用于處理具體業
15、務數據的 函數。(2)模型在數據的訓練下不斷被優化,但衡量這組函數質量優劣的標準就叫做損失函數。 損失函數適用于不同的具體業務需求的,回歸問題可以使用平方誤差損失函數和絕對值誤差 損失函數,分類問題可以使用交叉端損失函數。(3)在具體業務場景中找到一個最合適的模型是機器學習的關鍵,常用的方法有梯度下降 法、最小二乘法實現局部或全局最優。(4)將最合適的模型應用到該業務的最新數據當中,檢驗其效果。.機器學習常用算法分為哪兩大類?機器學習算法主要分為兩大類:有監督學習和無監督學習。有監督學習帶有目標數據(即有 標準答案),無監督數據不需要目標數據(無標準答案)。有監督學習可以再分為回歸和分類,無監
16、督學習可以再分為降維和聚類。.請介紹一下樸素貝葉斯的基本思想和特點。樸素貝葉斯算法是一個常見的分類算法,比擬適用于垃圾郵件過濾、文本分類或拼寫查錯等 領域。樸素貝葉斯的最大特點就是:特征條件獨立假設。該假設獨立看待當前每一個條件指標與待分類項的概率關系,并不關心各個條件指標之間有無依賴關系。例如, 一般情況下,銀行會根據客戶的月收入、信用卡額度、房車情況等不同方面的特征綜合判斷是否給客戶辦理貸款手續。因為一般對于月收入較高的客戶來說,信用卡額度 和房車情況都是比擬良好的狀態。月收入和信用卡額度和房車情況存在很高的相關性。然而樸素貝葉斯算法會忽略這種特征之間的內在關系,直接認為客戶的月收入、房
17、產與信用卡額度之間沒有任何關系,三者是各自獨立的特征,而只從這三個指標各自對是否辦理貸款的影響概率大小去判斷。.請介紹一下K均值聚類算法的基本思想和計算過程。基本思想:在數據樣本中首先設定K個樣本點作為聚類的中心點,然后通過比照每個中心點 與周圍數據點距離的大小,決定數據點歸屬的類別,把每個數據點分配給距離它最近的聚類 中心。根據這種聚類方式,每次吸納了新的數據點后,便重新計算當前聚類中心的位置(各 數據點到中心點的平均距離),直到滿足指定的聚類終止條件為止。終止條件包括:沒有(或最小數目)數據點被分配給不同的聚類、聚類中心不再發生變化或到達誤差平 方和局部最小。計算過程:根據具體業務數據選擇
18、K個數據點作為聚類中心點。計算所有數據點與K個數據點的距離。將離聚類中心點最近的數據點歸為同一類。重新計算新類中的聚類中心點位置。重復(2) (3)步驟,直到到達聚類終止條件。.請介紹一下“啤酒與尿布”故事。在美國沃爾瑪連鎖店超市的真實案例,沃爾瑪擁有世界上最大的數據倉庫系統,集中了其各 門店的詳細原始交易數據。通過對消費者購物行為數據進行分析時發現,男性顧客在購買嬰兒尿片時,會順便購買幾瓶啤酒,于是推出了將啤酒和尿布放在一起的促 銷手段。揭示了一個隱藏在尿布與啤酒背后的美國人的一種行為模式。Python擁有非常成熟的技術和資源社區,能夠在數據分析和處理、人工智能以及數據可視 化等方面提供強大
19、的技術支持。大數據業務流程的數據采集、數據存儲、數據分析、數據處 理以及數據可視化都是應用Python及其類庫實現的。Python比擬著名的類庫和工具有: Numpy、 Pandas Matplotlib Scikit-learn 等。NumpyNumpy是Python中的一個矩陣計算包,提供了非常強大的數組ndarray及其相應的處理函 數ufunc,使其能夠在高效地應用內存的前提下,非??焖俚貏摿維數組,并提供矢量化 數學運算,實現不編寫特定循環的情況下對整個數組進行標準運算操作。Numpy的出現不僅 極大地彌補了 Python在操作列表數據類型進行數值運算過程中比擬耗費內存和CPU計算
20、資 源的問題,而且很好的補充了 Python的array模塊不能支持多維數組及其運算的缺乏。PandasPandas是建立在Numpy之上的一個Python數據分析包,擁有強大的數據分析功能,包含 SeriesDataFrame等高級數據結構和工具。Pandas納入了大量的庫和一些標準的數據模型, 提供了高效操作大型數據集所需要的工具。Pandas提供了大量快速便捷的函數和方法。其 中,Pandas擁有的坐標軸特點能夠支持數據自動對齊,高效提升不同數據源的數據探索和 檢索,防止了數據處理過程中出現的問題。MatplotlibMatplotlib是基于Numpy的一套Python包,擁有非常豐富
21、的可視化圖形庫和工具,通過強 大的接口能夠實現繪制滿足不同數據類型和業務需求的專業圖形,并且能支持多種操作系統 的不同GUI后端,輸出的圖形格式可以是PDF, SVG, JPG, PNG, BMP, GIF等。Scikit-learnScikit-learn是一個基于Python語言的機器學習開源框架。sklearn中包含了大量的優質 的數據集,在學習機器學習的過程中,可以通過使用這些數據集實現出不同的模型。Hadoop及其主要生態圈Hadoop是大數據技術重要代表之一。它是來源于Apache基金會以JAVA編寫的開源分布式 框架工程。其核心組件是HDFS、YARN和MapReduce,其它組
22、件為:HBASE、HIVE、ZOOKEEPER 和SQOOP等。這些組件共同提供了一套完整服務或更高級的服務。Hadoop可以將大規模海 量數據進行分布式并行處理。Hadoop具有高度容錯性、可擴展性、高可靠性和穩定性,讓 Hadoop成為最流行的大數據分析系統。.大數據分析有哪些流程?(1)問題識別在開展大數據分析之前,首先應該明確具體任務以及需要解決的問題。只有以解決問題為導 向,才能更加清晰、有效地圍繞問題開展數據分析工作。(2)數據可行性數據可行性是指根據識別的問題所需要得到的數據是否具有較高可靠性和可用性以及數據過度擬合問題。數據可行性需要把握三個細節:明確數據的體量和專業領域明確抽
23、象概念和具體指標數據的映射關系明確具體業務中的代表性數據數據準備數據準備需要具體落實每個數據的具體作用和所代表的具體內涵,可以說大數據分析的大部 分時間都是花費對數據的準備過程中。具體分數據采集和數據預處理。數據采集:在這個數據爆炸的時代,不管是提供底層基礎架構的云計算,還是實現各種 人工智能應用,都離不開其核心的源泉:數據。由于物聯網海量的穿戴設備、網絡多媒體平 臺以及電子商務平臺中的數據太多、太寬泛,人們需要通過特殊的技術和方法實現在海量的 數據中到真正有價值的數據,從而為下一步大數據分析業務提供數據支撐。因此,數據 采集是直接獲取數據的橋頭堡。數據預處理:數據預處理主要是指在對數據開展具
24、體分析和挖掘之前對數據進行的一些 處理。數據預處理有四個任務,數據清洗、數據集成、數據變換和數據規約。數據清洗:根據具體業務規那么制定針對性的數據清洗規那么,包括檢測和去除數據集中的噪聲 數據和無關數據,處理遺漏數據,去除空白數據域或者是知識背景下的空值。數據集成:根據具體業務需要,將不同結構和類型的數據,例如,不同數據庫和不同格式的 普通文件有機地結合在一起,使之能夠為特定業務領域提供高質量的數據共享服務。例如, 數據倉庫模式就是一種數據集成方式。它是面向主題的,集成的,相對穩定的數據集合。 數據變換:根據具體大數據分析框架或技術的要求,結合具體業務的描述,將數據進行特定 地轉換,使之更符合
25、大數據分析框架的特點和業務的需求方式。數據規約:根據業務需求對原始數據進行量身裁剪,實現數據既能夠很好地保持數據的完整 性,又能夠從數據維度、數量和體機方面得到有效地縮減。(4)數據模型數據模型是用經過設計之后的數據對現實世界特征的描述和呈現。數據模型能夠很好地將現 實世界中需要處理的問題通過計算機能夠識別的方式進行高效地的處理。數據模型的建立需 要結合業務模型、數據分析模型以及專家的經驗判斷。另外,還要考慮當前的運算能力是否 滿足數據模型的運算需求。(5)分析結果大數據分析的結果作為重要結論分為定性和定量的評估結果,分析結果必須要能夠嚴謹可靠 且符合業務決策需求。.大數據分析有哪些主要模型?
26、(1)比照分析模型在特定業務背景知識中將多個數據進行比擬,從而發現和揭示事物的變化開展規律。比照分 析比擬簡單,能夠相對簡單地比擬數據之間的聯系,分析操作步驟較少,能夠非常直觀的呈 現不同數據的異同之處,能夠精準表示數據之間度量值的差距。比照標準是比照分析的主要 抓手,將比照對象的指標與標準進行比照,就能得出有結果了。目前常用標準是時間標準、 空間標準、特定標準。例如,今年10月的某商品銷售數量和去年10月的銷售數量進行比照 就是基于時間標準的比照分析;不同城市之間對于共享單車的接受程度就是基于空間標準的 比照分析;應用專家經驗判斷的數據標準與當前領域數據的比照就是基于特定標準的比照分 析。(
27、2)分類分析模型分類分析通過給與不同類型的數據不同的成員資格,從而將數據分成不同類別的群體,其目 的是將未知類別的數據更好地向某一個類進行歸納,并按其接近歸納的程度細化分類質量。 例如,通過分類分析模型區別垃圾郵件和非垃圾郵件;通過糖尿病患者某些數據指標(血糖, 血壓,心率等)判斷是否患有糖尿病。(3)關聯分析模型通過分析變量之間的關系發現數據之間隱含的聯系,包括明確自變量和因變量的因果變化規 律或者變量之間相關性、方向性和緊密程度等。作為數據挖掘的重要技術,通過分析顧客的 消費數據,發現其內在偏好規那么,為商家提供有價值的銷售策略。關聯分析的應用案例非常 多,例如,比擬著名的啤酒與尿布,人們
28、發現在超市里面購買尿布的男性顧客也會同時購買 啤酒,因此把啤酒和尿布放在同一個貨架上進行銷售。(4)綜合分析模型綜合分析模型是將多個指標綜合應用在復雜數據環境中,通過分析研究對象個主要局部及其 特征,并以整合宏觀知識結構和突出局部知識重點的思維方式進行定性或定量分析判斷,將 多個指標數據整合為針對某一個綜合評價的指標,從而揭示和發現復雜業務數據或現象總體 或一般特征或關系。例如,分析和評價人民幸福程度、學生綜合素質和某行業開展前景報告 等。.簡述Python語言與其他數據分析工具的比擬(1)與Excel相比,Python通過調用強大的數據分析和處理模塊,實現靈活處理更大數據 集的報表數據,并能
29、夠進一步自動地實現數據分析和建立更加復雜的機器學習模型。(2)與R語言擁有過于分散和相對雜亂的機器學習庫相比,Python有著更為集中和高效的 機器學習框架ScikitTearn。這讓Python更容易被理解和掌握。因此,Python的機器學習 和數據統計分析用戶社區和群體在近幾年不斷攀升。(3)與SPSS相比,Python能夠處理更為龐大和復雜的數據結構,以及適應更為復雜的數 據分析業務場景。SPSS是一款優秀的統計軟件,主要應用在科學實驗方面的數據分析場景。Python在數據科學及其一整套技術框架上面優勢十清楚顯,包括數據采集、數據存儲 和管理、數據分析和處理、數據可視化、機器學習、人工智
30、能、APP開發和運維等整套解決 方案。.簡述基于Python的數據分析第三方庫有哪些,分別有什么作用?基于Python的數據分析之所以強大,得益于其背后豐富的第三方庫,開箱即用,方便快捷。 主要包括如下:NumPyNumPy對Python最大的支持在于其很好地彌補了 Python對數據組的缺乏。NumPy能夠高效 地創立N維陣列,并能夠通過其豐富的函數對N維陣列進行處理。同時,NumPy中還包括基 本線性代數函數,傅里葉變換,高級隨機數功能和集成工具等強大的數學科學計算工具。PandasPandas擁有許多高級的數據分析功能,是Python下最強大的數據分析和探索工具。Pandas 帶有高級的
31、數據結構和精巧的工具,能夠高效快速地處理數據,Pandas構建在NumPy之上, 強化和豐富了 NumPy的使用方式。SciPySciPy依賴于NumPy,其主要作用在于擁有強大的對象和函數能夠處理數據矩陣。SciPy的 高級數學計算模塊包括:離散傅立葉變換,線性代數,稀疏矩陣、最優化、積分、插值、擬 合、信號處理與圖像處理、常微分求解方程等。另外,SciPy還具有局部圖形功能,能夠向 MATLAB 一樣繪制用于科學和工程計算的數據圖形。MatplotlibMatplotlib用于繪制大量圖形的庫,它可與NumPy一起使用,主要用于繪制二維圖和局部 三維圖像,包括:直方圖、折線圖和散點圖等。M
32、atplotlib是一個綜合庫,用于在Python 中創立靜態,動畫和交互式可視化。Scikit-learnScikit-learn依賴于NumPy SciPy Matplotlib,主要包含用于機器學習的庫。 Scikit-learn提供了豐富且完善的一整套機器學習流程和工具,包括數據預處理、分類、 回歸、聚類、預測和模型分析。StatModelsStatModels主要用于數據的統計分析和建模,為不同的數據類型提供了廣泛統計,統計測 試,繪圖功能和結果統計的列表。StatModels可以于Pandas交互使用實現數據挖掘組合。SeabornSeaborn是構建在matplotlib的Pyt
33、hon數據可視化庫。通過提供豐富的API實現高級的統 計圖形繪圖功能。Seaborn和Matplotlib相互補充能夠實現更多更有特色的圖形。Seaborn 能夠接受基于Numpy與pandas的數據結構,并于Scipy與Statsmodels等統計模式高度兼 容。.請安裝Anaconda并運行Jupter Notebook之后,創立自己的第一個Python工程文檔。 參見任務2安裝Python的Anaconda發行版.請安裝PyCharm,并配置Anaconda中的Python解釋器,創立自己的第一個Python工程 文檔。參見任務3掌握PyCharm安裝和使用一*一 coding: utf
34、-8 一*一 import numpy as np1.創立一個從016的3*3矩陣Z = np. arange(16). reshape (4,4)print (Z)2.創立一個值從20到69的數組,步長為2Z = np. arange (20, 69, 2)print (Z)3.生成一個6*6的對角矩陣Z = np. eye (6)print (Z)4.創立一個5*10的隨機值數組,并找到最大值,最小值,平均值,標準差。Z = np. random, random (5, 10)Zmin, Zmax, Zmean, Zstd = Z. min(), Z. max (), Z. mean ()
35、, Z. std ()print(Zmin, Zmax, Zmean,Zstd)5.創立一個四邊為1,中間為0的二維數組, Z = np. ones (5, 5)Zl:-1, 1:-1:= 0 print (Z)6.創立一個四邊為0,中間為1的二維數組, Z 二 np. zeros (5, 5)Zl:-1, 1:-1 = 1 print(Z)7.如何計算(A+B)*(-A/2) ?A 二 np.ones *1B = np. ones (3)*2C = np.ones *3 np. add (A, B, out=B) np. divide (A, 2, out=A) np.negative (A
36、, out=A) np. multiply (A, B, outA)8.創立一個長度為5的數組,并做排序操作Z 二 np. random, random(5)Z. sort ()print (Z)9,求數組a的累計和,累計積a 二 np. arange (2, 50, 2)print(np. cumsum(a)print(np. cumprod(a)10.創立隨機數組,并保存該數組為numpy二進制文件讀取numpy二進制文件Z 二 np. random, random(5)np. save ( Z. npy,, Z)c = np. load ( Z. npy)print (c)任務3實訓使用
37、Pandas實現電影某地區票房數據分析。.獲取指定的csv源數據.獲取計算指定電影簡單愛的上映天數及日均票房.將結果保存到movie data.dat文件中。#將Python數組轉換成numpy數組startTime_ndarray = np. array(startTime_list) endTime_ndarray = np. array(endTime_list) startTime = getDays(startTime_ndarray)endTime = getDays(endTime_ndarray)totalTime=endTime-startTime #計算開始到結束之間有多少
38、天開始到結束之間有多少天print (總上映天數:+str (totalTime)for i in pf_list:#累計總票房total_pf += float(i)avg_pf = %. 6f % float (total_pf/totalTime)print (平均每天票房:+avg_pf)將想要的數值寫入dat文件中movie_data = open ( movie_data. dat, w)movie_data. write ( %d, %. 6f %(totalTime, float (avg_pf)任務3練習題.獲取csv源數據.處理和分析數據,實現游戲占比餅圖.根據游每年戲銷售數據實現散點圖,折線圖和柱狀圖一*一 coding: utf-8 一*一1.游戲銷售數據可視化分析import pandas as pdimport numpy as np import matplotlib.pyplot as pit1980-2020data = pd. read_csv(,. /vgsales. csv9) print (data, info ()刪除任意有空值的行,然后重置索引,再將年份這一列轉成整型 data, dropna(how=,any, inplace=True)data. reset_index(drop=True, inplac
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024四川雅安市交通建設(集團)有限責任公司招聘經營管理人員4人筆試參考題庫附帶答案詳解
- 人教版 (新課標)八年級下冊第一節 自然特征與農業第一課時教案
- 七年級語文上冊 第五單元 第17課《動物笑談》教學設計 新人教版
- 2024四川九禾股份有限公司社會公開招聘2人筆試參考題庫附帶答案詳解
- (高清版)DB33∕T 1203-2020 建設工程施工揚塵控制技術標準
- 人教版 (PEP)六年級上冊Unit 3 My weekend plan Part B第2課時教案及反思
- 抖音電商培訓賦能鄉村振興與基層治理現代化
- 九年級全冊Unit 8 It must belong to Carla.Section B第四課時教學設計
- 工廠行政安保工作培訓
- 人教部編版八年級上冊(道德與法治)誠實守信教案設計
- (高清版)TDT 1033-2012 高標準基本農田建設標準
- 功能安全培訓
- 1《國殤》練習(含答案)【中職專用】高教版2023-2024-基礎模塊下冊
- 案例分析未及時松解止血帶致患兒面臨截肢危險(完整)課件
- 企業營運能力分析
- 氣象局防雷工作總結
- 網絡營銷:推廣與策劃(第3版 慕課版)課件 項目三感悟網絡營銷策略(知識基石)
- 袁隆平英雄事跡
- 【課件】繪畫的誕生(落筆)課件-高中美術人教版(2019)選擇必修1+繪畫
- 膀胱癌護理業務學習課件
- T-GDYLSH 2.1-2022 旅居養老服務 第1部分:總則
評論
0/150
提交評論