




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
新媒體數據分析與應用第3章:新媒體數據的準備本章提綱CONTENTS新媒體的數據來源01理解數據023.1新媒體的數據來源第3章:新媒體的數據來源
3.1.1新媒體數據類型朋友圈一般指的是微信上的一個社交功能,用戶可以通過朋友圈發表文字和圖片,同時可通過其他軟件將文章或音樂分享到朋友圈。用戶可以對好友新發布的內容或照片進行“評論”或“點贊”,其他用戶只能看到相同好友的評論或點贊。用此作為主要推廣平臺的新媒體團隊,也可借助新媒體的東風,拓寬了他們的營銷思路,借助“社群運營+朋友圈運營”的雙重新模式來進行品牌的宣傳、產品的推廣、知名度的提升、營銷利潤的增加。右圖是微商借助朋友圈出售產品的截圖。1.微信朋友圈數據第3章:新媒體的數據來源
3.1.1新媒體數據類型與朋友圈數據相對應的是微信公眾號數據,該數據對微信公眾號的運營與產品、品牌下一步的發展都有很強的借鑒分析作用。利用公眾號平臺進行自媒體活動,簡單來說就是進行一對多的媒體行為活動。通過變換風格內容并分析閱讀數據,運營人員可以分析出粉絲的閱讀喜好與偏好;通過分析后臺粉絲數量的增減,運營人員可以分析前一階段的宣傳與推廣,是否真的起到了積極正面的作用。微信公眾號數據自身自有的計算渠道,運營人員能夠很直觀地了解當天的運營狀況,包含新增重視數、撤銷重視數、單篇文章閱覽量、悉數圖文閱覽量,甚至還能夠挑選時間階段進行計算。右圖是某商家利用公眾號來出售產品的真實截圖,圖中公眾號名稱和認證地址略去。2.微信公眾號數據第3章:新媒體的數據來源
3.1.1新媒體數據類型微博是指一種基于用戶關系信息分享、傳播及獲取通過關注機制分享簡短實時信息的廣播式的社交媒體和網絡平臺,允許用戶通過Web、Mail、App、IM、SMS及PC、手機等多種終端接入,以文字、圖片、視頻等多媒體形式,實現信息的即時分享、傳播互動。微博作為新型社交媒體的代表,在現代社會尤其是年輕人中,起到了極強的輿論影響作用。微博熱搜榜(見右圖)更是可以左右部分輿論的風向。事實上,微博作為一種社交平臺,免費向大眾開放。無論是個人還是企業都能夠在微博后臺檢查詳細的微博數據,其具體方式是登錄網頁版微博后,單擊“管理中心”,進入“數據助手,了解當前的微博數據。作為運營人員,最常關注的微博數據有閱覽數、閱覽量、視頻播放量、粉絲來源和粉絲新增及取關數等。3.微博數據第3章:新媒體的數據來源
3.1.1新媒體數據類型今日頭條是北京字節跳動科技有限公司開發的一款基于數據挖掘的推薦引擎產品,為用戶推薦信息、提供連接人與信息服務的產品。今日頭條基于個性化推薦引擎技術,根據每個用戶的興趣、位置等多個維度進行個性化推薦,推薦內容不僅包括狹義上的新聞,還包括音樂、電影、游戲、購物等資訊。根據用戶的社交行為、閱讀行為、地理位置、職業、年齡等挖掘出興趣。通過分析用戶的社交行為,今日頭條的推薦系統可以在5秒內計算出用戶興趣;再通過分析用戶行為,用戶每次操作后,10秒內更新用戶模型。作為一種新興的內容平臺,今日頭條的后臺具有更加強大的數據統計功能。新媒體運營人員及相關產業的人,可以借助今日頭條的相關數據,對雙標題效果(見右圖)、內容、推薦、閱讀、評論進行相關分析。4.今日頭條數據第3章:新媒體的數據來源
3.1.1新媒體數據類型抖音同樣作為字節跳動的主打產品,與今日頭條的推薦信息有所區別,今日頭條推薦狹義上的新聞,還包括音樂、電影、游戲、購物等資訊,而抖音則以短視頻為主,是一個面向全年齡的音樂短視頻社交平臺。根據對抖音平臺及其經營模式的相關分析,需要關注的數據主要來自以下幾個方面(見右圖):粉絲數量、點贊互動數據、粉絲的年齡性別、個人認證情況等進行多維度數據查找篩選。可根據已知的商品關鍵詞及商品鏈接、品牌等關鍵詞進行查找相關帶貨達人。可查看帶貨達人的視頻帶貨銷量數據。5.抖音數據第3章:新媒體的數據來源
3.1.2網站數據網站數據分析(見右圖)是通過觀察、調查、實驗、測量等方式,通過數據的顯示形式把網站各方面的情況反映出來,使運營人員更加了解網站的運營情況,便于調整網站的運營策略。網站數據分析是圍繞顧客進行的,公司不同部門需要的數據不一樣:市場部門想知道哪些廣告能帶來有價值的客戶;編輯部門想知道用戶喜歡哪些文章;采購部門了解用戶經常購買哪些產品等。第3章:新媒體的數據來源
3.1.2網站數據對虛擬空間商來說,網站流量是指用戶在訪問網站過程中產生的數據量大小。網站流量統計的主要指標包括以下幾個方面。獨立訪問者數量(UniqueVisitors)。重復訪問者數量(RepeatVisitors)。頁面瀏覽數(PageViews)。每個訪問者的頁面瀏覽數(PageViewsperuser)。某些具體文件/頁面的統計指標,例如頁面顯示次數、文件下載次數等。1.網站流量跳出率指用戶通過搜索關鍵詞來到網站,僅瀏覽了一個頁面就離開的訪問次數與所有訪問次數的百分比。觀察關鍵詞的跳出率就可以得知用戶對網站內容的認可,或者說網站是否對用戶有吸引力。跳出率的計算公式如下:跳出率=訪問一個頁面后離開網站的次數/總訪問次數2.跳出率第3章:新媒體的數據來源
3.1.2網站數據“來路”就是用戶通過什么地址鏈接目標網站。例如,某某網頁上有一個鏈接,其鏈接到了網頁上。當訪客單擊網頁上的鏈接,鏈接到了目標網頁上,則該網站的來路就是鏈接。最常見的幾種網站來路如下圖所示。3.網站來路第3章:新媒體的數據來源
3.1.2網站數據網站訪問深度就是用戶在瀏覽某個網站的過程中瀏覽的該網站的頁數。如果用戶一次性瀏覽的該網站的頁數多,那么基本上可以認定,該網站有用戶感興趣的東西。用戶訪問網站的深度用數據可以理解為網站平均訪問的頁面數,就是PV和UV的比值,這個比值越大,用戶體驗度越好,網站的粘性也越高。在自媒體時代,提高網站的訪問深度,可以從以下兩個方面著手:首先,要不斷調整網站的排版與布局,迎合當今時代的審美需要。網站的結構應當適應該網站的主題,盡可能簡單明了,將預定的功能設置明確,迎合簡單明了的時代主題。其次,對網站的內容也要進行不斷調整。網站的設計與板塊處理,作為一種外在因素,只能暫時吸引用戶,若想真正留住用戶,將其變成潛在客戶或留住原有客戶,還需要有用的信息,用戶可以獲得自己想要的東西。
4.訪問深度第3章:新媒體的數據來源
3.1.3爬蟲工具
網絡爬蟲又稱網頁蜘蛛、網絡機器人、網頁追逐者,是一種按照一定的規則自動地抓取互聯網信息的程序或腳本。
在新媒體時代,各種信息爆炸式增長。隨著網絡的迅速發展,互聯網成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰。搜索引擎作為輔助人們檢索信息的工具,成為用戶訪問互聯網的入口和指南。但是,通用搜索引擎也存在著一定的局限性。針對搜索引擎的問題與不足,通過爬蟲軟件,一些看似微不足道的數據在收集、整理、提取、分析之后會產生巨大的裨益。
第3章:新媒體的數據來源
3.1.3爬蟲工具垂直搜索是指將搜索范圍細分至某一專業領域,針對初次獲取的網頁信息進行更深層次的整合,最終形成“純度”更高的專業領域信息。以采購招標信息為主的網站,例如中國采摘網、劍魚,其數據就是利用爬蟲從網上的上萬家企事業單位爬取來的,再經過技術整合后發布到網站上提供服務。經過這樣的操作,即使一個新開發的網站,通過數據采集技術也可以很輕松地填滿所有內容,讓其能夠正常運營。1.行業垂直搜索——招標信息平臺大數據在個人金融授信的方面起著重要作用。結合新媒體的背景,利用爬蟲技術獲取個人消費信息,進行整合分析,為個人消費提供指南。2.金融消費——個人金融授信在信息社會,比別人先一步掌握信息的人是市場的贏家,傳統模式的人工處理顯然是低效率的。借助爬蟲技術,商家在入駐某網站后,系統能自動抓取廠商工單,售后管理變得簡單高效。在新媒體平臺的輔助下,后臺管理員可以及時獲取用戶的閱覽、購買信息,及時處理各項訂單。3.信息鏈接互聯第3章:新媒體的數據來源
3.1.4數據收集中常見的問題與解決方案新媒體時代的信息爆炸,帶來了巨大的信息量,反倒讓信息收集者不知道選取哪些有用的信息。數據收集是一件非常煩瑣的事情,一旦出現失誤,就會浪費大量的時間和精力。收集數據時,如果不知道從何處下手,則可以從數據使用者的角度出發,把握數據分析的切入點。1.不知從何處下手在新媒體的背景下,過量的信息同樣帶來一個問題,那就是收集的信息可能是無用的,并不能滿足當前的目標要求。然而在大量的信息中查找有效信息,是無法避免的,因而在一定的范圍內查找有用信息,要具有針對性。雖然信息的種類多種多樣,信息的來源也是多種多樣的,但是只要找到了有針對性的問題,就可以找到自己所需要的信息。2.收集的信息無用同樣,在新媒體這個大數據時代,人們獲取信息的渠道增多,獲取的信息量也增多,但是在這個信息時代,想要在巨量的信息中將自己所需要的信息完全提取,也不是一件容易的事,沒有將所需要的信息完全采集,就導致數據分析結論不夠真實,缺乏證據。3.收集的信息不全面3.2理解數據第3章:新媒體的數據來源
3.2.1字段與記錄數據包含字段與記錄,可以從數據分析的角度來理解字段和記錄的概念。字段是事物或現象的某種特征。如圖中的“月份”“總篇數”等都是字段,字段在統計學中稱為變量。記錄是事物或現象的具體表現。如圖中的“總篇數”可以是130或131等,記錄也稱數據或變量值。第3章:新媒體的數據來源
3.2.2數據類型數據還有一個基本的屬性就是數據類型,不同軟件中定義的數據類型不太一致,但是數字、文字和日期型是最常用的三類數據類型。在Excel中有很多數據類型,想要查看具體的數據類型,可在Excel中的任意一個單元格單擊鼠標右鍵,在彈出的快捷菜單中選擇“設置單元格格式”選項,彈出一個對話框,如下圖所示。在這個對話框中,可以看到不同的數據類型,如數值、文本、日期、貨幣、會計專用、時間、百分比、分數、科學記數、特殊等。第3章:新媒體的數據來源
3.2.2數據類型雖然Excel中有這么多數據類型,但最終都可以歸結為以下兩大類。字符型數據:字符型數據是不具有計算能力的文字數據類型。它包括中文字符、英文字符、數字字符(非數值型)等。例如,成績表中的“姓名”變量為字符型數據。數值型數據:數值型數據是直接使用自然數或度量單位進行計量的數值數據。如,成績表中的“編號”“成績”就是數值型數據,這類數據可以直接用算術方法進行匯總和分析,這一點是區分數據是否屬于數值型數據的重要依據。第3章:新媒體的數據來源
3.2.3數據表數據表由字段、記錄構成,滿足一定的數據類型。數據分析需要的數據表,在設計時的具體要求如下。(1)數據表由標題行和數據部分組成。(2)第一行是表的列標題(字段名),列標題不能重復。(3)第二行起是數據部分,數據部分的每一行數據稱為一個記錄,并且數據部分不允許出現空白行和空白列。(4)數據表中不能存在合并單元格。(5)數據表與其他數據之間應該留出至少一個空白行和空白列。1.數據表設計要求第3章:新媒體的數據來源
3.2.3數據表數據表由表名、表中的字段和表的記錄三個部分組成。設計數據表結構就是定義數據表文件名,確定數據表包含哪些字段,各字段的字段名、字段類型及寬度,并將這些數據輸入計算機中。在建立表之前都必須設計表結構,表結構描述了一個表的框架。設計表結構實際上就是定義組成一個表的字段個數,以及每個字段的名稱、數據類型和長度等信息。設計表的結構要求如下。(1)確定表名。表名要確保唯一性,表的名稱要與用途相符,簡略、直觀、見名知意。(2)確定字段名稱。
字段名長度小于64個字符。字段名可以包括字母、漢字、數字、空格和其他字符。字段名不可以包括句號(。)、感嘆號(!)、方括號([])和頓號(、)。字段名不可以以先導空格開頭。(3)確定字段類型。以微軟提供的Access辦公軟件為例,它提供了10種數據類型,以滿足字段的不同需要。(4)確定字段屬性。例如字段大小、格式、默認值、必填字段、有效性規則、有效性文本和索引等。(5)確定表中唯一能識別記錄的主關鍵詞段,即主鍵。1.數據表結構本章小結在本章中,我們了解了新媒體數據的來源。新媒體的數據類型包括微信朋友圈數據、微信公眾號數據、微博數據、今日頭題數據以及抖音數據。也了解了網站數據的一些專有名詞,包括網站流量、跳出率、網站來源、訪問深度。同時,我們在數據搜集中會遇到很多問題,包括不知道怎么下手,收集的數據無用或者不全面,對數據類型不理解等等,我們這章中都做了具體的介紹,并給出了一些相對應的解決方案。第3章:新媒體的數據來源本章內容結束!Endofthischapter!新媒體數據分析與應用新媒體數據分析與應用第4章:新媒體數據的處理本章提綱CONTENTS數據清洗01數據加工024.1數據清洗第4章:新媒體數據的處理4.1數據清洗數據清洗指的是對數據進行重新檢查,發現其中常見的錯誤,其目的主要在于刪除重復信息、糾正存在的錯誤,提高數據分析的準確性。數據清洗的基本流程是先檢查數據中可能存在的錯誤,包括檢查數據與元數據的一致性,處理重復值和缺失值等。因為從數據庫中收集來的數據是從多個業務系統中抽取而來的,其中包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據之間有沖突,這些錯誤的或有沖突的數據顯然是人們不想要的。數據清洗就是把這類數據清洗掉,過濾不符合要求的數據,具體而言就是將多余的重復的數據篩選清除,將確實的數據補充完整,將錯誤的數據糾正或刪除。對清洗后的數據進行數據分析,能夠得到較為準確的結論,從而能夠為管理決策提供支持。第4章:新媒體數據的處理
4.1.1重復數據的處理——自定義需要處理的數據表
首先,在Excel中自定義一個帶有重復數據和缺失數據的數據表,如下圖所示。圖中數據表的第二列含有缺失數據,第三列含有重復數據。圖4-1第4章:新媒體數據的處理
4.1.1重復數據的處理——識別重復數據在處理重復數據之前,需要先對數據表中的重復數據進行識別,尤其是當數據量特別大的時候,這一步尤為重要。在Excel中共有四種識別重復數據的方法。countif函數的作用是對區域中滿足單個指定條件的單元格進行計數,其基本格式為countif(range,criteria),range表示想要計算的單元格范圍,criteria表示計算條件,其形式可以為數字、表達式或文本。如圖4-1中所示,在D2單元格中輸入函數表達式:=COUNTIF(C1:C4,C1),然后拖動單元格右下角的“+”號至D5單元格,顯示結果如圖4-2所示。1.函數法(使用countif函數)圖4-2第4章:新媒體數據的處理
4.1.1重復數據的處理——識別重復數據在Excel中也可以直接使用功能導航區域的篩選功能直接篩選出非重復值,首先選擇數據單元格區域,然后選擇“數據”選項卡,找到“高級”對話框。在彈出的對話框中選擇“將篩選結果復制到其他位置”選項,復制到單元格,同時勾選“選擇不重復的記錄”復選框,單擊“確定”按鈕。2.高級篩選法結果:第4章:新媒體數據的處理
4.1.1重復數據的處理——識別重復數據使用條件格式法的突出顯示重復值的功能也可將重復值顯示出來。“開始”選項卡下依選擇“條件格式”→“突出顯示單元格規則”→“重復值”,在彈出的對話框中單擊“確定”按鈕。3.條件格式法重復值將顯示為淺紅填充色的深紅色文本利用條件格式法處理重復值的步驟第4章:新媒體數據的處理
4.1.1重復數據的處理——識別重復數據數據透視表法的原理類似于函數法,通過計算數據重復的頻次,出現2次及以上就說明該數據屬于重復項。其操作過程具體如下,在E1單元格單擊“插入”選項卡,選擇“數據透視表”選項,如下圖:4.數據透視表法利用數據透視表法處理重復值的步驟一第4章:新媒體數據的處理
4.1.1重復數據的處理——識別重復數據在彈出的對話框中,選擇要分析的區域為C1:C5,選擇放置數據透視表的位置為E1,單擊“確定”按鈕,如下圖。單擊生成的數據透視表,在右方“數據透視表字段”中勾選“收益(萬元)”選項,再將“收益(萬元)”選項拖動到“數值”區域,最后單擊“數值”下拉按鈕,在彈出的下拉列表中選擇“值字段設置”為“計數”,其結果如下圖所示。4.數據透視表法彈出“創建數據透視表”對話框利用數據透視表法處理重復值的結果圖第4章:新媒體數據的處理
4.1.1重復數據的處理——刪除重復數據利用上述四種方法中的任意一種即可查看數據中的重復數據,之后便可采取刪除重復數據的操作。在Excel中刪除重復數據的具體操作如下:首先選擇所要處理的單元區域,在上方導航窗口選擇“數據”選項卡,在“數據工具”組中選擇“刪除重復項”選項。
刪除重復數據的步驟一第4章:新媒體數據的處理
4.1.1重復數據的處理——刪除重復數據在彈出的對話框中選擇“擴展選定區域”→“刪除重復項”→只勾選“列”→“確定”,最后Excel將彈出提示對話框,提示有多少重復值被刪除,有多少唯一值被保留。刪除重復數據的結果圖第4章:新媒體數據的處理
4.1.2缺失數據的處理缺失數據是指數據中某個或某些屬性的值存在缺失或不完整。缺失值產生的原因多種多樣,例如,由于數據收集或保存時造成的數據缺失,人的主觀失誤、歷史局限或有意隱瞞造成的數據缺失等。1.概念識別缺失數據的具體操作如下:選定需要處理的區域,單擊“開始”選項卡,單擊“編輯”組中的“查找和選擇”下拉按鈕在彈出的下拉菜單中單擊“定位條件”命令,在彈出的對話框中選擇“空值”單選按鈕。2.識別單擊“定位條件”命令
第4章:新媒體數據的處理
4.1.2缺失數據的處理在彈出的對話框中選擇“空值”單選按鈕,如圖所示。最終結果如右圖所示,所有含有空值的單元格均被顯示出來。選擇“空值”單選按鈕識別缺失數據的結果圖第4章:新媒體數據的處理
4.1.2缺失數據的處理(1)填充法保持單元格數據區域中所有空值的選中狀態,按“=”鍵,再按“↑”鍵,最后按“Ctrl+Enter”快捷鍵,即可將所有空值都填充為所在組對應的第一個單元中的值。3.處理利用填充法處理缺失數據的結果圖第4章:新媒體數據的處理
4.1.2缺失數據的處理(2)查找替換法當缺失值以某種特殊標識出現時,可以采用查找替換的方式進行處理,除了單擊“查找和替換”選項卡,還可以使用快捷鍵進行查找和替換。快捷鍵“Ctrl+H”可實現替換功能,快捷鍵“Ctrl+F”可實現查找功能。首先對原始的數據進行修改,在一列的缺失值位置全部輸入“#NA”,表示缺失值。按下“Ctrl+F”快捷鍵進行查找,在彈出的對話框中輸入“#NA”進行查找,單擊“查找全部”按鈕,其結果如圖所示。3.處理利用查找法查看缺失數據的結果圖第4章:新媒體數據的處理
4.1.2缺失數據的處理查看完缺失數據后,按下“Ctrl+H”快捷鍵進行替換,在對應的文本框內輸入內容,將缺失值“#NA”替換為“50”,單擊“全部替換”按鈕,如圖所示。3.處理利用替換法替換缺失數據的結果圖第4章:新媒體數據的處理4.1.3檢查數據的錯誤在實際的數據分析中,數據還可能存在其他類型的錯誤,并不是只有重復數據和缺失數據。在Excel中可以使用“數據有效性”來進行錯誤數據的檢查,數據有效性中存在多種檢查的規則。下面以一個簡單的例子來說明。利用4.1.2節中查找替換法的原始數據,檢查是否存在缺失值及大于4的整數。選定A和B兩列作為需要檢查的區域,單擊上方導航欄中的“數據”選項卡,單擊“數據有效性”命令,在彈出的下拉菜單中選擇“數據有效性”選項,如下圖所示。選擇“數據有效性”選項第4章:新媒體數據的處理4.1.3檢查數據的錯誤彈出“數據有效性”對話框中,在“允許”下拉列表中選擇“整數”,在“數值”下拉列表中選擇“小于或等于”,在“最大值”文本框中輸入40,同時取消勾選“忽略空值”,單擊確定,如下圖所示。“數據有效性”對話框第4章:新媒體數據的處理4.1.3檢查數據的錯誤設定完數據有效性檢查的規則后,再單擊“圈釋無效數據”命令,即可篩選出不在有效性規則內的數據,其結果如下圖所示。利用數據有效性檢查數據的結果圖4.2數據加工在一般情況下,數據經過清洗后,依然無法滿足數據分析需求,還要經過進一步的加工處理,最終形成簡潔、規范、清晰的樣本數據,這個過程通常包括數據抽取、數據計算、數據分組和數據轉換。第4章:新媒體數據的處理
4.2.1數據抽取字段拆分是指為了截取某一字段中的部分信息,將該字段拆分成兩個或多個字段。例如,身份證號碼中包含地區編碼和出生年月日信息。首先隨機輸入5個身份證號碼,如下圖所示。(注意:在輸入此部分數據前,要先清除數據有效性規則,否則可能會報錯)1.字段拆分對數據庫中現有的字段進行整合加工,以形成分析所需要的新的字段,即為數據抽取。它包括字段拆分和隨機抽樣。隨機輸入5個虛擬身份證號碼數據表第4章:新媒體數據的處理
4.2.1數據抽取使用MID函數分別提取前6位地區編碼,第7位到第10位是出生年份,第11到14位為出生日期。MID函數的格式是MID(text,start_num,num_chars),text是指需要抽取的文本字符串,start_num是指定字符串的開始位置,num_chars是指定提取的字符數量。因此,在B2單元格輸入函數公式:=MID(A2,1,6)表示對A2單元格中的文本字符串,從第1個位置開始,抽取6個數字,即為地區編碼。同樣在C2單元格輸入函數公式:=MID(A2,7,4)表示出生年份,在D2單元格輸入函數公式:=MID(A2,11,4)表示出生日期。最后在各列拖動右下角的“+”號,套用函數格式,將各列分別命名為“地區編碼”、“出生年份”和“出生日期”,結果如下圖所示。利用MID函數進行字段拆分的結果圖第4章:新媒體數據的處理
4.2.1數據抽取隨機抽樣是按照隨機的原則,也就是保證總體中每個樣本都有同等的機會被抽中。在對海量級數據進行計算時,如果要對所有數據進行計算,往往難度較大,因此對數據進行隨機抽樣就很有必要。首先新建一個空白表,在A1單元格輸入公式:=RAND(),即生成一個范圍[0,1]的服從均勻分布的隨機數,套用格式至A25單元格,即生成25個隨機數,如右圖所示。2.隨機抽樣利用RAND函數生成25個隨機數第4章:新媒體數據的處理
4.2.1數據抽取首先加載“數據分析工具”,依次單擊上方導航欄的“文件”→“選項”→“加載項”,選擇“分析工具庫”選項,單擊對話框下方“轉到”按鈕,如右圖所示。2.隨機抽樣加載“數據分析工具”第4章:新媒體數據的處理
4.2.1數據抽取然后勾選“分析工具庫”復選框,單擊“確定”按鈕,在導航欄“數據”選項卡下就會出現“數據分析”選項,如右圖所示。2.隨機抽樣利用數據分析工具進行隨機抽樣的步驟一第4章:新媒體數據的處理
4.2.1數據抽取單擊“數據分析”選項,在彈出的對話框中選擇“抽樣”分析工具,“輸入區域”選擇A1:A25,“隨機樣本數”選擇10,“輸出區域”選擇B1:B10,單擊“確定”按鈕,如右圖所示。2.隨機抽樣“抽樣”對話框第4章:新媒體數據的處理
4.2.1數據抽取結果如圖所示,成功隨機抽取10個樣本。需要注意的是,由于使用的是隨機數,每次單擊時隨機數都會發生變化,故圖中數據會不一致,但這不影響常規數據的隨機抽樣。2.隨機抽樣利用數據分析工具進行隨機抽樣的結果圖第4章:新媒體數據的處理
4.2.2數據計算有時候源數據并不能滿足需求,因此需要對獲取的數據源進行簡單計算,得到想要的數據,以便更好地進行數據分析。例如有一組銷售數據,需要分別計算各產品的銷售額和總計的銷售額,利用簡單的函數計算即可完成。原始的銷售數據表第4章:新媒體數據的處理
4.2.2數據計算首先,在D2單元格輸入公式:=B2*C2,套用格式至D4,獲得各個產品對應的銷售額。然后在B5單元格輸入公式:=SUM(B2:B4),套用格式至D5,得到總銷量和總銷售額,結果如下圖所示。利用函數進行簡單計算的結果圖第4章:新媒體數據的處理
4.2.2數據計算當然,也可以利用導航欄“開始”選項卡下面的“編輯”選項,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 糖業協會組織與行業自律考核試卷
- 四川應用技術職業學院《文學翻譯賞析》2023-2024學年第二學期期末試卷
- 天津生物工程職業技術學院《醫學分子生物學實驗技術》2023-2024學年第一學期期末試卷
- 武漢工程科技學院《地域史研究方法與實踐》2023-2024學年第二學期期末試卷
- 江蘇省南京玄武區六校聯考2025屆初三考前搶分(三)語文試題含解析
- 宜春市樟樹市2024-2025學年三年級數學第二學期期末檢測試題含解析
- 江西省景德鎮市名校2025屆中考仿真模擬沖刺卷(一)生物試題含解析
- 室內設計合同書訂立
- 簡單的合伙協議書
- 二零二五版鴨場租賃合同書
- 2024年四川省成都市龍泉驛區中考數學二診試卷(含答案)
- MOOC 感測技術-武漢理工大學 中國大學慕課答案
- 2024年陜西新華出版傳媒集團新華書店分公司招聘筆試參考題庫含答案解析
- 鐵路機務知識培訓課件
- 人工智能在制造業中的應用2024年智能工廠的新范式
- (高清版)TDT 1037-2013 土地整治重大項目可行性研究報告編制規程
- 呼氣一氧化氮檢測技術
- 礦山運輸及安全
- 鋁加工(深井鑄造)企業重點事項解讀(米)
- 鉛鋅礦的選礦工廠自動化控制技術
- 體育賽事管理課件
評論
0/150
提交評論