數據采集與處理 課件 薛磊 項目1-3 數據采集與處理認知 -數據預處理認知_第1頁
數據采集與處理 課件 薛磊 項目1-3 數據采集與處理認知 -數據預處理認知_第2頁
數據采集與處理 課件 薛磊 項目1-3 數據采集與處理認知 -數據預處理認知_第3頁
數據采集與處理 課件 薛磊 項目1-3 數據采集與處理認知 -數據預處理認知_第4頁
數據采集與處理 課件 薛磊 項目1-3 數據采集與處理認知 -數據預處理認知_第5頁
已閱讀5頁,還剩374頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目一數據采集與處理認知任務一認識數據與信息網商的手機預約數真的可信嗎?數據是一個很枯燥的東西嗎?數字數據=應用在日常生活的各個領域我們很多時候都在和數據打交道一、認識數據(一)什么是數據豆瓣評分天氣預報例如,我們去電影院看電影前喜歡先看網上的評分(見圖1-2),購買商品時將各個平臺的價格進行對比,查看旅行攻略中涉及的各種路線所需的時間和花費,每天都很關注天氣預報(見圖1-3)等。因此,我們大多數人都對數據產生過興趣,又在日常生活中接觸過數據,怎么能說數據是枯燥的呢?數據:對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。

它不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,例如,“0、1、2...”“陰、雨、下降、氣溫”“學生的檔案記錄”等都是數據。

也就是說數據不是單純地指各種Excel表格和數據庫,圖書、圖片、視頻、報表、短信等也屬于數據的范疇,如通過搜索引擎所做的圖片識別、音頻識別等都是數據的表現形式。數據使問題更加客觀和準確數據能夠給我們更多的反饋信息數據能讓我們的觀點更有吸引力數據的作用例如:《價值3000元和價值30000元文案的區別》例如:教育機構分析學生成績,制定輔導計劃例如:溫度的高低、每月工資8000元是高是低(二)什么是商務數據商務數據:主要指記載商業、經濟等活動領域的數據符號。在電子商務領域,商務數據可以分為兩大類:前端行為數據和后端商業數據。

前端行為數據:是指訪問量、瀏覽量、點擊流及站內搜索等反應用戶行為的數據;

后端商業數據:更側重于商業數據,如交易量、投資回報率及全生命周期管理等。(三)什么是數據庫數據庫:簡單地說,數據庫是結構化數據的集合。嚴格地講,數據庫是長期儲存在計算機內、有組織的、可共享的大量數據的集合。數據庫中的數據按照一定的組織、描述和儲存,具有較小的冗余度、較高的數據獨立性和易擴展性,并可為各種用戶共享。基本特征:(四)數據的計量尺度

數據采集與處理離不開數據,數據也是數據采集與處理的結果。

數據計量是指根據規則,對人或事物的數據特征進行的分類、標識和計算。數據計量一般分為四個層次或四種計量尺度。(四)數據的計量尺度1.定類尺度

定類尺度也稱類別尺度,是將數據采集對象分類,標以各種名稱確定其類別的方法,實質上是一種分類體系。

定類尺度可以用文字來表示,也可以用數值來表示,但數值本身沒有實質性意義,僅是一種符號,目的是為了區分不同的類別,而且只具有等于(=)或不等于(≠)的數學特性。定類尺度等級最低,只是給不同類別起個名稱。常見的定類數據有:國家、戶口、性別、民族、婚姻狀況、職業等變量特征的計量。(四)數據的計量尺度2.定序尺度定序尺度也稱順序尺度,是指對計量對象的屬性和特征的類別進行鑒別并能比較類別大小順序的一種計量方法。例如,人們的生活水平有貧困、溫飽、小康、富裕,這是一種由低到高的等級排列;再如城市有特大城市、大城市、中等城市、小城市,這是一種由大到小的排列;教師的職稱有講師=1、副教授=2、教授=3等。常見的定序數據有:教育程度、服務評級、比賽名次。(四)數據的計量尺度3.定距尺度定距尺度是一種不僅能將變量(社會現象)區分類別和等級,而且可以確定變量之間的數量差別和間隔距離的方法。例如我們對A(33℃)、B(30℃)、C(37℃)三人的體溫(Unit:℃)進行統計,可得到這三人的體溫依次為:33℃、30℃、37℃。我們將A和B的體溫相減33-30=3,則可知A比B的體溫高3℃。所以對于定距數據而言,其支持+、-運算,但是不可以進行×、÷運算。比如在本例中,我們將A、B的體溫相除33/30=1.1,我們不能說A的體溫比B體溫熱1.1倍。因為攝氏溫度中的0℃不表示絕對的零點,即沒有溫度,其只是一個人為定義的標準。所以對于定距數據而言,由于不存在絕對的零點,故對其進行×、÷運算是沒有任何意義的。在定距數據中,0值是作為比較的標準,而不是表示沒有。當然,其同樣亦支持=、≠、>、<運算。常見的定距數據有:攝氏溫度、華氏溫度、年份、緯度、經度、考試成績等。(四)數據的計量尺度定距尺度可以較方便地轉換為定序尺度,例如,若考查課的成績要以五級制成績表示,則需要將百分制分數轉換為五級制分數,一般百分制中的“60~70”對應五級制中的“及格”,其他分數以此類推。但需要注意的一點是,通常定序尺度數據不能轉換為定距尺度數據,如五級制分制不能轉換為百分制。(四)數據的計量尺度4.定比尺度定比尺度是能夠計量事物間比例、倍數關系的計量方法,通過對比計算,可以形成新的相對數,用以反映現象的構成、比重、速度、密度等數量關系。定比尺度是計量中的最高層次,含有前三個計量尺度的特征。定比尺度下的數據可以進行加減乘除運算,運算結果具有實在的意義。例如我們對A(50kg)、B(25kg)、C(10kg)三人的體重(Unit:kg)進行統計,可得到這三人的體重依次為:50kg、25kg、10kg。我們將A、B的體重相除50/25=2,這時我們就可以說A比B重2倍。原因在于體重數據是存在絕對的零點,顯然體重為0kg時表示的是沒有體重。所以對于定比數據而言,其之所以支持×、÷運算,是因為存在絕對的零點,即0值表示沒有。當然,其同樣亦支持=、≠、>、<、+、-運算。常見的定比數據有:體重、身高、體積等。(四)數據的計量尺度四種計量尺度的比較見表1-1-1:功能類別分類排序間距比值定類尺度

定序尺度

定距尺度定比尺度(五)數據的分類1.按照來源分類(1)原始數據

原始數據是通過直接數據采集獲得的數據,也是未經過處理或簡化的數據,稱為一手數據或直接的統計數據,如產品的出庫資料、數據采集問卷等。主要是通過訪談、詢問、問卷、測定等方式直截了當獲得的,通過收集一手數據可以解決特定問題。(2)次級數據

次級數據也稱二手數據,是已經經過別人的初步數據采集、加工和處理后的數據,有時也稱為間接的數據,如統計年鑒、文獻資料、統計報告等。與一手數據相比,二手數據具有取得迅速、成本低、易獲取等優點。當然,二手數據也存在相關性差、時效性差和可靠性低的缺點。(五)數據的分類2.按照數據來源的范圍分類(1)外部數據以互聯網企業為例,它的外部數據主要包括:社會人口數據:人口的概況、人口的分布、人口的素質、民族的構成等。宏觀經濟數據:生產總值、國民生產總收入、消費水平等。新聞輿論數據:新聞的廣告、輿論的監測等。市場調研數據:對渠道、廣告、產品及價格方面的調研數據。(2)內部數據內部數據包括用戶行為數據、服務端日志數據、客戶關系管理、數據和交易數據等。其中用戶行為數據是指用戶在網站的停留時間、跳出率、回訪次數及回訪率等。(五)數據的分類2.按照采用的計量尺度分類(1)定性數據定性數據也稱為品質數據,分為定類數據和定序數據。1)定類數據:是由定類尺度計量形成的數據,是數據的最低級,它表示個體在屬性上的特征與類別上的不同變量,僅僅是一種標志,沒有序次關系。2)定序數據:是由定序尺度計量得到的,表現為類別,但有順序,數據的中間級,用數字表示個體在某個有序狀態中所處的位置,不能做四則運算。(五)數據的分類2.按照采用的計量尺度分類(2)定量數據定量數據又稱數值數據,可分為定距數據和定比數據。1)定距數據:是由定距尺度計量得到的數據,具有間距特征的變量,它對事物能進行準確測度。定距數據表現為“數值”,有單位,可以加減運算,但不能做乘除。2)定比數據:是由定比尺度計量形成的數據,表現為數值,可以進行加、減、乘、除運算,沒有負數。數據的最高級,既有測量單位,也有絕對零點,例如職工人數,身高。一般來說,數據的等級越高,應用范圍越廣泛;等級越低,應用范圍越受限。(五)數據的分類四種數據類型的比較:數據類型測量結果測量精度計算方法信息數量定性數據定類數據A、B公司是國有企業是否是國企無A、B公司是國有企業定序數據A公司是大型企業B公司是中型企業規模的大與小無A、B公司是國有企業A公司比B公司規模大定量數據定距數據A公司創設于1963年B公司創設于2003年確定的企業年限加、減A、B公司是國有企業A公司比B公司規模大A公司比B公司早成立36年定比數據A公司成立60年B公司成立20年確定的企業年限加、減、乘、除A、B公司是國有企業A公司比B公司規模大A公司比B公司早成立36年A公司的成立年限是B公司年限的3倍(五)數據的分類3.按照規模分類(1)傳統數據傳統數據就是一般意義上的數據,是對客觀現象的屬性、特征進行分類、標示和計算等計量活動的結果。(2)大數據(五)數據的分類大數據:指的是所涉及的資料量規模巨大到無法通過目前主流的軟件工具,在合理時間內提取、存儲、搜索、共享、分析和處理的數據集合。

大數據的特征:Volume(大量)Velocity(高速)Variety(多樣)Value(價值)(五)數據的分類大數據的應用:大數據教育大數據交通大數據醫療大數據金融(五)數據的分類4.按照反映時間狀態分類(1)橫截面數據橫截面數據是指在同一時間(時期或時點)截面上反映一個數據采集對象的一批(或全部)個體的同一特征變量的觀測值,是樣本數據中的常見類型之一。例如,工業普查數據,人口普查數據,家庭收入調查數據。(2)時間數列數據時間數列數據是指按照時間順序排列的數據序列,它反映一系列時間上發生的狀態、過程、活動或者現象的數據。(五)數據的分類(五)數據的分類二維表結構,通過關系型數據庫存儲和管理字段可根據需要擴充,即字段數目不確定不方便用數據庫二維邏輯表來表現,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等(五)數據的分類本月店內康師傅冰紅茶每天的銷售量今天店內康師傅冰紅茶、綠茶、茉莉蜜茶的銷售量本月店內康師傅冰紅茶、綠茶、茉莉蜜茶每天的銷售量(五)數據的分類智商分數100.5、100.6。。。班級個數、學生人數。。。(六)數據集數據集(Dataset):是一個數據的集合,通常以表格形式出現。

每一列代表一個特定變量。每一行都對應于某一成員的數據集的問題。二、認知信息1.信息信息:是指用語言、文字、符號、情景、圖像、聲音等所表示的具體內容統稱為信息。信息有以下兩點內涵:1)信息是向人們或機器提供關于現實世界新的事實的知識,是數據、消息中所包含的意義。2)信息是對客觀世界中各種事物的運動狀態和變化的反映,是客觀事物之間相互聯系和相互作用的表征,表現的是客觀事物運動狀態和變化的實質內容。(一)什么是信息2.信息的載體形式信息的載體形式:文字、圖像、圖形、聲音、符號、動畫、視頻等。3.信息的特征信息有如下幾個特征:傳遞性、共享性、依附性、可處理性、價值相對性、時效性和真偽性。(二)數據與信息有一句話是這么說的“數據是爆炸了,信息卻很貧乏”,那么數據與信息之間到底有什么關系呢?(二)數據與信息1.關系數據和信息是相互聯系的概念,數據是信息的具體表現形式,而信息是數據的內涵。數據是反映客觀事物屬性的記錄,如文字、數字、圖形和曲線等,這些數據本身沒有意義,只有當它們被解釋、運用或解算時,才能成為信息。信息是數據經過加工處理后得到的,如報表、賬冊和圖紙等,信息被用來反映客觀事物的規律,從而為管理工作提供依據。(二)數據與信息數據和信息可以相互轉化。例如,昨天的銷售情況是數據,而明天可能的銷售情況實際上就是信息,如果我們把過去一年的銷售情況收集起來進行加工,就又會得到長期變化規律的新信息。數據和信息是無法割裂開的,數據對人類真正的用途是加工出不同的信息,這也能使我們更好的認識事物,得到正確的信息更能幫助我們做出正確的決策。(二)數據與信息2.區別數據是數據采集時提供的,信息是從采集的數據中獲取的有用信息。即:數據=信息+數據冗余。由此可見,信息可以簡單地理解為數據中包含的有用的內容。不嚴格的說,“不知道的東西,你知道了,就獲得了一個信息”。也可以說數據在未被接收對象獲取前可以稱為數據,一旦被對象獲取,即可稱為信息。數據是客觀的,它不依人們的主觀意志為轉移;信息是帶有主觀性的,同樣一條消息(數據),經過某人的解釋,對某人來說很有用處,很有價值,但對另外一個人,可能沒有什么價值。三、數據的職能(一)信息職能數據的信息職能是指系統地采集、整理和提供大量的以數量描述為基本特征的數據,能夠給我們反饋更多的信息,如企業在了解市場、分析對手等方面數據使問題更加客觀和準確。在數據的三種職能中信息職能是最基本的職能,是數據的咨詢和監督職能得以發揮的基礎。三、數據的職能(二)咨詢職能數據的咨詢職能是指根據掌握的豐富的數據信息資源,經過數據處理,為科學決策和管理提供咨詢意見和對策建議,數據也能使提供的觀點或建議更有吸引力。三、數據的職能(三)監督職能數據的監督職能是指根據數據采集與處理,從總體上對宏觀國民經濟和社會運行狀況及微觀數據采集單位進行全面、系統的定量檢查、監測和預警,及時揭示經濟運行中的問題,促使社會經濟及數據采集單位按照客觀規律的要求發展。項目一數據采集與處理認知任務二認識數據采集與處理的相關概念

數據采集在我們日常生活當中是隨處可見的,尤其是2020年初的新冠疫情,我們每個人每天都要不斷的在小區入口,公司上班處,或在線填寫各類身體健康信息的表格和數據,這些就是數據采集的過程。

一、數據采集對象與數據采集單位

數據采集對象:是指由許多同質的、客觀存在的個體構成的整體;

數據采集單位:構成數據采集對象的個體就是數據采集單位。

一般來說,在一個數據采集對象中,數據采集單位在某些方面必須有一個或多個相同的性質。例如要采集一個地區民營經濟的相關數據,當地所有的民營經濟體就構成了一個數據采集對象,在所有制性質這一點上,所有的民營經濟體都是相同的。對于該數據采集對象來說,每一個民營經濟體就是數據采集單位。二、標志與指標(一)標志

標志:是采集對象各單位所具有的共同特征的名稱,即用來說明總體單位特征的名稱。

從不同的維度來考察,每個數據采集單位可以有許多特征,而且這些特征有不同的表現,這種表現叫做標志的特征值,也是數據采集所需要的結果,例如:一家電子廠職工的性別、年齡、民族等。1.按特征值的表現分為不變標志和變異標志不變標志:當一個標志在各個采集單位的特征值都相同時,這個標志稱為不變標志;變異標志:當一個標志在各個單位的特征值有可能不同時,該標志稱為可變標志或變異標志。例如,電子廠的員工,如果按廠籍來看都一樣,這個廠籍就是不變標志,如果按照性別、年齡、學歷等來區分,則有所不同,這些標志就是可變標志。數據采集的標志主要是可變標志。標志的分類2.按其性質可分為品質標志和數量標志品質標志:表示事物質的特征,其特征值是不能用數值表示的,例如員工的民族、性別、工種等。數量標志:表示事物量的特征,其特征值用數值表示,例如員工的年齡、工資、工齡等。(二)指標及指標體系1.指標的概念指標:是反映數據采集對象總數量特征的名稱和具體數值。例如,全國電商廠商數、天貓“雙十一”商品銷售額、人均工資收入等。指標一般由六個要素構成:指標名稱、計量單位、計算方法、時間范圍、空間范圍、具體數值。例如,2022年全年我國國內生產總值(GDP)為1210207億元,這個指標就反映了2022年我國GDP的總體情況。2.指標的種類(1)按反映數據采集對象內容的不同分類指標按反映數據采集對象內容的不同,分為數量指標和質量指標。1)數量指標也即是總量指標,是說明數據采集對象總規模、總水平的指標。例如,員工總數、企業固定資產總額、工資總額、進出口總額等。數量指標所反映的是數據采集對象的絕對數量,有計量單位,其數值的大小隨著數據采集對象范圍的變化而變化,它是認識數據采集對象的基礎。2.指標的種類2)質量指標是說明數據采集對象內部數量關系或數據采集單位水平的指標。例如,各省經濟總量占全國經濟總量的比重、某電子廠員工的性別比例,年齡構成,農業、輕工業、重工業比例,平均年齡等。它的表現形式有相對數和平均數,其數值的大小與范圍的變化沒有直接關系。2.指標的種類(2)按其表現形式和作用的不同分類指標按其表現形式和作用的不同,分為總量指標、相對指標和均值。1)總量指標又分為實物指標、勞動指標和價值指標三種。2)相對指標也稱相對數,是用兩個有聯系的指標進行對比、用來反映數據采集對象之間數量關系的指標,如頻率、結構、發展程度、強度、普遍程度等。3)均值則是反映數據采集對象內部某一數量標志在一定時間、地點下所達到的一般水平的指標,如平均身高、平均壽命、平均畝產量等。2.指標的種類(3)按管理功能的不同分類指標按管理功能的不同,分為描述指標、評價指標及預警指標。1)描述指標是用來反映數據采集對象的狀況、過程和結果,達到對數據采集對象現象的基本認識,是數據信息的主體。例如,反映某網絡店鋪擁有粉絲數量指標、年銷售額指標;再如某地區勞動資源指標、國內生產總值指標、財政收入指標、投資指標等。2)評價指標包括宏觀國民經濟評價指標和數據采集對象經濟活動評價指標,用于對社會經濟運行的結果進行比較、評估和考核,以檢查工作質量或其他定額指標的結合使用。如產品的合格率、就業率、計劃完成程度等指標。3)預警指標主要用于對數據采集對象的運行進行監測,對數據采集對象運行中即將發生的失衡、失控等進行預報、警示。通常選擇數據采集對象運行中的敏感性、關鍵性經濟現象,構建相應的監測指標體系。如針對經濟增長、經濟周期波動、失業、通貨膨脹等,可以建立GDP與國民收入增長率、CPI、匯率、利率、社會積累率、消費率、失業率等預警指標。(二)指標及指標體系3.指標體系(1)指標體系指標體系就是各種相互聯系的指標所構成的一個有機整體,用來說明所研究現象各個方面相互依存和相互制約的關系,它主要用于解決由于現象的復雜多樣性,及各種現象之間相互聯系的性質,例如只用個別指標來反映是不全面的,這樣就需要采用指標體系來進行綜述。(2)指標體系的分類1)根據所研究問題的范圍大小分類指標體系根據所研究問題的范圍大小,可以建立宏觀指標體系和微觀指標體系。宏觀指標體系:就是反映整個現象大范圍的指標體系,如反映整個國民經濟和社會發展的指標體系。微觀指標體系:就是反映現象較小范圍的指標體系,如反映企業或事業單位的指標體系。介于這兩者之間的可以稱為中觀指標體系,如反映各地區或各部門的指標體系。2)根據所反映現象的范圍內容不同分類指標體系根據所反映現象的范圍內容不同,可分為綜合性指標體系和專題性指標體系。綜合性指標體系:能較全面地反映總系統及其各個子系統的綜合情況,如國民經濟和社會發展指標體系。專題性指標體系:則是反映某個方面或問題的,如經濟效益指標體系。三、變異、變量和變量值(一)變異一般意義上的變異是指標志(包括品質標志和數量標志)在總體單位之間的不同表現。如人的性別有男女之分,各時期、各地區、各部門的工業總產值各有不同等,這種差別叫作變異。嚴格來說,變異僅指品質標志的不同具體表現。如性別表現為男、女,民族表現為漢、滿、回、苗等。與變異相對,變量則是用來描述數量標志的具體表現。(二)變量及變量值1.變量的概念變量就是可以取不同值的量,這是數學上的一個名詞,在數據分析中,變量就是數量標志的名稱或指標的名稱。變量包括各種數量標志和全部指標,它都是以數值表示的,不包括品質標志。例如,職工人數是一個變量,因為各個工廠的職工人數不同。(二)變量及變量值2.變量的分類變量按其數值是否連續可分為連續變量與離散變量兩種。1)連續變量連續變量是指在一定區間內可任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值之間可作無限分割,即可取無限個數值。例如,生產零件的規格尺寸、人體測量的身高、體重、胸圍等為連續變量,其數值只能用測量或計量的方法取得。(二)變量及變量值2.變量的分類2)離散變量離散變量是指可按一定順序一一列舉其數值的變量叫離散變量,其數值是斷開的。例如,企業個數、職工人數、設備臺數、學校數、醫院數等,都只能按計量單位數計數,這種變量的數值一般用計數方法取得。(二)變量及變量值3.變量值變量的具體數值表現稱為變量值。例如,某工廠有852人,另一工廠有1686人,第三個工廠有964人等等,都是職工人數這個變量的具體數值,也就是變量值。這里要注意區分變量和變量值,在上例中,852人、1686人、964人三個變量值的平均數,不能說是三個“變量”的平均數,因為這里只有“職工人數”這一個變量,并沒有三個變量。任務三數據采集與處理的工作過程一、數據采集與處理的意義(一)數據采集與處理的概念數據采集與處理:是指利用科學的方法,根據要求對數據采集對象中各采集單位的數據信息資料進行采集、處理,通過作圖、制表和各種形式的擬合來計算某些特征值,分析數據采集對象規律性的活動。一、數據采集與處理(二)數據采集與處理的意義1.事前預判

通過數據采集與處理,能從整體上反映和分析事物的數量特征,能觀察出事物的本質和發展規律,從而可以做到事前預判,并作出正確的決策。

例如,企業通過分析市場整體數據,可以了解市場與行業的現狀,預測市場和行業的未來發展走向,從而為企業調整運營策略提供有效的數據支持。一、數據采集與處理2.事中監控在數據化運營過程中,市場主體可以通過數據分析來監控各個指標,這樣能夠及時發現異常,并盡快解決問題,而不會影響正常的運營。(1)宏觀上看,數據采集與處理是國家宏觀調控和管理的重要工具。(2)從微觀上看,數據采集與處理是企業管理與決策的依據。一、數據采集與處理3.事后優化根據數據分析的結果,對于企業而言,就可以定期進行優化調整,不斷提升運營工作的質量,持續提高競爭力。

在這方面,數據采集與處理的價值包含3個方面:一是幫助領導做出決策;二是預防風險;三是把握市場動向,通過數據分析,可以幫助企業發現做得好的方向、需要改進的地方,以及指出企業出現的問題。一、數據采集與處理4.數據采集與處理是進行科學研究的重要方法

為使觀點與結論具有事實依據和說服力,必須根據數據采集或實驗取得的數據來說明問題,通過數字揭示事物在特定時間方面的數量特征,以便對事物進行定量乃至定性分析,從而做出正確的決策。二、數據采集與處理工作過程目的:一是對現狀數據進行深入的分析,提供現階段事物整體狀況及構成情況,包括各項業務的發展以及變動情況,即事前預判;二是進行原因分析,發現存在問題的原因,并依據原因制訂相應的解決方案,即事中監控;三是預測分析,依據采集和處理的數據對事物未來的發展趨勢做預測,以便制訂相應的計劃,即事后優化。二、數據采集與處理工作過程數據采集與處理工作過程大致分為以下幾個環節,即數據分析需求識別、數據采集與處理設計、采集數據、數據處理以及數據呈現,具體步驟如下:1.明確數據采集與處理需求和目標2.數據采集與處理設計3.采集數據及存儲數據4.數據處理5.數據呈現任務四認知數據采集與處理工具一、常用數據采集工具(一)平臺提供的數據工具(二)第三方專項數據采集工具(三)網頁數據采集工具(爬蟲)(四)其他數據采集工具(一)平臺提供的數據工具主要包括平臺的店鋪后臺、生意參謀(淘寶/天貓)、京東商智(京東)、數據易道(蘇寧)等數據采集工具。(一)平臺提供的數據工具1.生意參謀通過生意參謀,數據采集人員不僅可以采集自己店鋪的各項運營數據(如流量、交易、服務、產品等數據),通過市場行情板塊還能夠獲取到在淘寶/天貓平臺的行業銷售經營數據。如圖所示。(一)平臺提供的數據工具(一)平臺提供的數據工具(一)平臺提供的數據工具2.京東商智京東商智是京東為賣家提供數據服務的平臺,賣家在訂購京東商智之后,可以從PC端、APP、微信、手機QQ、移動端五大渠道獲取店鋪的流量、銷量、用戶、商品等數據,并能夠獲取整個行業及同行業中其他賣家的數據,以此來支持運營決策。同時,京東商智還支持購物車營銷、用戶營銷等精準營銷,幫助賣家提升銷售,如圖所示。(一)平臺提供的數據工具3.數據易道

數據易道是蘇寧面向外部賣家、供應商及品牌工廠等合作伙伴的官方數據分析產品平臺,依托蘇寧海量數據價值和大數據能力,旨在通過優質的數據產品及服務為合作伙伴提供業務數據分析和決策建議,實現合作伙伴與蘇寧的商業價值共享共贏。如圖所示。(二)第三方專項數據采集工具第三方專項數據采集工具,主要包括:多多情報通(多多參謀)、店偵探(淘寶/天貓)、淘數據(淘寶/京東/wish/shopee等)、逐鹿工具箱、店數據、升業績等工具。(二)第三方專項數據采集工具1.多多情報通

多多情報通(多多參謀)是拼多多電商平臺的數據工具,提供大盤走勢、競品(“競爭商品”的簡稱)分析、貨源分析、成交高峰、物流預警、開團監控、店鋪探索、深度分析活動商品信息、關鍵詞監控等多維度的數據服務,輔助賣家的數據化運營,如圖所示。(二)第三方專項數據采集工具2.店偵探

店偵探是一款專門為淘寶及天貓賣家提供數據采集、數據分析的數據工具。通過對各個店鋪、寶貝運營數據進行采集分析,店偵探可以快速提供競爭對手店鋪的銷售數據、引流途徑、廣告投放、活動推廣、買家購買行為等數據信息。如圖所示。(二)第三方專項數據采集工具3.淘數據淘數據由阿里巴巴集團推出,主要針對淘寶、天貓等阿里電商平臺的交易數據和用戶行為數據進行收集和分析。如圖所示。(二)第三方專項數據采集工具淘數據和生意參謀都是提供電商數據統計和分析的工具,但有以下區別:(1)數據來源不同。淘數據主要從淘寶、天貓等阿里電商平臺進行數據采集和分析,而生意參謀主要從京東、蘇寧、天貓、淘寶、唯品會、拼多多等多個電商平臺進行數據收集和分析。(2)數據覆蓋范圍不同。淘數據主要關注淘寶、天貓平臺的交易數據和用戶行為數據,而生意參謀覆蓋范圍更廣,不僅包括交易數據和用戶行為數據,還包括流量、廣告、競爭情報等數據。(3)數據處理方式不同。淘數據提供基于自然語言處理和機器學習算法的數據挖掘,可以進行一些高級的分析和預測,而生意參謀提供的更多是基于數據指標的可視化展示,通過圖表和報告的方式直觀地顯示數據情況。(4)使用方式不同。淘數據是一款純數據分析軟件,需要用戶自行對數據進行分析和解讀,而生意參謀除了提供數據分析之外,還提供了一些營銷策略和推廣工具供商家使用,能夠幫助商家更好地制定營銷計劃和優化營銷效果。綜上所述,淘數據主要關注淘寶、天貓平臺數據的分析,而生意參謀是一個全維度的電商數據工具,覆蓋多個電商平臺數據并提供更多的營銷策略和推廣工具,供用戶根據自身需求選擇使用。(二)第三方專項數據采集工具4.逐鹿工具箱

逐鹿工具箱是一款電商多領域營銷軟件,提供了查排名、選款選品、主圖評測、關鍵詞挖掘、關鍵詞市場分析、SEO優化,直通車優化,活動分析等功能,可幫助賣家全面提升店鋪經營效率。(三)網頁數據采集工具(爬蟲)1.八爪魚采集器

八爪魚采集器是一款通用網頁數據采集器,使用簡單,可執行完全可視化操作;其功能強大,任何網站均可采集;另外,其采集的數據可導出為多種格式。八爪魚采集器可以用來采集商品的價格、銷量、評價、描述等內容。如圖所示。(三)網頁數據采集工具(爬蟲)2.火車采集器

火車采集器是一個供各大主流內容平臺系統、論壇系統等使用的多線程內容采集發布程序。其對于數據的采集可分為兩部分:一是采集數據,二是發布數據。借助火車采集器可以根據采集需求在目標數據源網站采集相應數據并整理成表格或TXT格式導出。(三)網頁數據采集工具(爬蟲)3.后羿采集器

后羿采集器功能強大,操作簡單,是為廣大無編程基礎的運營、銷售、金融、新聞、電商和數據分析從業者,以及政府機關和學術研究等用戶量身打造的一款產品。后羿采集器不僅能夠進行數據的自動化采集,而且在采集過程中可以對數據進行清洗。在數據源頭即可實現多種內容的過濾。通過使用后羿采集器,用戶能夠快速、準確地獲取海量網頁數據,從而徹底解決了人工收集數據所面臨的各種難題,降低了獲取信息的成本,提高了工作效率。如圖所示。(三)網頁數據采集工具(爬蟲)后羿、八爪魚和火車采集器的異同:后羿:支持跨平臺,個人使用完全免費,對于大多數網站來說,只需輸入網頁地址,軟件就會自動識別并提取相關字段信息,包括列表、表格、鏈接、圖片等,不需配置任何采集規則,一鍵采取,支持自動翻頁和數據導出功能,對于小白來說,非常容易學習和掌握。八爪魚:相比較后羿采集器來說,八爪魚采集器目前僅支持Windows平臺,需要人為設置采集字段和配置規則,因此更繁瑣,但也更靈活,內置了大量數據采集模板,可以輕松采集京東、天貓等熱門網站,官方教程非常詳細,對于小白入手來說,也非常容易掌握。火車:相比較后羿采集器和八爪魚采集器來說,規則設置上更為靈活、智能,可以迅速抓取網頁上散亂的數據,同時提供數據分析和輔助決策功能,對于日常爬取網站數據來說,是一個非常不錯的軟件。4.集搜客集搜客GooSeeker始于2007年,是國內最早的網絡爬蟲工具之一,近年來,集搜客已把互聯網內容結構化和語義化技術成功推廣到金融、保險、電信運營、電信設備制造、電子制造、零售、電商、旅游、教育等行業。軟件通用于國內外網站,免編程,大批量抓取,可作為微博采集工具箱,采集數據一鍵輸出至Excel表格;軟件還可自動分詞和情感分析、報表摘錄和筆記等。軟件現提供免費版、專業版、旗艦版、VIP版。(三)網頁數據采集工具(爬蟲)(四)其他數據采集工具1.

ScrapyScrapy是適用于Python的一個快速、高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據,也可以用于抓取非結構化數據。Scrapy用途廣泛,可以用于數據挖掘、監測和自動化測試。Scrapy吸引人的地方在于它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持。(四)其他數據采集工具2.

Import.ioImport.io是一個網頁抓取工具,它可以幫助用戶從互聯網上采集各種類型的數據。這個工具可以非常靈活地處理各種不同的數據類型,包括文本、圖片、視頻等等。使用Import.io的用戶可以通過簡單的拖拽操作來完成數據采集任務,并且支持自動化抓取大規模數據。優點:(1)簡單易用,不需要編寫代碼,只需要進行簡單的拖拽操作即可完成數據采集任務。

(2)可視化編輯器:Import.io提供了一個可視化編輯器,用戶可以通過這個編輯器來創建自己的抓取器,并且可以對抓取器進行編輯和修改。

(3)支持多種數據源:支持從各種不同的數據源中采集數據,包括網頁、API、數據庫等。(4)自動化抓取:使用Import.io可以實現自動化抓取大規模數據,并且可以根據需要設置自動化任務。缺點:速度較慢,數據準確性不高、可能會存在一定程度的誤差,雖然提供免費版,但是如果需要使用更加高級的功能,則需要付費。(四)其他數據采集工具3.

ApacheNutchApacheNutch是一款開源的網絡爬蟲軟件,可以用于抓取互聯網上的非結構化數據。它支持多種文件格式,包括HTML、XML、PDF、Word等,并且可以自定義抓取規則。非結構化數據是指那些沒有特定格式和組織的數據,比如文本文檔、郵件、音頻、視頻等。這些數據通常難以用傳統的關系型數據庫來存儲和處理。(四)其他數據采集工具4.

BeautifulSoupBeautifulSoup是一款Python庫,用于解析HTML和XML文檔。它可以將非結構化的HTML或XML文檔轉換為結構化的Python對象,并且可以通過標簽名、屬性等方式來查找指定內容。BeautifulSoup可以與Scrapy等網絡爬蟲框架搭配使用,實現數據的采集和處理。(四)其他數據采集工具6.ContentgrabberContentgrabber采集機是一種高效的網絡數據采集工具。它可以自動化地從任何網站上抓取和提取數據,并將其轉換為結構化的格式,以便于后續處理和分析。它提供了可視化的操作界面,并支持自動生成腳本,使得即使沒有編程經驗的用戶也能夠輕松地使用它。此外,contentgrabber采集機還具有更高的效率和更好的靈活性。結構化數據也稱作行數據,是由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規范,主要通過關系型數據庫進行存儲和管理。與結構化數據相對的是不適于由數據庫二維表來表現的非結構化數據,包括所有格式的辦公文檔、各類報表、圖片和音頻、視頻信息等。二、常用的數據處理工具(一)SAS(二)R語言(三)SPSS(四)Python二、常用的數據處理工具(一)SASSAS的產生與發展SAS系統全稱為StatisticsAnalysisSystem,最早由北卡羅來納州立大學的兩位生物統計學研究生編制,并于1976年成立了SAS軟件研究所,正式推出了SAS軟件。SAS是用于決策支持的大型集成信息系統,但該軟件系統最早的功能限于統計分析,至今,統計分析功能也仍是它的重要組成部分和核心功能。二、常用的數據處理工具(一)SAS2.SAS的應用SAS系統是一個組合軟件系統,它由多個功能模塊組合而成,其基本部分是BASESAS模塊。BASESAS模塊是SAS系統的核心,承擔著主要的數據管理任務,并管理用戶使用環境,進行用戶語言的處理,調用其他SAS模塊和產品。也就是說,SAS系統的運行,首先必須啟動BASESAS模塊,它除了本身所具有數據管理、程序設計及描述統計計算功能以外,還是SAS系統的中央調度室。它除可單獨存在外,也可與其他產品或模塊共同構成一個完整的系統。各模塊的安裝及更新都可通過其安裝程序非常方便地進行。二、常用的數據處理工具(一)SASSAS系統具有靈活的功能擴展接口和強大的功能模塊,在BASESAS的基礎上,還可以增加如下不同的模塊而增加不同的功能:SAS/STAT(統計分析模塊)、SAS/GRAPH(繪圖模塊)、SAS/QC(質量控制模塊)、SAS/ETS(經濟計量學和時間序列分析模塊)、SAS/OR(運籌學模塊)、SAS/IML(交互式矩陣程序設計語言模塊)、SAS/FSP(快速數據處理的交互式菜單系統模塊)、SAS/AF(交互式全屏幕軟件應用系統模塊)等等。二、常用的數據處理工具(一)SAS綜合來看,SAS是一種商業化的數據分析軟件,它提供了多種數據處理和分析功能,如數據挖掘、統計分析、預測建模等。SAS支持多種數據格式,如CSV、TXT、Excel等。SAS還提供了一套完整的數據挖掘流程,可以幫助用戶方便地完成數據挖掘任務。二、常用的數據處理工具(二)R語言1.R語言產生與發展歷程R語言來自S語言,是S語言的一個變種。S語言在貝爾實驗室開發,著名的C語言、Unix系統也是貝爾實驗室開發的。R語言提供了一系列用于數據處理、計算和繪圖的工具,包括數據框、數組、向量和矩陣等數據結構,以及用于統計分析的函數,如參數和非參數假設檢驗、線性回歸、廣義線性回歸、非線性回歸、可加模型、樹回歸、混合模型、方差分析、判別、聚類、時間序列分析等。二、常用的數據處理工具(二)R語言2.R語言的應用R語言廣泛的應用與統計、應用數學、計量經濟、金融、生物、數據可視化以及人工智能等領域,應用前景越來越廣闊。R是一種專門用于統計分析和數據可視化的編程語言和環境。它提供了豐富的數據處理和分析函數,可以進行各種高級統計分析、機器學習和數據挖掘任務。R也提供了各種繪圖功能,可以生成美觀和信息豐富的數據可視化圖表。二、常用的數據處理工具(三)SPSSSPSS軟件誕生于1968年,是一款用于統計學分析運算、數據挖掘、預測分析和決策支持任務的專業統計軟件產品。SPSS最初稱為“社會科學統計軟件包”(StatisticalPackageforSocialScience),2002年SPSS公司將其名稱改為“統計產品與解決服務方案”(StatisticalProductandServiceSolutions,SPSS)。問世50多年來,SPSS軟件在醫療、商業、市場研究、教育、保險、銀行等多個領域和行業得到了廣泛應用,是當今最權威的統計學軟件之一,有Windows和MacOS等多個操作系統版本。二、常用的數據處理工具(三)SPSSSPSS有如下一些優勢:功能強大:SPSS囊括了各種成熟的統計方法和模型,為統計分析用戶提供了全方位的統計學算法。兼容性好:在數據方面,不僅可以在SPSS中直接進行數據錄入工作,還可以將日常工作中常用到的Excel表格數據、文本格式數據導入SPSS中進行分析,從而節省了相當大的工作量。易用性強:SPSS之所以有廣大的用戶群,不僅因為它是一種權威的統計學工具,提供了強大的統計功能,也因為它是一種非常簡單易用的軟件。擴展性高:SPSS直接和R語言進行對接,通過直接調用R語言的各種統計模塊,直接實現了對最新統計方法的調用(新版本已經增加對Python的支持)。二、常用的數據處理工具(四)PythonPython是一種通用的編程語言,可以用于網絡爬蟲進行數據采集,也廣泛用于數據處理和分析。Python有許多強大的數據處理庫,如Pandas、NumPy和SciPy,可以進行各種數據操作、統計分析和機器學習任務。Python也支持各種可視化庫,如Matplotlib和Seaborn,可以生成各種圖表和可視化效果。二、常用的數據處理工具(五)SQLSQL(結構化查詢語言)是一種用于管理和操作關系型數據庫的編程語言。通過編寫SQL查詢語句,可以從數據庫中提取、過濾和分析數據。SQL可以執行各種數據操作,如創建表、插入、更新和刪除數據等。三、數據處理的主要操作軟件---Excel(一)Excel軟件簡介Excel是微軟公司出品的Office系列辦公軟件中的一個組件,確切的說,它是一個電子表格軟件,提供了各種各樣的功能,使得用戶可以輕松構建、修改和管理各種數據表格,完成許多復雜的數據運算,進行數據的分析和預測并且具有強大的制作圖表功能。Excel廣泛應用于金融、財稅、審計、行政等領域,有助于提高工作效率,實現辦公自動化,是目前應用最為廣泛的數據處理軟件之一。三、數據處理的主要操作軟件---Excel(二)Excel的功能Excel功能強大,可以執行各種計算任務,從簡單的加減乘除運算到復雜的統計分析、圖形展示和數據處理,其功能主要有6個部分:1.表格操作:Excel支持用戶對表格中的數據進行增加、刪除、修改、查找、排序、篩選等操作。2.公式操作:Excel支持用戶編寫公式,并通過輸入文本框中的數據來計算表格中的數據。3.圖表操作:Excel支持用戶對表格中的數據進行數據可視化展示,包括折線圖、柱狀圖、餅圖等多種類型的圖表,幫助用戶更直觀地分析數據。三、數據處理的主要操作軟件---Excel(二)Excel的功能4.數據分析:Excel支持用戶利用函數和數學公式對表格中的數據進行計算、分析和匯總,包括求和、平均值、最大值、最小值、方差等多種類型的數據分析。5.頁面設置:Excel支持用戶對工作表的頁面進行設置,包括設置頁邊距、設置工作表標簽等。6.宏操作:Excel支持用戶編寫宏,并通過運行宏來自動執行一系列的操作。

總的來說,Excel是一款功能強大的電子表格處理軟件,可以用于數據處理、數據分析、圖表展示等多種場景。項目二數據采集概述任務一認知數據采集一、認知數據采集

數據采集,就是按照數據分析研究的目的和任務,運用科學的數據采集組織形式和方法,有組織、有計劃地采集數據資料的工作過程。由于無論何種形式的次級數據都是由原始數據資料過渡而來,所以數據采集所要搜集的資料主要是指原始數據資料。(一)數據采集的概念一、認知數據采集數據采集是整個研究分析工作的基礎環節,通過數據采集,取得有關被采集對象的具體數據資料,為數據處理提供基礎依據。而且,數據采集工作的質量影響到整個數據采集與處理工作的質量,數據采集搞得好,就能準確、及時、全面地反映被研究對象的本質及規律性。反之,如果數據采集搞不好,所得資料不準確、不真實或者不及時,即使經過科學整理和分析,也得不到正確的判斷,這將影響整個數據采集與處理工作的成果。所以,數據采集階段是保證研究工作順利完成、提高數據采集與處理工作質量的首要環節,是整個數據采集與處理工作的前提與基礎。(二)數據采集的意義二、數據采集的種類1.全面數據采集(一)按照數據采集對象包括的范圍劃分全面數據采集:是對數據采集對象中的所有單位進行無一遺漏的觀察登記。例如,要了解全國的汽車產量,就要對全國所有汽車廠家進行數據采集;要了解我國的人口結構和素質,就要對全國的所有人口進行數據采集。二、數據采集的種類1.全面數據采集(一)按照數據采集對象包括的范圍劃分這種數據采集方式能掌握所有總體單位的資料,但是耗時長、花費高。這種數據采集方式僅適用于有限總體,且應限于反映國情國力的重要指標。二、數據采集的種類2.非全面數據采集非全面數據采集:僅對數據采集對象中的部分單位進行觀察登記。例如,對中小企業融資方式進行數據采集,不必將所有中小企業都納入數據采集范圍,選擇一部分即可。這種數據采集方式工作量小、耗時相對較短、花費也相對較低,數據采集結果可以反映某地區的情況或在一定程度上可以反映總體的一般情況。二、數據采集的種類1.報表數據采集(二)按照數據采集的組織方式劃分報表數據采集:是指按照統一規定的表式要求,自上而下地統一布置、自下而上地逐級匯總上報的一種數據采集方式。二、數據采集的種類2.專門數據采集(二)按照數據采集的組織方式劃分專門數據采集:是指為研究某些專門問題,由采集單位專門組織進行的一種調查方式。包括全面數據采集、重點數據采集、典型數據采集、抽樣數據采集等。二、數據采集的種類1.經常性數據采集(三)按數據采集登記時間上的連續性劃分經常性數據采集:指在一定時期內對客觀事物的發展變化情況連續不斷地進行登記的采集方式,其目的是取得某事物在一定時期的發展變化過程中所累積的總量。如:工業產品產量、銷售量等。二、數據采集的種類2.一次性數據采集(三)按數據采集登記時間上的連續性劃分一次性數據采集:是指間隔一段時間,對社會經濟現象在某一時點上的數量特征進行一次性的登記和觀察,分為定期、不定期數據采集。二、數據采集的種類1.直接觀察法(四)按采集資料的方法不同劃分直接觀察法是指數據采集人員到現場對數據采集對象親自進行觀察和計量。2.報告法報告法是指由報告單位根據原始資料和核算資料,按要求規定的統一的表格和要求,按一定的呈報程序提供資料。3.采訪法采訪法主要是指面談、電話、互聯網訪問法。三、數據采集的要求(一)可靠性可靠性要求也稱準確性要求,是指數據必須是真實對象或環境所產生的,必須保證采集的數據能反映真實的狀況,保證數據來源是可靠的。可靠性關注的是數據記錄中存在的錯誤,如字符型數據的亂碼現象就存在著準確性的問題,還有就是異常的數值:異常大或者異常小的數值、不符合有效性要求的數值等。三、數據采集的要求(二)完整性完整性要求是指數據采集必須按照一定的標準要求,采集反映事物全貌的信息,完整性原則是數據處理的基礎。

完整性關注的是數據信息是否存在缺失的狀況,數據缺失的情況可能是整個數據記錄缺失,也可能是數據中某個字段信息的記錄缺失。三、數據采集的要求(三)實時性及時性要求是指數據自發生到被采集的時間間隔,要符合當前的時間需求,間隔越短就越及時,最快的是數據采集與數據發生同步。

比如一份數據是采集當日的,結果都是第二天甚至第三天才能采集完,這種數據就不符合數據及時性要求。三、數據采集的要求(四)相關性相關性原則是指采集的數據與要分析處理的目標要緊密相關。例如,要準備自己企業的年度會計報告內容,其他企業的年度會計報告內容與你要準備的內容不相關,因為會計信息使用者需要的是自己企業的數據,而其他企業的數據不能滿足會計信息使用者的需求,對會計信息使用者的決策影響不大,不具有相關性。三、數據采集的要求(五)經濟性經濟性原則是指數據分析人員在選擇要分析的指標、確定數據采集方法以及數據采集過程中,可能要涉及的人力、物力、財力及時間等成本與產生的收益來配比,從而制定出比較經濟可行的數據采集設計,一般也稱為成本效益原則。經濟性原則要堅持“最少、必要”原則,不采集不相關數據、也不采集不必要數據或過多的冗余數據。三、數據采集的要求(六)準確性數據信息要準確,只有正確的信息和數據才能整理分析后得到正確的結果和結論。數據信息的正確性要求我們通過各種渠道獲取信息進行比對。項目二數據采集概述任務二認知數據采集方案【任務導入】

某淘寶網店長期經營零食堅果類商品,市場采購部門決定在近期計劃增加產品種類,現需要在“葡萄干”、“巴旦木”、“碧根果”三類商品中選擇一種,選擇的依據主要為商品近一年的用戶關注度高、目標用戶群體大等。

任務描述:要求數據分析人員針對該需求撰寫數據采集與處理方案,并對相關數據進行采集。為了確保數據采集結果的準確性和可靠性,在數據采集之前一般都需要制定一份完整的數據采集方案。一份完整的、有指導意義的數據采集方案應該包括一下幾方面的內容。一、確定數據采集與處理的目的及任務目的:就是數據分析人員完成數據分析后對項目運營各部門基于什么樣的目的提出的建議及調整策略。只有明確了數據采集與處理的目的及任務,才能確定數據采集范圍,即向誰采集和采集什么,以及采集所采用的方式方法。數據采集與處理的目的應盡可能具體,要抓住主要矛盾,突出中心問題,切忌輕重不分,只有這樣才能提高數據采集的質量。(一)數據采集的概念一、確定數據采集與處理的目的及任務在確定數據采集與處理目的時要適當的進行背景介紹,讓項目參與人員了解該數據項目的來龍去脈,明確分析的環境和所處情況。(一)數據采集的概念二、確定數據采集對象和采集單位確定數據采集對象,首先需要對所研究的現象進行認真分析,掌握其主要特征;其次需要明確數據采集對象范圍,劃清與其他社會現象的界限,避免資料的重復或遺漏,保證采集的數據資料的準確性。三、擬定數據采集提綱和采集表數據采集提綱是在數據采集前所確定的數據采集項目,包括需要向數據采集單位了解的有關的標志和其他情況。(一)擬定數據采集提綱(二)設計數據采集表數據采集表是搜集原始資料的基本工具,把數據采集提綱中的各個數據采集項目按照一定的順序排列在一定表格內,就構成了數據采集表。三、擬定數據采集提綱和采集表商務數據采集表常用的形式有以下幾種:1.店鋪流量類數據采集報表店鋪流量類數據采集表主要是為了了解店鋪的流量來源情況及流量結構,常用的數據采集報表有店鋪UV、PV、IP數據采集表等。店鋪UV數據采集表三、擬定數據采集提綱和采集表2.店鋪日常運營數據類采集報表店鋪運營類數據采集表類型多樣,最常見的就是店鋪運營日報表,包含的數據指標通常有流量類、訂單類、轉化類、交易類等。店鋪運營日報表三、擬定數據采集提綱和采集表3.營銷推廣類數據采集表營銷推廣工作直接關系到整店的成交轉化情況,因此營銷推廣數據采集表在日常運營過程中使用也非常廣泛,營銷推廣類數據采集表通常包含通過各營銷推廣渠道的成交類指標、流量類指標、費用類指標等。CPS推廣基礎數據登記表四、確定數據來源渠道及數據采集工具(一)數據采集來源常見的數據采集來源大致可以分為三類:1.日常數據采集:主要包括平臺運營數據、網站數據庫數據以及企業管理系統數據等2.專題數據采集:專項調研數據和實驗實測數據。3.外部環境數據:行業發展數據及競爭對手數據。四、確定數據來源渠道及數據采集工具(二)常用的數據采集渠道與采集工具數據采集渠道與采集工具一覽表采集渠道采集工具適用范圍政府部門、行業協會、媒體爬蟲、Excel等行業數據等數據平臺百度指數、360指數等行業數據的關注熱度等商家后臺生意參謀、京東商智、店偵探、自有系統等;市場數據、客戶數據、產品數據等咨詢公司數據平臺爬蟲、Excel等行業數據、產品數據等問卷調研問卷星、騰訊在線表單等目標客戶分析、產品體驗等五、確定數據采集時間和采集方法六、制訂數據采集工作的組織實施計劃數據采集的成功實施必須要有嚴密細致的組織工作,因此,必須在數據采集方案中擬定一個周密的組織實施計劃。其主要內容包括:確定數據采集工作的領導機構和辦事機構、數據采集人員的組織與分工、采集前的準備工作,如人員培訓、文件資料的印發、方案的傳達布置以及公布數據的時間等。項目二數據采集概述任務3認知數據采集的方法(一)數據的常見種類按照獲取途徑的不同,可分為初級數據和次級數據。1.初級數據一、初級數據的采集方法初級數據也稱原始數據或一手數據,是指反映被調查對象原始狀況的數據,是直接從被研究對象處取得的資料。如原始記錄、統計臺賬,調查問卷答案,實驗結果等。初級數據的優點是及時、可信度高,可以解決二手數據不能解決的問題;但也存在主觀性強、收集成本高、難以收集的問題。(一)數據的常見種類2.次級數據一、初級數據的采集方法次級數據又稱二手數據,是指已經存在的經他人整理分析過的數據,如期刊,報紙、廣播、電視以及互聯網上的資料,各級政府機構公布的資料,企業內部記錄和報告等。次級數據的優點是客觀、易于獲取、取得迅速、成本低;缺點是相關性、時效性、可靠性較差。(二)初級數據的采集方法1.實地調查法一、初級數據的采集方法1)訪問法

訪問法是通過有目的、有計劃、有方向的口頭交談向被調查者了解問題和情況,獲取原始資料的一種方法。

該種方法的優點是:被調查對象的回答率大大高于問卷法,適應性強,調查內容機動性大,訪談者對資料采集過程可進行有效控制;缺點是:訪談成本高、匿名性差,訪談結果與訪談人員的素質、能力及其現場表現直接相關。

根據調查人員與被調查者接觸方式的不同,又可將訪問法分為人員訪問、電話訪問、郵寄訪問和網上訪問等。1.實地調查法一、初級數據的采集方法2)觀察法觀察法是指觀察者帶有明確目的到觀察現場,憑借自己的眼睛或攝像器材,在調查現場進行實地考察,記錄正在發生的市場行為或狀況,以獲取各種原始資料的一種非介入性調查方法,又稱為直接觀察法。

觀察法一般用于對受訪者客觀狀況進行調查,這種方法的主要特點是:調查者與被調查者不發生直接接觸,而是由調查者從側面直接地或間接地借助儀器把被調查者的活動按實際情況記錄下來,避免讓被調查者感覺正在被調查,從而提高調查結果的真實性和可靠性,使取得的資料更加貼近實際。1.實地調查法一、初級數據的采集方法2)觀察法優點:是可以獲得更加真實,客觀的原始資料;缺點:首先,觀察法僅是取得表面性資料,只能觀察到正在發生的動作和現象;其次,調查者必須具備較高的業務能力、敏銳的洞察能力和良好的記憶力;再次,觀察法要求較高的調研費用和較長的觀察時間。1.實地調查法一、初級數據的采集方法3)實驗法實驗法是指在實驗中控制一個或多個變量,在有控制的條件下得到觀測結果的一種調查方法。在實驗中,研究人員要控制某一情形的所有相關方面,操縱少數感興趣的變量,然后觀察實驗的結果,獲得的實驗數據就是在實驗中控制實驗對象而搜集到的變量數據。1.實地調查法一、初級數據的采集方法4)報告法報告法亦稱通訊法,是指由受訪者填寫有關報告表格,向調查人員報告自身情況的資料采集方法。

這種方法是被調查者根據統計報表的格式要求,按照隸屬關系,逐級向有關部門上報統計資料的一種調查方法。其特點是:具有統一項目、統一表式、統一要求和統一上報程序;能夠進行大量調查。現行統計報表制度采用的就是這種方法。1.實地調查法一、初級數據的采集方法5)問卷調查法問卷調查法就是根據調查目的,由調查者運用統一設計的問卷向被選取的調查對象了解情況或征詢意見的調查方法。問卷調查法是目前最常用的調查方法,其優點在于利用問卷限定了訪問員的詢問方式和受訪者的回答方式,從而有助于獲得符合分析要求的定量數據。問卷調查法不需要訪問員進行自由聯想和發揮,從而降低了對訪問員自身素質的要求,更適用于大規模的民意調查和商業調查活動。2.網絡直接調查法一、初級數據的采集方法網絡直接調查法即利用互聯網直接進行問卷調查、電子郵件調查、網上論壇調查、網上在線座談會調查調查等收集初級數據的地方。(一)內部數據采集二、次級數據的采集方法

內部數據來自組織內部。內部數據的采集來源為業務資料、統計資料、數據庫等,采集方法包括報表采集、數據庫采集、系統日志數據采集等。(一)內部數據采集二、次級數據的采集方法(1)報表采集。企業可以通過相關業務部門每日、每周、每月的工作報表進行采集,如銷售明細、出入庫清單、客服記錄等,進行數據采集。(2)數據庫采集。企業將數據庫采集系統直接對接到業務后臺的服務器。業務后臺每時每刻都會產生大量業務記錄,并可直接被數據庫采集系統采集,最后由特定的處理系統進行數據分析。(3)系統日志數據采集。系統日志數據采集主要針對互聯網上的商務活動,例如網站日志會記錄訪客IP地址、訪問時間、訪問次數、停留時間、訪客來源等數據。通過對這些日志信息進行采集、分析,可以挖掘數據中的潛在價值。(二)外部數據采集二、次級數據的采集方法外部數據是指來自組織外部獲得的二手數據。外部數據的采集來源為公開出版的資料、計算機數據庫、互聯網資料等。(二)外部數據采集二、次級數據的采集方法1.文獻資料采集

文獻資料采集主要是通過政府部門、行業協會、新聞媒體、出版社等發布的統計數據、行業調查報告、新聞報道、出版物采集數據。2.情報聯絡網法

情報聯絡網法,就是企業在全國范圍內或國外有限地區內設立情報聯絡網,使情報資料采集工作的觸角伸到四面八方。3.專業數據庫

數據庫指的是按照一定要求采集且具有內部相關性的數據的集合體。例如,中國知網數據庫、辛迪加數據等。(二)外部數據采集二、次級數據的采集方法1.文獻資料采集

文獻資料采集主要是通過政府部門、行業協會、新聞媒體、出版社等發布的統計數據、行業調查報告、新聞報道、出版物采集數據。2.情報聯絡網法

情報聯絡網法,就是企業在全國范圍內或國外有限地區內設立情報聯絡網,使情報資料采集工作的觸角伸到四面八方。3.專業數據庫

數據庫指的是按照一定要求采集且具有內部相關性的數據的集合體。例如,中國知網數據庫、辛迪加數據等。項目二數據采集概述任務4采集網絡數據一、常規網絡數據的采集常規網絡數據采集方法主要是針對網絡平臺數據那些可下載或可復制數據所采用的數據采集方法。1.當在網絡上瀏覽到需要采集的數據時,如果該平臺允許下載(或導出)頁面中的數據,一般會在該頁面中顯示與下載(或導出)相關的超鏈接或按鈕,用戶只要單擊該超鏈接或按鈕,設置數據文件的名稱和保存位置,然后點擊保存即可。一、常規網絡數據的采集/sj/zxfb/202401/t20240129_1946971.html一、常規網絡數據的采集2.如果網絡平臺沒有提供與下載(或導出)相關的超鏈接或按鈕,但允許選擇并復制數據內容,用戶可以點擊并按住拖拽鼠標,將需要采集的數據全部選中,在所選區域單擊鼠標右鍵,在彈出的快捷菜單中選揮“復制”命令。啟動Excel點擊鼠標右鍵,在彈出的快捷菜單中選揮點擊“粘貼”命令,或按“Ctrl+V”組合鍵即可將剪貼板中的數據粘貼到Excel的工作表。一、常規網絡數據的采集/sj/zxfb/202402/t20240228_1947915.html二、利用Excel進行網絡數據采集

對于網絡數據也可以采用Excel進行數據采集。下面以東方財富網上的股票行情中心數據(/center/gridlist.html#hs_a_board)為例,利用Excel進行網絡數據采集。下圖為東方財富網行情中心部分股票數據。二、利用Excel進行網絡數據采集第一步,啟動Excel工作簿,點擊編輯頁面的“數據”選項卡,在出現的頁面中,單擊功能區中的“自網站”選項,會彈出“從Web”的對話框;二、利用Excel進行網絡數據采集第二步,在URL中錄入網址:/center/gridlist.html#hs_a_board,點擊“確定”按鈕;二、利用Excel進行網絡數據采集第三步,在上述步驟之后,會出現“導航器”對話框,二、利用Excel進行網絡數據采集第四步,在導航對話框中,點擊“顯示選項”中的“table0”選項;二、利用Excel進行網絡數據采集第五步,點擊【加載】按鈕,就可以將有關資料采集下來。三、使用gooseeker抓取網頁數據GooSeeker集搜客網絡爬蟲軟件是一款功能齊全并且免編程的批量爬蟲軟件,該軟件提供自定義采集和快捷采集兩種主要采集方式,自定義采集適用于非常規網站和個性化采集,快捷采集適用于主流網站數據采集,比如知乎、京東、淘寶、安居客、前程無憂、微博等網站,爬取方式簡單易用。下面以本軟件為例,進行網頁數據抓取演示。三、使用gooseeker抓取網頁數據(一)數據抓取前的準備工作1.下載與安裝首先進行軟件安裝,軟件下載地址:/pro/gooseeker.html該軟件提供免費版和高級版本,初學階段建議使用免費版。三、使用gooseeker抓取網頁數據2.激活賬號下載軟件后,雙擊安裝。安裝后雙擊打開,第一次運行GS爬蟲瀏覽器,要登錄才能激活網絡爬蟲功能,檢查是否已經連上服務器(綠勾連接,紅勾未連接)。注意:沒有賬號的請先在官網注冊一個賬號。如果是Mac版軟件,需要購買專業版才能激活。Windows版界面如下(本節以Windows免費版進行講解)。三、使用gooseeker抓取網頁數據(二)使用gooseeker抓取網頁數據下面以采集天貓商品評價為例簡要說明軟件使用方法。1.登陸天貓網站:在數據管家新開一個頁簽,在新頁簽打開天貓網站,并登陸一個天貓賬號,一般直接用手機驗證碼就可以。三、使用gooseeker抓取網頁數據2.進入快捷采集:點擊數據管家左側邊欄的“快”按鈕,進入快捷采集。三、使用gooseeker抓取網頁數據3.選擇合適的快捷工具:根據要采集的網頁,選擇類別-網站-網頁。對于天貓商品評論來說,就是點擊:電商

-

天貓

-

天貓商品評論采集三、使用gooseeker抓取網頁數據如下圖所示,可以打開示例頁面看看,確保后面操作時添加的鏈接和示例頁面類似。或者瀏覽網頁下方的示例數據,進一步了解選定的快捷工具是否滿足要求。三、使用gooseeker抓取網頁數據4.獲得網址在天貓的搜索頁面上,輸入要搜索的關鍵詞,點擊搜索,比如搜索“兒童超輕黏土”,復制出來的某條商品網址就是:/item.htm?abbucket=20&id=657886365325&ns=1&spm=a21n.18b7523cI92qPN三、使用gooseeker抓取網頁數據5.粘貼網址,啟動采集把上一步得到的網址用Ctrl+v粘貼到快捷工具的網址輸入欄,啟動采集。三、使用gooseeker抓取網頁數據6.采集中的爬蟲窗口點擊獲取數據之后,數據管家自動彈出兩個采集窗口(窗口右下方有綠色的狀態球),一個窗口加載網頁,采集數據,一個窗口打包上傳數據。兩個采集窗口工作時,都不能關閉。三、使用gooseeker抓取網頁數據7.打包下載數據采集完成后,采集狀態會從橙色的“采集中”,變成綠色的”已采集”。然后打包下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論