




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、.:.;調查數據分析 概念 張海波 主編,中國統計出版。自學考試以及調查分析師考試指定教材 張海波 主編,中國統計出版。自學考試以及調查分析師考試指定教材 目錄第一章調查數據分析的根本問題第二章 調查數據的整理第三章 調查數據的描畫分析第四章 調查數據的推斷分析第五章 調查數據的相關分析第六章 調查數據的回歸分析第七章 調查數據的多元統計分析第八章 調查數據的預測分析第九章 調查數據的實際分析第十章 調查分析報告調查數據分析第一章 調查數據分析的根本問題 (一)調查數據分析的意義 , 調查數據分析 調查數據分析是根據研討的目的和要求,運用科學的方法和手段,對調查數據進展定性和定量分析, 提示景
2、象的本質和規律,為決策和管理提供咨詢效力的過程. , 調查數據分析是調查研討過程中的一個非常重要的環節.調查數據分析具有本身的內在規律和特點, 主要表如今以下幾個方面:數據分析過程要定性分析和定量分析相結合;數據的定量分析以統計分析 主要表如今以下幾個方面 方法為主;數據分析不能孤立于被調查研討的景象獨立地進展;數據分析過程是一次認識上的質的飛躍. , 調查數據分析在整個調查研討過程中占有非常重要的位置,其重要性 重要性主要表如今以下幾個方面: 重要性 數據分析是調查研討不可短少的重要環節;數據分析是充分發揚調查研討作用的重要保證;數據分析 在檢驗調查研討其他環節的任務質量中有著特殊的作用;經
3、過數據分析還可以促進調查數據分析方法的研 究. (二)調查數據分析的原那么與方法 ,調查數據分析作為調查研討的一個重要階段,有其本身的規律和要求.在進展調查數據分析時,應該 遵照的原那么主要有: 遵照的原那么 .科學性原那么.科學性原那么是指在數據分析中,應該根據調查數據的屬性和特點,調查數據的來源渠道, 調查研討的義務和目的,選擇科學合理的分析方法進展分析 .客觀性原那么.客觀性原那么是指在數據分析中,必需遵守實事求是原那么,充分了解研討對象的各種實踐 情況,尊重調查數據現實,保證分析結果的公正與客觀 .目的性原那么.目的性原那么是指數據分析必需圍繞調查研討的義務和目的來進展,其分析的結果必
4、需能 夠滿足調查研討的需求; .系統性原那么.系統性原那么是指數據分析要將所的景象進展分解,然后對各種復雜的聯絡進展分析和綜 合. ,調查數據的分析方法有多種,但從方法論的角度來看,有定性分析方法和定量分析方法兩大類. 定性分析方法是人們根據現實,運用閱歷和判別才干,邏輯思想方法,哲學方法和相關專業實際,對 定性分析方法 景象進展判別,歸納,推理和概括,得出對事物的本質和規律性的認識的方法體系.詳細包括歸納分析法, 演繹分析法,比較分析法,因果分析法,構造與功能分析方法等. 定量分析方法是對調查數據進展數學和統計處置分析的方法體系的總稱. 定量分析方法 調查數據分析中所運用的定量分析方法主要是
5、統計分析方法.統計分析方法分為描畫統計分析方法和 推斷統計分析方法.描畫統計分析方法是指對調查數據進展綜合整理和計算綜合目的等加工處置,用來描 述總體特征的統計方法;推斷統計分析方法是指根據調查的樣本數據去推斷總體數量特征的方法. ,在調查數據分析過程中,應該正確地選擇分析方法.調查數據分析方法的選擇,主要是定量分析方法 的選擇,而定量分析方法主要是統計分析方法.選擇統計分析方法 選擇統計分析方法,主要是根據研討假設,調查方式,變 選擇統計分析方法 量多少,數據類型來確定. (三) 調查數據分析的程序和要求 ,調查數據的分析過程包括分析方案的制定,原始數據的整理,分析方法的選擇,數據的定量分析
6、, ,調查數據的分析過程 數據的定性分析,調查報告的撰寫等環節. 調查數據分析 ,調查數據的分析不是一項簡單的任務,也不是一項孤立的任務,要作好這項任務,必需具備一定的 條件:.對調查數據質量的要求.包括真實性要求,準確性要求和完好性要求;.對分析方案的完備性 要求,即要求在數據分析開場之前,必需充分思索各方面要素,制定出詳細,可行的分析方案;.對分 析人員素質的要求.要求分析人員具有系統的統計學功底,具有熟練的計算機操作才干,具有廣泛的專業 實際知識,具有較高的認識程度,具有良好的表達才干. 調查數據分析 第二章 調查數據的整理 (一)數據整理的概念與作用 ,數據整理,就是根據調查研討的目的
7、與義務,對搜集到的各種數據,采用科學的方法,進展審核匯總 ,數據整理 與初步加工,使之條理化,系統化,并以圖表的方式顯示數據特征,以符合數據分析需求的任務過程. ,其作用 作用有:數據整理能全面檢查數據的質量,保證了數據的有用性;數據整理是數據分析的 作用 根底;數據整理是積累及保管資料的客觀要求. ,數據整理應遵照以下原那么 數據整理應遵照以下原那么:真實性原那么.即一方面要仔細審核原始數據的真實性,又應留意在 數據整理應遵照以下原那么 整理的各個環節,合理地選擇整理方法和技術,保證原始數據的真實性不受損害;準確性原那么;科學 性原那么;目的性原那么. ,數據整理的普通步驟是 數據整理的普通
8、步驟是:數據的審核;數據的編碼;數據的分組;數據的匯總;數據 數據整理的普通步驟是 的顯示. (二) 編碼 編碼,是將問卷的問題及答案轉化為計算機可以識別的數字或符號. ,經過編碼,方便錄入,適宜電腦進展處置.有事前編碼與事后編碼.事前編碼 事前編碼是指在設計問卷時 事前編碼 就給予每一個變量和能夠答案分配代碼,適用于封鎖性問卷.事后編碼 事后編碼是在數據搜集完成以后正式整理開 事后編碼 始之初,對調查詢題的能夠答案所進展的編碼.對開放型問題,只能采取事后編碼的方式. ,常用的幾種編碼方法有: ,常用的幾種編碼方法有 順序編碼法:是用一個規范對數據進展分類,并按一定的順序用延續數字或字母進展編
9、碼的方式; 分組編碼法: 是根據調查數據的屬性特點和處置要求, 將具有一定位數的代碼單元分成假設干組 (或區間) , 每一個組的數字均代表一定的意義;信息組碼編碼法:是把調查數據區分不同的組,給每一個組以一定 組碼來進展編碼的方法;表義式文字編碼法:是用數字符號等闡明編碼對象屬性,并依此方式對調查數據 進展編碼的方法. ,編碼是一項細致的任務,為方便運用,需求編制一致的編碼手冊.編碼手冊包括四個主要工程 編碼手冊包括四個主要工程, 編碼手冊包括四個主要工程 即問題順序號,每個工程的預留代碼位置,工程稱號和內容闡明. ,編碼時應留意以下問題 編碼時應留意以下問題:編碼符號絕大多數情況下都必需用數
10、字,個別時也可以采用英文字母; 編碼時應留意以下問題 可以對某些數字賦予特殊的意義,便于整理資料時識別;編碼位數應根據詳細情況予以確定. ,編碼完成以后,就可進展數據錄入.數據的錄入 數據的錄入是指將問卷或調查表或登錄卡上的編碼數字讀到 數據的錄入 磁盤,磁帶中,或經過鍵盤直接輸入到計算機的任務過程.有手工錄入和光電錄入兩種方式. ,對搜集到的數據能否真實可靠,還應進展審核.普通從準確性,完好性兩方面進展. 審核準確性是關鍵, 主要是檢查數據能否存在過失, 有無異常值. 檢查的方法有邏輯檢查與計算檢查. 審核數據的完好性是檢查應調查的個體能否存在脫漏,所要求調查的工程能否齊全,有無缺項等.對不
11、符 合調查要求的數據,那么應進展挑選.挑選有兩方面的內容,一是對不符合要求或確認有錯誤的數據予以剔 除,保管可靠性的數據.二是過濾,將符合某種特定條件的數據選取出來,而不符合條件的數據予以剔除. ,為合理安排數據,應首先對數據進展排序.排序是按一定順序陳列數據,便于察看數據的分布范 圍及特征.能為重新歸類或分組等作預備,方便數據檢索.對分類數據,普通按其英文字母或漢語拼音字 母進展升序陳列,也可按首個漢字的筆畫數目由少到多的順序陳列.對數值型數據,可采用遞增與遞減兩 種方式陳列.遞增排序是由小到大陳列,遞減排序是由大到小陳列. 調查數據分析 ,分組是將原始數據按照某種規范劃分為不同組別,以滿足
12、研討的需求.對數值型數據由各組的表 示方法不同分為單變量值分組和組距分組.單變量值分組中的每一組用一個變量值來表示.組距分組中每 一組用一定變動范圍的兩個變量值表示.有等距組距分組和異距組距分組.組距分組的根本步驟是:通 過排序的數據察看其極大值與極小值,找出變動的總范圍;確定組數.一組數據分成多少組是分組中首 K =+ lg N lg ;確定各組組距.組距與組數成反比; 先需求確定的.通常可根據以下公式計算出建議組數 確定組限的表示方法,編制成頻數分布表. ,頻數 頻數是指落入各類或組中數據的個數,當他們把各組及相應頻數按順序全部加以陳列,并用表格 頻數 的方式表現出來,就是頻數分布.它可以
13、顯示數據的分布情況,用于研討事物的內部構造. 將各組頻數逐級累加得到的頻數,稱為累積頻數 累積頻數. 累積頻數 ,為更好地表現數據特點.需求展現數據.其中圖形表現,就是一種有效方法. 常用的統計圖有以下幾種:條形圖,直方圖.條形圖和直方圖大都是用來表現頻數分布的.但兩者 常用的統計圖有以下幾種 適用的數據類型不同.條形圖是運用等寬條形的長短或高度來表示數據的多少的圖形.直方圖是用一定寬 度與長度所圍成的矩形面積來表示數據大小的圖形.矩形的寬度與高度均有意義.此外,還可根據累積頻 數或累積頻率,繪制累積頻數及累積頻率分布圖. 餅型圖,環形圖.餅型圖及環型圖是來描畫各種比例的圖形.餅型圖是用圓內扇
14、形的面積表示數值 大小的圖形.以圓為整體,籠統的闡明各部分在總體中所占的份額.環形圖是用圓內各環中每一段的面積 來表示數值的大小的圖形.可以同時顯示多個總體的內部構造. 莖葉圖,箱線圖.對未經分組的數值型數據,適宜用莖葉圖,箱線圖來顯示.莖葉圖是由莖和 葉兩部分組成, 莖代表分組,表示高位數值; 葉代表頻數,列示個位數值.箱線圖是用一組數 據的五個特征值來描畫該組數據的分布情況.既可顯示單組數據,也可顯示多組數據.其五個特征值分別 是一組數據的最小值,最大值,中位數,下四分位數,上四分位數. 線圖.線圖,是反映時間序列數據的圖形,即在平面坐標上標注各數據點并銜接成折線,表現數量 變化規律及特點
15、的統計圖.其橫軸上列示時間的先后次序,縱軸上列示變量值. 雷達圖.雷達圖,反映多個變量多個察看樣本數據的圖形.在一個平面上繪有多個數軸,每個軸上 顯示一個變量的取值,每個樣本的各察看值分別在各軸上標出. ,統計表 統計表是表現調查數據的另一個重要方式.是指將一系列闡明景象特性的經加工整理后的調查數 統計表 據,按一定次序和格式陳列構成的公用表格.其作用不僅能有效表現數據,更有利于資料的儲存保管,還 是積累資料的有效手段.為下一步分析提供根底,為進一步發掘數據提供便利. 統計表由兩端不封口的縱橫交錯的直線圍成各區域.從外形看,由總標題,行標題,列標題和詳細數 值及表外附加組成. 從內容看,統計表
16、分為主詞與賓詞兩部分.主詞是指統計表要闡明的主體,也即研討的對象,通常是各 個總體單位的稱號或總體經分類(分組)構成的各個組.賓詞是統計表要闡明研討對象的某些方面情況, 現實.根據主詞能否分組及分組的情況,可將統計表分為簡單表,分組表,復合分組表. 為更好地表現調查數據,就需求精心設計統計表,設計時須留意以下幾點:合理安排表的內容, 設計統計表, 計時須留意以下幾點 設計統計表 簡明扼要,集中醒目,根據表的內容決議行標題與列標題的擺放位置,確定適宜的長寬比例.采用適當 的陳列順序,置于頂端的總標題要確切,明確闡明統計表要反映的內容,時間與空間范圍.各項標題也要 調查數據分析 簡單明了.表的上下
17、兩條橫線要用粗線標出,中間各行普通不畫線,有特殊要求需標橫線的那么用細線. 使觀看效果清楚醒目.當統計表的欄次較多時,普通會進展編號.統計表中的數字應填寫清楚,陳列 有序,并采用一致的準確度,按位置對齊. 第三章 調查數據的描畫分析 本章講述的是如何用目的的方式來認識調查數據數量特征的實際和方法.內容包括相對目的,平均目的和 變異程度目的的設計思想,計算方法及運用原那么. 調查數據分析中常用的相對目的,有無名數和名數兩種表現方式,按功能不同,相對目的分為:構造相對 目的,比例相對目的,比較相對目的,動態相對目的及方案完成程度相對目的.學習時應留意掌握各種相 對目的的計算方法.在計算相對目的時首
18、先應留意分子與分母的可比性,同時還應留意各類目的的運用條 件.在運用相對目的時應遵照相對目的與絕對目的相結合的原那么. 平均目的是闡明一組數據值普通程度的目的,是一個代表性的數值.當不計較數據中極端值對均值程度的 影響時,平均目的可用數值平均法計算;否那么,采用位置平均法計算.學習時應了解平均的本質,熟練掌 握各種平均值的計算方法,要深化了解權數的意義并明白算術平均是最根本的,運用面最廣的平均方法. 此外還應了解算術平均值,調和平均值,幾何平均值的關系以及數值平均值與位置平均值的關系. 變異目的是描畫一組數據值間詳細差別程度大小的統計目的,其數值的大小一方面反映數據值變異程度的 大小;另一方面
19、反映均值的代表性好壞.學習時應熟練掌握各種變異目的的涵義和計算方法,特別是規范 差的計算和運用. 第四章 調查數據的推斷分析 根本內容概述 本章講述的是如何用樣本數據認識總體數量特征的實際和方法.內容包括參數估計,參數的假設檢驗 和方差分析的統計思想,計算方法及運用原那么. 參數估計是根本統計推斷方法之一.未知參數 的點估計,就是構造一個統計量 ( X , X , , X n ) 作為 參數 的估計.其方法有:矩法,似然函數法和最小二乘法.評價估計量的優良規范普通有:無偏性,有 效 性 和 一 致 性 . 未 知 參 數 的 區 間 估 計 , 就 是 在 給 定 的 概 率 ( ) 下 ,
20、估 計 參 數 的 變 化 范 圍 ( X , X , X ), ( X , X , X ).其中: ( ) 稱為置信程度, , 分別稱為置信下限及置信上限, 區間 ( X , X , X ), ( X , X , X )稱為置信程度為 ( ) 的置信區間.學習時應留意掌握統計量的 L n U n L U L n U n 抽樣分布實際,這是統計推斷的根底,重中之重.要熟練掌握各種情況下參數均值( ) ,方差( )和 成數(P)的區間估計方法. 參數的假設檢驗是另一類重要的統計推斷方法,它利用樣本統計量并按一定的決策規那么對零假設 H 作出接受或回絕的推斷.假設檢驗的根據是樣本信息,判別規那么是
21、小概率原理,推斷方法是概率反證 法.學習時應了解假設檢驗的統計思想,明白假設檢驗作出的推斷結論(決策)不能保證絕對正確,能夠 會犯兩類錯誤.要熟練掌握 Z 檢驗法, t 檢驗法, 檢驗法和 F 檢驗法的原理,記住假設檢驗的操作過 調查數據分析 程. 方差分析是多個總體的方差都相等的條件下,其均值能否也全都相等的判別方法,同時也是實驗數據 中能否存在系統要素影響的判別方法.學習時應掌握方差分析的統計思想及假定條件,熟練掌握單要素方 差分析的操作過程. 第五章 調查數據的相關分析 根本內容概述 (一)相關分析概述 在自然界與人類社會中,許多景象之間存在著相互聯絡,相互制約的關系.景象之間的關系可以
22、概括 為兩種不同的類型,即函數關系和相關關系.函數關系是指景象之間客觀存在的,在數量變化上按一定法 那么嚴厲確定的相互依存關系.相關關系是指景象之間客觀存在的,在數量變化上受隨機要素影響的,不確 定的相互依存關系.在相關關系中,景象之間在數量變化上也存在著一定依存關系,但這種依存關系并 不是確定的.由于受隨機要素的影響,當某一景象在數量上發生變化時,另一景象并不按某一確定法那么 發生變化,而是在一定的范圍內發生動搖.但經過大量察看,依然可以發現景象之間具有內在的變化規 律.相關關系與因果關系有著較親密的聯絡.在相關關系中,有許多相關景象之間存在單向因果關系. 單向因果關系有直接單向因果關系與間
23、接單向因果關系之分.在相關關系中,有許多相關景象之間存在雙 向因果關系.雙向因果關系也有直接雙向因果關系和間接雙向因果關系.對雙向因果關系的景象進展統計 分析時,經常根據分析研討的目的來確定自變量和因變量. 相關關系多種多樣.從相關關系涉及的變量多少看,相關關系可分為單相關與復相關.單相關是指 兩個變量之間存在的相關關系.復相關是指三個及三個以上的要素之間所存在的相關關系. 從相關關系 的不同方式來看,相關關系可分為線性相關與非線性相關.線性相關也稱為直線相關,它是指相關的變量 中,假設自變量變動時,因變量大致地圍繞一條直線發生變動.非線性相關也稱為曲線相關,它是指相關 的變量中,假設自變量變
24、動時,因變量大致地圍繞一條曲線發生變動.從相關關系的親密程度來看,相關 關系可分為不相關,完全相關和不完全相關三種.假設各變量彼此的變化相互獨立,這種關系為不相關; 假設一個變量的變化由另一個變量所獨一確定,這時兩個變量之間的關系稱為完全相關. 從相關關系的 方向來看,相關關系可分為正相關與負相關.假設相關自變量和因變量的變化方向一致,那么自變量和因 變量之間就存在著正相關;假設相關的自變量和因變量的變化方向相反,那么自變量和因變量之間就存在著 負相關. 相關分析是指對變量之間的相關關系的表現方式,親密程度和變化方向進展分析和研討.相關分析主 要內容包括三個方面:確定變量之間有無關系;確定相關
25、關系的表現方式;判別關系的親密程度和方向. 相關分析作為一種認識景象之間數量變化關系的一種方法,它對數據的采集具有一定的要求.在進展 相關分析時,由于條件的限制,在大多數場所下,他們只能根據樣本數據進展相關分析.那么,足夠的樣 本察看點是進展相關分析的重要條件. 對于不同類型的數據,進展相關分析時所選擇的方法是不同的.定性數據中,定類數據普通采用交互 列表方法,x 檢驗方法,質量相關系數分析方法進展分析;定序數據那么采用等級相關系數分析方法進展分 析.對于定量數據那么采用相關表,相關圖,簡單相關系數,復相關系數,偏相關系數等進展分析. 調查數據分析 (二)定性數據的相關分析 在實踐進展的大量社
26、會經濟調查中,他們所搜集到的數據許多是定性數據,個別一些數據如收入,年 齡等也主要分析它們的層次差別與其他定性變量之間的關聯構造關系.對于定性數據進展相關分析,主要 采用交互列表方法,x 檢驗方法,質量相關系數和等級相關系數分析方法進展分析. 交互列表分析方法是以交互列表(也稱為列聯表)為工具,同時將兩個或兩個以上具有有限類目和確 定值的變量按照一定順序對應陳列在一張表中, 從中分析變量之間的相關關系, 得出科學結論的分析技術. 交互列表分析方法有雙變量交互列表分析和三變量交互列表分析兩種方法.其中,雙變量交互列表分析是 最根本的交互列表分析方法.雙變量交互列表分析由于涉及的變量較少,在提示變
27、量之間的關系時能夠不 太深化或產生虛偽的結果.為了抑制這一缺陷,在許多場所他們要在雙變量交互列表分析的根底上,引入 第三個變量作深化分析,即進展所謂的三變量交互列表分析.三變量交互列表分析法主要有三個方面的作 用: ()更準確地反映原有雙變量之間的關系; ()檢驗雙變量交互列表分析結果的真偽; ()提示新的 變量關系. x 檢驗分析是運用 x 統計量對定類或定序變量之間能否具有相關關系進展統計檢驗的分析方法.x 檢 驗是對交互列表中變量的相關關系進展檢驗,是交互列表分析的深化.所以,在進展 x 檢驗之前,必需編 制出交互列表.x 檢驗分析的根本步驟是:建立兩個變量間無關系的假設;計算 x 統計
28、量; 規定 顯著性程度; 根據自在度和規定的顯著性程度,查 x 分布表,得到臨界值;作出統計決策. x 檢驗分析,研討的是兩個變量之間能否存在相關關系的問題.而兩個變量之間的相關關系的強弱, 還需經過質量相關系數來反映.常用的質量相關系數是 系數, v 系數, c 系數和 系數. 等級相關系數是用來描畫兩個定序變量即等級序列之間的相關程度的目的.在等級相關系數中,尤以 斯皮爾曼(C.Spearman)等級相關系數的運用最為普遍.等級相關系數 rs 只是就樣本而言的,它所闡明的 變量之間的相關程度能否在總體范圍內顯著地存在,還要對 rs 進展顯著性檢驗. (三) 定量數據的相關分析 對于定量數據
29、進展相關分析,常采用的方法是簡單相關系數,復相關系數,凈相關系數等方法. 簡單相關系數是用來測度兩個變量之間線性相關程度的統計目的,也叫線性相關系數,普通情況下簡 稱為相關系數.簡單相關系數 r 測定的是變量 x 和 y 之間的線性相關程度.其取值范圍是-,.假設 r ,闡明 x 與 y 之間存在正相關;假設- r ,闡明 x 與 y 之間存在負相關;假設 r =,闡明 x 與 y 之間存在完全正相關;假設 r =-,闡明 x 與 y 之間存在完全負相關;假設 r =,闡明 x 與 y 之間不存在線性 相關關系.但要留意,這種判別只在樣本范圍內有效.那么,樣本相關系數所描畫的變量之間的相關程度
30、 能否也在總體范圍內顯著地存在,還必需經過相關系數的顯著性檢驗來回答.對樣本相關系數進展顯著性 檢驗的步驟是:建立假設;確定顯著性程度;建立檢驗的統計量;查 t 分布表,得到臨界值 作出統計決策. 簡單相關系數只能闡明兩個變量之間的線性相關程度.然而景象之間的關系往往是多元的,復雜的, 一個景象的變動經常要受許多要素的影響,而且這些要素之間還存在相互交錯的關系.假設研討的目的涉 及多個變量,需求提示一個自變量與多個因變量之間的相關關系的程度,就需求計算復相關系數.復相 關系數是反映一個因變量與多個自變量之間數量變化關系親密程度的目的.復相關系數的詳細計算方法依 t ; 調查數據分析 自變量的個
31、數不同而異.復相關系數總取正值,越接近于 ,闡明因變量與多個自變量之間的線性關系越 顯著. 復相關系數提示了多個自變量同時對一個因變量發生作用時,這個因變量與這些自變量之間的相關程 度.假設相關分析的義務是要提示對因變量有影響作用的多個自變量中,某一個特定變量與因變量之間數 量變化上的相關程度,就需求計算偏相關系數.偏相關系數是在多變量觀測數據中分析兩個特定變量之間 數量變化關系親密程度的目的. 單純的相關分析只能提示變量之間能否存在相關關系,存在何種相關關系,關系的親密程度如何,還 不能測度變量之間的數量變動關系.要分析變量之間的數量變動關系,那么要進展回歸分析. 第六章 調查數據的回歸分析
32、 (一) 一元線性回歸分析 回歸分析是一種運用非常廣泛的統計分析方法.回歸分析按照涉及的自變量的多少,可分為一元回歸 分析和多元回歸分析;按照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析. 假設在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分 析稱為一元線性回歸分析.假設回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性 關系,那么稱為多元線性回歸分析.本章重點引見線性回歸分析. 回歸分析的內容和步驟有: ()確立預測目的和影響要素; ()繪制散點圖; ()求回歸系數,并建 立回歸模型; ()對回歸模型進展檢驗; ()進
33、展估計和預測. 一元回歸分析法是回歸分析法中最根本的方法,也是運用最為廣泛的一種方法.一元回歸分析法技術 簡單,它可以協助 他們了解多元回歸分析法. 一元線性回歸分析的根本模型為: y = a + bx + 為便于模型中參數的估計,他們經常假定模型中的 誤差項 滿足假設干經典假設.在誤差項 滿足假設干經典假設的條件下, 模型中的參數估計方法是普通最小二 乘估計法.在估計出參數的估計值 a 和 b 后,可獲得閱歷回歸方程 y = a + b x 對于獲得的閱歷回歸方程 y = a + b x ,還需進展統計檢驗. 檢驗分為擬合優度檢驗和回歸系數的顯著性 檢驗.擬合優度檢驗主要是運用斷定系數和回歸
34、規范差,檢驗模型對樣本觀測值的擬合程度.回歸系數的 顯著性檢驗有 t 檢驗和 F 檢驗兩種方法. t 檢驗是對各回歸系數的顯著性所進展的檢驗, F 檢驗是對全部 回歸系數進展一次性顯著性檢驗, 其目的是檢驗回歸方程在整體上能否顯著成立. 在一元線性回歸分析中, 由于只存在一個解釋變量,所以上述兩種檢驗是等價的. 假設回歸模型經過了統計檢驗,那么可運用模型進展回歸估計和回歸預測.回歸估計和預測主要是確定 估計值或預測值的置信區間. (二)多元線性回歸分析 假設因變量與多個自變量之間相關,且為線性關系,那么需運用多元線性回歸分析方法來研討其數量上的依 存關系. 在多元回歸模型中, 關于誤差項 多元
35、線性回歸分析法的根本模型為 y = b + b x + b x + + bk xk + . 的假定與一元線性回歸模型的那些假定類似.在誤差項 滿足假設干經典假設的條件下,模型中的參數估計 調查數據分析 方法是普通最小二乘估計法.在估計出參數的估計值 b j ( j = , k ) 后 , 可 獲 得 經 驗 回 歸 方 程 y = b + b x + b x + + bk xk .本章主要引見了多元線性回歸分析中的二元線性回歸分析方法. 二元線性回歸分析法的回歸方程為: y = b + b x + b x .二元線性回歸模型中的參數,同樣運用普通 最小二乘方法進展估計.在獲得了回歸參數的估計值
36、 b,b,b 后,還需對模型進展顯著性檢驗.檢驗分 為擬合優度檢驗和回歸系數的顯著性檢驗.擬合優度檢驗主要是運用斷定系數和回歸規范差,檢驗模型對 樣本觀測值的擬合程度.回歸系數的顯著性檢驗有 t 檢驗和 F 檢驗兩種方法. t 檢驗是對各回歸系數的顯 著性所進展的檢驗, F 檢驗是對全部回歸系數進展一次性顯著性檢驗,其目的是檢驗回歸方程在整體上是 否顯著成立.經過檢驗的模型就可用于回歸估計和回歸預測. 不論是進展一元線性回歸分析,還是多元線性回歸分析,假設模型中的誤差項不能滿足經典假設,存 在異方差或自相關,多重共線性等景象時,那么他們不能直接用普通最小二乘估計法估計模型中的參數,而 是先要對
37、原有模型進展變換,或對數據進展某種處置,然后再用普通最小二乘估計法估計模型中的參數. (三)非線性回歸 在實踐任務中,有時變量之間相關關系并非存在線性關系,而呈諸如拋物線,指數曲線,雙曲線等各 種各樣的非線性關系.這時,假設依然直接用線性回歸方程進展分析,將不能正確反映客觀景象之間的相 互聯絡.因此,需求運用適當方式的曲線回歸方程來描畫它們之間的關系.這種為察看數據擬合曲線回 歸方程所進展的分析,稱為非線性回歸分析. 非線性回歸方程的方式多種多樣,本章主要引見了拋物線,指數曲線,雙曲線,冪函數曲線,對數曲 線和 S 型曲線模型的方式及其參數的估計方法. 非線性回歸分析的普通步驟是: 首先是對所
38、研討的兩個景象進展實際分析,分析兩者之間 能否存在相關關系,以及是什么方式的相關,并結合察看散點圖的分布,確定擬合哪種方式的曲線較為合 適.其次是確定好曲線方式后,列表計算其有關參數,從而確定所擬合的回歸方程方式,并利用有關資 料計算相關系數,以察看所研討的兩個景象之間相互關系的嚴密程度.最后根據所確定的回歸方程進展預 測. 第七章 調查數據的多元統計分析 (一) 聚類分析 聚類分析是一種分類的方法,主要用于識別具有類似性的事物,并根據彼此不同的特性加以聚類 使同一類的事物具有高度的一樣性,而類與類之間卻有著顯著的差別.聚類分析可以對變量進展聚類,即 R 型聚類,也可以對樣本進展聚類,即 Q
39、型聚類. 為了得到比較合理的分類,首先要采用適當的目的來定量地描畫研討對象(樣品或變量)之間的聯絡 的嚴密程度.主要有以下三種()間隔 測度. ()相關測度. ()關聯測度.其中相關測度和間隔 測度 適用于間距測度等級及以上的數據,關聯測度適用于名義測度和順序測度. 間隔 測度包括歐氏間隔 ,絕對值間隔 ,明科夫斯基間隔 ,馬氏間隔 等方法;相關測度主要運用類似系 數; 關聯測度有多種關聯測度系數, 其中得到了廣泛運用的分別是簡單匹配系數, 雅可比系數和果瓦系數. 聚類分析內容非常豐富,有系統聚類,有序樣品聚類法,動態聚類法,模糊聚類法,圖論聚類法.本 調查數據分析 章主要引見常用的系統聚類法
40、.系統聚類法的詳細很多,運用最廣泛的有層次聚類法和迭代聚類法. 層次聚類法包括最短間隔 法,最長間隔 法,平均結合法,重心法,離差平方和法. 聚類分析的步驟是: ()確定待研討問題并選擇變量; ()選擇聚類用的類似性測度方法; ()選擇 聚類的方法; ()確定類別的個數; ()描畫與解釋各個類別; ()評價聚類的有效性與準確性. (二)判別分析 判別分析是一種統計區分和分組技術.它是根據一定數量樣本的一個分組變量和相應的其他多元變量 的知信息,確定分組與其他多元變量之間的數量關系,建立區分函數,對未知分組類型所屬的樣本進展 判別分組.聚類分析和判別分析都是分類的方法,其主要差別在于:在判別分析
41、中,用于推導分類規那么的 樣品的所屬類別必需是事先知的;而在聚類分析中,一切樣品或個體的所屬類別是未知的,而且類別的 個數普通也是未知的,分析的根據就是原始數據. 進展判別分析有一些根本要求和假設條件: ()分組類型在兩種以上,且組間樣本在判別值上差別比 較明顯; ()組內樣本數不得少于兩個,且樣本數量比變量數量起碼多 個; ()所確定的判別變量不能 是其他判別變量的線性組合; ()各組樣本的協方差矩陣相等; ()各判別變量之間具有多元正態分布. 判別分析的根本模型也稱判別函數, 用數學方式表示為 yi = b xi + b xi + + b j x ji . 根據所搜集樣本的數 據,可以計算
42、出一個判別臨界值 yc ,作為斷定某個個體歸屬到哪一個類別的基準. 兩總體情況下判別分析主要有以下幾個步驟: ()確定研討問題; ()確定分析樣本和驗證樣本; () 估計判別函數或后驗概率; ()評價判別模型的效果; ()檢驗模型的顯著性; ()解釋分析的結果; () 檢驗判別效果.多總體判別分析的步驟與兩總體的情況類似,但也有不同之處. (三)主成分分析 主成分分析就是設法將原來的 p 個目的重新組合成一組相互無關的新目的的過程.通常數學上的處置 就是將原來的 p 個目的做線性組合,為了使第一個線性組合 F 可以盡能夠多地反映原目的的信息,通常的 做法就是使 F 的方差到達最大.F 的方差越
43、大,表示其所包含的信息越多.由于 F 在一切線性組合中方 差最大,包含的信息最多,因此 F 稱為第一主成分.假設 F 還不能反映原目的的全部信息,再思索選取 第二主成分 F,使 F 在剩余的線性組合中方差最大,并且與 F 不相關.依次類推,可以求出全部 p 個主 成分,它們的方差是遞減的.在實踐任務中,就是要選取前幾個最大主成分來進展分析,以到達簡化數據 的目的.這樣做就可以使他們抓住問題的主要矛盾,有利于問題的分析和處理. 求解主成分的主要數學工具是特征方程.經過求解觀測變量相關矩陣的特征方程,得到 k 個特征值和 對應的 k 個單位特征向量.把 k 個特征值從大到小的順序陳列,它們分別代表
44、 k 個主成分所解釋的觀測變 量的方差.主成分是觀測變量的線性組合,線性組合的權數即為相應單位的特征向量的元素.主成分的性 質有: ()各主成分的均值都為 ; ()X 的第 i 個主成分 Fi 的系數向量就是第 i 個特征值 i 所對應的正交 化特征向量 ai; ()第 i 個主成分 Fi 的方差為第 i 個特征值 i ,每兩個不一樣主成分間的協方差為 ; () PFi , x j = a ji i 全部主成分的方差之和等于全部原始變量的方差之和; ()主成分 Fi 與 xi 的相關系數為 jj . 各主成分的方差即相應的特征根 i 闡明了該主成分 Fi 的方差在全部方差中的比值, 所以通常定
45、義方差 調查數據分析 i 為第 i 個主成分 Fi 的奉獻率,方差 i 的值越大,闡明主成分 Fi 綜合原始變量 x , x , x p 的才干越強. 主成分分析的根本步驟是: ()將原始數據規范化; ()建立變量的相關系數陣; ()求 R 的特征 根 p 及相應的單位特征向量; ()寫出主成分. (四)因子分析 因子分析是一種數據簡化的技術,即用相對很少量的幾個因子,去表示許多相互有關聯的變量之間的 關系.因子分析的根本思想是,將觀測變量分類,將相關性較高的即聯絡比較嚴密的變量放在同一類中, 每一類的變量實踐上隱含著一個因子; 而不同類的變量之間那么相關性較弱, 即各個因子之間又是不相關的.
46、 因子分析就是要找到這些具有本質意義的少量因子,并用一定的構造或模型,去表達或解釋大量可觀測的 變量. 因子分析模型可以表示為,每個觀測變量由一組因子的線性組合來表示,設有 k 個觀測變量,分別為 X , X , , X k ,其中 Xi 為具有零均值,單位方差的規范化變量.那么因子模型的普通表達方式為: X i = ai F + ai F + + aim Fm + i 因子分析中要確定多個統計量,即因子載荷,因子方差奉獻率公因子方差及特殊方差,因子個數,因 子旋轉, 因子命名,因子得分. 在探測性因子分析中,求解初始因子的主要目的是確定可以解釋測評變量之間相關關系的最少因子個 數.根據所根據
47、的準那么不同,有很多種求因子解的方法,主要可以分為兩類:一類是基于主成分分析模型 的主成分分析法;另一類是基于公因子模型的公因子分析法,包括主軸因子法,最大似然法,最小二乘法 和 a. 第八章 調查數據的預測分析 根本內容概述 (一)預測分析的概述 經濟預測是把預測的實際和方法運用于經濟領域,對經濟景象的未來進展判別和預測.經濟預測 既是科學又是藝術. 預測分析的分類:按經濟預測的空間范圍分為:宏觀經濟預測,中觀經濟預測和微觀經濟預測; 按經濟預測的時間長短不同分為:近期經濟預測,短期經濟預測,中期經濟預測和長期經濟預測;按經 濟預測的方法不同分為:定性經濟預測和定量經濟預測. 預測分析的根本
48、原理:慣性原理:經過研討經濟景象的過去和如今的形狀,找出其變化的規律,向 未來延續,從而預測其未來形狀的原理,稱為慣性原理 ;相關原理.經過深化分析研討預測對象與 相關景象的依存關系和影響程度,提示其變化規律和特征,以此預測經濟景象未來形狀的原理,稱為相 關原理 ;類推原理.經過尋覓并分析與預測對象類似事物的規律,根據知事物的變化規律及特征, 推斷預測對象未來的形狀或特征的原理;概率推斷原理.所謂概率推斷原理就是根據小概率原理做出合 理的推斷的原理. 預測分析的根本程序:確定經濟預測的目的;調查,搜集,整理經濟預測所需資料(歷史資料和 現實資料) ;對資料進展分析,選擇適當的預測方法;建立預測
49、模型;根據經濟預測模型計算預測 調查數據分析 值,并測定預測誤差;評價預測值,得出預測結論. 預測分析的準確度分析:經濟預測誤差及其產生的緣由.經濟預測誤差,是指預測結果與實踐值之 間的偏向.產生經濟預測誤差的緣由主要有:經濟預測資料的限制; 經濟預測對象影響要素的復雜性; 預測方法不適宜.經濟預測誤差的測定.常用的測定目的有:單個預測誤差 et;單個相對誤差 st;平均 絕對誤差 MAE;預測誤差的方差 MSE;預測誤差的規范差 RMSE.經濟預測誤差的利用.根據模擬誤差 ; 最小可以選擇最正確預測方法;根據模擬誤差最小可以選擇預測模型的參數;修正預測值;根據預測誤差繪 制控制圖,用來判別預
50、測模型能否適用. 預測分析的方法及其選擇:預測分析方法的種類:定性預測法;相關回歸分析預測法;時間序列預 測法.預測分析方法的選擇. (二)定性預測分析法 德爾菲預測法:又稱專家判別預測法,它是以匿名方式經過逐輪函詢,征求專家們的預測意見,然后 匯總整理得出預測結論的一種方法.德爾菲預測法的主要過程:預備階段;逐輪咨詢階段;數據處置 階段.德爾菲預測法具有匿名性,反響性,收斂性的特點. 客觀概率預測法:客觀概率預測法是指利用客觀概率對各種預測意見進展集中整理,得出綜合性預測 結論的一種預測方法.常用的客觀概率預測法包括:客觀概率加權平均法和累計概率中位數法.客觀概率 加權平均預測法是以客觀概率
51、為權數,對各種預測意見進展加權平均,綜合求得預測結論的方法.累計概 率中位數法是根據累計概率,確定專家預測意見的中位數,對經濟景象的未來進展點估計和區間估計的方 法. PERT 預測法:PERT 預測法是向具有預測判別才干的銷售人員和管理人員進展調查,獲取每一個被調 查者對銷售量的三個估計值,然后,進展綜合整理計算出銷售量的期望值和規范差,作出點預測或區間預 測. (三)時間序列平滑預測法 時間序列,是將預測對象的歷史資料按時間先后順序陳列而構成的一列數. 時間序列分析預測法的假定前提是:假定預測對象存在著慣性 ,它的開展是依時間序列所反映出 來的變化規律開展變化的,未來同過去一樣,開展變化規
52、律堅持不變;假設預測對象的變化僅與時間有 關.但實踐上包含了一切要素的作用,可以了解為它是把一切影響要素綜合地歸結為一個要素時間. 時間序列的要素分析: 從影響要素發生作用的效果看, 通常可以把時間序列的變動分為四種類型, 即: 長期趨勢,它是指時間序列察看值,即經濟景象,在較長一段時期內繼續存在的變化趨勢;季節變動, 普通是經濟景象以年為周期,隨著季節的更替,每年都反復出現的有規律的周期性變動.廣義的季節變動 還包括以季度,月份甚至更短時間為周期的有規律的變動;循環變動,是指以數年為周期的一種波浪起 伏式的變動;不規那么變動,是指由于隨機要素和突發事件的作用而引起的變動.時間序列數據的構造模
53、 式有乘法方式,加法方式,混合方式. 挪動平均預測法:挪動平均預測法是根據時間序列資料,逐項挪動,依次計算包含一定項數的序時平 均數,以反映長期趨勢的方法. 一次挪動平均預測法:一次挪動平均預測法是在原始時間序列的根底上,計算挪動平均數,根據挪動 平均數序列,進展趨勢分析和預測的方法.一次挪動平均預測法的關鍵是挪動平均的時期長度 n 的選擇. 調查數據分析 簡單挪動平均預測法:根據時間序列中最近 n 期數據計算簡單算術平均數作為下一期預測值的方法. 加權挪動平均法:根據時間序列的最近 n 期數據計算出加權算術平均數作為下一期預測值的方法.利 用加權挪動平均法進展預測時,不僅要選擇好挪動平均的時
54、間段長度 n,而且還要選擇好權數 wi.確定權 數 wi 的普通原那么是:離預測期愈近權數愈大,離預測期愈遠權數愈小.通常取 wi=n-i+,i=,n. 二次挪動平均預測法:二次挪動平均預測法是指在經過一次挪動平均構成的新序列根底上,再做一次 挪動平均,利用挪動平均滯后偏向的規律建立直線趨勢預測模型進展預測的方法.二次挪動平均預測法的 特點:二次挪動平均預測法最適宜對呈直線升降趨勢的經濟景象進展預測;利用最新數據可以及時地 計算出新的系數 at 和 bt,從而能及時改動直線的斜率,調整預測對象的變化趨勢,做出比較準確的預測; 由于預測模型中 at 和 bt 的值并不是長久不變的,因此,它僅僅適
55、宜作短期預測. 一次指數平滑預測法:一次指數平滑法是以預測對象的本期實踐值和本期預測值為基數,分別給兩者 不同的權數,計算出指數平滑值,作為下期預測值的一種方法.一次指數平滑法的特點:指數平滑法所 要存貯的數據到達了最低限制,有時只需兩個數據; 指數平滑值的本質是全部察看值的線性組合,并 且,近期數據給予較大權數,遠期數據給予較小權數,反映了近期數據比遠期數據對未來更重要. 確定平滑系數 的原那么:假設時間序列動搖不大,比較平穩,且呈程度趨勢時, 的值應取小一 些; 假設時間序列具有迅速且明顯的(升降)變動傾向,那么 的值應取大一些;假設時間序列動搖 很大,呈程度趨勢時,為了減弱不規那么動搖的
56、影響, 的值應盡量地取小一些; 不便確定時,可同時取幾個值進展計算,然后比較預測誤差,選取預測誤差最小的 值. 二次指數平滑預測法:在一次指數平滑的根底上,再作二次指數平滑,利用滯后偏向的規律來建立直 線趨勢模型進展預測的方法.二次指數平滑法很注重近期數據,當得到了一個新的實踐數據,就能很快地 計算出直線趨勢方程中 at 和 bt 的值,及時調整趨勢直線的截距和斜率,使得趨勢方程比較接近實踐. (四)時間序列趨勢線模型預測法 常用趨勢線模型有:直線模型, 二次拋物線模型,三次拋物線模型, 雙曲線模型 ,指數曲線模型 , 對數直線模型 ,修正指數曲線模型,龔珀茲曲線模型,邏輯曲線模型. 趨勢線模
57、型的選擇方法:目估法;數量特征法; 殘差平方和最小法. 模型參數的估計方法:最小平方法. 最小平方法也稱最小二乘法,它是以各期觀測值與模型的估 計值之間的離差平方和作為目的函數,尋求并確定使得此目的函數到達最小值時預測模型中各參數值,并 由這些參數建立起較為理想的趨勢線模型的方法;三和法.三和法又稱三段和法,它是把時間序列平均 分成三等段,每段含有 m 個數據,假定每期數據均在所求趨勢線上,分段求和建立方程組,求得模型參數 估計值. 直線模型預測法的運用:預測模型是 y t = a + b t ;數量特征是:一階差分為一常數;用最小平方法估計參數. 二次拋物線模型預測法的運用:預測模型是: y
58、 t = a + b t + c t ;數量特征是:二階差分為 一常數;用最小平方法估計參數. 三次拋物線模型預測法的運用:預測模型 y t = a + b t + c t + d t ;數量特征:三階差分為 一常數;用最小平方法估計參數. 調查數據分析 指數曲線模型與對數直線模型預測法的運用:指數曲線預測模型是: y t = a b ;指數曲線預測 t 模 型 的 數 量 特 征 : 環 比 發 展 速 度 為 一 常 數 ; 對 數 直 線 預 測 模 型 是 : lg y t = lg a + t lg b 或 lg y t = A + B t ;對數直線預測模型的數量特征是:對數的一階
59、差分為一常數;這兩種模型均用最小平方法估計參數. t 修正指數曲線模型預測法的運用:預測模型: y t = k + ab ;數量特征:一階差分的環比為一 常數;用三和法估計參數. 龔珀茲曲線模型預測法的運用:預測模型: y t = ka ;模型的特征:對數的一階差分的環比為一 bt 常數.因此,當經濟變量由開場增長緩慢,隨后增長加快,到達一定程度后,增長率逐漸減慢,最后到達 飽和形狀的過程,可用龔珀茲曲線模型進展預測;參數的估計方法:把龔珀茲模型改寫為對數方式: lg y t = lg k + (lg a )b t , t = , ) ( ,再仿照修正指數曲線用三和法估計參數. 邏輯曲線模型預
60、測法的運用:預測模型: yt = k + ab t ;模型的特征:是其倒數的一階差分的 環比為一常數.它的圖形也是一條 S 形曲線,且對于拐點對稱.因此,當經濟變量由開場增長緩慢,隨后 增長加快,到達一定程度后,增長率逐漸減慢,最后到達飽和形狀的過程,可用邏輯曲線模型來描畫; = k + ab t ,再仿照修正指數曲線用三和法估計參數. 參數的估計方法:把邏輯模型改寫為倒數方式: y t 第九章 調查數據的實際分析 根本內容概述 (一) 調查數據實際分析的根本問題 調查數據的實際分析,是指在統計分析的根底上,借助概念,判別,推理,籠統和綜合等思想方式, 對調查數據的內在聯絡,進展系統的分析,從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畜牧智能養殖大數據分析與決策支持考核試卷
- 紙板生產過程中的廢紙脫墨與利用考核試卷
- 電信企業數字化轉型與互聯網+戰略考核試卷
- 電玩具高級環境適應性測試考核試卷
- 廣播電視傳輸網絡中的頻譜效率提升技術考核試卷
- 畜牧良種繁殖場環境監測與污染控制考核試卷
- 電能表的電能質量改進策略考核試卷
- 環保社會組織參與自然保護考核試卷
- 聚苯并噁唑纖維耐氧化性能考核試卷
- 時尚產業中的品牌創意與品牌差異化考核試卷
- 中醫眼干燥癥試題及答案
- 租電動車電子合同協議
- 紡織服裝產業鏈的韌性及其空間演變研究
- 2025-2030中國公路瀝青行業市場發展趨勢與前景展望戰略研究報告
- 2024年全球及中國互聯網輿情監測系統行業頭部企業市場占有率及排名調研報告
- 2025年人教版五年級(下)期中數學試卷
- 《血小板分離機》課件
- 快遞云倉合同協議
- 2025-2030功能性飼料行業市場發展分析及發展前景與投資機會研究報告
- 國開2024年秋中國建筑史(本)終考任務答案
- 中華人民共和國農村集體經濟組織法
評論
0/150
提交評論