




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
專題08成對數據的統計分析十種考法解題知識必備 1壓軸題型講練 1類型一、變量間的相關關系…………4類型二、相關系數的計算……………6類型三、相關系數與其他知識綜合 7類型四、由散點圖畫求近似回歸方程 12類型五、殘差的計算 14類型六、一元線性回歸模型 15類型七、非線性回歸 28類型八、列聯表與獨立性檢驗 22類型九、誤差分析 25類型十、與其他章節的融合 27壓軸能力測評(10題) 311、變量之間的相關關系當自變量取值一定時,因變量的取值帶有一定的隨機性,則這兩個變量之間的關系叫相關關系.由于相關關系的不確定性,在尋找變量之間相關關系的過程中,統計發揮著非常重要的作用.我們可以通過收集大量的數據,在對數據進行統計分析的基礎上,發現其中的規律,對它們的關系作出判斷.注:相關關系與函數關系是不同的,相關關系是一種非確定的關系,函數關系是一種確定的關系,而且函數關系是一種因果關系,但相關關系不一定是因果關系,也可能是伴隨關系.2、散點圖將樣本中的個數據點描在平面直角坐標系中,所得圖形叫做散點圖.根據散點圖中點的分布可以直觀地判斷兩個變量之間的關系.(1)如果散點圖中的點散布在從左下角到右上角的區域內,對于兩個變量的這種相關關系,我們將它稱為正相關,如圖(1)所示;(2)如果散點圖中的點散布在從左上角到右下角的區域內,對于兩個變量的這種相關關系,我們將它稱為負相關,如圖(2)所示.3、相關系數若相應于變量的取值,變量的觀測值為,則變量與的相關系數,通常用來衡量與之間的線性關系的強弱,的范圍為.(1)當時,表示兩個變量正相關;當時,表示兩個變量負相關.(2)越接近,表示兩個變量的線性相關性越強;越接近,表示兩個變量間幾乎不存在線性相關關系.當時,所有數據點都在一條直線上.(3)通常當時,認為兩個變量具有很強的線性相關關系.4、線性回歸線性回歸是研究不具備確定的函數關系的兩個變量之間的關系(相關關系)的方法.對于一組具有線性相關關系的數據(x1,y1),(x2,y2),…,(xn,yn),其回歸方程的求法為其中,,,(,)稱為樣本點的中心.5、殘差分析對于預報變量,通過觀測得到的數據稱為觀測值,通過回歸方程得到的稱為預測值,觀測值減去預測值等于殘差,稱為相應于點的殘差,即有.殘差是隨機誤差的估計結果,通過對殘差的分析可以判斷模型刻畫數據的效果以及判斷原始數據中是否存在可疑數據等,這方面工作稱為殘差分析.(1)殘差圖通過殘差分析,殘差點比較均勻地落在水平的帶狀區域中,說明選用的模型比較合適,其中這樣的帶狀區域的寬度越窄,說明模型擬合精確度越高;反之,不合適.(2)通過殘差平方和分析,如果殘差平方和越小,則說明選用的模型的擬合效果越好;反之,不合適.(3)相關指數用相關指數來刻畫回歸的效果,其計算公式是:.越接近于,說明殘差的平方和越小,也表示回歸的效果越好.6.非線性回歸模型要先根據散點圖選擇合適的函數類型,設出回歸方程,通過換元將陌生的非線性回歸方程化歸轉化為線性回歸方程.建立非線性回歸模型的基本步驟:(1)確定研究對象,明確哪個是解釋變量,哪個是預報變量;(2)畫出確定好的解釋變量和預報變量的散點圖,觀察它們之間的關系(是否存在非線性關系);(3)由經驗確定非線性回歸方程的類型(如我們觀察到數據呈非線性關系,一般選用反比例函數、二次函數、指數函數、對數函數、冪函數模型等);(4)通過換元,將非線性回歸方程模型轉化為線性回歸方程模型;(5)按照公式計算線性回歸方程中的參數(如最小二乘法),得到線性回歸方程;(6)消去新元,得到非線性回歸方程;(7)得出結果后分析殘差圖是否有異常.若存在異常,則檢查數據是否有誤,或模型是否合適等.7、分類變量和列聯表(1)分類變量:變量的不同“值”表示個體所屬的不同類別,像這樣的變量稱為分類變量.(2)列聯表:①定義:列出的兩個分類變量的頻數表稱為列聯表.②2×2列聯表.一般地,假設有兩個分類變量X和Y,它們的取值分別為{,}和{,},其樣本頻數列聯表(稱為2×2列聯表)為總計總計從列表中,依據與的值可直觀得出結論:兩個變量是否有關系.8、獨立性檢驗計算隨機變量利用的取值推斷分類變量X和Y是否獨立的方法稱為χ2獨立性檢驗.0.100.050.0100.0050.0012.7063.8416.6357.87910.828類型一、變量間的相關關系例.(1)已知5個成對數據的散點圖如下,若去掉點,則下列說法正確的是()A.變量x與變量y呈正相關 B.變量x與變量y的相關性變強C.殘差平方和變大 D.樣本相關系數r變大【答案】B【解析】由散點圖可知,去掉點后,與的線性相關加強,且為負相關,所以B正確,A錯誤;由于與的線性相關加強,所以殘差平方和變小,所以C錯誤,由于與的線性相關加強,且為負相關,所以相關系數的絕對值變大,而相關系數為負的,所以樣本相關系數r變小,所以D錯誤.故選:B.(2)已知變量與的回歸直線方程為,變量與負相關,則()A.與負相關,與負相關 B.與正相關,與正相關C.與負相關,與正相關 D.與正相關,與負相關【答案】D【解析】根據回歸方程可知變量與正相關,又變量與負相關,由正相關、負相關的定義可知,與負相關.故選:D【變式訓練1】對變量x,y有觀測數據xi,yii∈N*,得散點圖1;對變量u,v有觀測數據ui,vii∈A.變量x與y呈現正相關,且r1<r2 B.變量xC.變量x與y呈現正相關,且r1>r2 D.變量x【答案】C【解析】由題意可知,變量x,y的散點圖中,y隨x的增大而增大,所以變量x與y呈現正相關;再分別觀察兩個散點圖,圖1比圖2點更加集中,相關性更好,所以線性相關系數r1故選:C【變式訓練2】如圖對兩組數據,和,分別進行回歸分析,得到散點圖如圖,并求得線性回歸方程分別是和,并對變量,進行線性相關檢驗,得到相關系數,對變量,進行線性相關檢驗,得到相關系數,則下列判斷正確的是()A. B. C. D.【答案】D【解析】由散點圖可知,與負相關,與正相關,則,,故A、B錯誤;且圖形中點比更加集中在一條直線附近,則,又,,得.故C錯誤,D正確.故選:D.類型二、相關系數的計算例.一唱片公司欲知唱片費用x(十萬元)與唱片銷售量y(千張)之間的關系,從其所發行的唱片中隨機抽選了10張,得如下的資料:i=110xi=28,i=110xi2=303.4,i=110yi=75A.0.6B.0.5C.0.4 D.0.3【答案】D【解析】因為i=110xi=28,|r|=故選:D.【變式訓練1】部門所屬的10個工業企業生產性固定資產價值與工業增加值數據如下(單位:百萬元):固定資產價值33566789910工業增加值15172528303637424045根據上表數據計算的相關系數為()A.0 B.-0.8973 C.1.0228 D.0.9918【答案】D【解析】由表中數據可得,x=110i=110xii=110故r=i=1故選:D.【變式訓練2】根據統計,某蔬菜基地西紅柿畝產量的增加量(百千克)與某種液體肥料每畝的使用量(千克)之間的對應數據的散點圖如圖所示.
從散點圖可以看出,可用線性回歸方程擬合與的關系,請計算樣本相關系數并判斷它們的相關程度;附:.【答案】答案見解析【解析】由題知:?所以所以?所以?與?程正線性相關,且相關程度很強.類型三、相關系數與其他知識綜合例.某沙漠地區經過治理,生態系統得到很大改善,野生動物數量有所增加.為調查該地區植物覆蓋面積與某種野生動物數量的關系,將其分成面積相近的若干個地塊,從這些地塊中隨機抽取20個作為樣區,調查得到樣本數據xi,yi(i=1,2,?,20),其中xi,和(1)求樣本xi,yi(i=1,2,?,20)的相關系數(精確到0.01(2)已知20個樣區中有8個樣區的這種野生動物數量低于樣本平均數,從20個樣區中隨機抽取2個,記抽到這種野生動物數量低于樣本平均數的樣區的個數為X,求隨機變量X的分布列.附:相關系數r=【答案】(1)r=0.94,相關性越強;(2)答案見解析【解析】(1)樣本(xi,yi)(i=1,2,…r=i=1由于相關系數|r|∈[0.75,1],則相關性很強,故r=0.94∈(2)由題意得:X的可能取值為0,1,2,20個樣區中有8個樣區的這種野生動物數量低于樣本平均數,有12個樣區的這種野生動物數量不低于樣本平均數,所以P(X=0)=CP(X=1)=CP(X=2)=C所以X的分布列為:X012P334814【變式訓練1】臺州是全國三大電動車生產基地之一,擁有完整的產業鏈和突出的設計優勢.某電動車公司為了搶占更多的市場份額,計劃加大廣告投入、該公司近5年的年廣告費(單位:百萬元)和年銷售量(單位:百萬輛)關系如圖所示:令,數據經過初步處理得:444.81040.31.61219.58.06現有①和②兩種方案作為年銷售量y關于年廣告費x的回歸分析模型,其中a,b,m,n均為常數.(1)請從相關系數的角度,分析哪一個模型擬合程度更好?(2)根據(1)的分析選取擬合程度更好的回歸分析模型及表中數據,求出y關于x的回歸方程,并預測年廣告費為6(百萬元)時,產品的年銷售量是多少?(3)該公司生產的電動車毛利潤為每輛200元(不含廣告費、研發經費).該公司在加大廣告投入的同時也加大研發經費的投入,年研發經費為年廣告費的199倍.電動車的年凈利潤受年廣告費和年研發經費影響外還受隨機變量影響,設隨機變量服從正態分布,且滿足.在(2)的條件下,求該公司年凈利潤的最大值大于1000(百萬元)的概率.(年凈利潤=毛利潤×年銷售量-年廣告費-年研發經費-隨機變量).附:①相關系數,回歸直線中公式分別為,;②參考數據:,,,.【答案】(1)模型②的擬合程度更好;(2),當年廣告費為6(百萬元)時,產品的銷售量大概是13(百萬輛);(3)0.3【解析】(1)設模型①和②的相關系數分別為,.由題意可得:,.所以,由相關系數的相關性質可得,模型②的擬合程度更好.(2)因為,又由,,得,所以,即回歸方程為.當時,,因此當年廣告費為6(百萬元)時,產品的銷售量大概是13(百萬輛).(3)凈利潤為,,令,所以.可得在上為增函數,在上為減函數.所以,由題意得:,即,,即該公司年凈利潤大于1000(百萬元)的概率為0.3.【變式訓練2】某校20名學生的數學成績和知識競賽成績如下表:學生編號12345678910數學成績100999693908885838077知識競賽成績29016022020065709010060270學生編號11121314151617181920數學成績75747270686660503935知識競賽成績4535405025302015105計算可得數學成績的平均值是,知識競賽成績的平均值是,并且,,.(1)求這組學生的數學成績和知識競賽成績的樣本相關系數(精確到).(2)設,變量和變量的一組樣本數據為,其中兩兩不相同,兩兩不相同.記在中的排名是第位,在中的排名是第位,.定義變量和變量的“斯皮爾曼相關系數”(記為)為變量的排名和變量的排名的樣本相關系數.(i)記,.證明:.(ii)用(i)的公式求這組學生的數學成績和知識競賽成績的“斯皮爾曼相關系數”(精確到).(3)比較(1)和(2)(ii)的計算結果,簡述“斯皮爾曼相關系數”在分析線性相關性時的優勢.注:參考公式與參考數據.;;.【答案】(1);(2)(i)證明見解析;(3)答案見解析【解析】(1)由題意,這組學生數學成績和知識競賽成績的樣本相關系數為(2)(i)證明:因為和都是1,2,,的一個排列,所以,,從而和的平均數都是.因此,,同理可得,由于,所以;(ii)由題目數據,可寫出與的值如下:同學編號12345678910數學成績排名12345678910知識競賽成績排學編號11121314151617181920數學成績排名11121314151617181920知識競賽成績排名12141311161517181920所以,并且.因此這組學生的數學成績和知識競賽成績的斯皮爾曼相關系數是(3)答案①:斯皮爾曼相關系數對于異常值不太敏感,如果數據中有明顯的異常值,那么用斯皮爾曼相關系數比用樣本相關系數更能刻畫某種線性關系;答案②:斯皮爾曼相關系數刻畫的是樣本數據排名的樣本相關系數,與具體的數值無關,只與排名有關.如果一組數據有異常值,但排名依然符合一定的線性關系,則可以采用斯皮爾曼相關系數刻畫線性關系.類型四、由散點圖畫求近似回歸方程例.如圖是兩個變量的散點圖,y關于x的回歸方程可能是()A.y=3lnx+2 B.y=3ex-1【答案】C【解析】由散點圖可知,y與x負相關,故排除A,B,對于D:y=-110x+2,點(x,y)偏離y=-110x+2較大,而點(x,y)近似在曲線故選:C.【變式訓練1】變量x,y的散點圖如圖所示,根據散點圖,下面四個回歸方程類型中最適宜作為y和x的回歸方程類型的是()A.y=-b2x+a B.y=bx2+a【答案】B【解析】由散點圖可以看出y隨著x的增長速度越來越快,結合一次函數,二次函數,反比例函數及冪函數的性質可知,最適宜作為y和x的回歸方程類型的是:y=b故選:B.【變式訓練2】某校一個課外學習小組為研究某作物種子的發芽率y和溫度x(單位:°C)的關系,在20個不同的溫度條件下進行種子發芽實驗,由實驗數據得到下面的散點圖:由此散點圖,在10°C至40°C之間,下面四個回歸方程類型中最適宜作為發芽率y和溫度x的回歸方程類型的是()A. B.C. D.【答案】D【解析】由散點圖分布可知,散點圖分布在一個對數函數的圖象附近,因此,最適合作為發芽率和溫度的回歸方程類型的是.故選:D.類型五、殘差的計算例.(1)對具有線性相關關系的變量x,y有一組觀測數據,其經驗回歸方程為,且,,則相應于點的殘差為______.【答案】【解析】將,代入可得,所以,故當時,,所以殘差為,故答案為:【變式訓練1】根據一組樣本數據x1,y1,x2,y2,?,xn,yA.54.55 B.2.45 C.3.45 D.111.55【答案】B【解析】把x=165代入y=0.85x-85.7所以在樣本點165,57處的殘差e=y故選:B.類型六、一元線性回歸模型例.(1)將某保護區分為面積大小相近的多個區域,用簡單隨機抽樣的方法抽取其中6個區域,統計這些區域內的某種水源指標和某植物分布的數量,得到樣本,且其相關系數,記關于的線性回歸方程為.經計算可知:,則.參考公式:.【答案】/1.875【解析】因為,所以,由,解得,所以.故答案為:(2)白術是常見的大宗藥材,最早記載于《神龍本草經》,又叫于術、片術,具有補脾健胃,燥濕利水等功效.今年白術從1月份到5月份每公斤的平均價格(單位:元)的數據如下表:月份12345每公斤平均價格77109137168199根據上表可得回歸方程,則實數的值為()A.46 B.47 C.48 D.49【答案】C【解析】依題意,,又回歸直線方程必過樣本中心點,所以,解得.故選:C(3)近年來我國新能源汽車行業蓬勃發展,新能源汽車不僅對環境保護具有重大的意義,而且還能夠減少對不可再生資源的開發,是全球汽車發展的重要方向.“保護環境,人人有責”,在政府和有關企業的努力下,某地區近幾年新能源汽車的購買情況如下表所示:年份x20192020202120222023新能源汽車購買數量>(萬輛)0.400.701.101.501.80①計算與的相關系數(保留三位小數);②求關于的線性回歸方程,并預測該地區2025年新能源汽車購買數量.參考公式,,.參考數值:,.【答案】①;②萬輛【解析】①,,所以;②由(1)知,,,所以關于的線性回歸方程是,當時,(萬輛),該地區年新能源汽車購買數量約為萬輛.【變式訓練1】在研究變量與之間的關系時,進行實驗后得到了一組樣本數據利用此樣本數據求得的經驗回歸方程為,現發現數據和誤差較大,剔除這兩對數據后,求得的經驗回歸方程為,且則()A.8 B.12 C.16 D.20【答案】C【解析】設沒剔除兩對數據前的平均數分別為,,剔除兩對數據后的平均數分別為,,因為,所以,,則,所以,又因為,所以,解得.故選:C.【變式訓練2】(多選)為了探討學生的物理成績與數學成績之間的關系,從某批學生中隨機抽取10名學生的成績,并已計算出,物理成績關于數學成績的線性回歸方程為,下列說法正確的有()A.B.相關系數C.樣本數據的殘差為D.當某學生數學成績為100時,物理成績一定為92.5【答案】ABC【解析】對于選項A:因為線性回歸方程必過樣本中心點,由題意可得:,故A正確;對于選項B:因為,即線性回歸方程為的圖象是上升的,可知與滿足正相關,所以相關系數,故B正確;對于選項C:令,可得,所以樣本數據的殘差為,故C正確;對于選項D:令,可得,但回歸方程只能用于預測結果,并不一定與實際結果完全相等,所以預測物理成績為92.5,故D錯誤;故選:ABC.【變式訓練3】由數據可得關于的線性回歸方程為,若,則______.【答案】50【解析】依題意,設樣本數據的中心點為,則,由關于的線性回歸方程為,得,而,所以.故答案為:50類型七、非線性回歸例.(1)云計算是信息技術發展的集中體現,近年來,我國云計算市場規模持續增長.已知某科技公司2018年至2022年云計算市場規模數據,且市場規模與年份代碼的關系可以用模型(其中為自然對數的底數)擬合,設,得到數據統計表如下:年份2018年2019年2020年2021年2022年年份代碼1234522.433.64由上表可得經驗回歸方程,則2026年該科技公司云計算市場規模的估計值為()(參考公式:)A. B. C. D.【答案】C【解析】因為所以即經驗回歸方程當時,所以即2026年該科技公司云計算市場規模y的估計值為.故選:C.(2)已知隨機變量,的五組觀測數據如下表:12345由表中數據通過模型得到經驗回歸方程為,則實數值為______.【答案】【解析】令,則,因為,所以,所以,解得.故答案為:.(3)(多選)在對具有相關關系的兩個變量進行回歸分析時,若兩個變量不呈線性相關關系,可以建立含兩個待定參數的非線性模型,并引入中間變量將其轉化為線性關系,再利用最小二乘法進行線性回歸分析.下列選項為四個同學根據自己所得數據的散點圖建立的非線性模型,且散點圖的樣本點均位于第一象限,則其中可以根據上述方法進行回歸分析的模型有()A. B.C. D.【答案】ABC【解析】對于選項A:,令則;對于選項B:令;對于選項C:即令則;對于選項D:令則此時斜率為,與最小二乘法不符.故選:ABC【變式訓練1】已知變量和之間的關系可以用模型來擬合.設,若根據樣本數據計算可得,且與的線性回歸方程為,則.(參考數據:)【答案】0.3【解析】由題意知,解得,所以,由,得,所以,則.故答案為:0.3【變式訓練2】紅鈴蟲(Pectinophoragossypiella)是棉花的主要害蟲之一,其產卵數與溫度有關.現收集到一只紅鈴蟲的產卵數(個)和溫度()的8組觀測數據,制成圖1所示的散點圖.現用兩種模型①,②分別進行擬合,由此得到相應的回歸方程并進行殘差分析,進一步得到圖2所示的殘差圖.根據收集到的數據,計算得到如下值:252.964616842268850.470308表中;;;(1)根據殘差圖,比較模型①、②的擬合效果,哪種模型比較合適?(2)根據(1)中所選擇的模型,求出關于的回歸方程.附:對于一組數據,其回歸直線的斜率和截距的最小二乘估計分別為,,【答案】(1)答案見解析;(2)【解析】(1)模型①更合適.模型①殘差點比較均勻地落在水平的帶狀區域中,且帶狀區域的寬度比模型②帶狀寬度窄,所以模型①的擬合精度更高,回歸方程的預報精度相應就會越高,故選模型①比較合適.(2)令與溫度x可以用線性回歸方程來擬合,則.,則關于的線性回歸方程為,即,產卵數y關于溫度x的回歸方程為.類型八、列聯表與獨立性檢驗例.交通強國,鐵路先行,每年我國鐵路部門都會根據運輸需求進行鐵路調圖,一鐵路線l上有自東向西依次編號為1,2,…,21的21個車站.(1)為調查乘客對調圖的滿意度,在編號為10和11兩個站點多次乘坐列車P的旅客中,隨機抽取100名旅客,得出數據(不完整)如下表所示:車站編號滿意不滿意合計102840113合計85完善表格數據并計算分析:依據小概率值的獨立性檢驗,在這兩個車站中,能否認為旅客滿意程度與車站編號有關聯?附:,其中.0.10.010.0012.7066.63510.828【答案】(1)答案見解析;(2)答案見解析【解析】補充列聯表如下:車站編號滿意不滿意合計102812401157360合計8515100零假設為:旅客滿意程度與車站編號無關,則,所以根據小概率值的獨立性檢驗,推斷不成立,即認為旅客滿意程度與車站編號有關聯.【變式訓練1】某兒童醫院用甲、乙兩種療法治療小兒消化不良.采用有放回簡單隨機抽樣的方法對治療情況進行檢查,得到兩種療法治療數據的列聯表:療法療效合計未治愈治愈甲155267乙66369合計21115136經計算得到,根據小概率值的獨立性檢驗(已知獨立性檢驗中),則可以認為()A.兩種療法的效果存在差異B.兩種療法的效果存在差異,這種判斷犯錯誤的概率不超過0.005C.兩種療法的效果沒有差異D.兩種療法的效果沒有差異,這種判斷犯錯誤的概率不超過0.005【答案】C【解析】零假設為:療法與療效獨立,即兩種療法效果沒有差異.根據列聯表中的數據,,根據小概率值的獨立性檢驗,沒有充分證據推斷不成立,因此可以認為成立,即認為兩種療法效果沒有差異.故選:C.【變式訓練2】為了考察某種藥物預防疾病的效果,進行動物試驗,得到如下圖所示列聯表:藥物疾病合計未患病患病服用50未服用50合計8020100取顯著性水平,若本次考察結果支持“藥物對疾病預防有顯著效果”,則()的最小值為.(參考公式:;參考值:)【答案】【解析】由題意可知,則,解得或,而,故m的最小值為44.故答案為:44.【變式訓練3】針對2025年第九屆亞冬會在哈爾濱舉辦,校團委對“是否喜歡冰雪運動與學生性別的關系”進行了一次調查,其中被調查的男、女生人數相同,男生中喜歡冰雪運動的人數占男生人數的,女生中喜歡冰雪運動的人數占女生人數的,若依據的獨立性檢驗,認為是否喜歡冰雪運動與學生性別有關,則被調查的學生中男生的人數不可能是()附:.0.10.050.010.0050.0012.7063.8416.6357.87910.828A.48 B.54 C.60 D.66【答案】A【解析】設男生人數為,因為被調查的男、女生人數相同,所以女生人數也為,根據題意列出列聯表:男生女生合計喜歡冰雪運動不喜歡冰雪運動合計則,因為依據的獨立性檢驗,認為是否喜歡冰雪運動與學生性別有關,所以,即,解得,又,所以B、C、D正確,A錯誤.故選:A類型九、誤差分析例.設滿足一元線性回歸模型的兩個變量的對樣本數據為,下列統計量中不能刻畫數據與直線的“整體接近程度”的是()A. B. C. D.【答案】D【解析】統計量和可以刻畫數據點與直線的豎直距離,進而可以刻畫數據與直線的“整體接近程度”,AC選項不符合題意.統計量可以刻畫數據點與直線的距離,也可以刻畫數據與直線的“整體接近程度”,B選項不符合題意.統計量的計算會出現直線兩側的數據點在代數上正負抵消的情況,因此不能刻畫數據與直線的“整體接近程度”,D選項符合題意.故選:D.【變式訓練1】現收集到變量的六組觀測數據為:,用最小二乘法計算得其回歸直線為,相關系數為;經過殘差分析后發現為離群點(對應殘差絕對值過大的點),剔除后,用剩下的五組數據計算得其回歸直線為,相關系數為.則下列結論不正確的是()A. B.C. D.去掉離群點后,殘差平方和變小【答案】B【解析】由數據得:,,則,剔除離群點后:,,則,A.,故正確;B.,故錯誤;C.剔除離群點后,相關程度越大,所以相關系數,故正確;D.剔除離群點后,相關程度越大,所以殘差平方和變小,故正確.故選:B.【變式訓練2】對于變量Y和變量x的成對樣本觀測數據,用一元線性回歸模型得到經驗回歸模型,對應的殘差如下圖所示,模型誤差()A.滿足一元線性回歸模型的所有假設B.不滿足一元線性回歸模型的的假設C.不滿足一元線性回歸模型的假設D.不滿足一元線性回歸模型的和的假設【答案】C【解析】用一元線性回歸模型得到經驗回歸模型,根據對應的殘差圖,殘差的均值可能成立,但明顯殘差的軸上方的數據更分散,不滿足一元線性回歸模型,正確的只有C.故選:C.類型十、與其他章節的融合例.為培養學生的閱讀習慣,某學校規定所有學生每天在校閱讀時長不得少于1小時.若認為每天在校閱讀的時長不少于1小時為達標,達到2小時的學生為“閱讀之星”.假設該校學生每天在校閱讀時長(的單位:小時),達標學生是“閱讀之星”的概率為.(1)從該校學生中隨機選出1人,求達標的概率;(2)為進一步了解該校學生不達標是否與性別有關,隨機調查了90名學生,其中男生占,已知不達標的人數恰是期望值,且不達標的學生中男生占,是否有99%的把握認為不達標與性別有關?附:參考公式:,其中.參考數據:3.8415.0246.63510.8280.0500.0250.0100.001【答案】(1)(2)有99%的把握認為不達標與性別有關.【解析】(1)從該校學生隨機選出1人,記其達標為事件,是“閱讀之星”為事件.則,.因為,所以.又因為達標學生是“閱讀之星”的概率為,所以,得,即從該校學生中隨機選出1人,達標的概率為.(2)依題意,隨機調查的90名學生中,男生人數為40,女生人數為50.設這90名學生中,不達標學生人數為.由(1)知,不達標的概率為,則.所以數學期望,即不達標的人數為18.因為不達標學生中有的是男生,所以不達標的男生人數為3,不達標的女生人數為15.則達標的男生人數為37,達標的女生人數為35,得如下列聯表.男生女生合計達標373572不達標31518合計405090所以.因為,所以有99%的把握認為不達標與性別有關.【變式訓練1】某大型商場的所有飲料自動售賣機在一天中某種飲料的銷售量(單位:瓶)與天氣溫度(單位:)有很強的相關關系,為能及時給飲料自動售賣機添加該種飲料,該商場對天氣溫度和飲料的銷售量進行了數據收集,得到下面的表格:1015202530354041664256204840968192經分析,可以用作為關于的經驗回歸方程.(1)根據表中數據,求關于的經驗回歸方程(結果保留兩位小數);(2)若飲料自動售賣機在一天中不需添加飲料的記1分,需添加飲料的記2分,每臺飲料自動售賣機在一天中需添加飲料的概率均為,在商場的所有飲料自動售賣機中隨機抽取3臺,記總得分為隨機變量,求的分布列與數學期望.參考公式及數據:對于一組數據,經驗回歸方程的斜率和截距的最小二乘估計公式分別為【答案】(1);(2)答案見解析【解析】(1)設,由,可得,因為,,,所以,由表中的數據可得,則,所以,則,可得,所以關于的經驗回歸方程為.(2)由題意,隨機變量的可能取值為,可得,,,,所以變量的分布列為3456P所以,期望為【變式訓練2】“南澳牡蠣”是我國地理標志產品,產量高、肉質肥、營養好,素有“海洋牛奶精品”的美譽.2024年該基地考慮增加人工投入,現有以往的人工投入增量x(人)與年收益增量y(萬元)的數據如下:人工投入增量x(人)234681013年收益增量y(萬元)13223142505658該基地為了預測人工投入增量為16人時的年收益增量,建立了y與x的兩個回歸模型:模型①:由最小二乘公式可求得y與x的線性回歸方程:;模型②:由散點圖的樣本點分布,可以認為樣本點集中在曲線:的附近,對人工投入增量x做變換,令,則,且有,,,.(1)(i)根據所給的統計量,求模型②中y關于x的回歸方程(精確到0.1);(ii)根據下列表格中的數據,比較兩種模型的決定系數,并選擇擬合精度更高、更可靠的模型,預測人工投入增量為16人時的年收益增量.回歸模型模型①模型②回歸方程182.479.2(2)根據養殖規模與以往的養殖經驗,產自某南澳牡蠣養殖基地的單個“南澳牡蠣”質量(克)在正常環境下服從正態分布.購買10只該基地的“南澳牡蠣”,會買到質量小于20g的牡蠣的可能性有多大?附:若隨機變量,則,;樣本的最小二乘估計公式為:,,.【答案】(1)(i);(ii)答案見解析(2)【解析】(1)(i)由,有,且,所以模型②中關于的回歸方程為.(ii)由表格中的數據,有,即,模型①的小于模型②,說明回歸模型②刻畫的擬合效果更好.當時,模型②的收益增量的預測值為(萬元),這個結果比模型①的預測精度更高、更可靠.(2)由已知單個“南澳牡蠣”質量,則,由正態分布的對稱性可知,,設購買10只該基地的“南澳牡蠣”,其中質量小于的牡蠣為只,故,所以,所以這10只“南澳牡蠣”中,會買到質量小于的牡蠣的可能性僅為.1.已知變量與的回歸直線方程為,變量與負相關,則(
)A.與負相關,與負相關 B.與正相關,與正相關C.與負相關,與正相關 D.與正相關,與負相關【答案】D【解析】根據回歸方程可知變量與正相關,又變量與負相關,由正相關、負相關的定義可知,與負相關.故選:D2.如圖,為某組數據的散點圖,由最小二乘法計算得到回歸直線的方程為,相關系數為,決定系數為.若經過殘差分析后去掉點P,剩余的點重新計算得到回歸直線的方程為,相關系數為,決定系數為.則下列結論一定正確的是()A. B. C. D.,【答案】C【解析】共8個點且離群點P的橫坐標較小而縱坐標相對過大,去掉離群點后回歸方程的斜率更大,故C正確去掉離群點后相關性更強,擬合效果也更好,且還是正相關,故D錯誤有,,故AB錯誤.故選:C.3.江若已知i=1nxi-x2是i=1nyi-yA.21.2 B.1.22 C.0.92 D【答案】B【解析】r=故選:B.4.對于數據組,如果由線性回歸方程得到的自變量的估計值是,那么將稱為樣本點處的殘差.某商場為了給一種新商品進行合理定價,將該商品按事先擬定的價格進行試銷,得到表所示數據.若銷量(單位:件)與單價(單位:元)之間的線性回歸方程為,且樣本點處的殘差為3,則()單價/元8.2848.68.8銷量件848378mA.65 B.67 C.73 D.75【答案】B【解析】由條件知當時,,代入,解得,于是,又,所以,即,解得.故選:B.5.(多選)下列選項中敘述正確的有()A.在施肥量不過量的情況下,施肥量與糧食產量之間具有正相關關系B.在公式中,變量與之間不具有相關關系C.相關系數時變量間的相關程度弱于時變量間的相關程度D.某小區所有家庭年收入(萬元)與年支出(萬元)具有相關關系,其線性回歸方程為.若,,則.【答案】ACD【解析】對于A,在施肥量不過量的情況下,施肥量越大,糧食產量越高,故兩者之間具有正相關關系,故A正確.對于B,變量與之間是函數關系,不是相關關系,故B錯誤.對于C,因為,故相關系數時變量間的相關程度弱于時變量間的相關程度,故C正確.對于D,因回歸直線過,故,故,故D正確.故選:ACD.6.(多選)已知由樣本數據點集合,求得的回歸直線方程為,且,現發現兩個數據點和誤差較大,去除這兩點后重新求得的回歸直線的斜率為1.2,則()A.變量與具有正相關關系B.去除后的回歸方程為C.重新求得的回歸直線必過點D.去除后相應于樣本點的殘差為-0.05【答案】ACD【解析】對A,因為重新求得的回歸方程的斜率為1.2,故變量與具有正相關關系,故選項正確;對C,將代入回歸直線方程為,解得,則樣本中心為,去掉兩個數據點和后,由于,所以去掉后的,沒有變化,故樣本中心還是,故去除這兩個數據點后的回歸直線過點,故選項C正確;對B,又因為去除后重新求得的回歸直線的斜率為1.2,所以,解得,所以去除后的回歸方程為,故選項不正確;對D,因為,所以,故
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年購房合同補充條款列舉
- 公司合作養殖合同樣本
- 買土地建房合同標準文本
- 二零二五版大會參展須知
- 民間個人借款擔保協議書
- 二零二五版簡單車輛質押合同范例示例
- 郴州人才認定申報工作指南
- 借款反擔保的合同
- 二零二五版房屋征收決定
- 二零二五版自愿內退協議書
- 隱患排查統計分析報告
- 給小學數學教師的建議
- 中國古代文學史二復習資料
- 2024年重慶發展投資有限公司招聘筆試參考題庫含答案解析
- 成熟生產線評價報告
- 足球準確傳球訓練技巧:提高準確傳球能力掌控比賽節奏
- 自救器培訓(2023年煤礦安全生產培訓教師培訓班隨堂課程設計)
- 成人癌性疼痛護理指南解讀
- 供應鏈安全風險評估與管理項目風險評估報告
- 2023年-2024年電子物證專業考試復習題庫(含答案)
- 北師大版數學三年級下冊《分一分》(一)課件
評論
0/150
提交評論