




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、現代統計方法及案例分析現代統計方法及案例分析 基于數據發掘的數據預備基于數據發掘的數據預備報告內容及目的 讓大家了解數據發掘的概念,認識海量數據分析時所遇到的問題,在此根底上,引見原始大型數據庫的根本表述和特征,了解數據預備的不同技術,比較去除喪失值的不同方法,構造時間相關數據的一致表述方法,實現一些數據預處置技術。其目的是讓大家從中領悟現代統計方法的根本思想。現代統計方法及案例分析現代統計方法及案例分析 一、數據發掘的定義 二、數據發掘與知識發現 三、海量數據分析中遇到的問題 四、數據預備 1、數據選擇 2、數據預處置 3、數據變換 What are these numbers trying
2、 to Tell me?nMatrix Codesn:,n 舅舅:不要吃酒,吃酒誤事,n,n 吃了二兩酒,不是動怒,就是動武,n,.。n 吃酒要被酒殺死,一點酒也不要吃。What Are These Numbers Trying to Tell Us?What Are These Numbers Trying to Tell Us?n7 2 n2x3 n40 6 n二四六八 n0000 n 1 1 = 1 n10002 =100100100 n7/8 n不三不四 n接二連三 n陸續不斷 n無獨有偶 n掛萬漏一 n一成不變 n千方百計 n七上八下一、數據發掘的技術定義與商業定義n什么是數據發掘(
3、Data Mining)?n 關于定義取決于定義者的觀念和背景,各人的說法不一. Friedman, J. H.在技術報告Data Mining and Statistics: Whats The Connection? 中總結出了多家關于數據發掘的定義(也有對知識發現而言的):nFayyad提出數據發掘是一個確定數據中有效的、新穎的、潛在有用的,以及最終可了解的方式的非平凡過程. nZekulin的說法是數據發掘是一個從大型數據庫中提取以前未知的、可了解的、可執行的信息,并用它來進展關鍵的商業決策的過程. nFerruzza給出數據發掘是用在知識發現過程,來辯識存在于數據中的未知關系和方式的
4、一些方法.nJonn提到數據發掘是發現數據中有益方式的過程. nParsaye定義數據發掘是我們為那些未知的信息方式而研討大型數據集的一個決策支持過程.n這些表達方式雖然不同,但從各自的角度描畫出了對數據發掘的了解.這里我們主要從技術和商業的角度給出數據發掘的定義.1 1、 數據發掘的技術定義數據發掘的技術定義n從技術角度,數據發掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程.n它是涉及機器學習、方式識別、統計學、人工智能、數據庫管理及數據可視化等學科的邊緣學科. 這個定義包括好幾層含義:
5、數據源必需是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可了解、可運用;這些知識是相對的,是有特定前提和約束條件的,在特定領域中具有實踐運用價值. 什么是知識呢什么是知識呢? ?從廣義上了解,數據、信息是知識的表現方從廣義上了解,數據、信息是知識的表現方式,但是人們更把概念、規那么、方式、式,但是人們更把概念、規那么、方式、規律和約束等看作知識規律和約束等看作知識. .人們把數據看作是構成知識的源泉,好似從人們把數據看作是構成知識的源泉,好似從礦石中采礦或淘金一樣礦石中采礦或淘金一樣. .2 2、數據發掘的商業定義、數據發掘的商業定義 從商業運用角度看,數據發掘是一
6、種新的商業信息處置技術。 數據發掘也可以描畫為:按企業既定業務目的,對大量的企業數據進展探求和分析,提示隱藏的、未知的或驗證知的規律性,且進一步將其模型化的數據處置方法. 二、數據發掘與知識發現DM & KDD 1、 知識發現(Knowledge Discovery in Database)過程 知識發現過程可以粗略的了解為三部曲:數據預備(data preparation)數據發掘(data mining)結果的解釋評價(interpretation and evaluation) 知識發現過程表示圖n n數據預備又可分為三個子步驟:數據選取、數據預處置和數據變換.n數據發掘階段主要
7、是確定開采的義務,如數據總結、分類、聚類、關聯規那么發現或序列方式發現等. n結果解釋和評價主要是數據發掘階段發現出的方式,經過用戶和機器的評價,能夠存在冗余或無關的方式,這時需求將其剔除。假設有的方式不滿足用戶要求,需求將整個發現過程退回到發現階段之前。2 2、數據發掘的位置、數據發掘的位置 KDD是一種知識發現的一連串程序,數據發掘只是KDD的一個重要程序 . 數據發掘主要是利用某些特定的知識發現算法,在一定的運算效率的限制內,從數據中發現有關的知識,即隱藏的方式. 數據發掘是KDD中最重要的一步,在KDD的全過程中起到了至關重要的作用. 因此,人們往往不加區別地運用數據發掘和KDD.親愛
8、的齊: 我們的感情,在組織的親切關懷下、在領導的過問下, 一年來正沿著安康的道路蓬勃發展。這主要表現在: 一我們共通訊121封,平均3.01天一封。 其中他給我的信51封,占42.1%我給他的信70封, 占57.9%。每封信平均1502字,最長的達5215字, 最短的也有624字。 我們不能這樣簡單的了解統計三、海量數據分析中遇到的問題三、海量數據分析中遇到的問題 二 約會共98次,平均3.7天一次。 其中他主動約我38次,占38.7%我主動約他60次, 占61.3%。每次約會平均3.8小時,最長達6.4小時, 最短的也有1.6小時。 三 我到他家探望他父母38次,平均每9.4天一次, 他到我
9、家探望我父母36次,平均10天一次。 以上充分証明一年來的交往我們已構成了戀愛的共識, 我們愛情的主流是相互了解、相互關心、相互幫助, 是平等互利的。 當然,任何事物都是一分為二的, 缺點的存在是不可防止的。我們二人雖然都是積極的, 但從以上的數據看,發展還不太平衡, 積極性還存在一定的差距,這是前進中的缺點。 置信在新的一年里,我們一定會發揚成績、抑制缺點、 攜手前進,開創我們愛情的新局面。 因此,我提出三點意見供他參考: 一要圍繞一個愛字, 二要狠抓一個親字, 三要落實一個合字。 讓我們弘揚團結拼搏的精神,共同振興我們的愛情, 爭取達到一個新高度,登上一個新臺階。 本著我們的婚事我們辦,辦
10、好婚事為我們的精神, 共創輝煌! 他的小惠 Given 7 2 5 8 11 1 6What is the mean?What is the median?What is the first quartile?What is the third quartile?Introductory Statistics7143. 5740761118527xMean Put in order 1 2 5 6 7 8 11 Q1 Median Q3 Given x1, x2, x3, , xnWhat is the mean?What is the median?What is the first qua
11、rtile?What is the third quartile?nxnx.xxxn21Mean Put in order x(1) x(2) x( ) x(n-1) x(n) Median2n Given x1, x2, x3, , xnwhere n=300,000,000.What is the mean?What is the median?What is the first quartile?What is the third quartile?四、數據預備四、數據預備一 數據選擇二 數據預處置三 數據變換1、原始數據的表述數據樣本是數據發掘過程的根本組成部分一數據選擇n每個樣本都用
12、幾個特征來描畫,每個特征有不同類型的值。n常見的類型有:數值型和分類型。n數值型包括實型變量和整型變量n注:具有數值型值的特征有兩個重要的屬性:其值有順序關系和間隔關系。n留意:市場調查資料 n分類型變量的兩個值可以相等或不等。n一個有兩個值的分類型變量原那么上可以轉化成一個二進制的數值型變量,這種數值型變量有兩個值:0或1;而有N值的分類型變量原那么上可以轉化成一個二進制的數值型變量,這種數值型變量有N個值。 例如:假設變量“季節有4個值:春、夏、秋、冬。 特征值 編碼 春 1000 夏 0100 秋 0010 冬 0001定量型共有四種 1標稱數據(nominal data). 表示類別或
13、屬性的數值數據,如表示性別的數字值.表示性別的數字值(1或2)就是標稱數據值.標稱數據的一個重要特性是它沒有相關重要性.如,即使男性=1,女性=2,也不意味著女性的值是男性的2倍或更高.對于建模來說,只需兩個值的標稱變量應編碼為0和1. 2、數據分類 2序數數據(ordinal data) 序數數據是表示有相對重要性的類別的數值數據,可用于給強度、重要性分等級.例如,用1-5表示用戶對某產品的質量評價,分別表示很差、較差、中等、較好、很好.n3間隔數據(interval data).n 間隔數據是有相對重要性,沒有0點的數值數據.對它而言,加、減是有意義的操作.例如,可以用更詳細的數字來分析產
14、質量量的好壞,可以用0-100之間的數字詳細分析產品之間的差距.n4延續數據(continuous data)n 延續數據是開發預測模型時最常用的數據,適用于一切根本的算術運算,包括加、減、乘、除.大多數業務數據如銷售額、余款、差額等都是延續數據. 另一種數據分類維度是基于數據與時間有關的行為特性.我們把那些不隨時間的變化而變化的數據稱為靜態數據.而另一部分隨時間變化而變化的屬性值,我們稱之為動態數據或時間數據.在大多數的數據發掘算法中都運用的靜態數據,假設要運用動態數據,那么需求進展特殊的思索和預處置. 這方面的內容將在后面引見.二數據預處置1、噪聲數據的處置 噪聲(noise)是一個被測變
15、量中的隨機誤差或偏向.下面我們將要討論給定一個數值型屬性,要如何平滑數據去除噪聲的方法. 1數據的平整 一個數值型的特征y能夠包括許多不同的值,這些數據之間的小小差別也許并不重要,但是卻有能夠影響到發掘方法的性能甚至最終結果.實踐上我們也可以把這些數據之間的差別看成是同一數值的隨機變差,因此有時對這些數據進展平整處置還是很重要的. 有些情況下的平整算法比較復雜.減少不同的數值數目意味著同時減少了數據空間的維度,這對數據發掘的方法非常有利.這樣的平整方法可用于將延續型特征分解成一系列離散二元“真假值的特征. 2Bin方法. Bin方法也就是分箱方法,是經過利用相應被平滑數據點的“鄰居(即周圍的值
16、),對一組排序數據進展平滑.排序成的這些數據被分配到一些“桶或箱中.由于Bin方法調查的是相鄰的值,因此它進展部分平滑.下面給出了一些Bin的方法技術 3聚類方法 經過聚類分析可以檢測到異常數據,也就是孤立點.聚類將類似或相臨近的數據聚合到一同構成了各個聚類集合.直觀地看,落在聚類集合之外的值就被以為是孤立點.孤立點之值作為噪聲處置,將其刪除,試用“聚類中心值替代. 4回歸分析法 可以經過回歸關系,根據大量統計數據,找出變量之間在數量變化方面的統計規律,從而消除變量之間的隨機關系,以到達擬合函數對數據平滑的目的.例如可以借助線性回歸(linear regression),擬合一個變量與其他多個
17、變量之間的關系,這樣就可以用這一關系以一組變量值來協助預測另一個變量.經過回歸分析可以消除隨機要素,除去噪聲.2、異常的分析例如:數據集為:S=S1,S2,S3,S4,S5,S6,S7 =(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2) 歐氏間隔 d=(X1-X2)2+(Y1-Y2)21/2 取閾值間隔為 d=3 根據所用程序的結果和所給的閾值, 可選擇S3和S5作為異常點。3 3、缺失數據、缺失數據三數據變換 1、 規范化 一些數據發掘方法,需求對數據進展規范化以獲得最正確的效果。 1小數縮放 小數縮放挪動小數點,但是要依然堅持原始數據的特征。典型的縮放是堅
18、持數值在-1和1范圍內。可以用格式描畫kiiXX10/n 2最小-最大規范化n n 最小-最大規范化的格式:n n n 注:這種轉換能夠會導致規范化值無認識的集中。)min()max()min(iiiiiXXXXX3規范差規范化規范差規范化的格式是 其中: 是均值; 是規范差SXXXiiXS 2、高維度問題大多數數據發掘問題的出現是由于有大量的樣本具有不同類型的特征。此外,這些樣本往往是高維度的,這就意味著它們有相當大數目的可丈量特征。大型數據集中這種高維景象會產生“高維禍根維數災,這種景象可以用高維空間幾何學來解釋,這是數據發掘問題的典型。n 留意:數據集的大小隨維數留意:數據集的大小隨維數呈指數增長,這個數據集在一呈指數增長,這個數據集在一個個n維空間中生成數據點的一樣維空間中生成數據點的一樣密度密度n 例如:例如:n個數據點的一維樣個數據點的一維樣本,其密度令人稱心的,那么,本,其密度令人稱心的,那么,要在要在k維空間中獲得同樣的密度,維空間中獲得同樣的密度,需求需求nk 個數據點。個數據點。n 留意:幾乎每一個點都是異留意:幾乎每一個點都是異常點常點 高維空間的物體比低維空間的物體擁有更大高維空間的物體比低維空間的物體擁有更大的面積。的面積。 3、差值和比率 設數值型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川雅安中學2025屆高三下學期期末學習能力診斷數學試題含解析
- 內蒙巴彥淖爾市2025年高三畢業班3月教學質量檢查語文試題含解析
- 山東省日照市五蓮二中學2025屆初三化學試題下學期期末考試試題含解析
- 武夷山職業學院《建筑與裝飾工程計量與計價課程設計》2023-2024學年第二學期期末試卷
- 山東省濟南市歷城區2025屆初三4月模擬(二模)考試生物試題理試題含解析
- 遼寧中醫藥大學《藥學綜合實驗》2023-2024學年第二學期期末試卷
- 六盤水幼兒師范高等專科學校《日語文學》2023-2024學年第二學期期末試卷
- 山西林業職業技術學院《遙感原理與方法》2023-2024學年第一學期期末試卷
- 二零二五房屋及土地租賃協議
- 智能駕駛之路
- 創新創業教育課程體系建設方案
- 期中 (試題) -2024-2025學年人教精通版(2024)英語三年級上冊
- 鐵路客車車輛電氣系統維護考核試卷
- DB34∕T 4235-2022 濃香窖泥檢測操作規程
- 統編版高中語文必修下:辨識媒介信息
- 2024年東南亞紙巾商銷(AFH)市場深度研究及預測報告
- 服務質量保障措施及進度保障措施
- 七層垂直循環式立體車庫
- 中國子宮內膜增生管理指南(2022)解讀
- 電力設備保修承諾書范本
- 酸棗仁湯的劑型研究
評論
0/150
提交評論