




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、時序數(shù)據(jù)與語音處理時序數(shù)據(jù)時間序列數(shù)據(jù)連續(xù)觀察同一對象在不同時間點上獲得的數(shù)據(jù)樣本集處理目標:對給定的時間序列樣本,找出統(tǒng)計特性和發(fā)展規(guī)律性,推測未來值語音是一類特殊的時序數(shù)據(jù)識別語音對應(yīng)的文本信息是當前人工智能的熱點時序數(shù)據(jù)特性1)趨勢性時間序列在長時間內(nèi)所呈現(xiàn)出來的行為,指受某種根本性因素影響而產(chǎn)生的變動或緩慢的運動2)循環(huán)性指時間序列的變動有規(guī)律地徘徊于趨勢線上下并反復(fù)出現(xiàn)3)季節(jié)性一年內(nèi)隨季節(jié)變換而發(fā)生的有規(guī)律的周期性變化,比如流感季,但更小單位的周期變動也被看成季節(jié)成分,如日交通流量反映了一天內(nèi)“季節(jié)”變化情況4)波動性圍繞前3個要素的隨機性波動,是一種無規(guī)律可循的變動從趨勢性角度,
2、時間序列可劃分為平穩(wěn)序列和非平穩(wěn)序列。觀察時序數(shù)據(jù)最簡單、有效的方法是以時間為橫軸,以序列觀察值為縱軸繪制時間序列圖 (a) 人口增長趨勢 (b)語音數(shù)據(jù)時序數(shù)據(jù)特征的提取(1)(1)基于統(tǒng)計方法的特征提取提取數(shù)據(jù)波形的均值、方差、極值、波段、功率譜、過零率等統(tǒng)計特征,代替原時序數(shù)據(jù)作為特征向量(2)基于模型的特征提取用模型去刻畫時間序列數(shù)據(jù),然后提取模型的系數(shù)作為特征向量時序數(shù)據(jù)特征的提取(2)(3)基于變換的特征提取通過變換使數(shù)據(jù)的特性突顯出來,以便提取主要有時頻變換和線性變換如快速傅里葉變換、小波變換和主成分分析(4)基于分形理論的特征提取分形是指具有無限精細、非常不規(guī)則、無窮自相似的結(jié)
3、構(gòu)在大自然中, 海岸線、雪花、云霧這些不規(guī)則形體都屬于分形, 即部分與整體有自相似性,可提取分維數(shù)作為特征參數(shù)從文件中讀取日期及當日股票收盤價兩列數(shù)據(jù)構(gòu)成時序數(shù)列例8-1:某公司2017年股票價格保存在數(shù)據(jù)集stockPrice.csv,繪制股票收盤價的時序圖,并提取該時序數(shù)據(jù)的常用特征值import pandas as pdimport matplotlib.pyplot as plt plt.rcParamsfont.sans-serif = SimHei #設(shè)置中文字體#設(shè)置usecols,從文件中只讀取指定列df = pd.read_csv(data/stockPrice.csv, i
4、ndex_col = 0, usecols=0,1)print(df.describe()#繪制時序圖,并添加圖元df.plot(title=2017年某公司股票價格變化圖, grid=True)plt.xlabel(時間(天))plt.ylabel(股價 (美元)plt.show() 用DataFrame的describe()方法統(tǒng)計該序列的一些常用特征序號特征量特征值1count249.002mean150.833std14.354min116.61525%142.27650%152.76775%159.868max176.42表8-1 某公司2017年股票收盤價數(shù)據(jù)的特征值用plot()
5、方法繪制折線圖思考與練習1.利用我國人口統(tǒng)計時序數(shù)據(jù)集(population.csv)繪制30年來我國人口增長的趨勢圖,如圖8-1(a)所示。時序數(shù)據(jù)分析方法時序分析模型的類別線性模型非線性模型線性模型用時間序列中前若干時刻的觀察值的線性組合來描述以后某時刻的值線性時序模型,首先考慮序列平穩(wěn)性平穩(wěn)時間序列指均值和方差為常數(shù)的時間序列,其自協(xié)方差函數(shù)與起點無關(guān)可采用自回歸滑動平均模型(ARMA,Auto-Regression Moving Average)處理非平穩(wěn)時間序列可以考慮將其經(jīng)差分后轉(zhuǎn)化為平穩(wěn)時間序列,然后用自回歸積分滑動平均模型處理有些序列成因及其復(fù)雜,則需要采用非線性模型(如嶺核回
6、歸模型和神經(jīng)網(wǎng)絡(luò)模型)時序數(shù)據(jù)分析過程時序數(shù)據(jù)分析過程(1)1. 純隨機性檢驗純隨機序列也被稱為白噪聲序列序列中各項之間沒有任何相關(guān)關(guān)系,數(shù)據(jù)波動完全隨機,自相關(guān)系數(shù)為0數(shù)據(jù)中沒有可提取的信息,無需進一步分析,使用Q(Pierce-Box)或LB(LJung-Box)統(tǒng)計量來進行白噪聲檢驗2. 平穩(wěn)性檢驗在時間序列圖上,序列值將在一個常數(shù)附近隨機波動,沒有明顯的趨勢性或周期性平穩(wěn)序列具有短期相關(guān)性采用單位根(ADF,Augment Dickey-Fuller)檢驗進行定量分析時序數(shù)據(jù)分析過程(2)3. ARIMA建模通過n次差分運算將非平穩(wěn)的時序轉(zhuǎn)換為平穩(wěn)序列,然后獲取ARIMA(n,p,q)
7、模型的參數(shù)p 和q4.ARMA建模計算平穩(wěn)時間序列的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)通過對自相關(guān)圖和偏自相關(guān)圖的分析獲得參數(shù)p 和q的大概范圍根據(jù)AIC信息準則,計算候選參數(shù)空間內(nèi)每個模型的AIC值,最小的AIC值對應(yīng)的p 和q為最佳的階數(shù)。此過程也稱為定階5.預(yù)測使用ARMA或ARIMA模型對時間序列進行預(yù)測,計算預(yù)測值的誤差與置信區(qū)間,觀察有效預(yù)測周期股票預(yù)測實例例8-2:從例8-1股票數(shù)據(jù)中選取78月份股票收盤價,保存到stockClose.csv文件。采用線性方法建模分析數(shù)據(jù),預(yù)測股價,并與實際股價進行比較。1)繪制時間序列圖import matplotlib.pyplot as pltdat
8、a = pd.read_csv(data/stockClose.csv, index_col = 日期,encoding=ANSI)plt.rcParamsfont.sans-serif = SimHei #用來正常顯示中文標簽data.plot()plt.show()圖中股價有明顯的持續(xù)上升趨勢,意味著序列是非平穩(wěn)的。股票預(yù)測實例(1)股票預(yù)測實例(2)2)純隨機性和平穩(wěn)性檢驗繪制股票數(shù)據(jù)的自相關(guān)圖,并輸出純隨機性LB檢驗和ADF檢驗的結(jié)果。from statsmodels.graphics.tsaplots import plot_acfplot_acf(data) #自相關(guān)圖from s
9、tatsmodels.stats.diagnostic import acorr_ljungboxprint(白噪聲-檢驗結(jié)果:, acorr_ljungbox(data股價, lags=1)from statsmodels.tsa.stattools import adfuller as ADFprint(ADF-檢驗結(jié)果:, ADF(data股價) 從圖可以看出,自相關(guān)系數(shù)長期大于零,前4期的相關(guān)系數(shù)在深色的臨近區(qū)之外,而且拖尾,說明序列間具有很強的長期相關(guān)性股票預(yù)測實例(3)白噪聲-檢驗結(jié)果:(array( 36.25689108), array( 1.72947396e-09)ADF-
10、檢驗結(jié)果: (-1.1405685913236308, 0.69862557992011121, 6, 36, 1%: -3.626651907578875, 5%: -2.9459512825788754, 10%: -2.6116707716049383, 139.60845303017535)ADFcValuep值 -1.14065%5%10% 0.6986-3.6267-2.9460-2.6117p值:1.72947396e-09,遠小于0.05的顯著水平,說明此間序列遠不是隨機的白噪聲ADF輸出結(jié)果,p值遠大于0.05顯著水平,該序列為非平穩(wěn)序列股票預(yù)測實例(4)3)差分轉(zhuǎn)換嘗試對原
11、始序列做階差分運算繪制時序圖自相關(guān)圖和偏相關(guān)圖。自相關(guān)圖顯示出明顯的截尾現(xiàn)象,說明數(shù)據(jù)具有正常的短時相關(guān)性。D_data = data.diff().dropna() #對原數(shù)據(jù)進行1階差分,刪除非法值D_data.columns = 股價差分D_data.plot() #時序圖plot_acf(D_data) #自相關(guān)圖from statsmodels.graphics.tsaplots import plot_pacfplot_pacf(D_data) #偏自相關(guān)圖print(差分序列ADF檢驗結(jié)果為:, ADF(D_datau股價差分) #平穩(wěn)性檢測差分序列的時序圖()自相關(guān)圖()偏自相
12、關(guān)圖股票預(yù)測實例(5)差分序列-ADF-檢驗結(jié)果: (-3.5102690762978326, 0.0077272460017382026, 5, 36, 1%: -3.626651907578875, 5%: -2.9459512825788754, 10%: -2.6116707716049383, 134.62668560027245)經(jīng)過階差分,序列已經(jīng)變?yōu)槠椒€(wěn)序列值已降為0.0077,遠低于0.05自相關(guān)系數(shù)都在深色的臨界區(qū)之內(nèi),而且趨近于零偏自相關(guān)系數(shù)也逐漸趨近于零股票預(yù)測實例(6)4)定階確定模型參數(shù)、的值。程序采用AIC信息準則度量模型之優(yōu)劣,嘗試各種階數(shù)值,選擇最優(yōu)者from
13、 statsmodels.tsa.arima_model import ARIMAdata股價 = data股價.astype(float)pmax = int(len(D_data)/10) #一般階數(shù)不超過length/10qmax = int(len(D_data)/10) #一般階數(shù)不超過length/10e_matrix = #評價矩陣for p in range(pmax+1): tmp = for q in range(qmax+1): try: #存在部分報錯,所以用try來跳過報錯。 tmp.append(ARIMA(data, (p,1,q).fit().aic) exce
14、pt: tmp.append(None) e_matrix.append(tmp)e_matrix = pd.DataFrame(e_matrix) #從中可以找出最小值p,q = e_matrix.stack().idxmin() #先用stack展平,然后用找出最小值位置。print(AIC最小的p值和q值為:%s、%s %(p,q)輸出的、值分別為和,這樣就得到了模型ARIMA(1,4,1)股票預(yù)測實例(7)5)預(yù)測使用ARIMA(1,4,1)模型對股票價格進行天的預(yù)測model = ARIMA(data, (p,1,q).fit() #建立ARIMA(1,4,1)模型model.sum
15、mary2() #給出模型報告model.forecast(5) #作為期5天的預(yù)測,返回預(yù)測結(jié)果、標準誤差、置信區(qū)間。序號預(yù)測值實際值標準差置信區(qū)間誤差1164.04164.051.48161.14166.93 166.9347 166.93472849 166.934728490.0%2164.47162.082.22160.10168.841.4%3165.15161.922.43160.38169.911.9%4165.63161.262.58160.58170.692.6%5166.31158.632.62161.18171.444.6%預(yù)測結(jié)果與真實數(shù)據(jù)還有一定差距,時間越遠,差距
16、越大,時序模型一般只能進行短期預(yù)測。思考與練習1.文件shop.csv是某商店的銷售記錄,仿照例8-2對其月份數(shù)據(jù)進行ARIMA建模分析,對月份前天的銷售額進行預(yù)測,并與實際結(jié)果比較。擴展評價模型和好壞需要一個標準,常用的模型評價標準有AIC、BIC和HQ其中L是該模型中的極大似然函數(shù)值,n是數(shù)據(jù)數(shù)量,k是模型的變量個數(shù)準則名稱計算方法AIC (Akaike Information Criterion)-2ln(L)+2kBIC (Byesian Imformation Criterion)-2ln(L)+ln(n)kHQ (Hannan-Quinn Criterion)-2ln(L)+ln(
17、ln(n) k語音識別讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)文本或命令語音數(shù)據(jù)采樣語音數(shù)據(jù)是一種典型的時序數(shù)據(jù),它通過對連續(xù)聲音信號的振幅進行固定頻率采樣,實時轉(zhuǎn)換為離散時間序列每次采樣得到的振幅用若干位二進制數(shù)記錄,稱為采樣大小語音識別基本框架語音識別技術(shù)涉及很多研究領(lǐng)域,包括:聲學、信號學、語言學和統(tǒng)計學等等語音識別中的時序數(shù)據(jù)處理(1)預(yù)處理降噪和語音斷點檢測分幀把將語音切割成按時間順序排列、等長的語音段,每一段稱為一幀通常相鄰的語音幀之間是有交疊的語音識別中的時序數(shù)據(jù)處理(2)特征提取由于波形在時域上的描述能力非常有限,需要對這些語音幀進行變換,以提取較容易識別的聲學特征最常用的
18、特征是梅爾倒譜系數(shù)MFCC(Mel-Frequencey CepStral Coefficient)(b) 梅爾倒譜(a)語音波形語音識別中的時序數(shù)據(jù)處理(3)語音識別采用音素作為識別單元音素是構(gòu)成單詞發(fā)音的基本單位語音識別的實例語音識別系統(tǒng)需要龐大的數(shù)據(jù)支撐許多供應(yīng)商提供在線語音識別和語音合成服務(wù)谷歌、微軟、百度和科大訊飛等線語音識別系統(tǒng)提供多種語音識別API百度語音開放平臺為用戶提供免費的語音識別和語音合成服務(wù)的工具包:baidu-aip語音識別初始化:client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) 語音識別: result = client
19、.asr(speech, format, rate, dev_pid: code,) 參數(shù)說明: speech建立包含語音內(nèi)容的Buffer對象format語音文件格式,pcm(不壓縮)、wav、amrrate采樣率,16000,固定值dev_pid語言類型。1536:普通話,1537:帶標點的普通話1736:英語,1636:粵語,1836:四川話讀取本地的voice.wav語音文件,其語音內(nèi)容為“數(shù)據(jù)智能分析技術(shù)”,使用百度語音服務(wù)平臺的語音識別服務(wù)進行識別。1)注冊百度賬戶,獲取開發(fā)授權(quán)key例8-3:使用百度語音開放平臺識別一段語音文件對應(yīng)的文字2)安裝百度語音開發(fā)包baidu-aip打開“Ana
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年福建省衛(wèi)生類事業(yè)單位招聘(護理學)核心試題庫-含詳解
- 2025年教師招聘考試教育法律法規(guī)高分題庫及答案(共120題)
- 2025年連云港道路運輸從業(yè)資格證
- 二零二五版設(shè)計分包勞務(wù)合同范例
- 裝修工程責任的合同范例
- 輻射防護設(shè)施管理制度
- 企業(yè)后勤部管理制度
- 餐飲送貨司機管理制度
- 嚴格保安公司管理制度
- 車間安全保衛(wèi)管理制度
- 餐館廚房經(jīng)營權(quán)承包合同
- 睡眠用眼罩市場需求與消費特點分析
- 第二十四章 相似三角形(50道壓軸題專練)
- 取送車協(xié)議書范文4s店
- TSXCAS 015-2023 全固廢低碳膠凝材料應(yīng)用技術(shù)標準
- 2024年重慶住院醫(yī)師-重慶住院醫(yī)師泌尿外科考試近5年真題附答案
- 國開2024年秋《生產(chǎn)與運作管理》形成性考核1-4答案
- 矯形器裝配工(三級)職業(yè)技能鑒定考試題庫(含答案)
- 國家病案質(zhì)控死亡病例自查表
- 英語漫話天府新村智慧樹知到答案2024年四川工商職業(yè)技術(shù)學院
- 2024年江蘇省無錫市天一實驗學校中考英語押題試卷含答案
評論
0/150
提交評論