第3講 音頻信號的獲取與處理_第1頁
第3講 音頻信號的獲取與處理_第2頁
第3講 音頻信號的獲取與處理_第3頁
第3講 音頻信號的獲取與處理_第4頁
第3講 音頻信號的獲取與處理_第5頁
已閱讀5頁,還剩56頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、3.1 音頻基礎知識3.2 音頻處理軟件Audition的使用最初的音頻是用電信號記錄下來進行存儲和傳輸的,在時間上和幅度上都是連續變化的,稱之為模擬音頻,而計算機只能處理離散的數字信號,因此需對模擬音頻進行數字化處理,即將它轉變為由0和1表示的在時間和幅度上都是離散的是數字音頻。3.1.1 聲音信號的基本概念3.1.2 聲音信號的數字化3.1.3 數字音頻的獲取方式3.1.4 數字音頻的文件格式聲音是通過一定介質(如空氣、水等)傳播的一種連續的波,聲音的主要傳播介質是空氣,因此,聲音的本質是空氣振動,由于空氣振動引起耳膜的振動,然后被人耳所感知。聲音既然是波,它就具有普通波特性:反射、折射、

2、衍射,但這不是多媒體技術要研究的內容,我們需要關注它的兩個基本參數:頻率和振幅。頻率:聲波每秒鐘變化的次數,它代表聲音變化的快慢,決定了聲音音調的高低,單位是Hz。振幅:聲波振動幅度的大小,它代表了聲音能量的強弱,決定了聲音音量的大小。聲音的本質是空氣振動,但并不是所有的空氣振動都能被人耳所感知。人耳所能感覺到空氣振動的頻率范圍大約為20Hz20kHz(注意,大于20KHz的聲音并非感知不到,而是我們不能從中獲得有用的信息并且它對人體是有害的)。因此,多媒體技術中所研究的音頻(Audio)信號是指頻率范圍在20Hz20kHz之間的聲波,即人耳能識別的聲音。根據聲音能否被人耳接收與聲音是否是人類

3、所發出的聲音,一般將聲音信號進行如下劃分:如圖3-1所示,根據聲音信號的帶寬,我們可以將聲音信號劃分為次聲波、音頻信號和超聲波三個波段,而音頻信號又可分為語音(Speech)信號和非語音(Sound)信號兩類,其中語音信號特指人類發聲器官所發出的聲音,其頻率約為200-3400Hz。語音信號特指人的發聲器官所發出的聲音信號,人的發音器官發出的聲音的頻率范圍大約在803400Hz之間,而人說話的信號頻率通常在3003000Hz之間。語言是人類社會的一種特有的信息系統,是社會交際工具的符號,而語音是語言的物質外殼(載體)。語音識別是多媒體技術的一個重要的研究方向,即希望計算機能自由地“聽懂”人類的

4、語言。非語音是指語音信號范圍外的人耳所能識別的音頻信號,主要包括樂音和雜音,非語音信號的特點是不具有復雜的語義和語法信息,信息量比較低,因此識別簡單。聲音具有音調、音強和音色3個要素。(1)音調:由聲音信號的頻率變化所決定,人對聲音頻率的感覺表現為音調的高低,在音樂中稱為音高。(2)音強:由聲音信號的幅度大小所決定,人對聲音振幅的感覺表現為聲音有強弱,也就是我們平時常說的音量大小,音量以分貝(dB)為單位。人對聲音強弱的聽覺響應與聲音振幅成對數關系1dB=20log(幅值)。人類能感知的聲音的幅度范圍在0120(dB)之間。(3)音色:由聲音的頻譜(基音與泛音基音與泛音之間的關系)決定。聲波的

5、各階諧波的比例不同,隨著時間衰減的程度不同,音色隨之變動。聲音是機械振動,振動越強,聲音越大。聲波本身難以進行遠距離傳送,而且也不能存儲。為了將聲音進行存儲和傳輸,通常是將聲音信號轉換為電信號,用電壓或電流的幅度表示聲音強弱。這樣聲音信號表現為在時間和幅度上都是連續的電信號,如圖3-2所示,這樣表示的音頻信號即模擬音頻。模擬音頻是連續的,然而計算機只能處理以0和1的形式表示的離散的信號量。在計算機內,所有的信息均以數字表示。各種命令是不同的數字,各種幅度的物理量也是不同的數字。要想在計算機中對音頻信號進行存儲、傳輸、播放、處理,就必須進行音頻的模/數轉換,即把模擬音頻信號數字化,形成數字音頻,

6、最后通過編碼以文件的形式存儲于計算機中。將連續的模擬音頻信號轉換為離散的數字音頻信號,通常采用的方法是每隔固定時間間隔對模擬音頻信號測定一個幅值(采樣),并用給定位數的二進制數表示這個幅值(量化)。(1)采樣(Sampling):在某些特定的時刻對模擬信號進行測量叫做采樣,由這些特定時刻采樣得到的信號稱為離散時間信號,采樣的作用是把連續的時間信號變為離散的時間信號。(2)量化(Quantization):經過采樣獲得的離散時間信號的幅度值依然是連續的,因此需要對這些幅度值進行量化。把幅度區間劃分成n個區間,一個區間對應于一個幅度值,對于所有落入第i個區間的任何幅度值,都用同一個幅度值來表示。這

7、個過程稱為量化。音頻經過數字化采樣和量化得到的時間和幅度都離散的數字信號就稱為數字音頻信號。由上論述可知,聲音數字化也即對連續的模擬聲音信號進行離散化,這種離散要進行兩方面的離散,即時間的離散和強度的離散。連續時間的離散化通過采樣來實現;連續強度的離散通過量化來實現。此時就需要考慮兩個問題:一是在哪些時刻對聲音進行采樣,即每秒鐘需要采集多少個聲音樣本,也就是采樣頻率是多少;二是每個樣本用多少個二進制位來存儲,即每個聲音樣本的位數應該是多少,也就是量化精度。采樣頻率一般是由奈奎斯特采樣定理決定。奈奎斯特采樣理論(Nyquisttheory)指出,采樣頻率不應低于聲音信號最高頻率的兩倍,這樣才能把

8、以數字表達的聲音還原成原來的聲音。奈奎斯特理論采樣定理用公式表示為fs2f或者TsT/2其中fs為采樣頻率,Ts為采樣周期,f為被采樣信號的最高頻率,T為被采樣信號的最小周期。采樣頻率的高低是根據奈奎斯特理論和聲音信號本身的最高頻率決定的。例如,電話話音的信號最高頻率約為3.4kHz,采樣頻率通常選為8kHz。量化樣本的位數由計算機的性能和對聲音質量的要求決定,一般有8位量化、16位量化和32位量化,即分別用一個字節、兩個字節和四個字節存放一個采樣點的幅度值。量化位數越高,需要的存儲空間越大,但此時聲音細節的丟失比較少,聲音的質量較好。做完采樣和量化以后還需對它們(數字信號)進行編碼從而以文件

9、的形式存儲于計算機中。編碼的作用有兩個:一是采用一定的格式來記錄數字數據;二是采用一定的算法來壓縮數字數據以減少存儲空間和提高傳輸效率。一種最方便、最簡單的編碼方法是脈沖編碼調制,簡稱PCM編碼;這是一種最通用的無壓縮編碼,其特點是保真度高,解碼速度快,但編碼后的數據量大。衡量一種編碼方法的性能有兩個主要指標:碼流速率:音頻信號數字化編碼后每秒鐘產生的數據流量(kbps)量化噪聲:由量化失真引起的噪聲,表示為量化后音頻信號噪聲比數據率定義為每秒比特數(bps),與信息在計算機中的實時傳輸有直接關系;數據量定義為每秒字節數(B/s),與計算機的存儲空間有直接關系。未經壓縮數字音頻數據量(B/s)

10、采樣頻率(Hz)(量化位數(bit)/8)聲道數在多媒體應用軟件中,經常要使用音頻素材。數字音頻的獲取主要有以下幾種方式:(1)使用聲卡采集模擬設備上的聲音信息,并以文件的形式存儲在計算機中。(2)使用聲卡錄制聲音信息,并以文件的形式存儲在計算機中。(3)使用聲卡及MIDI設備在計算機上創作樂曲。(4)從互聯網下載或購買音頻光盤。(5)從CD或VCD上截取音頻數據。(6)從視頻上獲取音頻數據。數字音頻數據在計算機中以文件的形式出現。流行的聲音文件格式很多,以WAV、MP3、MIDI為擴展名的文件格式比較常見。1WAV格式音頻文件2VOC格式音頻文件3MP3格式音頻文件4RA格式音頻文件5MID

11、I格式音頻文件6WMA格式音頻文件WAV格式音頻文件是最早出現的數字音頻格式,也叫波形聲音文件,由Microsoft公司和IBM公司共同開發。它記錄了對實際聲音采樣的數據,被Windows平臺及其應用程序廣泛支持。WAV格式支持多種音頻量化位數、采樣頻率和聲道。采用44.1kHz的采樣頻率、16位量化位數的WAV文件的音質與CD相差無幾。WAV文件數據的缺點是數據量大,優點是音質較好,而且它還是一種標準數字音頻,大多數壓縮格式的聲音都是在它的基礎上經過數據的重新編碼來實現的,這些壓縮格式的聲音信號在壓縮前和回放時都要使用WAV格式。VOC格式音頻文件是CreativeLab公司開發的聲音文件,

12、也是聲霸卡使用的音頻文件格式,被Windows平臺支持。每個VOC文件由文件頭塊和音頻數據塊組成。文件頭包含一個標識、版本號和一個指向數據塊起始的指針。數據塊分成各種類型的子塊,如聲音數據、靜音、標記、ASCII文件以及終止標志、擴展塊等。MP3的全稱是MPEG-1AudioLayer3,是近年來頗為流行的音樂文件,它在1992年被合并至MPEG規范中。MP3文件的音質較好,并且文件的數據量較小。RA文件是RealNetwork公司開發的一種流式音頻文件,主要應用于網絡上進行音頻傳輸,網絡連接連率不同,客戶端所獲得的聲音質量也不盡相同。對于傳輸速率為14.4kbit/s的網絡連接可獲得調幅(A

13、M)質量的音質;對于傳輸速率為28.8kbit/s的網絡連接,可以達到廣播級的聲音質量;如果擁有更快的線路連接,則可獲得CD音質的聲音。MIDI是MusicalInstrumentDigitalInterface的縮寫,又稱做樂器數字接口,是數字音樂/電子合成樂器的統一國際標準。它定義了計算機音樂程序、數字合成器及其他電子設備交換音樂信號的方式,規定了不同廠家的電子樂器與計算機連接的電纜和硬件及設備間數據傳輸的協議,可以模擬多種樂器的聲音MIDI文件就是MIDI格式的文件,在MIDI文件中存儲的是一些指令,聲卡接收到這些指令后就按照指令將聲音合成出來。WMA文件是Microsoft公司開發的一

14、種音頻壓縮格式,存儲容量比MP3小,但音質稍差。在多媒體的制作領域,音頻是不可或缺的部分。音頻的處理通常包含聲音的編輯、特殊效果的添加及文件格式轉換等操作。常見的音頻處理軟件有Windows操作系統中的SoundRecorder(通常被稱做錄音機)、SoundBlaster系列音頻卡所附帶的WaveStudio以及一些專門的多媒體音頻處理軟件,如GoldWave、Audition等。本節以Audition為例,介紹聲音錄制和編輯的基本技能以及一些特殊處理方法。3.2.1 Audition介紹3.2.2 Audition基本操作3.2.3 Audition音頻處理綜合實例Audition的主要功

15、能有錄制和采集音頻文件;對音頻文件進行剪切、粘貼、合并、重疊聲音等操作;提供多種特效(如放大、降低噪音、擴展、回聲、延遲、失真、調整音調等);可以生成噪音、低音、靜音、電話信號等聲音;可以實現自動靜音檢測和刪除、自動節拍查找等功能;可以在多種音頻文件格式之間進行轉換。1Audition界面2Audition功能菜單Audition有兩種編輯狀態,即波形編輯狀態和多音軌編輯狀態,如后圖所示,這兩種狀態可以通過快捷鍵【F12】或默認工具欄的第一個按鈕進行切換。波形編輯狀態主要用來對音頻進行編輯,多音軌編輯狀態主要用來進行音頻合成。Audition波形編輯狀態從上到下共分為標題欄、菜單欄、工具欄、資

16、源管理區、波形顯示區、操作區、狀態欄顯示區六個部分,如圖中所示。Audition2.1在波形編輯窗口界面共有10個一級菜單,包括File(文件)、Edit(編輯)、View(查看)、Effects(效果)、Generate(生成)、Analyze(分析)、Favorites(偏好)、Options(選項)、Window(窗口)、Help(幫助)和30多個快捷工具,下面進行簡單介紹。(1)File(文件)(2)Edit(編輯)(3)View(查看)(4)Effects(效果)(5)Generate(生成)(6)Analyze(分析)(7)Favorites(偏好)此菜單主要為對音頻文件的一些操作

17、,如新建、打開、關閉、存儲等,同時包括如下一些專為音頻文件設計的操作。 OpenAppend(追加):將一個音頻文件連接在一個已打開的文件的尾部。 ExtractAudiofromVideo(從視頻提取聲音):可以從視頻文件中把聲音提取出來,主要是針對*.avi、*.mpg等格式的視頻文件。 SaveSelection(保存選取區域):允許將當前選中的部分波形文件單獨保存下來。 FreeHardDriveSpace(清理硬盤空間):Audition進行音頻編輯時,會隨時產生一些臨時文件并存儲在指定的臨時文件夾中,在硬盤中占了很大空間,使用該命令可以清空這些臨時文件。此菜單包含了一些常用的剪貼板

18、操作,如復制、粘貼、刪除等。其中屬于音頻文件的特有操作如下。MixPaste(混合粘貼):將剪貼板中的波形內容混合到當前波形文件中。InsertinMultitrack(插入多軌工程):將當前文件或當前文件被選中部分在多軌窗口中插入一個新軌,要事先在多軌模式下選擇好軌道和音頻塊的開始位置,用鼠標單擊即可。DeleteSilence(刪除靜音):刪除波形文件中分貝極小的信號,可以使當前文件變短。ZeroCrossings(零點定位):將選中區域的開頭和結尾自動調節在無聲的狀態。FindBeats(確定節拍):自動查找音樂中一個完整的拍子的起止點。AdjustSampleRate(調整采樣率):改

19、變聲卡播放當前音頻文件時所用的采樣頻率。ConvertSampleType(轉換音頻格式):改變當前文件的采樣頻率和量化位數等參數。大多為一些打開/關閉各子窗口以及快捷工具欄命令,其中比較常用的和音頻操作相關的子菜單如下。MulititrackView(多軌窗口切換):切換到多軌編輯狀態。WaveformView(波形編輯窗口):顯示波形。SpectralView(頻譜編輯窗):顯示頻譜。它是Audition中的主要功能菜單,可以為音頻增加很多特效。Invert(反相):將波形的上半周和下半周互換。Reverse(倒置):將被選中的波形的開頭和結尾反相。Silence(靜音):將被選中的波形變

20、成零振幅的信號。Amplitude(波形振幅):對音頻信號振幅的處理,即改變聲音信號的音量。該菜單下有8個子菜單,可以通過對聲音信號音量的改變獲得一些特殊效果。DelayEffects(延遲效果):對延遲混響效果的處理,有11個子菜單,可以制作出一些場地聲音、合唱效果等。DirectX:列出支持的Direct的效果器插件。Filters(濾波器):可以對音頻信號進行各種濾波處理。Special(特殊處理):產生一些特殊效果。NoiseReduction(噪音消除):消除選中音頻的噪音。可以生成一些特殊的聲音Silence(靜音):生成靜音。Tone(音調):根據你的選擇,生成一些標準信號音。N

21、oise(噪波):生成噪音信號。DTMFSignals:生成類似電話撥號音的信號。自動對聲音信號內部信息進行分析,并給出一些可視化的結果。ShowFrequencyAnalyze:顯示音頻信號的頻譜分析圖像。ShowPhaseAnalyze:顯示音頻信號的相位分析圖像。Statistics:顯示音頻信號波形統計數據。顯示曾經使用過的效果編輯命令。1聲音的錄制2噪音消除3音頻數據編輯4音量調節功能5改變播放速度、改變音調高低6音效添加在一個具有聲卡的計算機上,使用Audition可以通過麥克風直接錄制外界聲音,也可以從錄音機、CD唱機等外界媒體設備獲得聲音。(1)創建音頻文件(2)設置錄音音源(

22、3)打開監視電平,調試錄音音量(4)開始錄音,注意錄制一段空白的含噪聲的信號(5)試聽,如果效果較差可重新錄制。運行Audition程序,執行【File】【New】命令,彈出新建音頻文件對話框,如圖所示。在Windows的【開始】菜單中選擇【附件】【娛樂】【音量控制】命令,打開如圖所示的【音量控制】窗口。在【音量控制】窗口中選擇【選項】【屬性】命令,打開音頻屬性對話框,如圖所示。在對話框中選擇采樣頻率、量化位數、聲道數后單擊【確定】按鈕。然后單擊功能鍵中的錄音按鈕,開始錄音,錄制完畢單擊停止按鈕停止錄音。按空格鍵,試聽錄音效果,再按一次空格鍵,結束試聽。執行【File】【SaveAs】命令,在

23、出現的保存文件對話框中將錄音保存到磁盤中。通常自己錄制的音頻由于環境問題往往帶有噪音,這種環境噪音一般貫穿整個聲音文件始終,可以使用Audition去除這種噪音。(1)選擇一段噪音信號。(2)在降噪對話框中獲得噪音樣本信息,必要的時候保存這個樣本。(3)回到波形編輯,選中整個錄音波形。(4)在降噪對話框中執行降噪操作。(1)選中音頻開始時的環境噪音(此時人聲還沒有開始),如圖所示,呈現白色的區域即為被選中區域。(3)在波形編輯界面中執行【Edit】【SelectionEntireWave】命令,選中全部音頻文件,(4)然后再次執行【Effects】【NoiseReduction】【NoiseR

24、eduction】命令,打開去除噪音對話框,單擊【OK】按鈕,完成去除噪音操作。音頻數據的編輯包括聲音片段的選擇、拷貝、剪切、刪除、粘貼等操作。在Audition中,不管進行什么操作,都要首先選擇需要處理的區域,如果不選擇,Audition默認對整個音頻文件進行操作。Audition中提供了三種音頻粘貼方式。(1)普通粘貼(2)粘貼到新文件(3)混合粘貼(1)普通粘貼:執行【Edit】【Paste】命令將內部剪貼板上的數據插入到當前波形插入點位置。這樣插入點前的原波形文件和插入點后的原波形文件不變,只是在兩個聲音間插入了新的內容。(2)粘貼到新文件:執行【Edit】【PastetoNew】命令可將剪貼板中的波形數據創建一個新文件。(3)混合粘貼:執行【Edit】【MixPaste】命令可以彈出一個混合粘貼對話框,如圖所示。在對話框左下方的粘貼模式中選擇【Overlap】模式,即疊加模式,可以將剪貼板中的音頻數據疊加在文件已選中的音頻數據中。【Effects】菜單下的【Amplitude】子菜單下有一系列和音頻信號振幅相關的選項

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論