數字音頻基礎知識_第1頁
數字音頻基礎知識_第2頁
數字音頻基礎知識_第3頁
數字音頻基礎知識_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章 數字音頻基礎知識主要內容聲音基礎知識認識數字音頻數字音頻專業知識 第 1 節 聲音基礎知識1.1 聲音的產生聲音是由振動產生的。物體振動停止,發聲也停止。當振動波傳到人耳時,人便聽到了聲音。人能聽到的聲音,包括語音、音樂和其它聲音(環境聲、音效聲、自然聲等) ,可以分為樂音和噪音。樂音是由規則的振動產生的,只包含有限的某些特定頻率,具有確定的波形。噪音是由不規則的振動產生的,它包含有一定范圍內的各種音頻的聲振動,沒有確定的波形。1.2 聲音的傳播聲音靠介質傳播,真空不能傳聲。介質:能夠傳播聲音的物質。聲音在所有介質中都以聲波形式傳播。音速聲音在每秒內傳播的距離叫音速。聲音在固體、液體中

2、比在氣體中傳播得快。15oC 時空氣中的聲速為 340m/s 。1.3 聲音的感知外界傳來的聲音引起鼓膜振動經聽小骨及其他組織傳給聽覺神經,聽覺神經再把信號傳給大腦,這樣人就聽到了聲音。雙耳效應的應用:立體聲人耳能感受到(聽覺)的頻率范圍約為 20Hz20kHz,稱此頻率范圍內的聲音為可聽聲(audible sound)或音頻(audio),頻率20Hz聲音為次聲,頻率20kHz聲音為超聲。人的發音器官發出的聲音(人聲)的頻率大約是80Hz3400Hz。人說話的聲音(話音 voice /語音speech)的頻率通常為 300Hz 3000 Hz (帶寬約 3kHz)。傳統樂器的發聲范圍為16H

3、z (C2)7kHz(a5),如鋼琴的為 27.5Hz (A2)4186Hz(c5)。1.4 聲音的三要素聲音具有三個要素:音調、響度(音量/音強)和音色人們就是根據聲音的三要素來區分聲音。音調( pitch )音調:聲音的高低(高音、低音) , 由 “頻率 ” ( frequency )決定,頻率越高音調越高。聲音的頻率是指每秒中聲音信號變化的次數, 用 Hz 表示。 例如, 20Hz 表示聲音信號在 1 秒鐘內周期性地變化 20 次。高音:音色強勁有力,富于英雄氣概。擅于表現強烈的感情。低音:音色深沉渾厚,擅于表現莊嚴雄偉和蒼勁沉著的感情。響度( loudness )響度:又稱音量、音強,

4、指人主觀上感覺聲音的大小,由 “振幅 ” ( amplitude )和人離聲源的距離決定,振幅越大響度越大,人和聲源的距離越小,響度越大。 (單位:分貝 dB ) 音色( music quality )音色:又稱音品,由發聲物體本身材料、結構決定。每個人講話的聲音以及鋼琴、提琴、笛子等各種樂器所發出的不同聲音,都是由音色不同造成的。1.5 聲道聲道(sound channel /track)是分開錄音然后結合起來以便同時聽到的一段聲音。早期的聲音重放( playback/ reproduction )技術落后,只有單一聲道( mono / monophony ) ,只能簡單地發出聲音(如 留聲

5、機、調幅AM 廣播) ;后來有了雙聲道的立體聲 ( stereo ) 技術 (如立體聲唱機、 調頻 FM 立體聲廣播、 立體聲盒式錄音帶、 激光唱盤 CD-DA ) , 利用人耳的雙耳效應,感受到聲音的縱深和寬度,具有立體感。現在又有了各種多聲道的環繞聲( surround sound)重放方式(如4.1、5.1、6.1、7.1聲道),將多只喇叭(揚聲器speaker)分布在聽者的四周,建立起環繞聆聽者周圍的聲學空間,使聽者感受到自己被聲音包圍起來,具有強烈的現場感(如電影院、家庭影院、 DVD-Audio 、 SACD 、 DTS-CD 、 HDTV ) 。第 2 節 認識數字音頻2.1 模

6、擬信號音頻信號是典型的連續信號,不僅在時間上是連續的,而且在幅度上也是連續的。在時間上 “連續 ”是指在任何一個指定的時間范圍里聲音信號都有無窮多個幅值;在幅度上 “連續 ”是指幅度的數值為實數。我們把在時間(或空間)和幅度上都是連續的信號稱為模擬信號(analog signal) 。2.2 數字信號在某些特定的時刻對這種模擬信號進行測量叫做采樣(sampling) ,在有限個特定時刻采樣得到的信號稱為離散時間信號。采樣得到的幅值是無窮多個實數值中的一個,因此幅度還是連續的。把幅度取值的數目限定為有限個的信號就稱為離散幅度信號。我們把時間和幅度都用離散的數字表示的信號就稱為數字信號(digit

7、al signal) 。從模擬信號到數字信號的轉換為模數轉換,記為A/D(Analog-to-Digital);從數字信號到模擬信號的轉換為數模轉換,記為D/A(Digital-to-Analog)。第3節數字音頻專業知識人們日常生活聽到的各種聲音信息是典型的連續信號,它不僅在時間上連續,而且在幅度上也連續,我們稱之為模擬音頻。在數字音頻技術產生之前,我們只能用磁帶或膠木唱片來存儲模擬音頻,隨著技術的發展,聲音信號逐漸過渡到了數字化存儲階段,可以用計算機等設備將它們存儲起來。3.1 模擬音頻的數字化對于計算機來說,處理和存儲的只可以是二進制數,所以在使用計算機處理和存儲聲音信號之前,我們必須使

8、用模數轉換( A/D )技術將模擬音頻轉化為二進制數,這樣模擬音頻就轉化為數字音頻了。所謂模數轉換就是將模擬信號轉化為數字信號,模數轉換的過程包括采樣、量化和編碼三個步驟。模擬音頻向數字音頻的轉換是在計算機的聲卡中完成的。3.2 采 樣采樣是指將時間軸上連續的信號每隔一定的時間間隔抽取出一個信號的幅度樣本,把連續的模擬量用一個個離散的點表示出來,使其成為時間上離散的脈沖序列。每秒鐘采樣的次數稱為采樣頻率,用 f 表示;樣本之間的時間間隔稱為取樣周期,用 T 表示, T=1/f 。例如: CD 的采樣頻率為 44.1kHz ,表示每秒鐘采樣44100 次。常用的采樣頻率有8kHz、 11.025

9、Hz、 22.05kHz 、 15kHz、 44.1kHz 、 48kHz 等。在對模擬音頻進行采樣時,取樣頻率越高,音質越有保證;若取樣頻率不夠高,聲音就會產生低頻失真。那么怎樣才能避免低頻失真呢?著名的采樣定理( Nyquist 定理)中給出有明確的答案:要想不產生低頻失真,采樣頻率至少應為所要錄制的音頻的最高頻率的2倍。例如,電話話音的信號頻率約為3.4 kHz ,采樣頻率就應該R 6.8 kHz ,考慮到信號的衰減等因素,一般取為 8kHz 。3.3 量 化量化是將采樣后離散信號的幅度用二進制數表示出來的過程。每個采樣點所能表示的二進制位數稱為量化精度,或量化位數。量化精度反映了度量聲

10、音波形幅度的精度。例如,每個聲音樣本用16位(2字節)表示,測得的聲音樣本值是在065536的范圍里,它的精度就是輸入信號的 1/65536 。常用的采樣精度為 8bit/s、 12 bit/s、 16bit/s、 20bit/s、 24bit/s 等。采樣頻率、采樣精度和聲道數對聲音的音質和占用的存儲空間起著決定性作用。我們希望音質越高越好,磁盤存儲空間越少越好,這本身就是一個矛盾。必須在音質和磁盤存儲空間之間取得平衡。數據量與上述三要素之間的關系可用下述公式表示:3.4 編 碼采樣和量化后的信號還不是數字信號,需要把它轉換成數字編碼脈沖,這一過程稱為編碼。最簡單的編碼方式是二進制編碼,即將

11、已經量化的信號幅值用二進制數表示,計算機內采用的就是這種編碼方式。模擬音頻經過采樣、量化和編碼后所形成的二進制序列就是數字音頻信號,我們可以將其以文件的形式保存在計算機的存儲設備中,這樣的文件通常稱之為數字音頻文件。PCM 編碼PCM ( Pulse Code Modulation ) , 即脈沖編碼調制,指模擬音頻信號只經過采樣、模數轉換直接形成的二進制序列,未經過任何編碼和壓縮處理。 PCM 編碼的最大的優點就是音質好,最大的缺點就是體積大。在計算機應用中, 能夠達到最高保真水平的就是PCM 編碼,常見的 WAV 文件中就有應用。3.5 音頻壓縮音頻壓縮屬于數據壓縮的一種,是減小數字音頻信

12、號文件大小(數據比率)的過程。一般數據的壓縮方法對于音頻數據不利,很少能將源文件壓縮到87%以下。音頻壓縮算法:無損壓縮算法和有損壓縮算法無損壓縮是對未壓縮音頻進行沒有任何信息 / 質量損失的壓縮機制。有損壓縮是盡可能多得從原文件刪除沒有多大影響的數據,有目的地制成比原文件小多的但音質卻基本一樣。一般來說,無損壓縮比率在源文件的50 -60%左右,而有損壓縮可以達到原文件的5N0%。3.6 常見的數字音頻文件格式常見的數字音頻文件格式有很多,每種格式都有自己的優點、缺點及適用范圍。CD 格式 天籟之音CD 音軌文件的后綴名為: cda標準CD格式是44.1K的采樣頻率,速率 88K/秒,16位

13、量化位數,近似無損的。CD光盤可以在CD唱機中播放,也能用電腦里的各種播放軟件來重放。一個 CD音頻文件是一個* .cda文件,這只是一 個索引信息,并不是真正的包含聲音信息,所以不論 CD音樂的長短,在電腦上看到的伙.cda文件”都是44字節長。WAV 格式 無損的音樂WAV 為微軟公司開發的一種聲音文件格式。標準格式化的 WAV 文件和 CD 格式一樣,也是44.1K 的取樣頻率, 16 位量化位數,聲音文件質量和 CD 相差無幾!特點:音質非常好,被大量軟件所支持。適用于:多媒體開發、保存音樂和原始音效素材。MP3 格式 流行的風尚全稱 Moving Picture Experts Gr

14、oup Audio Layer III ) ,是當今較流行的一種數字音頻編碼和有損壓縮格式。是 ISO 標準 MPEG1 和 MPEG2 第三層 (Layer 3) ,采樣率16-48kHz ,編碼速率8K-1.5Mbps 。特點:音質好,壓縮比比較高,被大量軟件和硬件支持,應用廣泛。適用于:適合用于一般的以及比較高要求的音樂欣賞。MIDI 作曲家的最愛MIDI ( Musical Instrument Digital Interface )樂器數字接口 。MIDI 數據不是數字的音頻波形,而是音樂代碼或稱電子樂譜。MIDI文件每存1分鐘的音樂只用大約510KB。.mid 文件重放的效果完全依

15、賴聲MID 文件主要用于原始樂器作品,流行歌曲的業余表演,游戲音軌以及電子賀卡等。卡的檔次。普通的聲音文件, 如 wav 文件, 是計算機直接把聲音信號的模擬信號經過取樣 量化處理, 不經壓縮處理,變成與聲音波形對應的數字信號。而 MIDI 文件則不是直接記錄樂器的發音,而是記錄了演奏樂器的各種信息或指令,如用哪一種樂器,什么時候按某個鍵,力度怎么樣等等,至于播放時發出的聲音,那是通過播放軟件或者音源的轉換而成的。因此 MIDI 文件通常比聲音文件小得多,一首樂曲,只有十幾 K 或幾十 K ,只有聲音文件的千分之一左右,便于儲存和攜帶。WMA 格式 最具實力的敵人WMA (Windows Me

16、dia Audio) 由微軟開發。音質要強于MP3 格式, 更遠勝于 RA 格式, 它以減少數據流量但保持音質的方法來達到比 MP3 壓縮率更高的目的, WMA的壓縮率一般都可以達到 1 : 18 左右。內置了版權保護技術,可以限制播放時間和播放次數甚至于播放的機器等等。WMA 格式在錄制時可以對音質進行調節。同一格式,音質好的可與CD 媲美,壓縮率較高的可用于網絡廣播。Ra 格式 流動的旋律RealAudio 主要適用于在網絡上的在線音樂欣賞, 現在大多數的用戶仍然在使用 56Kbps 或更低速率的 Modem , 所以典型的回放并非最好的音質。有的下載站點會提示你根據你的 Modem 速率選擇最佳的 Real 文件。APE 格式一種新興的無損音頻編碼,可以提供50-70% 的壓縮比, APE 的文件大小大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論