多媒體技術(shù)及應用課件_第1頁
多媒體技術(shù)及應用課件_第2頁
多媒體技術(shù)及應用課件_第3頁
多媒體技術(shù)及應用課件_第4頁
多媒體技術(shù)及應用課件_第5頁
已閱讀5頁,還剩345頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

16十二月2023第1章

緒論多媒體技術(shù)的基本概念多媒體技術(shù)的特點多媒體計算機系統(tǒng)多媒體技術(shù)的發(fā)展歷史多媒體技術(shù)的發(fā)展現(xiàn)狀及應用領(lǐng)域流媒體技術(shù)16十二月20231.1多媒體技術(shù)基本概念

1.1.1媒體的概念

媒體

Medium(Media)有三種含義:一是指傳播媒體,如蜜蜂是傳播花粉的媒體、蒼蠅是傳播病菌的媒體;二是指用以存儲信息的實體,如磁盤、磁帶、紙;三用以表述信息的邏輯載體,如文本、聲音、圖像、動畫和視頻等。

16十二月2023按照承載的方式分為五大類:(1)感覺媒體(PerceptionMedia)指能直接作用于人的感官,使人能直接產(chǎn)生感覺的一類媒體。如:語言、音樂,聲音、圖形、圖像(2)表示媒體(PresentationMedia)指傳輸感覺媒體的中介媒體,為加工、處理和傳輸感覺媒體而人為研究、構(gòu)造出來的一種媒體,即用于數(shù)據(jù)交換的編碼,是感覺媒體數(shù)字化后的表示形式。如圖像編碼(JPEG、MPEG等)

16十二月2023按照承載的方式分為五大類:

(3)顯示媒體(DisplayMedia)指感覺媒體和用于通信的電信號之間轉(zhuǎn)換用的一種媒體(設備)。如鍵盤、攝像機、顯示器、喇叭(4)存儲媒體(StorageMedia)存放表示媒體的媒體。如:軟硬盤、CD-ROM、磁帶、唱片等。(5)

傳輸媒體(TransmissionMedia)指用于將表示媒體傳送到其它計算機的通信載體。

16十二月20231.1.2多媒體的概念

從人機交互的角度分為:視覺類媒體、聽覺類媒體和觸覺類媒體等1.

視覺類媒體:顧名思義就是眼睛所看到的內(nèi)容,包括位圖圖像、矢量圖形、符號、視頻2.聽覺類媒體:指的是人耳所能聽到的一切聲音,主要包括:波形聲音、語音、音樂

16十二月20231.1.2多媒體的概念3.

觸覺類媒體:指的是能使人接觸產(chǎn)生感覺的媒體,

主要包括:指點、位置跟蹤、力反饋與運動反饋

多媒體技術(shù):是指用計算機綜合處理多種媒體信息如文本、圖形、圖像和聲音等,使這多種信息建立邏輯連接,集成為一個系統(tǒng)并具有交互性。

16十二月20231.1.3多媒體的特點

多媒體數(shù)據(jù)的特點:

數(shù)據(jù)量大

數(shù)據(jù)類型繁多

相關(guān)性強、同步性高動態(tài)性

16十二月20231.1.3多媒體的特點多媒體技術(shù)特點:(1)集成性:指的是聲音、文本、圖像、視頻等信息的集成,多種信息有機同步組合。

(2)實時性:指的是聲音以及活動的視頻圖像媒體和時間是密切相關(guān)的,

(3)交互性:主要指的是用戶與計算機的多種媒體進行交互式操作,從而為用戶提供更有效地控制和使用信息的手段,允許人機交互。

16十二月20231.1.4多媒體計算機系統(tǒng)

多媒體計算機系統(tǒng)組成:(1)多媒體硬件系統(tǒng):(2)多媒體軟件系統(tǒng)16十二月2023多媒體硬件系統(tǒng)16十二月2023多媒體計算機軟件多媒體計算機軟件:多媒體操作系統(tǒng)多媒體創(chuàng)作工具軟件多媒體素材編輯軟件多媒體應用軟件。16十二月2023多媒體計算機系統(tǒng)的層次結(jié)構(gòu)

16十二月2023

多媒體應用的發(fā)展趨勢分布式、網(wǎng)絡化、協(xié)同工作的多媒體系統(tǒng)。三電(電信、電腦、電器)通過多媒體數(shù)字化技術(shù),相互滲透融合。以用戶為中心,充分發(fā)展交互多媒體和智能多媒體技術(shù)與設備。

16十二月20231.3多媒體技術(shù)的應用前景

多媒體技術(shù)應用:

工作領(lǐng)域家庭領(lǐng)域通信領(lǐng)域教育領(lǐng)域醫(yī)療領(lǐng)域軍事領(lǐng)域16十二月20231.4流媒體技術(shù)1.4.1流媒體定義

流媒體簡單來說就是應用流技術(shù)在網(wǎng)絡上傳輸?shù)亩嗝襟w文件,而流技術(shù)就是把連續(xù)的影象和聲音信息經(jīng)過壓縮處理后放上網(wǎng)站服務器,讓用戶一邊下載一邊觀看、收聽,而不需要等整個壓縮文件下載到自己機器后才可以觀看的網(wǎng)絡傳輸技術(shù)。

16十二月20231.4.2流媒體產(chǎn)品

主要的公司有三個:Microsoft、RealNetworks、Apple,主要產(chǎn)品:WindowsMedia(Microsoft)RealMedia(RealNetworks)QuickTime(Apple)16十二月20231.4.3流媒體應用領(lǐng)域

遠程教育

寬帶網(wǎng)視頻點播互聯(lián)網(wǎng)直播

視頻會議

16十二月2023習題1.1

什么是媒體?多媒體的媒體具體有哪些?1.2

多媒體指的是什么?

請舉出幾個屬于多媒體技術(shù)范疇的應用?1.3

多媒體技術(shù)有哪些主要特點?1.4

多媒體技術(shù)的主要發(fā)展方向?1.5

多媒體計算機硬件系統(tǒng)主要有幾部分組成,簡要說明?

聲音被分為無規(guī)則的噪音和有規(guī)則的音頻信號;有規(guī)則音頻信號是一種連續(xù)變化、周期性的模擬信號,可用一條連續(xù)的曲線來表示,稱為聲波。波形文件:包括了所有的聲音文件。語音:是波形文件,是一種特殊媒體。音樂:規(guī)范的符號化了的聲音,這種符號就是樂譜。2.1.2聲音的分類2.1.3聲音的三要素

模擬聲波信號曲線為一系列正弦波的線性疊加.聲波信號是由基音和泛音組成。頻率最低的音波稱為基頻或基音.除此之外的音波都稱為泛音,其頻率是基頻的整數(shù)倍。音調(diào):聲音的高低叫做音調(diào)(pitch)。音調(diào)與聲音的頻率有關(guān)。音色

:與波形相關(guān),取決于聲波的頻譜,即由混入基音的泛音所決定的。音強:即聲音的響亮程度,與聲音信號的幅度成正比。用聲音信號幅度取對數(shù)后再乘20所得值來描述聲強,以分貝(dB)為單位,此時稱為音量。2.2音頻信號2.2.1音頻

音頻是指人類聽覺所感知范圍內(nèi)的頻率,也稱聲頻。

次聲波(subsonic):頻率低于20Hz的信號。

超聲波(ultrasonic):頻率高于20KHz的信號。音頻(Audio):頻率范圍是20Hz~20KHz的聲音信號,是人耳能聽到的聲音信號,次聲波和超聲波之間的音頻為可聽聲波,即屬于多媒體音頻信息范疇。2.2.2聲音質(zhì)量的度量*客觀質(zhì)量度量——即音頻信號的技術(shù)指標,如:頻帶寬度、動態(tài)范圍和信噪比;*主觀質(zhì)量度量*在語音評價過程中,主觀的質(zhì)量評價較客觀的質(zhì)量評價更為恰當。1.客觀評價指標

(1)頻帶寬度*聲音信號是由許多頻率不同的分量信號組成的復合信號。*復合信號的頻率范圍稱為頻帶寬度。*頻帶越寬,包含的音頻信號越豐富,*通常將音質(zhì)定義為4個等級標準:(1)頻帶寬度1.客觀評價指標

(2)動態(tài)范圍*聲音的動態(tài)范圍:音頻信號的最大強度與最小強度之比。*動態(tài)范圍越大,說明音頻信號的相對變化范圍大,則音響效果越好。音質(zhì)效果AM廣播FM廣播數(shù)字電話CD-DA動態(tài)范圍(dB)4060501001.客觀評價指標

(3)信噪比*信噪比是有用信號與噪聲之比的簡稱。*噪音可分為環(huán)境噪音和設備噪音,*通常信噪比分為系統(tǒng)輸入信號的信噪比SNR(in)和系統(tǒng)輸出信號的信噪比SNR(out)。*信噪比越大,聲音質(zhì)量越好。信噪比的表達式如下:有用信號的平均功率噪聲的平均功率SNR=2.主觀度量法

分數(shù)質(zhì)量級別失真級別5優(yōu)(Excellent)無察覺4良(Good)(剛)察覺但不討厭3中(Fair)(察覺)有點討厭2差(Poor)討厭但不反感1劣(Bad)極討厭(令人反感)2.3聲音信號數(shù)字化

2.3.1聲音信號數(shù)字化過程*數(shù)字化過程:模擬數(shù)字轉(zhuǎn)換(A/D)轉(zhuǎn)換過程。*采樣(sampling):時間上進行離散化處理,即每隔相等的一段時間在聲音信號波形曲線上采集一個信號樣本。*量化(quantization):對采樣后的聲音信號幅值進行離散化處理。如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱為非線性量化。*編碼:將采樣和量化后的數(shù)字化聲音信息以二進制形式并按照一定的數(shù)據(jù)格式進行表示。2.3.2數(shù)字化聲音的技術(shù)指標

1.采樣頻率

*采樣頻率是指單位時間內(nèi)的采樣次數(shù)。*奈奎斯特(HarryNyquist)采樣理論:只要采樣頻率f(1/T)高于輸入信號最高頻率的兩倍,則經(jīng)過采樣后的采樣信號能夠包含原模擬信號的全部信息,且經(jīng)過反變換和低通濾波后可不失真地恢復原模擬信號。*電話話音的信號頻率約為3.4kHz,采樣頻率就選為8kHz.CD激光唱盤采樣頻率為44.1KHz,可記錄的最高音頻為22.05KHz。*采樣的三個標準頻率分別為:44.1KHz,22.05KHz和11.025KHz。2.3.2數(shù)字化聲音的技術(shù)指標

2.量化精度*量化精度是指對模擬音頻信號的幅度進行數(shù)字化二進制表示的位數(shù),它決定了模擬信號數(shù)字化以后的動態(tài)范圍。*一般的量化精度為8位或16位。*量化位數(shù)越高,信號的動態(tài)范圍越大,量化精度越高,但所需要的存貯空間也越大。2.3.2數(shù)字化聲音的技術(shù)指標

3.聲道數(shù)

聲道數(shù)指的是一次同時產(chǎn)生的聲波組數(shù)。(1)單聲道缺乏位置感(2)立體聲*聲音在錄制過程中被分配到兩個獨立的聲道,但所占空間比單聲道多一倍。*這種技術(shù)在音樂欣賞中尤為有用,*依然是許多產(chǎn)品遵循的技術(shù)標準。2.3.2數(shù)字化聲音的技術(shù)指標

3.聲道數(shù)(3)四聲道環(huán)繞規(guī)定了4個發(fā)音點:前左、前右,后左、后右,同時建議增加一個低音音箱,以加強對低頻信號的回放處理(4.1聲道音箱系統(tǒng)廣泛流行的原因)。(4)5.1聲道運用于各類傳統(tǒng)影院和家庭影院中,一些知名的聲音錄制壓縮格式,都以5.1聲音系統(tǒng)為技術(shù)藍本的。增加了一個中置單元,負責傳送低于80Hz的聲音信號,在欣賞影片時有利于加強人聲,把對話集中在整個聲場的中部,增加整體效果。(5)7.1聲道它在5.1的基礎(chǔ)上增加了中左和中右兩個發(fā)音點。當然由于成本比較高,趨于流行還有待時日。2.3.2數(shù)字化聲音的技術(shù)指標

4.編碼算法*作用:采用一定的格式記錄數(shù)字數(shù)據(jù);采用一定的算法壓縮數(shù)字數(shù)據(jù)減少存貯空間和提高傳輸效率。*壓縮算法包括有損壓縮和無損壓縮;有損壓縮指解壓后數(shù)據(jù)不能完全復原,要丟失一部分信息。*壓縮編碼的基本指標之一就是壓縮比,音頻數(shù)據(jù)壓縮比=壓縮后的音頻數(shù)據(jù)/壓縮前的音頻數(shù)據(jù)。*它通常小于1,壓縮比越大,信息丟失越多、信號還原后失真越大。

2.3.2數(shù)字化聲音的技術(shù)指標

5.數(shù)據(jù)率及數(shù)據(jù)文件格式*數(shù)據(jù)率為每秒位數(shù),它與信息在計算機中的實時傳輸有直接關(guān)系,而其總數(shù)據(jù)量又與計算機的存儲空間有直接關(guān)系。*用數(shù)字音頻產(chǎn)生的數(shù)據(jù)一般以WAVE的文件格式存貯,以“.WAV”作為文件擴展名。是Windows下通用的數(shù)字音頻標準,用Windows的媒體播放器可以播放。*MP3的應用雖然很看好,但目前還需專門的播放軟件,如RealPlayer等。2.3.3數(shù)字化聲音的質(zhì)量和存儲量*數(shù)據(jù)量(Byte)=(采樣頻率×量化精度×聲道數(shù)×聲音持續(xù)時間)/8*CD格式1秒:(采樣頻率×量化位數(shù)×聲道數(shù)×聲音持續(xù)時間)/8=(44.1k×16×2×1)/8=0.176MB/s*一個小時CD格式的音樂需要635MB的存貯空間,其實CD最長的重放時間為74分鐘。*5.1聲道每秒鐘的數(shù)據(jù)量為:(采樣頻率×量化位數(shù)×聲道數(shù)×聲音持續(xù)時間)/8=(44.1k×16×5.1×1)/8=0.45MB/s,*一個小時的多聲道格式的音樂需要1.62GB的存儲空間,遠遠大于CD的容量。常用的采樣指標及等效音質(zhì)

數(shù)字音頻等級

采樣頻率(KHz)量化位數(shù)(bit)聲道數(shù)每分鐘的數(shù)據(jù)量(MB,無壓縮)等效音質(zhì)11.0258單聲道0.63語音22.0516雙聲道5.05FM廣播44.116雙聲道10.09CD唱盤常用的采樣指標及等效音質(zhì)

數(shù)字音頻等級

信號類型頻率范圍(Hz)采樣率(kHz)量化位數(shù)(bit)電話話音200~340088寬帶音頻50~70001616調(diào)頻廣播20~15k37.816高質(zhì)量音頻20~20k44.1162.4MIDI接口和音樂合成

MIDI(MusicalInstrumentDigitalInterface)是電子樂器數(shù)字接口的縮寫,是數(shù)字音樂/電子合成樂器國際標準.MIDI是一個協(xié)議,它不是把音樂的波形進行數(shù)字化采樣和編碼,而是將數(shù)字式電子樂器的彈奏過程記錄下來,只包含用于產(chǎn)生特定聲音的指令.電腦把這些指令交由音頻卡去合成相應的聲音,根據(jù)記錄的樂譜指令,通過音樂合成器生成音樂聲波,經(jīng)放大后由揚聲器播出。2.4MIDI接口和音樂合成最初,同一MIDI文件在不同的設備會出現(xiàn)完全不同的放聲效果。GM(GENERALMIDI,通用MIDI)標準得到了Windows操作系統(tǒng)的支持。它規(guī)定了前128中常用樂器的音色編排方式,例如1號是鋼琴,66號是薩克斯管等等,它實際上是對MIDI規(guī)范的補充。

ROLAND公司——GS(GeneralSynthesizer,通用合成器)標準兼容GM的基礎(chǔ)上,提供比GM標準數(shù)量更多的打擊樂器組合更多的特殊音響。Yamaha公司——基于GM標準的XG(ExtendedGeneralMIDI,擴展的通用MIDI)標準。2.4MIDI接口和音樂合成MIDI文件的大小要比WAV文件小的多,即一分鐘的WAV文件約要占用10MB的硬盤空間,而一分鐘的MIDI卻只有區(qū)區(qū)的3.4KB。CMF文件是隨音頻卡一起使用的音樂文件,于MIDI文件非常相似,只是文件頭略有差別;WINDOWS使用的RIFF文件的一種子格式,稱為RMID,擴展名為RMI。2.4.1MIDI術(shù)語(1)MIDI文件

MIDI文件是存放MIDI信息的標準文件格式,MIDI文件中包含音符、定時和多達16個通道的演奏定義。每個通道的演奏音符信息包括:鍵、通道、號、音長、音量和力度(擊鍵時,鍵達到最低位置的速度)。(2)音樂合成器(MusicalSynthesizer)首先利用數(shù)字信號處理器或其它芯片來產(chǎn)生音樂或聲音,然后通過聲音產(chǎn)生器和揚聲器發(fā)出聲音。合成器發(fā)聲的質(zhì)量和聲部取決于合成器能夠同時播放的獨立波形的個數(shù)即泛音的合成。(3)復音(Polyphony)復音指合成器同時支持的最多音符數(shù)。2.4.1MIDI術(shù)語(4)多音色(Timbre)同時演奏幾種不同樂器時發(fā)出的聲音,它著重于同時演奏的樂器數(shù)。(5)MIDI標準

MIDI電子樂器:能產(chǎn)生特定聲音的合成器,其數(shù)據(jù)傳送符合MIDI通信約定。

MIDI消息(message)或指令:樂譜的一種記錄格式,相當于樂譜語言。

MIDI接口(interface):MIDI硬件通信協(xié)議。

MIDI通道(channel):共16個通道,每種通道對應一種邏輯的合成器。

MIDI文件:由控制數(shù)據(jù)和樂譜信息數(shù)據(jù)構(gòu)成。音序器(Sequencer):用來記錄、編輯和播放MIDI文件的軟件。2.4.2用PC機構(gòu)成的MIDI系統(tǒng)

使用PC機構(gòu)造MIDI系統(tǒng):可把MIDI接口和MIDI聲音模塊組合在PC添加卡上。多媒體個人計算機MPC規(guī)范就要求PC添加卡上必須有這樣的聲音模塊,稱為合成器(synthesizer)。電腦播放MIDI文件,必須使用合成器。MIDI合成器的產(chǎn)生方式

(1)FM合成器(FMsynthesis)

通過已有的電子波形來產(chǎn)生聲音的合成器.

產(chǎn)生各種逼真的樂音是相當困難的,有些樂音幾乎不能產(chǎn)生。(2)波表合成器(wavetablesynthesis)

樂器的聲音樣本存儲在音頻卡波形表中,播放時從波形表中取出來??梢援a(chǎn)生更逼真的聲音。2.4.3MIDI文件的特點MIDI數(shù)據(jù)量比聲音文件小的多,采用MIDI格式記錄比采用WAVE格式記錄的數(shù)據(jù)量小兩個數(shù)量級以上。MIDI配音方便,例如當多媒體系統(tǒng)中播放波形聲音文件時(如圖片的一段解說詞),此時若還需配上某種音樂作為解說的效果時,不可能同時調(diào)用兩個波形聲音文件,而播放MIDI文件記錄下來的音樂就很方便了。2.4.3MIDI文件的特點編輯靈活。在音序器的幫助下,用戶可以隨意修改曲子的速度、音調(diào)、音色等屬性,也可以改換樂器的種類,從而產(chǎn)生合適的音樂。表現(xiàn)能力弱。不能與真正的樂器完全相似。不能模擬出自然界中其它非樂曲類聲音。音質(zhì)有待提高。2.5音頻文件格式

2.5.1聲音文件格式(1)波形文件*擴展名為WAV,Windows本身存放數(shù)字聲音的標準格式*通用性的數(shù)字聲音文件格式.*未經(jīng)壓縮處理的音頻數(shù)據(jù),直接記錄聲音的波形.*但文件體積都很大(1分鐘的CD音質(zhì)需要10M字節(jié)),不適于在網(wǎng)絡上傳播。*WAV格式使用媒體播放機可以直接播放。2.5.1聲音文件格式(2)MPEG-3*擴展名為MP3,最流行的聲音文件格式,*壓縮率大,高達10:1~12:1,一分鐘CD音質(zhì)的音樂,未經(jīng)壓縮需要10MB存儲空間,而經(jīng)過MP3壓縮編碼后只有1MB左右,*音質(zhì)基本保持不失真,*在網(wǎng)絡可視電話通信方面應用廣泛,*但和CD唱片相比,音質(zhì)不能令人非常滿意。(3)CDAudio音樂CD*擴展名CDA,是唱片采用的格式,*又叫“紅皮書”格式,*記錄的是波形流,絕對的純正、HIFI。*無法編輯,文件長度太大。(4)CreativeMusicalFormat

擴展名CMF,是Creative公司的專用音樂格式,和MIDI差不多,只是音色、效果上有些特色,專用于FM音頻卡,但其兼容性也很差。2.5.1聲音文件格式(5)VOC文件*Creative公司波形音頻文件格式,也是聲霸卡(soundblaster)使用的音頻文件格式。(6)RealAudio*擴展名RA、RAM,這兩種格式是Real公司開發(fā)的主要適用于網(wǎng)絡上實時數(shù)字音頻流技術(shù)的文件格式。*由于它的面向目標是實時的網(wǎng)上傳播,所以在高保真方面是遠遠不如MP3,但在只需要低保真的網(wǎng)絡傳播方面卻無人能及。*要播放RA、RAM,需要使用RealPlayer。2.5.1聲音文件格式2.5.2MIDI文件格式(1)MIDI*擴展名MID,產(chǎn)業(yè)標準,其科學性、兼容性、復雜程度*短小,一個六分多鐘、有16個樂器的文件也只是80多KB;*缺點是播放效果因軟、硬件而異。使用媒體播放機,好的播放效果,電腦必須支持波表功能。(2)RMI文件

Microsoft公司的MIDI文件格式,包括圖片標記和文本。2.6音頻卡及其應用

2.6.1音頻卡功能

(1)音頻信號的錄制與播放完成音頻信號的A/D和D/A變換,將音頻信號通過音頻卡錄入計算機,并以文件的形式進行保存。在需要播放時,只需調(diào)出相應的聲音文件進行播放,就像普通錄放機一樣。從而使計算機既有圖像顯示,又有聲音輸出。音頻卡還可以與CD-ROM驅(qū)動器相連,實現(xiàn)對CD唱片、VCD、MP3音樂的播放。2.6音頻卡及其應用

2.6.1音頻卡功能音頻信號編輯與合成——數(shù)字音頻編輯器,它可以對聲音文件進行多種特殊效果處理,對音樂愛好者都是非常有用的。MIDI接口和音樂合成——樂器數(shù)字接口的標準,它規(guī)定了電子樂器與計算機之間相互數(shù)據(jù)通信的協(xié)議。通過軟件,計算機可以直接對外部電子樂器進行控制和操作。2.6.2音頻卡工作原理2.6.3音頻卡安裝和使用

2.6.4音頻軟件的使用Windows本身自帶的錄音機:使用它可錄音,只能錄制1分鐘的聲音文件.音頻卡自帶的工具:如果你的計算機安裝有聲音卡,一般來說都附帶有音頻軟件。網(wǎng)絡上下載的工具:如CoolEdit工具,就可以在網(wǎng)上下載免費試用版。類似的工具還有g(shù)oldwave公司的聲音工具,Cakewalk,Cubase等。2.7語音輸入輸出技術(shù)

2.7.1語音識別語音識別以語音為研究對象,是語音信號處理的一個重要研究方向,是模式識別的一個分支,其目的就是要讓機器具有人的聽覺功能,在人機語音通訊中“聽懂”人類口述的語言。語音識別的識別內(nèi)容可分為:狹義的語音識別(SpeechRecognition):排除不同人的發(fā)音差異(如發(fā)聲頻率。說話習慣,口音等),力求提取代表語意的共性特征,“理解”發(fā)音人所說的話。說話人語音識別(SpeakerRecognition):又稱為話者識別,是尋求不同說話人的個性特征,以辨認出說話人的身份。

語音識別的兩大階段:

訓練階段:在機器中建立被識別語音的標準樣板或模型庫,或者對已存在機器中的樣板或模型做特定發(fā)音人的適應性修改。識別階段:將被識別的特征參量提取出來進行模式匹配,相似度最大者即為被識別語音。

語音識別的兩大階段:

2.7.2語音合成1.語音合成的基本概念語音合成包含兩種可能實現(xiàn)的途徑。一種是所謂的錄音/重放模式,使機器再生一個預先存入的語音信號,就像普通的錄音機一樣,不同之處是采用了數(shù)字存儲技術(shù)。另一種可能是采用數(shù)字信號處理的方法,將人類發(fā)聲過程看作是一個模擬聲門狀態(tài)的源,去激勵一個表征聲道諧振特性的時變數(shù)字濾波器,這個源可能是周期脈沖序列,它代表濁音情況下的聲帶振動,或者是隨機噪聲序列,代表不出聲的清音。語音數(shù)據(jù)的存儲語音數(shù)據(jù)的存儲形式可分為兩大類:波形存儲和參數(shù)存儲,取決于合成算法。為減少數(shù)據(jù)量,一般要對語音數(shù)據(jù)進行壓縮。波形存儲方式:存儲數(shù)字化的語音波形數(shù)據(jù)。常用的編碼方式有PCM,ADPCM等。波形存儲方式的主要優(yōu)點是編碼和解碼算法簡單,易于實時實現(xiàn),缺點是數(shù)據(jù)量大。參數(shù)存儲方式:存儲從語音信號中提取的參數(shù),常用的有LPC參數(shù),ISP(1SF),共振峰參數(shù)等。參數(shù)存儲方式的主要優(yōu)點是數(shù)據(jù)量小,易于實現(xiàn)韻律修改,但有限的參數(shù)很難表述自然語音的細微變化。文語轉(zhuǎn)換技術(shù)文語轉(zhuǎn)換過程先將文字序列轉(zhuǎn)換成音韻序列,再由語音合成器生成語音波形。第一步涉及語言學處理,例如分詞、字音轉(zhuǎn)換等,以及一整套有效的韻律控制規(guī)則;第二步需要先進的語音合成技術(shù),能按要求實時合成出高質(zhì)量的語音流。文語合成系統(tǒng)需要一套復雜的文字序列到音素序列的轉(zhuǎn)換程序,也就是說,文語轉(zhuǎn)換系統(tǒng)不僅要應用數(shù)字信號處理技術(shù),而且必須有大量的語言學知識的支持。語音合成是最基本的部分,任何語言合成系統(tǒng)都包括文語轉(zhuǎn)換系統(tǒng),都離不開語音合成器。語音合成系統(tǒng)的組成部分文本分析:使計算機從文本中認識文字,知道要發(fā)什么音、怎么發(fā)音。還要讓計算機知道,在文本中,哪些是詞,哪些是短語或句子,發(fā)音時應該到哪里停頓及停頓多長時間等。韻律生成:早期均采用基于規(guī)則的方法。要求系統(tǒng)設計人員花費大量的時間和精力去研究不同語種普遍存在的韻律特征,生成語音的自然度受到較多的限制。只追求發(fā)音的自然,掩蓋了人的個性。語音合成:從參數(shù)合成到拼接合成,再到兩者的逐步結(jié)合。3.1顏色的基本概念3.1.1顏色的形成顏色的形成主要有四個要素:光源、物體、眼睛和大腦物體可以分為兩大類:發(fā)光物體和吸光物體三基色:紅綠藍3.1.1顏色的形成3.1.2色彩的三要素色調(diào)(hue):色調(diào)的自然次序:紅、橙、黃、綠、青、藍、靛、紫色調(diào)在顏色圓上用圓周表示,圓周上的顏色具有相同的飽和度和明度,但它們的色調(diào)不同,太陽光帶中的六標準色與六個中間色,即紅橙,黃橙,黃綠,藍綠(青),藍紫,紅紫(品紅),合稱十二色相或色調(diào)。

3.1.2色彩的三要素把不同的色調(diào)按紅橙黃綠藍紫的順序銜接起來,就形成了一個色調(diào)連續(xù)變化過渡的圓環(huán),稱作為色環(huán)。

圖3-2色環(huán)3.1.2色彩的三要素亮度(luminance)亮度是光作用于人眼時引起的明亮程度的感覺。一般來說,彩色光能量大則顯得亮,反之則暗。當彩色光的強度降到使人看不到了,在亮度標尺上應與黑色對應;同樣,對于其照射強度變的很大時,在亮度標尺上應與白色對應。

3.1.2色彩的三要素亮度可以說是指各種純正的色彩相互比較所產(chǎn)生的明暗差別。在純正光譜中,黃色的明度最高,顯得最亮;其次是橙、綠;再其次是紅、藍;紫色明度最低,顯得最暗。

3.1.2色彩的三要素飽和度(Saturation):是指彩色光所呈現(xiàn)顏色的深淺或純潔程度。對于同一色調(diào)的彩色光,其飽和度越高,顏色就越純;而飽和度越小,顏色就越淺,或純度越低。一般來說,彩色光能量大則顯得亮,反之則暗。當彩色光的強度降到使人看不到了,在亮度標尺上應與黑色對應;同樣,對于其照射強度變的很大時,在亮度標尺上應與白色對應。

3.1.2色彩的三要素例如:紅+白—>粉紅的這個過程中,基本色調(diào)沒有變化,但飽和度降低。如下圖3-4所示:3.1.2色彩的三要素飽和度還和亮度有關(guān),同一色調(diào)越亮或越暗越不純。

100%飽和度的色光就代表完全沒有混入白光的純色光。如下圖3-5所示:3.1.3三基色:基色(primarycolor)

基色是指互為獨立的單色,任一基色都不能由其他兩種基色混合產(chǎn)生。三基色

(tri-chrominanceprimary)

三基色是根據(jù)人眼對彩色視覺的大量實驗而做出的選擇(紅色、綠色和藍色)三基色的選擇不唯一,也可選擇另外三種顏色為三基色(青、品紅、黃)。青黃品紅紅綠白藍圖3-6三基色原理3.1.3三基色:互補色

凡是兩種色光相混合而成白光,這兩種色光互為補色(ComplementaryColors)。如上圖所示紅、青;綠、品紅;藍、黃互為補色。互補色是彼此之間最不一樣的顏色,這就是人眼能看到除了基色之外其它色的原因。

3.2色彩模型:色彩模型(colormodel)是用來精確標定和生成各種顏色的一套規(guī)則和定義。

幾種經(jīng)常使用的色彩模型:

RGB色彩模型

HSI色彩模型

CMYK色彩模型

YUV色彩模型

Lab色彩模型3.2.1RGB色彩模型根據(jù)三基色原理,用基色光單位來表示光的量,則在RGB色彩模型,任意色光F都可以用R、G、B三色不同分量的相加混合而成:F=r[R]+g[G]+b[B]

圖3-7RGB色彩模型3.2.2HSI色彩模型

HSI色彩模型是從人的視覺系統(tǒng)出發(fā),直接使用顏色三要素色調(diào)(Hue)、飽和度(Saturation)和亮度(luminance)來描述色彩白黑亮度飽和度紅橙黃綠黃綠藍綠綠藍藍紫亮度亮度圖3-8HSI色彩模型3.2.2HSI色彩模型

HSI色彩模型和RGB色彩模型只是同一物理量的不同表示法,因而它們之間存在著轉(zhuǎn)換關(guān)系,如公式3-1所示:

3.2.3CMYK色彩模型

任何一種由顏料表現(xiàn)的色彩都可以用這三種基色按不同的比例混合而成,這種色彩表示方法稱CMY色彩模型表示法。

青黃品紅紅綠黑藍圖3-9CMYK色彩模型3.2.4YUV色彩模型

在彩色電視發(fā)展的初期,社會上已經(jīng)存在了相當數(shù)量的黑白電視機和黑白電視臺,為了擴大節(jié)目的收視率,要求彩色電視機的設計必須考慮到與已有的黑白電視兼容。

為了滿足兼容的要求,需要將表示亮度和表示色彩的信號的分離開來,黑白電視或電視臺只處理亮度信號,略去彩色信號,這就產(chǎn)生了YUV色彩模型。其中

Y表示亮度,U、V表示色差。3.2.5Lab色彩模型Lab色彩模型是是由國際照明委員會于1976年公布的,它用亮度和色差來描述顏色分量,其中L為亮度、a和b分別為各色差分量。

3.3.1圖形圖像基本概念圖形:反映物體的局部特性,它是真實物體的模型化;圖像:反映物體的整體特性,是物體的真實再現(xiàn)。圖形處理:在計算機上借助數(shù)學的方法生成、處理和顯示圖形。圖像處理:將客觀世界中實際存在的物體映射成數(shù)字化圖像,然后在計算機上用數(shù)學的方法對數(shù)字化圖像進行處理。3.3.2數(shù)字圖像的種類矢量圖位圖矢量圖形和位圖圖像的區(qū)別:矢量圖側(cè)重于“繪制”、去創(chuàng)造,而位圖偏重于“獲取”、去“復制”3.3.2數(shù)字圖像的種類3.3.3圖像的重要參數(shù)分辨率顯示分辨率圖像分辨率像素分辨率

顏色深度

最大顏色數(shù)3.3.4顏色深度與色彩類型

圖像深度與色彩的映射關(guān)系主要有:真彩色:是指圖像中的每個像素值都分成R、G、B三個基色分量,每個基色分量直接決定其基色的強度,這樣產(chǎn)生的色彩稱為真彩色。

偽彩色:圖像的每個像素的顏色不是由每個基色分量的數(shù)值直接決定,而是把像素值當作彩色查找表(colorlook-uptable,CLUT)的表項入口地址,去查找一個顯示圖像時使用的R,G,B強度值,用查找出的R,G,B強度值產(chǎn)生的彩色稱為偽彩色。

3.3.4顏色深度與色彩類型

直接色:直接色的獲取是通過每個像素點的R、G、B分量分別作為單獨的索引值進行變換,經(jīng)相應的顏色變換表找出各自的基色強度,用變換后的R、G、B強度值產(chǎn)生的顏色。直接色與偽彩色相比,相同之處是都采用查找表,不同之處是前者對R、G、B分量分別進行查找變換,后者是把整個像素當作查找的索引進行查找變換。因此,直接色的效果一般比偽彩色好。3.3.4顏色深度與色彩類型

3.3.5圖像數(shù)據(jù)量公式:圖像數(shù)據(jù)量=圖像分辨率×顏色深度/8(Byte)例如:一幅640×480的真彩色圖像,未壓縮的原始數(shù)據(jù)量為:640×480×24/8=921600B=900KB3.3.6圖像的獲取、顯示、

表示與處理圖像獲?。簣D像獲取也就是圖像的數(shù)字化過程,即將圖像采集到計算機中的過程,主要涉及成像及模數(shù)轉(zhuǎn)換(A/DConverter)技術(shù)。3.3.6圖像的獲取、顯示、

表示與處理圖像顯示圖像顯示是將數(shù)字圖像轉(zhuǎn)化為適合們使用的形式,便于人們觀察和理解,通常圖像都表現(xiàn)為一矩形區(qū)域的位圖形式。

3.3.6圖像的獲取、顯示、

表示與處理圖像表示主要涉及到以下三種,

單色圖像:通常每個像素用一個字節(jié)來表示。

灰度圖像:表示像素的灰度范圍,比如是256級灰度;如果是RGB色彩模式,只有當R=G=B,這個顏色就屬于灰度。

彩色圖像:包括前面提到16色、256色和真彩色等。

3.3.6圖像的獲取、顯示、表示與處理圖像處理主要包括:圖像輸入輸出圖像表示轉(zhuǎn)換圖像處理分析圖像理解解釋

3.4圖像文件格式BMP文件:是Windows系統(tǒng)下的標準格式PSD文件:圖像處理軟件Photoshop的專用格式

JPEG文件:壓縮靜態(tài)數(shù)字圖像的國際標準

GIF文件:是一種Web上常用的圖像格式

TIFF文件:是由Aldus和微軟聯(lián)合開發(fā),最初是出于跨平臺存儲掃描圖像的需要而設計的。它的特點是圖像格式復雜、存貯信息多。

3.4圖像文件格式PCX文件:是ZSOFT公司在開發(fā)圖像處理軟件Paintbrush時開發(fā)的一種格式

DXF文件:是AutoCAD中的矢量文件格式

WMF文件:是Windows中常見的一種圖元文件格式,屬于矢量文件格式TGA文件:屬于一種圖形、圖像數(shù)據(jù)的通用格式

PNG文件:是一種新興的網(wǎng)絡圖像格式,它汲取了GIF和JPG二者的優(yōu)點并將之發(fā)揮得淋漓盡致

SVG文件:是基于XML4.1動畫的視覺原理

動畫之所以成為可能,是因為人類的眼睛具有一種所謂的“視覺殘留”的生物現(xiàn)象。這就是說當一場景從人眼中消失后,該場景在視網(wǎng)膜上不會立即消失,而是要保留一段時間。

4.2動畫的分類:根據(jù)動畫反映的空間范圍,動畫分為:二維動畫三維動畫根據(jù)播放時畫面的生成途徑,動畫分為:造型動畫幀動畫

4.3計算機動畫的特點高技術(shù)高智力高藝術(shù)

4.4技術(shù)參數(shù)幀速度:一幀就是一幅靜態(tài)圖像,而幀速度表示一秒鐘的動畫內(nèi)有幾幀靜態(tài)畫面數(shù)據(jù)量:在不計壓縮的情況下,數(shù)據(jù)量是指幀速度乘以每幅圖像的數(shù)據(jù)量。如果一幅圖像為1MB,則每秒將達到30MB,

圖像質(zhì)量:圖像質(zhì)量和壓縮的倍數(shù)有關(guān)

4.5動畫設計與創(chuàng)意創(chuàng)意設計應用環(huán)境總體構(gòu)圖動畫素材處理動畫生成文字編排4.5動畫設計與創(chuàng)意項目經(jīng)理美工動畫師電腦繪圖光刻攝影編劇導演有關(guān)內(nèi)容專家錄音師旁白配音演奏師程序員圖4-1制作多媒體動畫人員組織4.6動畫文件格式GIF文件:可以同時存儲若干幅靜止圖像并進而形成連續(xù)的動畫

FLIC格式:是Autodesk公司在其2D/3D動畫制作軟件中采用的彩色動畫文件格式

SWF格式:是Macromedia公司的產(chǎn)品Flash的矢量動畫格式

DIR格式:Director的動畫格式,擴展名為DIR4.7動畫制作軟件二維動畫以FlashMX為主三維動畫是3DMax軟件5.1模擬視頻

模擬視頻是以模擬電信號的形式來記錄,依靠模擬調(diào)幅的手段在空間傳播,使用盒式磁帶錄像機將視頻作為模擬信號存放在磁帶上。5.1.1視覺的時間域響應特性:讓觀察者觀察按時間重復的亮度脈沖,如果閃爍頻率比較低,人眼就有一亮一暗的感覺。如果閃爍頻率足夠高,人眼看到的則是一個恒定的亮點閃爍感剛好消失的重復頻率叫做臨界閃爍頻率,經(jīng)測定為46HZ。心理視覺研究表明如果場頻大于50次/秒,人眼就感覺不到閃爍。5.1.2黑白電視信號電視基本原理:逐行掃描和傳輸圖像信號,然后在接收端同步再現(xiàn)。最常用的掃描方法是光柵掃描,分為:隔行掃描(interlacedscanning)逐行掃描(progressivescanning)。

5.1.2黑白電視信號光柵掃描主要有四個重要參數(shù):掃描線幀水平回掃期垂直回掃期5.1.2黑白電視信號模擬視頻信號的重要參數(shù):垂直清晰度(verticalresolution)寬高比(aspectratio)場頻幀頻5.1.3彩色電視信號彩色與黑白電視信號的兼容:所謂黑白電視與彩色電視的兼容是指黑白電視機能接收彩色電視廣播,顯示的是黑白圖像,彩色電視機能接收黑白電視廣播,顯示的也是黑白圖像,這叫逆兼容性。

5.1.3彩色電視信號兼容的實現(xiàn):

在彩色電視信號中首先必須使亮度和色度信號分開傳送,以便使黑白電視和彩色電視能夠分別重現(xiàn)黑白和彩色圖像;

盡量壓縮彩色電視信號的頻帶寬度,使其與黑白電視信號的帶寬相同;

除了新設置的色同步信號以外,應采用與黑白電視信號完全一致的行、場掃描以及消隱、同步等控制信號。

5.1.4彩色電視的制式目前世界上現(xiàn)行的彩色電視制式有三種:NTSC制:用于北美和日本

PAL制:主要用于西歐和中國。

SECAM制:主要集中在法國、東歐和中東一帶。5.1.4彩色電視的制式5.1.4彩色電視的制式為了既能實現(xiàn)兼容性又有彩色特性,彩色電視系統(tǒng)應滿足下列幾方面的要求:

必需采用與黑白電視相同的一些基本參數(shù)需要將攝像機輸出的三基色信號轉(zhuǎn)換成一個亮度信號,以及代表色度的兩個色差信號,并將它們組合成一個彩色全電視信號進行傳送。在接收端,彩色電視機將彩色全電視信號重新轉(zhuǎn)換成三個基色信號,在顯像管上重現(xiàn)發(fā)送端的彩色圖像。5.1.5模擬視頻標準復合視頻:包含亮度信號、色差信號和所有定時同步信號的單一電視信號,占用單倍帶寬傳輸;

分量視頻:是指每個分量都是一個單獨的單色視頻信號,三個分量(R、G、B)完全同步;

分離視頻:是前面兩種的折衷,將色度信號組合后加上亮度信號共兩個信號參與傳輸,

5.2數(shù)字視頻數(shù)字視頻的概念

:數(shù)字視頻是基于數(shù)字技術(shù)記錄的,它在時間和幅度上都是離散的,可以無限次的復制,但不產(chǎn)生失真,并且可以通過計算機隨意的編輯和再創(chuàng)作。5.2.2數(shù)字視頻的特點易于處理傳輸穩(wěn)定,抗干擾能力強,不失真交互能力強,集成各種視頻應用按照需要和傳輸能力改變圖像質(zhì)量和傳輸速率5.2.3數(shù)字視頻的格式AVI格式MOV、QT格式MPG格式DAT格式RAM與RA格式5.3數(shù)字電視什么是數(shù)字電視?

數(shù)字電視系統(tǒng)是將活動圖像、聲音和數(shù)據(jù),通過數(shù)字技術(shù)進行壓縮、編碼、傳輸/存儲,而實時發(fā)送/廣播或者經(jīng)過記錄媒體的傳播,供觀眾接收/播放的視聽系統(tǒng)。5.3.1數(shù)字電視分類標準清晰度數(shù)字電視(SDTV)高清晰度數(shù)字電視(HDTV)

5.4多媒體視頻與音頻同步音頻與視頻復合序列的同步5.4多媒體視頻與音頻同步音頻與視頻分離的同步圖5-3視頻播放等待5.4多媒體視頻與音頻同步音頻與視頻分離的同步5.5視頻點播與交互電視交互電視的概念

交互電視ITV系統(tǒng)是近年來新出現(xiàn)的一種新的信息服務形式,它為普通的電視機增加了交互能力,使人們可以按照自己的需求獲取各種網(wǎng)絡服務,包括視頻服務、數(shù)字圖書館服務、多媒體信息服務等。視頻點播的概念

把用戶選擇的節(jié)目,通過通信網(wǎng)的傳輸,分發(fā)到用戶終端設備上。

5.5視頻點播與交互電視交互視頻服務的主要應用:

電影點播交互電視新聞目錄例覽遠程學習交互廣告交互視頻游戲數(shù)據(jù)壓縮通俗地說,數(shù)據(jù)壓縮就是用最少的數(shù)碼來表示信號。其作用是:能較快地傳輸各種信號,如傳真、Modem通信等;在現(xiàn)有的通信干線并行開通更多的多媒體業(yè)務,如各種增值業(yè)務;緊縮數(shù)據(jù)存儲容量,如CD-ROM、VCD和DVD等;降低發(fā)信機功率,這對于多媒體移動通信系統(tǒng)尤為重要。由此看來,通信時間、傳輸帶寬、存儲空間甚至發(fā)射能量,都可能成為數(shù)據(jù)壓縮的原因。6.1多媒體數(shù)據(jù)壓縮概述

數(shù)據(jù)壓縮的重要性壓縮的可能性冗余的種類壓縮原理壓縮方法分類6.1.1數(shù)據(jù)壓縮的重要性多媒體數(shù)據(jù)為什么要進行壓縮,主要原因有:1.原始采樣的媒體數(shù)據(jù)量巨大:2.有效利用存儲器存儲容量:3.提高通信線路的傳輸效率;4.消除計算機系統(tǒng)處理視頻I/O瓶頸

6.1.2壓縮的可能性多媒體數(shù)據(jù)就像海綿一樣是可以壓縮的,因為多媒體數(shù)據(jù)包括兩部分內(nèi)容:信息和冗余數(shù)據(jù),信息是有用的數(shù)據(jù),而冗員數(shù)據(jù)就是無用的內(nèi)容,可以壓縮掉。冗余的具體表現(xiàn)就是相同或者相似信息的重復。冗余為數(shù)據(jù)壓縮技術(shù)的應用提供了可能6.1.3冗余的種類1.空間冗余靜態(tài)圖像中存在的最主要的一種數(shù)據(jù)冗余。同一景物表面上采樣點的顏色之間往往存在著空間連貫性,但是基于離散像素采樣來表示物體顏色的方式通常沒有利用這種連貫性。例如:圖像中有一片連續(xù)的區(qū)域,其像素為相同的顏色,空間冗余產(chǎn)生。6.1.3冗余的種類2.時間冗余運動圖像中經(jīng)常包含的冗余。一組連續(xù)的畫面之間往往存在著時間和空間的相關(guān)性,但是基于離散時間采樣來表示運動圖像的方式通常沒有利用這種連貫性。例如:房間里的兩個人在聊天,在這個聊天的過程中,背景(房間和家具)一直是相同的,同時也沒有移動,而且是同樣的兩個人在聊天,只有動作和位置的變化。6.1.3冗余的種類3.結(jié)構(gòu)冗余在某些場景中,存在著明顯的圖像分布模式,這種分布模式稱作結(jié)構(gòu)。圖像中重復出現(xiàn)或相近的紋理結(jié)構(gòu),結(jié)構(gòu)可以通過特定的過程來生成。例如:方格狀的地板,蜂窩,磚墻,草席等圖結(jié)構(gòu)上存在冗余。6.1.3冗余的種類4.知識冗余有些圖像的理解與某些知識有相當大的相關(guān)性。這類規(guī)律性的結(jié)構(gòu)可以由經(jīng)驗知識和背景知識得到。例如:人臉的圖像有固定的結(jié)構(gòu),嘴的上方是鼻子,鼻子的上方是眼睛,鼻子位于正臉圖像的中線上。知識冗余是模型編碼的基礎(chǔ)。6.1.3冗余的種類5.視覺冗余人類的視覺系統(tǒng)對圖像場的敏感性是非均勻和非線性的。對亮度變化敏感,而對色度的變化相對不敏感;在高亮度區(qū),人眼對亮度變化敏感度下降;對物體邊緣敏感,內(nèi)部區(qū)域相對不敏感;對整體結(jié)構(gòu)敏感,而對內(nèi)部細節(jié)相對不敏感??梢愿鶕?jù)這些視覺特性對圖像信息進行取舍。6.1.3冗余的種類6.圖像區(qū)域的相同性冗余圖像中的兩個或者多個區(qū)域所對應的所有像素值相同或者相近,從而產(chǎn)生數(shù)據(jù)重復性存儲,這種冗余是矢量量化的基礎(chǔ)。7.紋理的統(tǒng)計冗余有些圖像紋理盡管不嚴格服從某個分布規(guī)律,但是在統(tǒng)計意義上服從這種規(guī)律。6.1.4壓縮原理壓縮原理以一定的質(zhì)量損失為代價,按照某種方法從給定的信源中推出簡化的數(shù)據(jù)描述—減少原始信源的冗余度。質(zhì)量損失一般都是在人眼允許的誤差范圍之內(nèi),壓縮前后的圖像如果不做非常細致的對比是很難覺察出兩者的差別。6.1.4壓縮原理1.圖像壓縮系統(tǒng)的組成變換器量化器編碼器輸入圖像二進制位流6.1.4壓縮原理A.變換器變換器把輸入的圖像數(shù)據(jù)加上一對一的映射,經(jīng)過變換以后所形成的圖像數(shù)據(jù)比原始圖像數(shù)據(jù)更有利于壓縮。映射的方法有三種:

1.線性預測映射:將像素值映射到它和預測值之間的差。

2.單映射:如離散余弦變換(DCT),把圖像映射到若干個系數(shù)。

3.多映射:如子帶分解和小波變換。6.1.4壓縮原理B.量化器量化器用來生成一組有限個符號用來表示壓縮的圖像。量化是多到一的映射,是丟失信息和不可逆的。有兩種量化方式:

1.標量量化:對像素逐個量化。

2.矢量量化:

多個像素為一組同時量化。6.1.4壓縮原理C.編碼器編碼器給量化器輸出的每個符號指定一個碼字,即生成二進制位流。有兩種編碼方式:

1.定長編碼:每個符號指定的碼字具有相同的長度。

2.變長編碼(熵編碼):根據(jù)符號出現(xiàn)的頻率來決定為其指定碼字的長度,頻率高則碼字短,反之則長。6.1.4壓縮原理2.圖像壓縮說明視頻壓縮與語音相比,語音的數(shù)據(jù)量較小,且基本壓縮方法已經(jīng)成熟,目前的數(shù)據(jù)壓縮研究主要集中于圖像和視頻信號的壓縮方面。壓縮處理過程有兩個過程,編碼過程是將原始數(shù)據(jù)經(jīng)過編碼進行壓縮,以便存儲與傳輸;解碼過程是對編碼數(shù)據(jù)進行解碼,還原為可以使用的數(shù)據(jù)。6.1.4壓縮原理3.判斷一種壓縮方法優(yōu)劣的標準衡量一種數(shù)據(jù)壓縮技術(shù)的好壞有四個重要的指標:

壓縮比大:即壓縮前后所需要的信息存儲量之比要大。

算法簡單:實現(xiàn)壓縮的算法簡單,壓縮、解壓速度快,盡可能地做到實時壓縮解壓。

恢復效果好:恢復效果好,要盡可能地恢復原始數(shù)據(jù)。

壓縮能否用硬件實現(xiàn).6.1.4壓縮原理4.數(shù)據(jù)壓縮方法的分類冗余壓縮法也稱無損壓縮法,無損壓縮是指使用壓縮后的數(shù)據(jù)可以解壓縮,且解壓之后的數(shù)據(jù)與原來的數(shù)據(jù)完全相同。它利用數(shù)據(jù)的統(tǒng)計冗余進行壓縮,可完全恢復原始數(shù)據(jù)而不引入任何失真,但壓縮率受到數(shù)據(jù)統(tǒng)計冗余度的理論限制,一般為2:1到5:1。熵壓縮法也稱有損壓縮法,有失真壓縮,是指使用壓縮后的數(shù)據(jù)進行解壓縮,解壓之后的數(shù)據(jù)與原來的數(shù)據(jù)有所不同,但不會讓人對原始資料表達的信息造成誤解。6.1.4壓縮原理數(shù)據(jù)壓縮方法的分類

冗余壓縮法與熵壓縮法的比較在圖像壓縮系統(tǒng)組成中,變換和編碼是無損耗的,而量化是有損耗的。無損壓縮方法僅利用了統(tǒng)計冗余,而沒有利用量化器。有損壓縮方法既利用了統(tǒng)計冗余又采用了量化器,利用了心理視覺冗余。冗余壓縮法:熵壓縮法:6.1.5壓縮方法分類根據(jù)壓縮方法的原理,可將其具體劃分為以下幾種:1.量化與向量量化編碼

量化過程就是將連續(xù)的模擬量通過采樣,離散化為數(shù)字量的過程。對像素進行量化時,可以一次量化多個點,這種方法就是向量量化。例如,可以每次量化相鄰的兩個點,這樣就可將這兩點用一個量化碼字表示,達到數(shù)據(jù)壓縮的目的。其數(shù)據(jù)壓縮能力與預測編碼方法相近,本質(zhì)上也是針對統(tǒng)計冗余的壓縮。6.1.5壓縮方法分類2.預測編碼(適用于空間冗余和時間冗余)

預測編碼的方法是從相鄰像素之間有較強的相關(guān)性特點考慮,比如當前像素的灰度或顏色信號,數(shù)值上與其相鄰像素總是比較接近,除非處于邊界狀態(tài),那么,當前像素的灰度或顏色信號的數(shù)值,可用前面已出現(xiàn)的像素的值進行預測(估計),得到一個預測值(估計值),將實際值與預測值求差,對這個差值信號進行編碼、傳送,這種編碼方法稱為預測編碼方法。預測編碼方法分線性預測和非線性預測編碼兩種。6.1.5壓縮方法分類3.變換編碼變換編碼不是直接對空域圖像信號進行編碼,而是首先將空域圖像信號映射變換到另一個正交矢量空間(變換域或頻域),產(chǎn)生一批變換系數(shù),然后對這些變換系數(shù)進行編碼處理。其中關(guān)鍵問題是在時域或空域描述時,數(shù)據(jù)之間相關(guān)性大,數(shù)據(jù)冗余度大,經(jīng)過變換在變換域中描述,數(shù)據(jù)相關(guān)性大大減少,數(shù)據(jù)冗余量減少,參數(shù)獨立,數(shù)據(jù)量少,這樣再進行量化,編碼就能得到較大的壓縮比。目前常用的正交變換有:傅立葉(Fouries)變換、沃爾什(Walsh)變換、哈爾(Haar)變換、斜(Slant)變換、余弦變換、正弦變換、K-L(Karhunen-Loeve)變換等。6.1.5壓縮方法分類4.信息熵編碼信息熵編碼就是利用信息的相關(guān)性壓縮冗余度。它根據(jù)信息熵原理,對出現(xiàn)概率大的用短的碼字表示,反之用較長的碼字表示,目的是減少符號序列的冗余度,提高碼字符號的平均信息量。最常見的方法有哈夫曼編碼、行程編碼和算術(shù)編碼。5.混合編碼它是變換編碼和預測編碼的結(jié)合編碼方法,通常有兩種形式:一種方法是在某一方向進行酉變換,在另一方向上用DPCM對變換系數(shù)進行預測編碼;另一種是二維變換加上時間方向上的DPCM預測。6.2數(shù)據(jù)壓縮的發(fā)展歷程

1952年提出有效的壓縮方法Huffman編碼;80年代,設計出更能接近信息論中“熵”極限的編碼方法——算術(shù)編碼。1984年,TerryWelch實現(xiàn)了LZ78算法的一個變種LZW80年代中期以后,人們對LZ77進行了改進,目前,基于字典方式的壓縮已經(jīng)有了一個被廣泛認可的標準,從古老的PKZip到現(xiàn)在的WinZip,特別是隨著Internet上文件傳輸?shù)牧餍?,ZIP格式成為了事實上的標準,6.3數(shù)據(jù)壓縮的技術(shù)基礎(chǔ)

熵的概念數(shù)據(jù)壓縮模型數(shù)據(jù)壓縮編碼6.3.1熵的概念數(shù)據(jù)壓縮不僅起源于40年代由ClaudeShannon首創(chuàng)的信息論,而且其基本原理即信息究竟能被壓縮到多小,至今依然遵循信息論中的一條定理,這條定理借用了熱力學中的名詞“熵”(Entropy)來表示一條信息中真正需要編碼的信息量,即數(shù)據(jù)壓縮的理論極限。對于任何一種無損數(shù)據(jù)壓縮,最終的數(shù)據(jù)量一定大于信息熵,數(shù)據(jù)量越接近于熵值,說明其壓縮效果越好,假定一種無損數(shù)據(jù)壓縮之后數(shù)據(jù)量小于信息熵,只能說明一個問題,說明其數(shù)據(jù)壓縮肯定出錯了。6.3.1熵的概念信息熵如何來計算:在計算機內(nèi)部是用二進制來表示數(shù)據(jù)的,現(xiàn)在要用0和1組成的二進制數(shù)碼來為含有n個符號的某條信息編碼,假設符號Fn在整條信息中重復出現(xiàn)的概率為Pn,則該符號的熵En也即表示該符號所需的位數(shù)為:En=log2(1/Pn)=-log2(Pn)

整條信息的熵E也即表示整條信息所需的位數(shù)為:E=∑En

6.3.1熵的概念舉個例子:字符串:aabbaccbaa字符串長度為10,字符a、b、c分別出現(xiàn)了5、3、2次,則a、b、c在信息中出現(xiàn)的概率分別為0.5、0.3、0.2,他們的熵分別為:Ea=-log2(0.5)=1Eb=-log2(0.3)=1.737Ec=-log2(0.2)=2.322整條信息的熵為:E=Ea*5+Eb*3+Ec*2=14.855位6.3.2數(shù)據(jù)壓縮模型在壓縮程序中,用來處理輸入信息,計算符號的概率并決定輸出哪個或哪些代碼的模塊叫做數(shù)據(jù)壓縮模型,主要有靜態(tài)統(tǒng)計模型和自適應模型。預先掃描文件中的所有字符,統(tǒng)計出每個字符出現(xiàn)的概率,這種方法在壓縮術(shù)語里叫做“靜態(tài)統(tǒng)計模型”。在實際應用中,“靜態(tài)統(tǒng)計模型”應用的很少。6.3.2數(shù)據(jù)壓縮模型真正的壓縮程序中使用的大多是一種叫“自適應模型”的東西。自適應模型可以說是一臺具有學習功能的自動機。它是在信息被輸入之前對信息內(nèi)容一無所知并假定每個字符的出現(xiàn)概率均等,隨著字符不斷被輸入和編碼,它統(tǒng)計并紀錄已經(jīng)出現(xiàn)過的字符的概率并將這些概率應用于對后續(xù)字符的編碼。自適應模型還可以適應輸入信息中字符分布的突然變化,可以適應不同的文件中的字符分布而不需要保存概率表。6.3.2數(shù)據(jù)壓縮模型上面提到的模型可以統(tǒng)稱為“統(tǒng)計模型”,因為它們都是基于對每個字符出現(xiàn)次數(shù)的統(tǒng)計得到字符概率的。另一大類模型叫做“字典模型”。他并不直接計算字符出現(xiàn)的概率,而是使用一本字典,隨著輸入信息的讀入,模型找出輸入信息在字典中匹配的最長的字符串,然后輸出該字符串在字典中的索引信息。匹配越長,壓縮效果越好。事實上,字典模型本質(zhì)上仍然是基于對字符概率的計算的,只不過,字典模型使用整個字符串的匹配代替了對某一字符重復次數(shù)的統(tǒng)計。6.3.3數(shù)據(jù)壓縮編碼通過模型,已經(jīng)確定了對某一個符號該用多少位二進制數(shù)進行編碼。現(xiàn)在的問題是,如何設計一種編碼方案,使其盡量精確地用模型計算出來的位數(shù)表示某個符號。最先被考慮的問題是,如果對a用3個二進制位就可以表示,而對b用4個二進制位就可以表示,那么,在解碼時,面對一連串的二進制流,怎么知道哪三個位是a,哪四個位是b呢?

6.3.3數(shù)據(jù)壓縮編碼于是有了一種叫“前綴編碼”的技術(shù)。該技術(shù)的主導思想是,任何一個字符的編碼,都不是另一個字符編碼的前綴。反過來說就是,任何一個字符的編碼,都不是由另一個字符的編碼加上若干位0或1組成。電話號碼就是遵循著“前綴編碼”技術(shù)來實現(xiàn)的,避免了8位的電話號碼撥了5位就打通了另一個電話。6.3.3數(shù)據(jù)壓縮編碼一個最簡單的例子如下表(表6-1)6.3.3數(shù)據(jù)壓縮編碼有了上面的碼表,一定可以輕松地從下面這串二進制流中分辨出真正的信息內(nèi)容了:1110010101110110111100010即DABBDCEAAB下一個問題是:象上面這樣的前綴編碼只能表示整數(shù)位的符號,對幾點幾位的符號只能用近似的整數(shù)位輸出,那么怎樣輸出小數(shù)位數(shù)呢?(將在后面對算術(shù)編碼作詳細的討論。)6.3.3數(shù)據(jù)壓縮編碼不同的模型使用不同的方法計算字符的出現(xiàn)概率,由此概率可以得出字符的熵;然后使用不同的編碼方法,盡量接近期望得到的熵值。所以,壓縮效果的好壞一方面取決于模型能否準確地得到字符概率,另一方面也取決于編碼方法能否準確地用期望的位數(shù)輸出字符代碼。

換句話說,壓縮=模型+編碼

6.4常用的無損數(shù)據(jù)壓縮方法

香農(nóng)-范諾與哈夫曼編碼算術(shù)編碼行程RLE編碼(runlengthencoding)詞典編碼(dictionaryencoding)6.4.1香農(nóng)-范諾與哈夫曼編碼香農(nóng)-范諾編碼(Shannon-Fano

)香農(nóng)-范諾編碼算法步驟:將待編碼的符號按符號出現(xiàn)概率從大到小排序。將排好序的符號分成兩組,使這兩組符號概率和相等或盡可能的相近。將第一組賦值為0,第二組賦值為1。對每一組,只要不是一個符號,就重復步驟2的操作,否則操作完畢。6.4.1香農(nóng)-范諾與哈夫曼編碼例6-1:有一串由6個字母組成的長度為50的字符串,字母分別A、B、C、D、E和F,其中A出現(xiàn)3次,B出現(xiàn)5次,C出現(xiàn)15次,D出現(xiàn)11次,E出現(xiàn)12次,F(xiàn)出現(xiàn)4次,請使用香農(nóng)-范諾對其進行編碼。6.4.1香農(nóng)-范諾與哈夫曼編碼例6-1解題步驟:使用表6-2列出字母在字符串中的概率統(tǒng)計(這里使用的是出現(xiàn)次數(shù),因為出現(xiàn)次數(shù)和概率成比例,也就是出現(xiàn)次數(shù)大則概率也大):6.4.1香農(nóng)-范諾與哈夫曼編碼:例6-1解題步驟:對符號按出現(xiàn)次數(shù)的多少進行排序,得表6-3所示:6.4.1香農(nóng)-范諾與哈夫曼編碼例6-1解題步驟:然后對符號進行分組,將其分為概率和最接近的兩組即為(C、E)和(D、B、F、A),其中(C、E)賦值為0,(D、B、F、A)賦值為1,依次遞歸下去。使用二叉樹左支為0,右支為1來進行編碼,其最終實現(xiàn)如圖6-6所示:6.4.1香農(nóng)-范諾與哈夫曼編碼例6-1解題步驟:使用香農(nóng)-范諾編碼算法得到的編碼表,如表6-4所示:6.4.1香農(nóng)-范諾與哈夫曼編碼例6-1解題步驟:總共需要4×3+3×5+2×15+2×11+2×12+4×4=119位,而如果用ASCII來進行表示的話,至少要用到50×8=400位;如果用等長碼3位二進制來表示六個字母的話,這樣需用到50×3=150位,從這兩方面都實現(xiàn)數(shù)據(jù)壓縮。6.4.1香農(nóng)-范諾與哈夫曼編碼例6-1解題步驟:再來看一看壓縮效果如何,這時就需來計算數(shù)據(jù)壓縮的極限—熵的值:

這就是說每個符號用2.36位表示,50個像素需用118位。6.4.1香農(nóng)-范諾與哈夫曼編碼哈夫曼編碼

(Huffman

)哈夫曼(Huffman)編碼算法步驟:初始化,根據(jù)符號出現(xiàn)的次數(shù)按由大到小順序?qū)Ψ栠M行排序。把概率最小的兩個符號組成一個節(jié)點,節(jié)點為兩符號次數(shù)之和,去掉已取出的兩個節(jié)點,加入這兩節(jié)點之和,重新排序,直至只有一個數(shù)據(jù)且該數(shù)據(jù)的值所有符號出現(xiàn)的總次數(shù)相同為止,跳向4步驟。6.4.1香農(nóng)-范諾與哈夫曼編碼哈夫曼(Huffman)編碼算法步驟:重復步驟2,得到新節(jié)點,形成一棵“樹”。從根節(jié)點開始到相應于每個符號的“樹葉”,從上到下標上“0”

或“1”。通常左支標為0,右支標為1。從根節(jié)點開始順著樹枝到每個葉子分別寫出每個符號的代碼。6.4.1香農(nóng)-范諾與哈夫曼編碼例6-2:就上面關(guān)于Shannon-Fano編碼的例子:有一串由6個字母組成的長度為50的字符串,字母分別A、B、C、D、E和F,其中A出現(xiàn)3次,B出現(xiàn)5次,C出現(xiàn)15次,D出現(xiàn)11次,E出現(xiàn)12次,F(xiàn)出現(xiàn)4次,請使用哈夫曼對其進行編碼。6.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:對符號按出現(xiàn)次數(shù)的多少進行排序,得表6-4所示:6.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:然后選擇其中最小的兩個符號,組成一個節(jié)點,如圖6-7所示:

出現(xiàn)次數(shù)最少的兩個符號組成的二叉樹圖6-76.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:去掉剛才的兩個符號,加入它們的和,重新排序如表6-5所示:

6.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:繼續(xù)選擇其中最小的兩個符號,組成一個新節(jié)點,如圖6-8所示:

第二次取次數(shù)最少的兩個符號繼續(xù)組成二叉樹圖6-86.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:依次類推,進行遞歸,排序的表如6-6所示:

生成的二叉樹如圖6-9所示圖6-96.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:依次類推,進行遞歸,排序的表如6-7所示:

生成的二叉樹如圖6-10所示

圖6-106.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:依次類推,進行遞歸,排序的表如6-8所示:

生成的二叉樹如圖6-11所示

圖6-11

6.4.1香農(nóng)-范諾與哈夫曼編碼取最小次數(shù)的兩個符號組成二叉樹圖6-11

圖6-12對其進行編碼,左為0,右為1,如圖6-12所示:例6-2解題步驟:

6.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:使用Huffman編碼算法得到的編碼表,如表:6.4.1香農(nóng)-范諾與哈夫曼編碼例6-2解題步驟:總共需要4×3+3×5+2×15+2×11+2×12+4×4=119位,與香農(nóng)-范諾編碼算法得到的最后數(shù)據(jù)相同,也同樣實現(xiàn)了壓縮,但是這只是巧合,通常情況下哈夫曼編碼比香農(nóng)-范諾編碼的效率要高一些。

6.4.1香農(nóng)-范諾與哈夫曼編碼香農(nóng)-范諾編碼和huffman編碼:平均碼長>=熵,但都是接近熵,而且越接近熵,說明壓縮效率越高。保證解碼的唯一性,短字碼不構(gòu)成長字碼的前綴。在接收端需要一個與發(fā)送端相同的代碼表。6.4.2算術(shù)編碼算術(shù)編碼的基本原理將編碼的消息表示成實數(shù)0和1之間的一個間隔,取間隔中的一個數(shù)來進行表示消息,消息越長,編碼表示它的間隔就越小,表示這一間隔所需的二進制位就越多。通常情況下,如采用概率統(tǒng)計模型為靜態(tài)統(tǒng)計模型,算術(shù)編碼用到兩個基本的參數(shù):符號的概率和它的編碼間隔。信源符號的概率決定壓縮編碼的效率,也決定編碼過程中信源符號的間隔,而這些間隔包含在0到1之間。編碼過程中的間隔決定了符號壓縮后的輸出;如采用概率統(tǒng)計模型為自適應統(tǒng)計模型,則最初的信源概率均等。6.4.2算術(shù)編碼自適應統(tǒng)計模型的算術(shù)編碼與解碼

例6-3:假設某條信息中可能出現(xiàn)的字符只有a、b、c三種,要壓縮保存的信息為abba。例6-3解題步驟:對于上面的例子中并不知道任何一個字符的概率,只能采用自適應統(tǒng)計模型,最初概率都為相等的,即Pa=1/3,Pb=1/3,Pc=1/3。并將0-1區(qū)間按照概率的比例分配給三個字符,即a從0到0.3333,b從0.3333到0.6667,c從0.6667到1.0000。如圖6-13所示圓圈標識第一步。圖6-13自適應算術(shù)編碼6.4.2算術(shù)編碼例6-3解題步驟:當?shù)谝粋€字符a出現(xiàn)時,就可以確定其數(shù)據(jù)間隔區(qū)域一定是在他的概率間隔范圍內(nèi),如下圖中的0到0.3333,這時由于多了字符a,三個字符的概率分布變成:Pa=2/4,Pb=1/4,Pc=1/4。這時的總的概率區(qū)間將不是參照0到1之間,而是在已經(jīng)確定第一個字符出現(xiàn)之后的概率區(qū)間,即0到0.3333這一區(qū)間。此時的a從0到0.1667,b從0.1667到0.25,c從0.25到0.3333。如上圖所示圓圈標識第二步。6.4.2算術(shù)編碼例6-3解題步驟:當?shù)诙€字符b出現(xiàn)時,就可以確定其數(shù)據(jù)間隔區(qū)域為0.1667到0.25,這時由于多了字符b,三個字符的概率分布變成:Pa=2/5,Pb=2/5,Pc=1/5。就按照新的概率分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論