




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
西安電子科技大學出版社應用電視技術趙堅勇第12章
視頻壓縮技術12.1
視頻壓縮的基本原理12.2
靜止圖像壓縮12.3
活動圖像編碼12.1
視頻壓縮的基本原理12.1.1
視頻信號的數字化和壓縮模擬電視信號(包括視頻和音頻)通過取樣、量化后編碼為二進制數字信號的過程稱為模數變換(A/D變換)或脈沖編碼調制PCM(PulseCodingModulation),所得到的信號也稱為PCM信號,其過程可用圖12―1(a)表示。若取樣頻率等于fs、用n比特量化,則PCM信號的碼率為nfs(b/s)。PCM編碼既可以對彩色全電視信號直接進行,也可以對亮度信號和兩個色差信號分別進行,前者稱為全電視信號編碼,后者稱為分量編碼。PCM信號經解碼和插入濾波恢復為模擬信號,如圖12―1(b)所示,解碼是編碼的逆過程,插入濾波是把解碼后的信號插補為平滑、連續的模擬信號。這兩個步驟合稱為數模變換(D/A變換)或PCM解碼。圖12―1
電視信號的數字化和復原(a)A/D變換;(b)D/A變換1.奈奎斯特取樣定理理想取樣時,只要取樣頻率大于或等于模擬信號中最高頻率的兩倍,就可以不失真地恢復模擬信號,這稱為奈奎斯特取樣定理。模擬信號中最高頻率的兩倍稱為折疊頻率。2.亞奈奎斯特取樣按取樣定理,若取樣頻率fs小于模擬信號最高頻率fmax的2倍會產生混疊失真,但若巧妙地選擇取樣頻率,令取樣頻譜中的混疊分量落在色度分量和亮度分量之間,就可用梳狀濾波器去除混疊成分。3.均勻量化和非均勻量化在輸入信號的動態范圍內,量化間隔幅度處處都相等的量化稱均勻量化或線性量化。對于量化間距固定的均勻量化,信噪比隨輸入信號的動態幅度的增加而增加。在強信號時固然可把噪波淹沒掉;在弱信號時,噪波的干擾就十分顯著。為改善弱信號時的信噪比,量化間距應隨輸入信號幅度而變化,大信號時進行粗量化,小信號時進行細量化,也就是采用非均勻量化(或稱非線性量化)。非均勻量化有兩種方法。一是把非線性處理放在編碼器前和解碼器后的模擬部分,編解碼仍采用均勻量化,在均勻量化編碼器之前,對輸入信號進行壓縮,這樣等效于對大信號進行粗量化,小信號進行細量化。在均勻量化解碼器之后,再進行擴張,以恢復原信號。另一種方法是直接采用非均勻量化器,輸入信號大時進行粗量化(量化間距大),輸入信號小時細量化(量化間距小)。也有采用若干個量化間距不等的均勻量化器,當輸入信號超過某一電平時進入粗間距均勻量化器,低于某一電平時進入細間距量化器,稱為準瞬時壓擴方式。通常用Q表示量化,用IQ或Q-1表示反量化。量化過程相當于由輸入值找到它所在的區間號,反量化過程相當于由量化區間號得到對應的量化電平值。量化區間總數遠遠少于原量值的總數,所以量化能實現數據壓縮。很明顯,反量化后并不能保證得到原來的值,因此量化過程是一個不可逆過程,用量化的方法來進行壓縮編碼是一種非信息保持型編碼。通常這兩個過程均可用查表方法實現,量化過程在編碼端完成,而反量化過程則在解碼端完成。12.1.2ITU―RBT.601分量數字系統數字視頻信號是將模擬視頻信號經過取樣、量化和編碼形成的,模擬電視有PAL、NTSC等制式,必然會形成不同制式的數字視頻信號,不便于國際數字視頻信號的互通。1982年10月,國際無線電咨詢委員會CCIR(ConsultativeCommitteeforInternationalRadio)通過了第一個關于演播室彩色電視信號數字編碼的建議,1993年變更為國際電聯無線電通信部門ITU―R(InternationalTelecommunicationsUnion―RadiocommunicationsSector)BT.601分量數字系統建議。BT.601建議采用了對亮度信號和兩個色差信號分別編碼的分量編碼方式,對不同制式的信號采用相同的取樣頻率13.5MHz,與任何制式的彩色副載波頻率無關。對亮度信號Y的取樣頻率為13.5MHz。由于色度信號的帶寬遠比亮度信號的帶寬窄,對色度信號U和V的取樣頻率為6.75MHz。每個數字有效行分別有720個亮度取樣點和360×2個色差信號取樣點。對每個分量的取樣點都是均勻量化,對每個取樣進行8比特精度的PCM編碼。這幾個參數對525行、60場/秒和625行50場/秒的制式都是相同的。有效取樣點是指只有掃描正程的樣點有效,逆程的樣點不在PCM編碼的范圍內。因為在數字化的視頻信號中,不再需要行、場同步信號和消隱信號,只要有行、場(幀)的起始位置即可。例如,對于PAL制,傳輸所有的樣點數據,大約需要200Mb/s的傳輸速率,傳輸有效樣點只需要160Mb/s左右的速率。色度信號的取樣率是亮度信號的取樣率的一半,常稱作4∶2∶2格式,可以理解為每一行里的Y、U、V的樣點數之比為4∶2∶2。12.1.3熵編碼熵編碼(EntropyCoding)是一類無損編碼,因編碼后的平均碼長接近信源的熵而得名。熵編碼多用可變字長編碼(VLC,VariableLengthCoding)實現。其基本原理是對信源中出現概率大的符號賦以短碼,對出現概率小的符號賦以長碼,從而在統計上獲得較短的平均碼長。所編的碼應是即時可譯碼,某一個碼不會是另一個碼的前綴,各個碼之間無需附加信息便可自然分開。1.Huffman編碼霍夫曼(Huffman)編碼是一種可變長編碼,編碼方法如圖12―2所示。其編碼過程如下:(1)將輸入信號符號以出現概率由大至小為序排成一列。(2)將兩處最小概率的符號相加合成為一個新概率,再按出現概率大小排序。(3)重復步驟(2),直至最終只剩兩個概率。(4)編碼從最后一步出發逐步向前進行,概率大的符號賦予“0”碼,另一個概率賦予“1”碼,直至到達最初的概率排列為止。圖12―2Huffman編碼2.算術編碼Huffman編碼的每個代碼都要使用一個整數位,如果一個符號只需要用2.5位就能表示,但在Huffman編碼中卻必須用3個符號表示,因此它的編碼效率就較低。與其相比,算術編碼并不是為每個符號產生一個單獨的代碼,而是使整條信息共用一個代碼,增加到信息上的每個新符號都遞增地修改輸出代碼。假設信源由4個符號s1、s2、s3和s4組成,其概率模型如表12―1所示。把各符號出現的概率表示在如圖12―3所示的單位概率區間之中,區間的寬度代表概率值的大小,各符號所對應的子區間的邊界值,實際上是從左到右各符號的累積概率。在算術編碼中,通常采用二進制的小數來表示概率,每個符號所對應的概率區間都是半開區間,如s1對應[0,0.001),s2對應[0.001,0.011)。算術編碼所產生的碼字實際上是一個二進制小數值的指針,該指針指向所編的符號對應的概率區間。表12―1
信源概率模型和算術編碼過程圖12―3
算術編碼過程示意圖若將符號序列s3s3s2s4進行算術編碼,序列的第一個符號為s3,我們用指向圖12―3中第3個子區間的指針來代表這個符號。由此得到碼字0.011。后續的編碼將在前面編碼指向的子區間內進行。將[0.011,0.111)區間再按符號的概率值劃分成4份,對第二個符號s3,指針指向0.1001,碼字串變為0.1001。然后s3所對應的子區間又被劃分為4份,開始對第3個符號進行編碼……算術編碼的基本法則如下:(1)初始狀態:編碼點(指針所指處)C0=0,區間寬度A0=1。(2)新編碼點:
Ci=Ci-1+Ai-1×Pi式中:Ci-1是原編碼點;Ai-1是原區間寬度;Pi為所編符號對應的累積概率。新區間寬度Ai=Ai-1×pi式中,pi為所編符號對應的概率。根據上述法則,對序列s3s3s2s4進行算術編碼的過程如下:第一個符號s3:C1=C0+A0×P1=0+1×0.011=0.011A1=A0×p1=1×0.1=0.1[0.011,0.111)第二個符號s3:C2=C1+A1×P2=0.011+0.1×0.011=0.1001A2=A1×p2=0.1×0.1=0.01[0.1001,0.1101)第三個符號s2:C3=C2+A2×P3=0.1001+0.01×0.001=0.10011
A3=A2×p3=0.01×0.01=0.0001
[0.10011,0.10101)第四個符號s4:
C4=C3+A3×P4=0.10011+0.0001×0.111=0.1010011
A4=A3×p4=0.0001×0.001=0.0000001
[0.1010011,0.10101)3.游程編碼游程編碼RLC(RunLengthCoding)是一種十分簡單的壓縮方法,它將數據流中連續出現的字符用單一的記號來表示。例如,字符串5310000000000110000000012000000000000可以壓縮為5310―10110―08120―12,其中,“―”后面2個數字是“―”前面數字的連續個數。游程編碼的壓縮率不高,但編碼、解碼的速度快,仍然得到廣泛的應用,特別是在變換編碼后再進行游程編碼,有很好的效果。12.1.4預測編碼和變換編碼1.DPCM原理基于圖像的統計特性進行數據壓縮的基本方法就是預測編碼。它是利用圖像信號的空間或時間相關性,用已傳輸的像素對當前的像素進行預測,然后對預測值與真實值的差——預測誤差,進行編碼處理和傳輸。目前用得較多的是線性預測方法,全稱為差值脈沖編碼調制DPCM(DifferentialPulseCodeModulation)。利用幀內相關性(像素間、行間的相關)的DPCM稱幀內預測編碼。如果對亮度信號和兩個色差信號分別進行DPCM編碼,對亮度信號采用較高的取樣率和較多位數編碼,對色差信號用較低的取樣率和較少位數編碼,構成時分復合信號后再進行DPCM編碼,這樣做可使總碼率更低。圖12―4
DPCM原理(a)DPCM編碼器;(b)DPCM解碼器利用幀間相關性(鄰近幀的時間相關性)的DPCM被稱為幀間預測編碼,因幀間相關性大于幀內相關性,其編碼效率更高;若把這兩種DPCM組合起來,再配上變字長編碼技術,能取得較好的壓縮效果。DPCM是圖像編碼技術中研究得最早、且應用最廣的一種方法,它的一個重要的特點是算法簡單,易于硬件實現。圖12―4(a)是它的示意圖,編碼單元主要包括線性預測器和量化器兩部分。編碼器的輸出不是圖像像素的樣值f(m,n),而是該樣值與預測值g(m,n)之間的差值,即預測誤差e(m,n)的量化值E(m,n)。根據圖像信號統計特性的分析,給出一組恰當的預測系數,使預測誤差主要分布在“0”附近,經非均勻量化,采用較少的量化分層,圖像數據得到了壓縮。而量化噪聲又不易被人眼所覺察,圖像的主觀質量并不明顯下降。圖12―4(b)是DPCM解碼器,其原理與編碼器剛好相反。DPCM編碼性能主要取決于預測器的設計。預測器設計要確定預測器的階數N以及各預測系數。圖12―4是一個四階預測器的示意圖。圖12―5(a)表示預測器所用的輸入像素和被預測像素之間的位置關系,圖12―5(b)表示預測器的結構。圖12―5
四階預測器(a)輸入像素和預測像素;(b)預測器構成2.變換編碼原理圖像變換編碼是將空間域里描述的圖像,經過某種變換(如傅里葉變換、離散余弦變換和沃爾什變換等)在變換域中進行描述,將圖像能量在空間域的分散分布變為在變換域的相對集中分布,便于用“Z”(Zig
Zag)字形掃描、自適應量化、變長編碼等進一步處理,完成對圖像信息的有效壓縮。先從一個實例來看,一個域的數據變換到另一個域后,其分布是如何改變的。以1×2像素構成的子圖像,即相鄰兩個像素組成的子圖像為例,每個像素3比特編碼,取0~7共8個灰度級,兩個像素有64種可能的灰度組合,由圖12―6(a)中的64個坐標點表示。一般圖像相鄰像素之間存在很強的相關性,絕大多數的子圖像中相鄰兩像素灰度級相等或很接近,也就是說在x1=x2直線附近出現的概率大,如圖12―6(a)中的陰影區所示。現在將坐標系逆時針旋轉45°,如圖12―6(b)所示。在新的坐標系y1、y2中,概率大的子圖像區位于y1軸附近。表明變量y1、y2之間的聯系比變量x1、x2之間的聯系在統計上更加獨立,方差也重新分布。在原來坐標系中子圖像的兩個像素具有較大的相關性,能量的分布比較分散,兩者具有大致相同的方差,而在變換后的坐標系中,子圖像的兩個像素之間的相關性大大減弱,能量分布向y1軸集中,y1的方差也遠大于y2。這種變換后坐標軸上方差不均勻分布正是正交變換編碼能夠實現圖像數據壓縮的理論根據。若按照人的視覺特性,只保留方差較大的那些變換系數分量,就可以獲得更大的數據壓縮比,這就是視覺心理編碼的方法。把一個n×n像素的子圖像看成為n2維坐標系中的一個坐標點,在n2維坐標系中每一個坐標點對應于n2個像素。這個坐標點各維的數值是其對應的n2個像素的灰度組合。圖像在n2維變換域中,相關性大大下降。因此,用變換后的系數進行編碼,比直接用圖像數據編碼可獲得更大的數據壓縮。圖12―6
正交變換的物理意義(a)子圖像在陰影區的概率較大;(b)旋轉變換后正交變換將被處理數據按照某種變換規則映射到另一個域中去處理,圖像編碼采用二維正交變換的方式。若將整個圖像作為一個二維矩陣,正交變換的計算量太大。所以將一幅圖像分成一個個小圖像塊,通常是8×8或16×16小方塊,每個圖像塊可以看成為一個二維數據矩陣。正交變換以這些小圖像塊為單位進行,變換編碼把統計上密切相關的像素構成的矩陣通過線性正交變換,變成統計上較為相互獨立、甚至完全獨立的變換系數所構成的矩陣。信息論的研究表明,變換前后圖像的信息量并無損失,可以通過反變換得到原來的圖像值。統計分析表明,正交變換后,數據的分布向新坐標系中的少數坐標集中,集中于少數的直流或低頻分量的坐標點。正交變換并不壓縮數據量,但它去除了大部分相關性,數據分布相對集中,可以依據人的視覺特性,對變換系數進行量化,允許引入一定量的誤差,只要它們在重建圖像中造成的圖像失真不明顯,或者能達到所要求的觀賞質量就行。量化可以增加許多不用編碼的0系數,然后再對量化后的系數施行變長編碼。3.離散余弦變換(DCT)在常用的正交變換中,離散余弦變換DCT(DiscreteCosineTransform)的性能接近最佳,是一種準最佳變換。DCT變換矩陣與圖像內容無關,由于它構造成對稱的數據序列,避免了子圖像輪廓處的跳躍和不連續現象。DCT變換也有快速算法(FDCT),在圖像編碼的應用中,大都采用二維DCT變換。對于一般圖像,在二維DCT的變換域中,幅值較大的系數集中在低頻域,圖12―7是一幅圖像上的兩個8×8像素矩陣及其二維DCT系數矩陣。圖12―7(a)是背景區域的一小塊圖像,它的系數矩陣左上角的50為DCT系數的直流分量,它標志著該像素塊的亮度平均值,其余系數皆為零,說明在變換域中系數的分布是相當集中的。圖12―7(b)為細節較多的區域里的一小塊圖像,其系數的分布集中的程度要差一些。圖12―7
圖像塊的DCT變換(a)背景部分圖像塊的DCT;(b)細節部分圖像塊的DCT圖12―8
Z字形掃描對自然景物圖像的統計表明,DCT系數矩陣的能量集中在反映水平和垂直低頻分量的左上角。量化以后,DCT系數矩陣變得稀疏,位于矩陣右下角的高頻分量系數大部分被量化為零。游程編碼的思想是,用適當的掃描方式將已量化的二維DCT系數矩陣變換為一維序列,所用的掃描方式應使序列中連零的數目盡量多,或者說使連零的游程盡量長,對游程的長度進行游程編碼RLC(RunLengthCoding)以替代逐個地傳送這些零值,就能進一步實現數據壓縮。常用的Z(ZigZag)字形掃描如圖12―8所示。游程編碼的方法是將掃描得到的一維序列轉化為一個由二元數組(run,1evel)組成的數組序列。其中,run表示連零的長度,level表示這串連零之后出現的一個非零值。當剩下的所有系數都為零時,用一個符號EOB(EndofBlock)來代表。4.混合編碼混合編碼是近年來廣泛采用的方法,這種方法充分利用各種單一壓縮方法的長處,以期在壓縮比和效率之間取得最佳的平衡。如廣泛流行的JPEG和MPEG壓縮方法都是典型的混合編碼方案。12.2
靜止圖像壓縮靜止圖像是指內容不變的圖像。它可能是不活動場景圖像或活動場景圖像某一瞬時的“凍結”圖像。靜止圖像編碼是指對單幅圖像的編碼。靜止圖像用于傳送文件、模型、圖片和現場的實況監視圖像。實況監視每隔一定時間間隔更換一幅新的圖像,可以不連續地看到現場的情況,是一種準實時的監視。靜止圖像編碼有以下要求:(1)清晰度:靜止圖像中的細節容易被觀察到,要求有更高的清晰度。(2)逐漸浮現的顯示方式:在窄帶傳輸時為了減少等待時間,要求編碼能提供逐漸浮現的顯示方式,即先傳模糊的整幅圖像,再逐漸變清晰。(3)抗干擾:一幅圖像的傳輸時間較長,各種干擾噪聲顯示時間較長,影響觀看,要求編碼與調制方式都有較強的抗干擾能力。
圖12―9是靜止圖像編碼傳輸系統示意圖。攝像機攝取的全電視信號,經數據采集卡捕獲一幀圖像并數字化后,送至幀存儲器;也可用數字攝像機直接得到數字圖像。編碼器對幀存儲器中存放的數字圖像進行壓縮編碼,因時間充裕可采用較復雜的算法提高壓縮比,保持較高的清晰度。經調制后送到信道中傳輸。接收的過程則相反,信號經解調、解碼后送幀存儲器,然后以一定的方式讀出,經D/A變換后在顯示屏上顯示,或被拷貝下來。圖12―9
靜止圖像數字傳輸系統12.2.1JPEG標準JPEG是國際標準化組織ISO(InternationalOrganizationforStandardization)/國際電工技術委員會IEC和ITU―T共同組成的聯合圖像專家小組(JointPhotographicExpertsGroup)的縮寫。1991年3月JPEG建議(ISO/IEC10918號標準)“多灰度靜止圖像的數字壓縮編碼(通常簡稱為JPEG標準)”正式通過。這是一個適用于彩色和單色多灰度或連續色調靜止數字圖像的壓縮標準,包括無損壓縮和基于離散余弦變換和霍夫曼編碼的有損壓縮兩個部分。JPEG基本算法操作可分成六個步驟,如圖12―10所示。圖12―10
JPEG算法步驟1.彩色坐標轉換彩色坐標轉換是要去除數據冗余量,不屬于JPEG算法,JPEG是與彩色坐標無關的。壓縮可采用不同坐標(如RGB、YUV、YIQ等)的圖像數據。2.離散余弦變換JPEG采用8×8子塊的二維離散余弦變換算法。在編碼器的輸入端,把原始圖像(U、V的像素是Y的一半)順序地分割成一系列8×8的子塊。在8×8圖像塊中,像素值變化緩慢,具有較低的空間頻率。進行二維8×8離散余弦變換可以將圖像塊的能量集中在極少數系數上,DCT的(0,0)元素是塊的平均值,其他元素表明在每個空間頻率下的譜能為多少。一般地,離原點(0,0)越遠,元素衰減得越快。3.量化為了達到壓縮數據的目的,對DCT系數需作量化處理。量化的作用是在保持一定質量的前提下,丟棄圖像中對視覺效果影響不大的信息。量化是多對一映射,是造成DCT編碼信息損失的根源。JPEG標準中采用線性均勻量化器,量化過程為對64個DCT系數除以量化步長并四舍五入取整,量化步長由量化表決定。量化表元素因DCT系數位置和彩色分量的不同而取不同值。量化表為8×8矩陣,與DCT變換系數一一對應。量化表一般由用戶規定(JPGE標準中給出了參考值),可根據人類視覺系統和壓縮圖像類型的特點進行優化,并作為編碼器的一個輸入。量化表中元素為1~255之間的任意整數,其值規定了它所對應DCT系數的量化步長。DCT變換系數除以量化表中對應位置的量化步長并舍去小數部分后,多數變為零,從而達到了壓縮的目的。表12―2和表12―3分別給出了JPEG標準所推薦的亮度量化表和色度量化表。
表12―2
JPEG亮度量化步長表12―3
JPEG色度量化步長4.差分編碼64個變換數經量化后,DCT的(0,0)元素是直流分量(DC系數),即空間域中64個圖像采樣值的均值,相鄰8×8子塊之間的DC系數一般有很強的相關性,變化應該較緩慢。JPEG標準對DC系數采用DPCM編碼(差分編碼)方法,即對相鄰像素塊之間的DC系數的差值進行編碼能將它們中的大多數數值減小。5.游程編碼其余63個交流分量(AC系數)采用游程編碼。如果從左到右、從上到下地掃描塊,零元素不集中,因此采用從左上角開始沿對角線方向Z字形掃描。量化后的AC系數通常會有許多零值。6.熵編碼為了進一步壓縮數據,對DC碼和AC游程編碼的碼字再作具有統計特性的熵編碼。JPEG標準建議采用霍夫曼編碼和自適應二進制算術編碼。12.2.2
JPEG2000標準JPEG2000是JPEG工作組制定的最新的靜止圖像壓縮編碼的國際標準,標準號為ISO/IEC15444(ITU―TT.800),于2000年年底陸續公布。JPEG2000主要由六個部分組成:第一部分為編碼的核心部分,提供優秀的壓縮性能和壓縮靈活性,提供隨機訪問碼流的機制。第二部分為編碼擴展。第三部分為MotionJPEG2000(MJP2)。第四部分為一致性測試(測試用不同方法實現時標準的一致性)。第五部分為參考軟件。第六部分為復合圖像文件格式。1.JPEG2000采用了小波變換(DWT)JPEG基本算法中的基于子塊的DCT變換被離散小波變換DWT(DiscreteWaveletTransform)所取代。DWT自身具有多分辨率圖像表示性能,它可以在大范圍去除圖像的相關性,將圖像能量分布更好地集中,使壓縮效率得到提高。一個圖像可以被分成若干大小相等的片(tile),片的具體尺寸可以由用戶根據應用需要來決定,片包括所有的圖像分量。假設圖像有3個分量(YUV)且圖像被分成4個片,實際上指的是對應的4個Y片,4個U片和4個V片,即每個片由3個分量片組成。各個分量片獨立編解碼,所以可以從碼流中單獨提取某個或某些片,解碼后重建圖像。這種片劃分和片獨立編碼的機制有利于從碼流中提取和解碼某個圖像區域。對分量片做不同級別的小波分解(小波變換),小波變換的作用是對圖像進行多分辨率分解,即把原始圖像分解成不同空間、不同頻率的子圖像。這些子圖像實際上是由小波變換后產生的系數構成,即系數圖像。對一個原始圖像或分量片進行3級小波分解的例子如圖12-11所示,每一級分解都把圖像分解成4個不同空間、不同頻帶的子圖像(也稱子帶圖像或子帶分量)。這4個子帶分量是:低頻分量LL(包含圖像的低頻信息,即圖像的主要特征,低頻分量可再次分解);水平分量LH(包含較多的水平邊緣信息),垂直分量HL(包含較多的垂直邊緣信息)和對角分量HH(包含水平和垂直邊緣信息)。從圖12―11可以看出,分解級數越多,圖像分辨率等級越多,每一級分解圖像的分辨率降為前一級的一半。在解碼端,如果只想得到低于原始圖像分辨率的圖像,就只需對部分子帶圖像(子帶分量)進行解碼。小波變換本身并不具有數據壓縮能力,變換前,原始圖像的數據量(像素值的個數)與變換后各系數的數據量(系數個數)相等,變換的意義在于使圖像的能量分布(頻域內的系數分布)發生了改變,圖像的主要能量集中在低頻區(LL區),而水平、垂直、對角線部分的高頻能量較少。通過量化,把大量幅值較小系數抑制為零,從而壓縮數據量。要進一步大幅度壓縮數據量,還需進行合適的編碼處理(如算術編碼),用更少的比特表示那些量化后不為零的小波系數。圖12―11
DWT對靜止圖像進行三級分解(a)一級分解示意圖;(b)二級分解示意圖;(c)三級分解示意圖2.JPEG2000同時支持有損和無損壓縮小波變換可以使用可逆的LeGall(5,3)濾波器,也可以使用不可逆的Daubechies(9,7)雙正交濾波器。可逆濾波器支持無損編碼;不可逆濾波器不支持無損編碼,但能達到更高的壓縮比。3.JPEG2000支持ROI處理在處理圖像時,往往對部分感興趣區域ROI(RegionofInterest)有較高的質量要求,希望是無損壓縮。為了得到較高的壓縮效率,把圖像的其他部分看成是背景,進行壓縮比較高的有損壓縮。在傳輸圖像碼流時,ROI區域可先于圖像的其他部分被傳輸,如果壓縮碼流被截取,則在一定程度上可保證ROI的質量。
JPEG2000系統為ROI區域產生一個ROI模板,用來標志ROI區域。選擇適當的比例因子s,將位于ROI模板區域之外的背景量化系數的幅值除以2s,得到的數值小于ROI模板中最小的量化系數幅值。這樣處理后,位于ROI模板內的量化系數所處的位平面高于背景系數所處的位平面,在進行位平面算術編碼的時候,先對ROI域中的量化系數編碼,然后再對背景系數編碼。因為ROI區域的位平面高于背景區域,ROI區域的壓縮碼流位于整個碼流的前端,當碼流被截斷時ROI區域中的數據在一定程度上受到保護,保證了ROI的重構質量。4.可隨機獲取部分壓縮碼流JPEG2000系統將碼流分層組織,每一層含有一定的質量信息,在前面層的基礎上改善圖像質量。在網絡上進行圖像瀏覽時,可先傳送第一層,給用戶一個較粗的圖像,然后再傳送第二層,圖像質量在第一層的基礎上得到改善,這樣一層一層地傳輸下去,可得到不同質量的重構圖像。如果傳輸了所有的層,則可獲得完整的圖像壓縮碼流。JPEG2000由于采用了這種思想,使得壓縮生成的碼流同時具有質量可分級性和分辨率可分級性。5.隨機存取圖像某個區域有時只需得到巨幅圖像的部分區域,JPEC2000標準利用小波變換的局部特性,可識別部分圖像區域在子帶上的映射。每個碼塊是獨立進行編碼的,通過選取含有此部分圖像區域信息的碼塊壓縮位流,進行解碼,可以重構出所要的目標區域。ROI技術在很大程度上為實現隨機存取碼流提供了一種渠道。6.抗誤碼性能在JPEG2000標準中,采取了一些措施來提高圖像壓縮碼流的抗誤碼性能,將量化后的子帶系數分成若干個小的編碼單元——碼塊,對每個碼塊進行獨立編解碼。這樣,當一個碼塊的位流發生比特錯誤時,只會把錯誤引起的影響限制在本碼塊中。壓縮碼流數據采用了稱為包(packet)的結構單元,每個包的數據前面含有再同步信息,允許發生錯誤后重新恢復同步。7.視覺頻率加權在JPEG2000中,可選擇使用對不同空間頻率有不同敏感度的視覺系統模型。這一模型用對比度敏感函數CSF(ContrastSensitivityFunction)來衡量。因為CSF函數是由變換系數的視覺頻率來決定的,所以可給小波變換后的每個子帶分配一個CSF權值。CSF權值的確定依據觀察重構圖像的視覺條件而定,有兩種選取辦法:固定的視覺加權編碼和視覺累進加權編碼。固定的視覺加權僅由視覺條件決定。對分層組織碼流,因為位流可被截斷,在不同的截斷處,有不同的質量,因而進行觀察的視覺條件是不同的。比如,對于低比特率的情況,缺少細節,壓縮圖像質量差,適合進行遠距離觀察;隨著比特數的增加,細節越來越多,壓縮圖像質量逐漸變好,適合近距離觀測。因此,CSF權值在不同的截斷處應有不同的值,這便是視覺累進加權編碼。在進行視覺累進加權編碼時,不需改變系數值或者量化步長,而是根據視覺權值,改變失真矩陣,通過參考文獻[41]中提出的PCRD算法,計算碼塊對每個層的貢獻,通過改變碼塊編碼通道在分層組織位流中的順序來實現。JPEG2000具有的多種特點使得它具有廣泛的應用前景。由于采用小波變換和最新的壓縮算法,能夠獲得較好的壓縮比,且對壓縮碼流可進行靈活處理,如隨機獲取部分壓縮碼流、累進式傳輸、實現ROI以及壓縮碼流具有較強的容錯性能等,可應用于因特網、移動通信、打印、掃描、數字攝像、遙感、傳真、醫療、數字圖書館以及電子商務等方面的圖像壓縮。身份確認方面,將身份證頭像照片用高清晰度的數字相機攝制,經JPEG2000壓縮存儲在數據庫中。在需要進行身份驗證的場合,驗證終端可以根據證件代號通過因特網從數據庫里直接獲取壓縮的圖像數據,在本地迅速恢復出大幅高清晰的頭像照片。在醫療方面,JPEG2000編碼器對醫生指定的病變部位予以無損壓縮,而對圖像中不影響診斷結果的其他部分采用高達100倍的壓縮率予以視覺可接受壓縮。壓縮之后的圖像完全保存了疾病特征,而數據量非常小。醫生可以把它迅速發送到千里之外的醫學專家那里,以最快的速度得到權威的確診。許多著名的圖形圖像公司如Corel,Pegasus等都開始在新開發的圖像工具軟件中集成JPEG2000圖像壓縮技術,Microsoft,Netscape等瀏覽器領域的公司也開始將JPEG2000新技術集成到下一個版本的瀏覽器中。JPEG2000將在21世紀圖像壓縮領域發揮重要作用。12.2.3
數字照相機數字照相機也稱數碼照相機,它是利用靜止圖像壓縮的典型例子。數字照相機是光學技術、微電子技術與數字信號處理技術相結合的產物。其基本原理是利用普通照相機的光學系統,把被攝圖像投射到圖像傳感器上,傳感器把光信號轉化成電信號,再經過模/數(A/D)轉換、數字圖像處理和壓縮,最終以數字形式存儲到磁盤、可移動閃速存儲卡等數字存儲器中。圖12―12是數字照相機結構示意圖。圖12―12
數字照相機結構示意圖1.數碼相機的優點1)瞬時顯示攝影效果數碼相機的液晶顯示屏在拍攝照片后立即顯示拍攝的效果,對不滿意圖像可以立即刪去重拍。2)更寬的曝光控制范圍數碼相機的成像器件光電靈敏度很高,在低照度條件下也能夠較好地曝光。用MOS開關方式控制光電器件的感光時間,控制最小時間可達微秒級;在環境照度很高時,數碼相機也可以得到合適曝光的圖像。3)圖像逼真數碼相機的數字圖像可直接輸入計算機用制造廠提供的處理軟件進行特技處理,也可用Photoshop那樣的通用軟件處理。對于在攝影過程中出現的諸如色溫、清晰度、像差和曝光量等技術缺陷,可以通過后處理得到一定程度的修正,能大大提高所攝圖像的質量。特別是對于光學像差中的畸變,數字圖像已經有了很好的補償修正手段。也可以對圖像進行任意的修改、編輯、合成、分解和景物置換等處理。4)圖像通信便捷數碼相機以數字信號的形式記錄影像,以計算機圖像文件格式保存圖像,可以利用最先進的通信手段快速傳輸。可以通過E
mail的形式和網頁的形式在Internet上傳輸,也可以通過衛星地面工作站作超遠距離的圖像傳輸。5)準確復制和長期保存由數碼相機得到的數字影像在復制過程中不存在任何信號損失。以計算機文件形式保存的數字圖像可以永久保存在硬盤或光盤中。6)設備簡單且處理速度快數碼成像系統只需要數碼相機和通用計算機及其輸出設備,即可完成整個圖像制作過程,設備簡單,處理速度快。2.數碼相機技術指標1)成像器件的像素數成像器件的像素數對數碼相機的圖像質量起決定性的作用。數碼相機一般CCD像素數在100萬(1280×1024)以上。數碼相機的成像器件像素數在很大程度上決定了相機圖像的最高分辨率。分辨率用于評價數碼圖像的質量,數碼相機攝取數碼照片的分辨率是可選擇的。數碼相機的像素指標只有一個,而所拍攝的數字圖像的分辨率指標卻可以有許多個,分辨率越高的照片要求有越大的存儲空間來存儲數據。2)A/D轉換精度評價數碼照片的圖像質量除了分辨率外,還有照片色彩的編碼位數。編碼位數決定了在A/D轉換過程中的精確程度。一般來說,24(3×8)位的色彩已經相當豐富,可適應絕大部分的拍攝要求。3)光電傳感器電荷耦合器件(CCD)傳感器和互補金屬氧化物半導體(CMOS)傳感器是兩類主要的圖像傳感器。CCD數碼相機經歷了較長的發展時期,目前在成像質量、分辨率上優于CMOS,而CMOS數碼相機在產品價格、耗電量等方面又有獨特的優勢。目前高檔專業型數碼相機多為CCD型,廉價普及型數碼相機多為CMOS型。近來CMOS成像器件發展很快,已經出現了100萬像素的CMOS器件。CMOS器件的最大優點是可以將信號放大、模數轉換和數字圖像處理等電路集成到一塊芯片上,形成片上成像系統(CameraonChip),這對數碼相機的小型化、微型化具有重要的意義。CMOS成像器件通過開關電路進行像素信號傳輸,使用者可以控制開關電路有選擇地獲取圖像信息,形成智能像素器件(ActivePixelSensor)。該器件對于工業自動化控制、機器人視覺等領域中的成像系統具有重要的價值。4)DSP(數字圖像處理)能力DSP能力較強的相機能夠較高水平地完成諸如黑色補償、光照度補償、缺陷像素修補、濾色器補償插值、γ校正、白平衡和假彩色抑制等操作,補償了許多由于硬件所造成的圖像缺陷,圖像質量達到較為完善的程度。越是高檔的數碼相機,DSP的處理能力越強。一些數碼相機還能顯示選單,可以設定一些DSP圖像處理中的參數,獲得某些特殊效果。DSP還能從圖像中提取曝光量信息和對焦信息,控制鏡頭和快門,使相機處于最佳工作狀態。DSP還將完成圖像壓縮的任務,好的圖像壓縮算法可以在壓縮圖像存儲量的同時,很好地保持圖像細節的信息,解壓縮后顯示的圖像與原圖像比較看不出任何區別。高的壓縮比可以節省數碼相機的存儲空間,在有限的空間中存儲更多高質量的圖片。快的壓縮速度可以在相機完成一次曝光以后迅速回到待機狀態,提高相機的連拍速度。5)取景器數碼相機的取景方式有光學取景和LCD(LiquidCrystalDisplay,液晶顯示)取景。光學取景中有平視取景和通過鏡頭TTL(ThroughtheLens)取景之分。平視取景結構簡單,但由于取景器光軸與鏡頭光軸不重合,眼睛看到的景像與實際拍攝景像存在位置誤差和尺寸誤差,近距離拍攝時,誤差更明顯。TTL取景的取景光軸和成像光軸是重合的,取景誤差較小,取景范圍可達到實拍畫面的95%以上。專業級的數碼相機采用TTL取景方式。6)圖像存儲低檔數碼相機以內裝存儲器為主,當存儲器存滿后,必須暫停拍攝,要等到存儲的圖像數據輸出之后才能繼續拍攝。對于存儲卡型的照相機,只要有備用的存儲卡,就可以像換膠卷一樣換存儲卡。PC卡是用得最多的可移動式存儲器,它有一個PCMCIA插槽。有的數碼相機PC卡是惟一的存儲器,也有的數碼相機有內部存儲器,仍支持PC卡作為擴展存儲器,存在PC卡中的數字圖像可以通過PC卡讀取器輸入計算機。PC卡的優點是可以大量存儲照片。可移動式存儲卡還有閃爍存儲卡(FlashCard),也采用PC卡標準,可直接插入便攜式計算機的PC卡插口將信息輸入,也可用PC卡讀取器輸入計算機。CompactFlash存儲卡采用標準ATA/IDE接口,配有專門的PCMCIA轉換卡,筆記本計算機的用戶可直接在PCMCIA插槽上使用。3.數字圖像處理(DSP)DSP是數碼相機的主要部件,所有功能都是由DSP來實現的。DSP控制著CCD、A/D轉換器件、LCD和控制面板。1)暗電流補償補償的方法是在器件完全遮光的條件下,先測出各像素的暗電流值,再從拍攝后圖像的像素值中減去相應的暗電流值。2)鏡頭光照度補償由于鏡頭的漸暈效應,即使拍攝目標是一個受均勻光照的物面,成像器件受到的照度仍是不均勻的,器件邊緣所受的光照度較小。對于同一鏡頭,照度差是有固定規律的,通過DSP數字補償,等效于成像器件得到均勻的照度。3)缺陷像素修補成像器件的幾十萬個像素中總有一定數量的疵點,在完全遮光條件下數碼相機讀取像素灰度值時,一些“亮點”就是疵點位置。通常用插值的方法來實現缺陷像素的修補,用周圍像素的灰度值推算出缺陷像素的灰度值。4)彩色校正彩色校正就是通過調整三基色光的增益,使成像器件的光譜特性與顯示或打印設備的光譜特性一致,以使顯示或打印圖像的色彩更加完美。通常是通過一個變換矩陣來改變紅、綠、藍三基色光的增益,同時保證白平衡。5)自動聚焦和自動曝光聚焦圖像比未聚焦圖像的輪廓更加分明,紋理細節更加清晰。聚焦圖像的高頻分量更大一些。用數字高通濾波獲取不同焦距時輸入圖像的高頻分量并進行比較,高頻分量的最大值對應著最佳聚焦。為了簡化計算,只對圖像的一部分進行濾波處理能達到同樣的效果。自動曝光以圖像平均亮度為參考,調節光圈和改變圖像傳感器的曝光參數。為了防止亮的背景引起主要物體曝光不足,暗的背景又使主要物體曝光過度,根據主要物體一般位于照片中央這一特點,將攝取的圖像分成中央和周邊兩部分,分別計算其亮度,并加權不同的經驗值。6)γ校正數字圖像的顯示和打印設備中,像素的灰度值與所顯示圖像中對應的亮度值呈非線性關系。通過γ校正,顯示或打印的圖像能夠正確反應被攝景物的灰度值。7)濾色器補償插值光電器件是通過濾色器得到圖像的三基色信息的,每個像素只得到了一種基色的信息,即R、G、B(或Cy、Mg、Ye、G)中的一種顏色。像素的其他顏色就必須用其周圍像素的顏色信息插值得到。8)輪廓增強濾色器起了低通濾波的作用,圖像的輪廓變得平滑。DSP增強圖像的輪廓,而圖像的噪聲不能被放大。先找到灰度變化大的輪廓像素,計算輪廓像素與前一像素的Y分量差值,將Y分量差值放大并疊加到原像素Y值上。噪聲造成的假輪廓像素少、灰度變化小,要將差值低于設定閾值的假輪廓信號去掉,以保證處理后圖像的真實性。9)圖像壓縮數碼相機的存儲空間有限,獲取的數字圖像必須經過壓縮。以前的數碼相機采用JPEG標準;最新的數碼相機采用JPEG2000標準,用小波變換進行壓縮。4.模式控制數碼照相機一般提供照相(Camera)、顯示(Display)和計算機(Computer)三種模式。在照相模式時,系統實現拍攝、處理圖像信息的功能。在顯示模式時,可以觀察已拍攝的照片,有編輯功能可修改照片。在計算機模式時,可將數碼相機的圖像信息傳送到計算機之中。照相模式要實現曝光控制、自動對焦控制、閃光控制、數字圖像的獲取以及DSP處理等操作,有一套完善的控制流程。數碼相機在接通電源后首先是對閃光燈系統的主電容進行充電。相機的各種拍攝方式、測光方式、對焦方式、分辨率和白平衡等參數可以進入設置選單進行修改。在待機狀態時,光電傳感器不斷地輸出圖像,圖像經DSP預處理后,作為曝光和對焦的依據,對鏡頭進行曝光和對焦的粗調。同時,DSP在預處理后將低分辨率的畫面實時地輸出到LCD顯示屏上,供攝影者取景。處于待機狀態的數碼相機接到拍攝命令后,進入拍攝狀態,相機迅速對曝光和聚焦進行細調,并鎖定相應的參數。若景物照度不夠,可打開防紅眼燈照明,在快門動作的瞬間進行閃光。當相機處于自拍狀態時,快門動作啟動自拍延時,通常為8~12秒鐘,在延時階段給出LED閃爍或蜂鳴聲提示。在完成一次曝光后,DSP進一步處理所獲得的數字圖像,壓縮圖像信息,將剛拍攝的圖像顯示在LCD上,由攝影者來決定取舍。當攝影者確認之后,將圖像存儲在相機的存儲體中,相機回到了待機狀態。12.3
活動圖像編碼12.3.1
概述活動圖像信號,就是電視信號,數字化后的圖像信號稱為數字圖像。活動圖像的編碼要求實時和高效。圖12―13為活動圖像編碼傳輸系統的方框圖。系統中有兩個傳輸緩沖存儲器,隨著圖像內容的變化,活動圖像編碼輸出是不均勻碼流,與信道的傳輸特性不相適應,利用緩沖存儲器來存儲數據流,保證數據能不間斷地勻速輸出。圖12―13
活動圖像編碼傳輸系統不同應用場合對圖像質量要求是不同的。數字電視要播出新聞、體育比賽、文藝節目,對圖像的質量要求很高。會議電視畫面中人數少、運動少、背景不變,對圖像質量的要求降低。電視電話圖像是單人頭像,只有臉部表情的變化,對圖像質量的要求最低。通常把圖像編碼分為下面幾個應用層次:(1)標準數字電視:圖像分辨率為720×576,采用ISOMPEG―2標準,約8Mb/s的碼率可以達到演播室級的圖像質量要求。地面廣播時,采用現代數字調制技術,可在一路8MHz信道傳送4路標準數字電視。(2)會議電視:圖像分辨率為352×288,采用ITU―TH.261建議,碼率為p×64kb/s(p=1~30),屬中、低速碼率的圖像壓縮。一般認為,碼率為384kb/s(p=6)以上時,圖像質量才比較滿意。(3)數字影碟機等:圖像分辨率為352×288,國際標準為MPEG―1,碼率為1.5Mb/s,其中約1.2Mb/s用于圖像,其余用于聲音和同步。可達到VHS錄像帶圖像質量。(4)可視電話:圖像分辨率為176×144,采用ITU―TH.263建議,碼率為64kb/s以下,經調制解調后,能在現有的模擬電話線上傳送活動的彩色電視電話圖像,因此也稱為極低碼率的圖像編碼。(5)高清晰度電視:圖像分辨率可高達1920×1080,具有兩倍于現有標準的水平和垂直清晰度,采用ISOMPEG―2標準,碼率約為20Mb/s。活動圖像的壓縮編碼利用每幅圖像內部的相關性進行幀內壓縮編碼,有變換編碼和預測編碼兩種基本類型;還利用相鄰幀之間的相關性進行幀間壓縮編碼,主要是運動補償預測和混合編碼。混合編碼是變換編碼和預測編碼相結合的編碼方法。H.261、H.263、MPEG―1、MPEG―2和MPEG―4標準都采用了混合編碼方案。12.3.2
幀間預測編碼幀間預測將畫面分為三種區域:(1)背景區:相鄰的幀背景區的絕大部分數據相同,幀間相關性很強。(2)運動物體區:若將物體運動近似看作簡單的平移,則相鄰幀的運動區的數據也基本相同。假如能采用某種位移估值方法對位移量進行“運動補償”,那么兩幀的運動區之間的相關性也是很強的。(3)暴露區:是指物體運動后所暴露出的曾被物體遮蓋住的區域。如果存儲器將暴露區的數據暫存,則再次遮蓋后暴露出來的數據與存儲的數據相同。若是畫面從一個場景切換為另一場景時,就沒有幀間相關性了。人眼對靜止圖像分辨力較高,在傳輸靜止圖像或圖像的靜止部分時,要有較高的分辨率,卻可以減少傳輸幀數,在接收端依靠幀存儲器把未傳輸的幀復制出來。人眼對于圖像中運動物體的分辨率隨著物體運動速率的增大而降低,攝像器件和顯示器件也有一定的積分模糊效應,在傳輸圖像中的運動物體時,可以降低這部分圖像的分辨率,物體的運動速度越高,可用越低的分辨率進行傳輸。這種方法就叫做空間分辨率和時間分辨率的交換。對于變化緩慢的圖像,幀間相關性強,宜采用幀間預測;當景物的運動增大時,幀間相關性減弱;而由于攝像機的“積分效應”,圖像的高頻成分減弱,幀內相關性反而有所增加,應采用幀內編碼,編碼器應進行幀內幀間自適應編碼。對于運動的物體,估計出物體在相鄰幀內的相對位移,用上一幀中物體的圖像對當前幀的物體進行預測,將預測的差值部分編碼傳輸,就可以壓縮這部分圖像的碼率。這種考慮了對應區域的位移或運動的預測方式就稱為運動補償預測編碼。幀間預測是運動補償預測在運動矢量為零時的特殊情況。運動補償幀間預測編碼包括以下四個部分:(1)物體的劃分:劃分靜止區域和運動區域。(2)運動估計:對每一個運動物體進行位移估計。(3)運動補償:由位移的估值建立同一運動物體在不同幀的空間位置對應關系,從而建立了預測關系。(4)補償后的預測信息編碼:對運動物體的補償后的位移幀差信號(DFD),以及運動矢量等進行編碼傳輸。塊匹配運動補償預測把一幅圖像分為互不重疊的N×N像素的子塊,對每個子塊估計位移(運動)矢量,將它編碼傳送到接收端。對運動矢量的估計主要有以下兩種塊匹配算法BMA(BlockMatchingAlgorithm):(1)全搜索算法:估計像素的位移(運動)時,取以該像素為中心的一個子塊,在前一幀圖像中尋找一個與之最匹配(相關最大)的子塊,該子塊中心與當前像素的位移即為估計的位移(運動)矢量。估值時要選擇合適的子塊尺寸N。N小時,塊內像素運動一致性好,估計準確度較高,但運動矢量碼率會增大,計算量也增大;N大時,計算量減小,運動矢量的碼率變小,但塊內像素運動一致性變差,運動估計準確度不高,不能進行有效的運動補償預測。一般N取16,有時也取4、8或32。在全搜索條件下,塊匹配算法達到最優,缺點是運算量大。在實際應用場合,常采用性能略低但運算量少的快速算法。(2)三步搜索算法TSS(ThreeStepSearch):在三步法中,搜索范圍為±8,即在上一幀以當前子塊為原點,將當前子塊在其上下左右距離為8的范圍內按一定規則移動,每移動到一個位置,取出同樣大小的子塊與當前子塊進行匹配計算。常用的還有共軛方向搜索法(CDS)、二維對數搜索法(LOGS)、交叉搜索法(CS)和動態搜索窗調整搜索法(DSWDS)等。混合編碼是將變換編碼和預測編碼組合在一起。通常用DCT等變換進行空間冗余度的壓縮,用幀間預測或運動補償預測進行時間冗余度的壓縮,以達到對活動圖像的更高的壓縮效率。通常把變換部分DCT放在預測環內(見后面要講到的圖12―16——H.261編碼器原理框圖),預測環本身工作在圖像域內,便于使用性能優良,帶有運動補償的幀間預測,這種帶有運動補償的幀間預測與DCT結合的方案壓縮性能高,編碼技術成熟,編碼延遲較短,成為活動圖像壓縮的主流方案。12.3.3
ITU―TH.261在視頻壓縮的國際標準中,H.261建議具有特別的意義。它綜合了圖像編碼40多年的研究成果,首次采用了DCT加幀間運動補償預測的混合編碼模式。它規范的數據格式、編碼器模塊結構、編碼輸出碼流的層次結構以及開放的編碼控制與實現策略等技術,對后來制定的視頻編碼標準產生了深遠的影響。H.261建議為不同生產廠家的設備互通創造了條件,數字視頻通信迅速發展,與之相對應的H.320會議電視系統在20世紀90年代得到了廣泛應用,其結果又進一步推動了視頻通信的標準化步伐。在H.320之后,ITU又相繼推出了一系列應用于不同場合的視頻通信國際標準:H.321建議,用于ATM網絡;H.322建議,用于有質量保證的局域網;H.323建議,用于IP網絡;H.324建議,用于PSTN網絡H.263建議,用于極低碼率(小于64kb/s)的場合。壓縮效率約提高3dB,它們結合ITU-T.120多媒體會議數據傳送協議,就構成了功能強大的多媒體通信系統。1990年7月ITU―T通過H.261建議——“p×64kb/s視聽業務的視頻編解碼器”。其中,p=1~30。該標準的應用目標是會議電視和可視電話,通常p=1,2時適用于可視電話,p大于6時可以適用于會議電視業務。1.公共中間格式為了便于不同制式彩色電視信號的互連,ITU提出先把不同制式彩色電視信號都轉換成公共中間格式(CommonIntermediateFormat,CIF格式)。亮度信號按每行352個像素,每幀288行進行正交抽樣,抽樣頻率為6.75MHz;色差信號按每行176個像素,每幀144行進行正交抽樣,抽樣頻率為3.375MHz;29.97幀/秒逐行掃描。QCIF(QuarterCIF)格式亮度和色度樣點數在水平和垂直方向都減半,亮度信號為176×144,色差信號為88×72,還是29.97幀/秒逐行掃描。每幀圖像(Picture)分為12個塊組GOB(GroupofBlocks);每個GOB包括33個宏塊MB(Macroblock);每個宏塊有6個塊B(Block),其中4個亮度塊和2個色度塊,塊由8×8像素數據(變換系數TC)組成,像素是CIF格式中最基本的編碼單位。CIF格式圖像層次結構如圖12―14所示。圖12―14
CIF格式圖像層次結構2.數據結構CIF和QCIF的數據結構分為四個層次:(1)圖像層:由圖像頭和塊組數據組成,圖像頭由一個20比特的圖像起始碼、視頻格式和時間參數(幀數)等標志信息組成。(2)塊組層:由塊組頭和宏塊數據組成。塊組頭由16比特的塊組起始碼、塊組編號和量化步長等組成。(3)宏塊層:由宏塊頭和塊數據組成。宏塊頭由宏塊地址、宏塊類型和量化步長等組成。(4)塊層:由變換系數(TC)和塊結束符(EOB)等組成。圖12―15是H.261數據結構示意圖,這樣一種數據結構,能夠保證解碼器對接收到的數據流解碼時的惟一性。圖12―15
H.261數據結構示意圖3.編碼器框圖編碼器框圖如圖12―16所示,兩個雙向選擇開關由編碼控制器CC控制。當它們同時接到上邊時,編碼器工作在幀內編碼模式,輸入信號直接進行DCT變換,經過量化處理后再進行變字長編碼VLC,得到最后的編碼輸出。當雙向開關同時接到下方時,編碼器利用存儲在幀存儲器FM中的上一幀圖像進行幀間預測,將輸入信號與預測信號相減后,對預測誤差進行DCT變換,經過量化處理后再進行變字長編碼VLC,得到最后的編碼輸出。此時,編碼器工作在幀間編碼模式,是一個幀間預測與DCT組成的混合編碼器。根據應用的需要,還可以加入運動估計和補償處理MEP,改善幀間預測的效果。為了使解碼器能正確地解碼,編碼器的工作狀態必須即時通知解碼端,為此每個編碼模式和控制參數等輔助信息也要進行編碼傳輸。
H.261采用的是“混合編碼”法,即幀間預測(DPCM)與幀內變換(2D―DCT)相結合。若前后兩幀很相似,則編碼器進行幀間預測,然后對所得的幀間預測誤差進行二維離散余弦變換(2D―DCT);若前后兩幀圖像不很相似,則對該當前幀圖像進行幀內DCT編碼,即把該幀圖像中每一個8×8塊進行DCT,再對所得的DCT系數進行量化,然后把所得的量化值進行二維變長編碼。圖12―16
H.261編碼器原理框圖4.BCH糾錯為了提高信道的抗誤碼能力,H.261采用了一種叫BCH(511,493)的糾錯編碼。(詳見14.1.2節信道編碼。)發送的比特流分成長度為493比特的數據組。對每一組數據進行某種邏輯運算,結果所得18比特校驗數據放在493比特視頻數據的后面,共計511比特數據為一組送到接收端。如果發生誤碼,在接收端用校驗碼經特定的運算查驗出錯碼并糾正。這種BCH(511,493)糾錯碼可在493比特數據中自動糾正2比特錯誤。H.261中規定,編碼器必須進行糾錯編碼,解碼器可選用糾錯解碼。5.編碼控制編碼中采用了變長編碼技術,經壓縮編碼后的數據是速率不均勻的碼流,為了以恒定速率在通信網中傳送,用緩沖存儲器進行數據的平滑。根據緩沖存儲器當前已緩存的數據量,控制源編碼器中量化器的量化步長等參數,從而得到恒定的速率。H.261中沒有具體規定碼流控制方法。為了防止幀間預測誤差的累積,編碼器中采用了一種強迫更新的方法,H.261中規定宏塊至少每傳送132次,就需要以幀內模式傳送一次,但對具體方法未作規定。12.3.4
ITU―TH.263ITU―T于1995年8月公布了低于64kb/s的窄帶通信信道的視頻編碼建議,即H.263。該標準是H.261的重要發展,可用于可視電話極低比特率的編解碼器。例如,可視電話信號經過H.263壓縮再經V.34調制后,可沿PSTN傳送(碼流可以壓縮到28.8kb/s,其中視頻為20kb/s左右),被編碼的信號格式可以是S―QCIF,彩色亞取樣4∶2∶0,也可以是QCIF、CIF或更大的輸入格式,幀頻較低。該編碼器提供與H.261同樣的質量,但是比特數減少一半。1.更豐富的圖像格式H.263標準中不僅有H.261中的CIF和QCIF格式,還有sub―QCIF、4CIF和16CIF等格式,如表12―4所示。2.兩種運動估值塊在H.261建議中,只對16×16像素的宏塊進行運動估計,而H.263建議中不僅可以用16×16像素的宏塊為單位進行運動估計,還可以根據需要對8×8像素的子塊進行運動估計,即每個宏塊可使用4個運動矢量。表12―4
H.263圖像格式3.更高效的運動矢量編碼在H.261中,對運動矢量采用一維前值預測與VLC相結合的方法編碼。在H.263中,則采用更為復雜的二維預測與VLC相結合的編碼。4.半像素運動估計精度在H.261中,運動的估值精度為整數像素,范圍為(-16,+15);而在H.263中采用半像素精度,范圍為(-16.0,+15.5)。在H.263中,采用雙線性內插來得到運動估計用的半精度像素的預測值,如圖12―17所示。圖12―17
雙線性內插預測半精度像素5.增加高級選項除了半像素精度進行運動估計以外,H.263的基本編碼方法與H.261相同,為了能適合極低碼率的傳輸,H.263增加了4個編碼的高級選項,進一步提高了編碼效率,在極低碼率下獲得了較好的圖像質量。1)無限制的運動矢量模式當某一運動矢量所指向的參考像素超出編碼圖像區域時,就用其邊緣的圖像值代替“這個并不存在的像素”,有效改進邊緣有運動物體的圖像的質量。2)基于語法的算術編碼(SAC)可變長編碼、解碼過程都用算術編碼、解碼過程取代,將顯著降低所需的碼率。3)高級預測模式對P―幀的亮度分量采用所謂交疊塊運動補償(OBMC)方法,即某一個8×8子塊的運動補償由本塊和周圍4個塊的運動矢量加權平均得到;對某些宏塊(16×16)用4個運動矢量,每個子塊(8×8)都有一個運動矢量,用它們取代原來一個宏塊的運動矢量。本模式減少了方塊效應,明顯地改進了圖像質量。圖12―18
PB幀雙向預測過程示意圖4)PB幀模式PB幀名稱來源于MPEG標準。一個PB幀包含一個P幀和一個B幀。P幀是由前一個P幀預測所得;B幀是由前一個P幀和本PB幀單元中的P幀進行雙向預測編碼得到的。雙向預測過程如圖12―18所示。根據不同的應用需要,ITU―T的H.263工作組制定了新的版本。例如,H.263+(1998年)、H.263++(2000年)等。最新的H.263++,高級選項多達19項。12.3.5MPEG―1標準ISO/IEC的聯合技術委員會自20世紀90年代以來先后頒布的一系列圖像和視頻編碼的國際標準促進了多媒體與圖像業務的發展。其中,MPEG―1建議用于VCD之類的視頻家電設備和視頻點播VOD(VideoonDemand)系統;MPEG―2的主要應用范圍是數字電視廣播和DVD系統。ITU的H.320標準把數字視頻引入企業、辦公室,ISO的MPEG―1和MPEG〖CD*2]2把數字視頻引入到千家萬戶。運動圖像專家組MPEG(MovingPicturesExpertsGroup)的正式名稱是ISO/IECJTC1/SC29/WG11。MPEG―1是MPEG工作組制定的第一個標準(ISO/IEC11172),標題是:信息技術——具有1.5Mb/s數據傳輸率的數字存儲媒體活動圖像及其伴音的編碼,包括系統、視頻、音頻、一致性、參考軟件等五部分。1.圖像格式SIFMPEG―1處理逐行掃描的圖像,對隔行掃描的圖像源應先轉換為逐行掃描格式再編碼;輸入的視頻信號必須是數字化的一個亮度信號和兩個色差信號(Y,CB,CR),對于碼率為1~1.5Mb/s,合理的選擇是圖像速率為24、25或30幀每秒,水平分辨率為250~400像素,垂直分辨率為200~300線。對于典型的應用,MPEG―1定義了SIF格式。表12―5和圖12―19分別為由CCIR601到SIF的格式轉換數據和采樣模式。表12―5
CCIR601到SIF的格式轉換數據圖12―19
由CCIR601到SIF的格式轉換采樣模式2.圖像組MPEG―1提出了圖像組GOP(GroupofPicture)的概念,從視頻編碼算法的角度而言,MPEG―1(以及MPEG―2)將視頻圖像幀(picture)劃分為三大類:I幀(IntracodedPicture,幀內編碼圖像幀):不參考其他
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理質量管理年終總結
- 2025至2030年電源套件行業深度研究報告
- 安全教育月活動主題班會
- 2025至2030年六分布水器項目投資價值分析報告
- 2025至2030年中國木材行業市場運營格局及發展趨勢研究報告
- 2025至2030年中國智慧水利行業深度調研及投資戰略分析報告
- 2025至2030年中國變性淀粉行業市場調查研究及發展前景規劃報告
- 2025至2030年中國凍干食品行業競爭現狀及投資策略研究報告
- 2025年鋸齒彈性墊圈項目可行性研究報告
- 2025年苧麻棉斜紋混紡布項目可行性研究報告
- 酒店籌備開業流程手冊范本
- 單休企業考勤管理制度
- 2023年全國職業院校技能大賽-直播電商賽項規程
- 《Unit7Chinesefestivals》(教案)譯林版英語五年級下冊
- DL∕T 5161.5-2018 電氣裝置安裝工程質量檢驗及評定規程 第5部分:電纜線路施工質量檢驗
- 合同到期不續約的通知模板
- 綠化養護服務投標方案(技術標)
- 小區物業服務投標方案(技術標)
- 電纜敷設及管內穿線施工方案
- 廣東省江門市鶴山市2023-2024學年七年級下學期期中語文試題
- 幼兒園成語故事《磨杵成針》課件
評論
0/150
提交評論