




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要本文首先介紹了多媒體的發展歷程,然后介紹了多媒體技術及標準,深入地分析了MPEG-4視頻技術,對MPEG-4視頻技術進行了重點介紹,如形狀編碼、運動編碼和紋理編碼。然后提出了一種新的運動估計算法。針對運動估計在視頻編碼中的重要作用,對己有的運動估計快速算法進行了重點介紹和分析,并提出了一種新的菱形搜索算法。為了檢驗該算法,通過代碼實現了包含該算法的視頻編碼。實驗證明,所提出的算法對視頻編碼效果有所改進。另外,針對嵌入式視頻的應用,本文就S3C2410X做了簡要介紹。S3C2410X廣泛地應用于各種嵌入式系統中,它自帶的USB接口與LCD控制器為USB開發和液晶開發帶來了方便。在時鐘方面S3C2410X也有突出的特點,該芯片集成了一個具有日歷功能的FJC和具有PLL(MPLL和UPLL)的芯片時鐘發生器.MPLL產生主時鐘,能夠使處理器工作頻率最高達到203MHZ。這個工作頻率能夠使處理器輕松運行于WINCE、Linux等操作系統以及進行較為復雜的信息處理。UPLL產生實現主從USB功能的時鐘。S3C2410X將系統的存儲空間分成8組(B肚正),每組大小128MB,共1G.Bank0到Bank5的開始地址是固定的,用于ROM和SROM。Bank6和Bank7用于ROM、SRAM或SDRAM,這兩個組可編程且大小相同.Bank7的開始地址是Bank6的結束地址,大小靈活可變。最后,作者充分利用移動硬盤大容量的特點,設計了一個基于S3C2410X的MPEG4播放系統。該系統便于攜帶,具有一定的實用價值。關鍵字:視頻編碼,MPEG-4,運動估計Abstract緒論介紹了多媒體的發展歷程和研究意義從1984年CCITT研究組發布的第一個視頻領域編碼標準H.120開始,迄今為止已相繼提出了眾多國際標準。視頻編碼標準發展至今也有近三十年的歷史,這段歷史的一個轉折點就是1988年CCITT所提出的H.261建議,從這個轉折點開始,國際標準組織ITU-T、ISO等開始公布了一系列的以H.261為基礎的視頻編碼標準,從此視頻編碼標準的編碼方法統一采用了基于波形的混合編碼方法。一些國際標準組織有聯合圖像專家組(JPEG,JointPhotographicExpertsGroup),它是于1986年由ISO和CCITT聯合成立的。此外還有活動圖像專家組(MPEG,MovingPictureExpertGroup),它于1988年由ISO/IEC信息技術聯合委員會組成;并分別在1991年和1994年公布了MPEG-1視頻編碼標準以及MPEG-2視頻編碼標準。新一代視頻編碼標準H.264于2003年3月由ITU-T和ISO/IEC正式提出,該標準實現了良好的壓縮效率,同時對網絡具備了良好的親和性和兼容性,對實時系統的應用及其有幫助。不久的將來,國際視頻組織即將推出HIVC,即H.265,可想而知的是該標準的發布將會帶來新一輪的研究熱潮,對視頻的發展和應用也會產生巨大的影響。數字視頻技術是信息領域最具發展活力的方向之一,是對人們工作和生活影響最為直接的技術領域。近年來,隨著軟硬件成本下降以及通訊技術的進步,視頻應用的需求越來越大。諸如數字視頻點播、高清數字電視、視頻會議、網絡流媒體、遠程監控、無線多媒體通信、IPTV(InternetProtocolTelevision)等應用,已經為越來越多的人所接受和熟悉。眾多精彩的新應用目前也處于設計或前期部署中,例如新一代高清Blu-rayDVD(DigitalVersatileDisc)、數字視頻廣播、高清視頻電話等。面對大量涌現的視頻數據以及更高的視覺質量要求,視頻編解碼技術也得到了迅速地發展,并且日趨成熟,其標志是多個視頻標準的制定和頒布。然而傳統的視頻標準有一定的不足之處,針對這種現象本文旨在研究一種更為先進的技術壓縮標準MPEG-4.MPEG-4不只是具體壓縮算法,它是針對數字電視、交互式繪圖應用(影音合成內容)、交互式多媒體(資料抽取與分離)等整合及壓縮技術的需求而制定的國際標準.它能滿足三種族群的需求一多媒體內容創作者、網絡服務供貨商和終端消費者。對多媒體內容創作者而言,MPEG-4使多媒體內容更加多元化、更具有彈性,且多媒體組件更容易被再利用。它能將現今各自發展的技術及應用如互聯網、動畫、視頻、音頻、交互電視等整合至單一架構之下,進而提供更佳的資源管理方法和保護著作權的機能。對網絡服務供貨商而言,MPEG-4是透明度很高的信息傳遞工具。它可以藉由與其它國際標準的兼容相通而存在于各種形式網絡上,如寬帶電信網絡、有線電視網絡以及無線傳輸等,尤其在單純以視音頻傳輸為主的應用中。對終端消費者而言,MPEG-4能讓消費者在原創作者限定的操作功能范圍之內,與節目內容中的對象交互,體會前所未有的娛樂效果。而且在低傳輸率、移動式的網絡中,MPEG-4能使多媒體應用得以發揮。這包括了交互式多媒體廣播和移動通訊等.MPEG-4標準將眾多的多媒體應用集成于一個完整的框架內,旨在為多媒體通信及應用環境提供標準的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應用領域普遍采用的統一數據格式。多媒體系列標準視頻壓縮編碼標準主要包括兩個部分,一個是由國際電信聯盟(ITU)所制定的H.26x系列標準,另一個是由國際標準化組織(InternationalStandardizationOrganization.ISO)和MPEG組織(MovingPictureExpertGroup)所制定的MPEG.x系列標準。這些視頻編碼標準都是為了應對不同領域中對數字音頻和數字視頻的不同要求而制定的。第一個視頻編碼國際標準由CCITT公布于1984年,距今已有28年了。例如,3G時代的來臨帶來了一個非常重要的概念,即可視電話。由于打破的距離的障礙,在有限的帶寬上實現了實時視頻的傳輸,該技術一直被認為是一種非常理想的通信技術,可近30年來至今仍未能得到廣泛的普及,這是因為滿足帶寬要求所付出的代價極高,從而造成性價比不高。H.264視頻壓縮標準由ITU-T/ISO于2003年3月正式公布,同以往標準相比它具有非常優秀的性能,受到了普遍的認可。通過每項性能指標的對比可以發現,在同樣視頻質量下將H.264與H.263或MPEG-4進行對比發現H.264的數碼率降低了接近一半的倍數;或者說在碼率相同的條件下,信噪比提高很大。正是因為H.264所體現出的良好性能使得其在國際上受到了廣泛地認可和重視。下面按時間順序對幾個重要的視頻編碼標準作簡單介紹[1]:1.MPEG-1標準及MPEG-2標準MPEG-1標準出版于1992年,是一個獲得廣泛成功的視頻編解碼器,能夠近似VHS錄像帶的質量或更好地將比特率設定為約1.5Mbit/s。比特率范圍覆蓋了約1-2Mbit/s的。MPEG-1的縮寫由運動圖像專家組制定并被其發展。MPEG-1視頻(IS11172-2)是ISO/IECJTC1組織的一個項目,于1993年獲得批準。在技術功能方面,它增加了雙向預測幀(B幀)和半像素運動(半像素運動已經在H.261的發展過程中提出來過,但當時被認為是過于復雜)。對數據進行隨機訪問的要求和高效壓縮造成了沖突,為了解決這個問題,MPEG-1定義了四種圖像類型:I幀,P幀,B幀和D圖像。在更高的比特率操作時,它提供比H.261更好的質量。(比特率可能低于1兆位/秒,此時H.261的性能更好,因為MPEG-1并沒有設計為能夠運行在此范圍內。)MPEG-2:在比特率,圖像質量和知名度上更上一層樓。MPEG-2被稱為“21世紀的電視標準”,不管是標準清晰度還是高清晰度電視(SDTV和HDTV)。MPEG-2視頻(ISO13818-2/ITU-T的H.262)的目的是要包括MPEG-1,同時還要以更高的比特率提供高品質隔行掃描的視頻源。MPEG-2視頻作為一個正式的ISO/IECJTC1和ITU-T組織的聯合開發項目,通常被認為是一個ISO標準,并在1994年年底完成。其主要新技術特點是高效處理隔行掃描圖片和層次位使用的可擴展性。其目標比特率范圍約為4-30Mbit/s。2.MPEG-4及MPEG-7標準MPEG-4標準正式公布于1998年12月。主要是為了滿足窄帶多媒體通信等領域的應用要求而制定,其傳輸碼率也限制在64Kbps以下。MPEG-4壓縮編碼部分所采用的壓縮方法的一個特點就是基于內容,使用基于內容的方法作為壓縮編碼的一個重點,這樣做是可以將視頻信息的應用從播放型擴展到可以進行基于內容的訪問和操作型,豐富了視頻信息應用的領域和方式。MPEG-4是一個開放型的標準,對標準中各種技術的具體實現算法不作規定,由此,研究者可以根據標準的要求制定出更新更優更快速的算法??梢詫PEG-4當做一個工具箱,隨時加入新的想法以豐富這個標準。MPEG-7(多媒體內容描述接口)是對MPEG-4的進一步完善,是為了適應新一代的網絡發展要求而制定的,為描述各種紛繁復雜的媒體信息做了一種標準化的規定,這樣就為信息的描述與媒體內容建立了一對一更加緊密標準的聯系,極大地方便了用戶對各種信息進行檢索和利用。3.H.263標準1996年3月,ITU—T正式通過了H.263國際標準。H.263(第1版)是ITU-T項目,并于1996年初批準(技術內容在1995年年底完成)。是第一個專門用來處理非常低比特率視頻的編解碼器,其在這一領域的表現仍然是最優秀的。H.263是目前最好的實際視頻通信的標準。原來的目標比特率范圍約10-30Kbit/s的,但在開發過程中擴大,大約為10-2048Kbit/s。很明顯,它可以在任何比特率優于H.261。主要應用于視頻會議會議、可視電話等跟視頻相關的通信業務。該標準的出現解決了視頻通信領域的大難題,極大地推動了通信技術的發展,是視頻通信領域的重大突破。新的H.263的關鍵技術特點是可變塊大小運動補償,重疊塊運動補償,運動矢量圖片推斷,三維的運行水平,最后可變長度編碼,平均壓預測,更高效的開銷信號(相對于H.261其特點有算術編碼,半像素運動,雙向預測。但第一個特征也包含在JPEG里,其他兩個則在MPEG-1)。在非常低的比特率(例如,低于30kbit/s),H.263可使用一半或不到一半的比特率編碼達到與H.261相同的質量。在更高的比特率,例如,高于80千比特/秒,相比H.261它有能夠提供更多中等程度性能的優勢。亦見于下面的H.263+。H.263支持5種圖像格式:SubQCIF(128x96)、QCIF(176x144)、CIF(352x288)、4CⅢ(740x576)、16CIF(1408x1152),采樣格式為4:2:0。4.H.263+H.263+:技術上是H.263的第二版。H.263+項目添加了一些新的可選功能到H.263。相比于以前標準的H.263+有一個顯著的技術進步,它是第一個為無線或基于分組的傳輸網絡提供高度的錯誤恢復的視頻編碼標準。H.263+在壓縮效率的研究、靈活的視頻格式和可擴展反向兼容補充方面也增加了一些改進。它是在1998年1月由ITU-T批準,在1997年9月完成技術含量。它將H.263的有效比特率擴展到任何比特率和任何逐行掃描(非交錯)圖片格式和幀速率的范圍上,H.263+的性能在整個的任何現有標準范圍內都是相對優越的。H.263+項目的第一作者是H.263的編輯也是ITU-T的高級視頻編碼專家組(SG16Q15)開發員(主席)。5.H.264/AVC標準2003年3月繼H.263標準之后,聯合視頻專家組(JVT)提出一項最新的視頻編碼標準—H.264建議。ISO將其稱為“ISO/IEC14496Partl0高級視頻編碼算法”(ISO/IEC1449610AVC),把它作為MPEG.4的第十部分。H.264主要支持4:2:0格式,其它格式如4:2:2和4:4:4則是作為額外的參考信息參數。支持連續或隔行視頻的編碼與解碼,編碼圖像類型除了以往標準中有的I幀、P幀和B幀之外,還新定義了SP幀和SI幀。新定義的這些功能可以實現不同傳輸速率、不同圖像質量碼流的條件下的快速切換,同時還具有快速恢復丟失的信息等功能。H.264標準的編碼結構有兩層,分別是VCL視頻編碼層和NAL網絡抽象層。H.264高效率的壓縮性能的實現就是由VCL層來完成的,為了解決網絡適配的問題,需要從具體的傳輸層中將VCL抽象出來,這部分工作是由NAL完成的。要使得碼流適應不同環境的各類信道,需要對不同網絡選用一個最合適的方式對數據進行處理、打包和傳送。NAL以NALU為單元,這樣使得在許多基于包交換的技術網絡中H.264都能夠能夠完成編碼數據流的傳輸的功能,這極大地提高了H.264技術的網絡適應性。H.264的雙層系統結構在功能上將每一層獨立起來,各自獨立完成自身的功能,這樣的層定義極大地優化了整個編碼系統。本文主要對MPEG-4作重點介紹。MPEG-4視頻技術目前,視頻技術的應用范圍很廣,如網上可視會議、網上可視電子商務、網上政務、網上購物、網上學校、遠程醫療、網上研討會、網上展示廳、個人網上聊天、可視咨詢等業務。
但是,以上所有的應用都必須壓縮。傳輸的數據量之大,單純用擴大存儲器容量、增加通信干線的傳輸速率的辦法是不現實的,數據壓縮技術是個行之有效的解決辦法,通過數據壓縮,可以把信息數據量壓下來,以壓縮形式存儲、傳輸,既節約了存儲空間,又提高了通信干線的傳輸效率,同時也可使計算機實時處理音頻、視頻信息,以保證播放出高質量的視頻、音頻節目。可見,多媒體數據壓縮是非常必要的。由于多媒體聲音、數據、視像等信源數據有極強的相關性,也就是說有大量的冗余信息。數據壓縮可以將龐大數據中的冗余信息去掉(去除數據之間的相關性),保留相互獨立的信息分量,因此,多媒體數據壓縮是完全可以實現的。
圖像編碼方法可分為兩代:第一代是基于數據統計,去掉的是數據冗余,稱為低層壓縮編碼方法;第二代是基于內容,去掉的是內容冗余,其中基于對象(Object-Based)方法稱為中層壓縮編碼方法,其中基于語義(Syntax-Based)方法稱為高層壓縮編碼方法。
基于內容壓縮編碼方法代表新一代的壓縮方法,也是目前最活躍的領域,最早是由瑞典的Forchheimer提出的,隨后日本的Harashima等人也展示了不少研究成果。
3.1運動估計和補償
MPEG-4中提供了基于塊的運動估計和補償技術來有效地利用各個VOP中視頻內容上的時間冗余。一般,運動估計和補償可以看作針對任意形狀圖像序列的塊匹配技術的延伸。塊匹配過程對于標準宏塊使用;預測誤差和用于預測的宏塊運動向量一起被編碼;高級運動補償模式支持重疊塊運動補償,可對8×8塊運動向量進行編碼。為了使運動估計得到高編碼效率,預測圖像和被預測圖像越相似越好,所以在運動估計之前要先進行補償。在目標邊界上的MB先用水平填補而后用垂直填補,其余完全在VOP之外的MB用擴張填補。
2.3紋理編碼
紋理指的是I-VOP圖像和P/B-VOP經運動補償后殘留的圖像信息。紋理一般在變換域進行壓縮編碼和熵編碼。
準正式編輯已經出版:靜態圖像壓縮編碼標準(JPEG);數字聲像儲存壓縮編碼標準(MPEG-1);通用視頻圖像壓縮編碼標準(MPEG-2)。
隨后,MPEG專家組于1999年2月正式公布了MPEG-4(ISO/IEC14496)V1.0版本。同年底MPEG-4V2.0版本亦告完成,且于2000年年初正式成為國際標準。MPEG-4標準將眾多的多媒體應用集成于一個完整的框架內,旨在為多媒體通信及應用環境提供標準的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應用普遍采用的統一數據格式,并根據不同的應用需求,現場配置解碼器,開放的編碼系統也可隨時加入新的有效的算法模塊。為支持對視頻內容的訪問,MPEG-4提出了“視頻對象”的概念。
目前,MPEG專家組又推出了專門支持多媒體信息且基于內容檢索的編碼方案MPEG-7及多媒體框架標準MPEG-21。另外,由ITU-T和MPEG聯合開發的新標準H.264是最新的視頻編碼算法。為了降低碼率,獲得盡可能更好圖像質量,H.264標準吸取了MPEG-4的長處,具有更高的壓縮比、更好的信道適應性,必將在數字視頻的通信和存儲領域得到廣泛的應用,其發展潛力不可限量。MPEG-4具有很多優點。它的壓縮率可以超過100倍,而仍保有極佳的音質和畫質;它可利用最少的數據,獲取最佳的圖像質量,滿足低碼率應用的需求;它更適合于交互式AV服務及遠程監控。為了滿足各種應用的需求,MPEG-4標準的使用范圍相當龐大,具有廣泛的適應性和可擴展性。
3.1形狀編碼
形狀信息的獲得首先要對圖形進行分析和分割,把各個代表不同內容的目標分割后再用形狀表示。形狀信息通常用二值Alpha平面和灰度Alpha平面來表示。二值Alpha平面可用臨近信息進行算術編碼(CAE);灰度Alpha平面可用運動補償加DCT變換方式類似紋理編碼一樣進行編碼。
其中用于圖像壓縮的變換有離散Forier變換(DFT)、離散小波變換(DWT)、奇異值分解(SVD)、K-L變換、Walsh變換、Hadamard變換、Harr變換、Slant變換、離散余弦變換(DCT)。其中K-L變換的去相關性最好,而DCT是接近K-L變換效果的最便于實現的變換。和MPEG-1/2一樣,MPEG-4也選擇了DCT。通常,用于數據壓縮的熵編碼方法有霍夫曼(Huffman)編碼、矢量量化、算術編碼、游程編碼、LZW編碼等。對于紋理編碼,MPEG-4選擇了把游程編碼、矢量量化和Huffman編碼進行混合編程編碼(VLC)。紋理編碼要經過DCT變換、量化、DC/AC預測、掃描、基于Hufman的VLC編碼。
3.2伸屈性
視頻的伸屈性,包括空間伸屈性和時間伸屈性??臻g伸屈性可以得到不同的空間分辨率,時間伸屈性可得到不同的時間分辨率。每種伸屈都有多層,在只有高低2層的情況下,底層指的是基本層,而高層指的是增強層。
3.3差錯回避
VLC碼中的一個比特錯誤會引起同步丟失,而運動補償則會引起錯誤傳遞。
MPEG-4的差錯回避有三個方面:重同步、數據恢復和錯誤隱藏。
重同步,是指差錯被檢測后,解碼器和碼流之間重新同步的技術。一般來說,這種方法會將錯誤之前的同步點到重建的同步點之間的數據丟棄。不過這些丟棄的數據可以用其他的技術進行恢復和實施錯誤隱藏。
數據恢復工具在解碼器和碼流重新建立起同步后用來恢復丟棄的數據。這些工具不是簡單的用容錯碼恢復,而是用一種差錯回避手段,即用可逆VLC碼字進行VLC編碼。
錯誤隱藏,在重同步有效地將錯誤定位后可以很容易處理。為了進一步提高錯誤隱匿的能力,有必要增加錯誤定位能力,特別是數據分割可以用來提高錯誤定位能力。
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代壓縮編碼技術,著眼于圖像信號的統計特性來設計編碼器,屬于波形編碼的范疇。第一代壓縮編碼方案把視頻序列按時間先后分為一系列幀,每一幀圖像又分成宏塊以進行運動補償和編碼,這種編碼方案存在以下缺陷:
將圖像固定地分成相同大小的塊,在高壓縮比的情況下會出現嚴重的塊效應,即馬賽克效應;不能對圖像內容進行訪問、編輯和回放等操作;未充分利用人類視覺系統(HVS,HumanVisualSystem)的特性。
MPEG-4則代表了基于模型/對象的第二代壓縮編碼技術,它充分利用了人眼視覺特性,抓住了圖像信息傳輸的本質,從輪廓、紋理思路出發,支持基于視覺內容的交互功能,這適應了多媒體信息的應用由播放型轉向基于內容的訪問、檢索及操作的發展趨勢。
AV對象(AVO,AudioVisualObject)是MPEG-4為支持基于內容編碼而提出的重要概念。對象是指在一個場景中能夠訪問和操縱的實體,對象的劃分可根據其獨特的紋理、運動、形狀、模型和高層語義為依據。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念,而是一個個視聽場景(AV場景),這些不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或者視聽內容的表示單元,其基本單位是原始AV對象,它可以是自然的或合成的聲音、圖像。原始AV對象具有高效編碼、高效存儲與傳輸以及可交互操作的特性,它又可進一步組成復合AV對象。因此MPEG-4標準的基本內容就是對AV對象進行高效編碼、組織、存儲與傳輸。AV對象的提出,使多媒體通信具有高度交互及高效編碼的能力,AV對象編碼就是MPEG-4的核心編碼技術。
MPEG-4不僅可提供高壓縮率,同時也可實現更好的多媒體內容互動性及全方位的存取性,它采用開放的編碼系統,可隨時加入新的編碼算法模塊,同時也可根據不同應用需求現場配置解碼器,以支持多種多媒體應用。
MPEG-4采用了新一代視頻編碼技術,它在視頻編碼發展史上第一次把編碼對象從圖像幀拓展到具有實際意義的任意形狀視頻對象,從而實現了從基于像素的傳統編碼向基于對象和內容的現代編碼的轉變,因而引領著新一代智能圖像編碼的發展潮流。
3.2關鍵技術
MPEG-4除采用第一代視頻編碼的核心技術,如變換編碼、運動估計與運動補償、量化、熵編碼外,還提出了一些新的有創見性的關鍵技術,并在第一代視頻編碼技術基礎上進行了卓有成效的完善和改進。下面重點介紹其中的一些關鍵技術。
1.視頻對象提取技術
MPEG-4實現基于內容交互的首要任務就是把視頻/圖像分割成不同對象或者把運動對象從背景中分離出來,然后針對不同對象采用相應編碼方法,以實現高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關鍵技術,也是新一代視頻編碼的研究熱點和難點。
視頻對象分割涉及對視頻內容的分析和理解,這與人工智能、圖像理解、模式識別和神經網絡等學科有密切聯系。目前人工智能的發展還不夠完善,計算機還不具有觀察、識別、理解圖像的能力;同時關于計算機視覺的研究也表明要實現正確的圖像分割需要在更高層次上對視頻內容進行理解。因此,盡管MPEG-4框架已經制定,但至今仍沒有通用的有效方法去根本解決視頻對象分割問題,視頻對象分割被認為是一個具有挑戰性的難題,基于語義的分割則更加困難。
目前進行視頻對象分割的一般步驟是:先對原始視頻/圖像數據進行簡化以利于分割,這可通過低通濾波、中值濾波、形態濾波來完成;然后對視頻/圖像數據進行特征提取,可以是顏色、紋理、運動、幀差、位移幀差乃至語義等特征;再基于某種均勻性標準來確定分割決策,根據所提取特征將視頻數據歸類;最后是進行相關后處理,以實現濾除噪聲及準確提取邊界。
在視頻分割中基于數學形態理論的分水嶺(watershed)算法被廣泛使用,它又稱水線算法,其基本過程是連續腐蝕二值圖像,由圖像簡化、標記提取、決策、后處理四個階段構成。分水嶺算法具有運算簡單、性能優良,能夠較好提取運動對象輪廓、準確得到運動物體邊緣的優點。但分割時需要梯度信息,對噪聲較敏感,且未利用幀間信息,通常會產生圖像過度分割。2.VOP視頻編碼技術
視頻對象平面(VOP,VideoObjectPlane)是視頻對象(VO)在某一時刻的采樣,VOP是MPEG-4視頻編碼的核心概念。MPEG-4在編碼過程中針對不同VO采用不同的編碼策略,即對前景VO的壓縮編碼盡可能保留細節和平滑;對背景VO則采用高壓縮率的編碼策略,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基于對象的視頻編碼不僅克服了第一代視頻編碼中高壓縮率編碼所產生的方塊效應,而且使用戶可與場景交互,從而既提高了壓縮比,又實現了基于內容的交互,為視頻編碼提供了廣闊的發展空間。
MPEG-4支持任意形狀圖像與視頻的編解碼。對于任意形狀視頻對象。對于極低比特率實時應用,如可視電話、會議電視,MPEG-4則采用VLBV(VeryLowBit-rateVideo,極低比特率視頻)核進行編碼。
傳統的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現了傳統編碼與基于內容編碼在MPEG-4中的統一。VO概念的引入,更加符合人腦對視覺信息的處理方式,并使視頻信號的處理方式從數字化進展到智能化,從而提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用及更多的內容交互成為可能。因此VOP視頻編碼技術被譽為視頻信號處理技術從數字化進入智能化的初步探索。
3.視頻編碼可分級性技術
隨著因特網業務的巨大增長,在速率起伏很大的IP(InternetProtocol)網絡及具有不同傳輸特性的異構網絡上進行視頻傳輸的要求和應用越來越多。在這種背景下,視頻分級編碼的重要性日益突出,其應用非常廣泛,且具有很高的理論研究及實際應用價值,因此受到人們的極大關注。<>
視頻編碼的可分級性(scalability)是指碼率的可調整性,即視頻數據只壓縮一次,卻能以多個幀率、空間分辨率或視頻質量進行解碼,從而可支持多種類型用戶的各種不同應用要求。<>
MPEG-4通過視頻對象層(VOL,VideoObjectLayer)數據結構來實現分級編碼。MPEG-4提供了兩種基本分級工具,即時域分級(TemporalScalability)和空域分級(SpatialScalability),此外還支持時域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強層?;緦犹峁┝艘曨l序列的基本信息,增強層提供了視頻序列更高的分辨率和細節。<>
在隨后增補的視頻流應用框架中,MPEG-4提出了FGS(FineGranularityScalable,精細可伸縮性)視頻編碼算法以及PFGS(ProgressiveFineGranularityScalable,漸進精細可伸縮性)視頻編碼算法。
FGS編碼實現簡單,可在編碼速率、顯示分辨率、內容、解碼復雜度等方面提供靈活的自適應和可擴展性,且具有很強的帶寬自適應能力和抗誤碼性能。但還存在編碼效率低于非可擴展編碼及接收端視頻質量非最優兩個不足。
PFGS則是為改善FGS編碼效率而提出的視頻編碼算法,其基本思想是在增強層圖像編碼時使用前一幀重建的某個增強層圖像為參考進行運動補償,以使運動補償更加有效,從而提高編碼效率。介紹了一些運動估計的快速算法MPEG-4采用I-VOP、P-VOP、B-VOP三種幀格式來表征不同的運動補償類型。它采用了H.263中的半像素搜索(halfpixelsearching)技術和重疊運動補償(overlappedmotioncompensation)技術,同時又引入重復填充(repetitivepadding)技術和修改的塊(多邊形)匹配(modifiedblock(polygon)matching)技術以支持任意形狀的VOP區域。
此外,為提高運動估計算法精度,MPEG-4采用了MVFAST(MotionVectorFieldAdaptiveSearchTechnique)和改進的PMVFAST(PredictiveMVFAST)方法用于運動估計。對于全局運動估計,則采用了基于特征的快速頑健的FFRGMET(Feature-basedFastandRobustGlobalMotionEstimationTechnique)方法。
在MPEG-4視頻編碼中,運動估計相當耗時,對編碼的實時性影響很大。因此這里特別強調快速算法。運動估計方法主要有像素遞歸法和塊匹配法兩大類,前者復雜度很高,實際中應用較少,后者則在H.263和MPEG中廣泛采用。在塊匹配法中,重點研究塊匹配準則及搜索方法。目前有三種常用的匹配準則:
(1)絕對誤差和(SAD,SumofAbsoluteDifference)準則;
(2)均方誤差(MSE,MeanSquareError)準則;
(3)歸一化互相關函數(NCCF,NormalizedCrossCorrelationFunction)準則。
在上述三種準則中,SAD準則具有不需乘法運算、實現簡單方便的優點而使用最多,但應清楚匹配準則的選用對匹配結果影響不大。第五章新菱形搜索的運動估計算法1傳統菱形搜索算法根據實驗數據統計表明,利用全搜索算法計算獲得的運動向量概率和距離搜索中心點的距離之間的關系可以看出,50%~90%的運動向量集中在以搜索中心為圓心的半徑為2的圓上,圖1運動向量主要分布根據實際視頻序列物體運動的統計,實際視頻中塊的運動可以在任何方向上進行運動,但主要集中在水平和垂直兩個方向上(攝像機運動)。所以上圖中在半徑為2的圓中的13個搜索點是具有最優匹配概率最大的點。所以在該圓形區域內進行搜索,搜索匹配的點數最小而能獲得最佳的搜索效果。基于上述理論,菱形搜索算法被提出。為了使得搜索范圍為以搜索中心為原點的圓,菱形搜索算法采用了兩個搜索模式,如圖2所示。一個模式稱為大菱形搜索模式(IsP),采用9個搜索點,包括搜索中心,以及8個照菱形分布的圍繞點。第二個模式成為小菱形搜索模式(SDSP),采用搜索中心和與其相鄰的水平垂直方向上的4個點共5個點組成小菱形。圖2LDSP模板與SclsP模板2改進的運動搜索算法菱形搜索算法在1999年10月被MPEG4標準收入驗證模型,是通過局部搜索力圖達到全局最優的一個比較成功的算法。雖然它的綜合性能較其它算法優越,但平均搜索點數仍在l5.5左右[4]。如何在盡量不影響其它性能的前提下進一步減少搜索點數,降低運算量,一直是運動估計算法研究的重要目標。目前提出的運動搜索算法有很多種,最具代表性的有對運動模板作出修改的算法和基于運動向量預測的算法。2.1六邊形搜索算法進一步分析LDSP可以發現,LDSP四周的8個匹配點到中心點的距離是不同的,因此使用LDS進行粗定位時,沿不同方向移動的匹配速度也不同,當LD.SP的頂點為本次匹配的MBD點時模板沿水平或垂直方向移動,此時的搜索速度為2像素/步;當模板沿對角方向移動時其速度為√2像素/步。另一方面,在大模板移動的每一步中,不同的搜索方向需要檢測的搜索點數也不同。水平和垂直方向上需要檢測5個新搜索點,而對角方向上只需檢測3個新的搜索點即可。從以上幾點可以看出,LDSP模板并不是最優的搜索模板。事實上,造成該問題的根源在于塊匹配誤差實際上是在搜索范圍內建立的誤差表面函數,全局最小點即對應著最佳運動矢量,而LDSP實際上只是一個旋轉了45。的正方形模板,在對角方向上的梯度下降方向不過快,需要較多步才能夠搜索到最優點【5J。六邊形搜索算法在菱形搜索的基礎上進一步改進。根據搜索模式符合以2為半徑的圓形使得搜索點數最優的理論,HEXBSDS的LDSP修改成六邊形模式,同時SDSP仍然保留。如圖3所示。圖3HEⅫ的U)S模板這樣的改進有兩個優點:一個是大的搜索模式更貼近于以2為半徑的圓,搜索效率更高;另一個是很明顯的改進,HEXSP比IDsP減少2個搜索點,這樣平均搜索點數會至少減少2個點6】。2.2高級菱形搜索算法菱形算法另外一個缺陷就是不能根據圖像的內容作出靈活處理,即不管是什么樣的運動。一律先用LD—SP來搜索,再用SⅨ搜索,這對小運動圖像是一種浪費。高級菱形搜索法拋棄了大模板,依據先前的運動向量計算出一個預測向量,然后在預測向量附近進行搜索。算法具體描述為:Step1:以當前點為中心計算小菱形的5個匹配點,如果最小SAD點不在中心點則跳轉到Step2,否則跳轉到Step5。Step2:記錄更好的方向;記錄SAD最小的點為當前中心點;如果更好的方向是左右方向,那么測試該位置的上下方向;如果更好的方向是上下方向,那么測試該位置的左右方向;如果這次又找到了更好的方向,將更好的方向累加,記錄SAD最小的點為當前中心點;跳轉到Step3。Step3:進一步搜索:如果搜索方向是趨向右邊的,那么搜索當前中心點的右上點和右下點;否則如果搜索方向是趨向左邊的,那么搜索當前中心點的左上點和左下點;否則如果搜索方向是趨向右上的,那么搜索當前中心點的左上點、右上點和右下點;否則如果搜索方向是趨向上邊的,那么搜索當前中心點的左上點和右上點;否則如果搜索方向是趨向下邊的,那么搜索當前中心點的左下點和右下點;否則搜索方向是趨向左上的,那么搜索當前中心點的左下點、左上點和右上點;否則如果表明搜索方向是趨向右下的,那么搜索當前中心點的左下點、左上點和右上點;否則如果搜索方向是趨向左下的,那么搜索當前中心點的左上點、左下點和右下點;否則就認為本輪搜索沒有找到更好的點,那么搜索當前中心點的左上點左下點、右上點、右下點;搜索完畢后轉到Step4。Step4:如果沒有找到更好的方向,跳轉到Step5。否則更新bDirection為更好的方向,記錄SAD最小的點為當前中心點,返回Step1。Step6:停止搜索。如圖4所示,每次找到的最佳匹配點加重表示,本算法在第四步搜索結束。由于每輪搜索的點數相應的減少,本算法與DS算法相比降低了搜索時問。第六章、基于SOPC的MPEG-4播放器多媒體技術實用化的關鍵技術之一,就是解決視頻、音頻數字化以后數據量大,與數字存儲媒體、通信網容量小的矛盾,其解決途徑就是壓縮。
為了支持低比特率視頻傳輸業務,MPEG(MovingPictureExpertsGroup)推出了MPEG-4標準。于1999年正式成為國際標準的MPEG4是一個適合于低傳輸率的視頻、音頻解決方案,更注重于多媒體系統的交互性和靈活性。MPEG-4視頻壓縮標準提供了一種高度靈活、基于“內容”的編碼方法,解碼端可以“按需解碼”,還可以添加對象和信息。這種靈活性使得MPEG-4具有高效的編碼效率、基于內容的可擴展性以及在易受干擾環境下的魯棒性。
MPEG-4的這些特性使得它十分適合于存儲容量有限的手持終端設備。但是MPEG-4視頻解碼中涉及的反量化(InverseQuantization,IQ)、反離散余弦變換(InverseDiscreteCosineTransform,IDCT),運動補償(MotionComposition,MC)等技術均是典型的計算密集型變換,對于本身處理能力有限,功耗受限的手持終端設備而言,視頻解碼的實時性是一個很大的挑戰。
本系統在NiosII和FPGA構成的SOPC平臺上,使用NiosII的用戶自定義指令以硬件邏輯方式實現MPEG4解碼中的IQ、IDCT、MC等計算復雜、高度耗時的功能模塊,極大地提高解碼速度。從而在以GPL協議發布的XviDCodec基礎上,實現SimpleProfile視覺框架下,L1級、QCIF(177×144分辨率)、25fps的MPEG-4實時解碼,并通過DMA方式在LCD上加以顯示。
1系統功能描述
本系統從功能上可以分為視頻文件存取、視頻解碼器、YUV-RGB變換器和LCD控制模塊4個部分。
1.1視頻文件存取
要進行視頻文件的播放,首先需要對視頻文件進行方便地存儲和讀取。系統播放的MP4文件由XviDCodec在PC上對4∶2∶0的YUV文件壓縮得到。該MP4文件采用177×144分辨率的QCIF格式,25幀/s。在下載模式,可以通過JTAG接口將MP4文件寫入Flash存儲器中。在播放模式下,NiosII處理器將MP4文件從Flash存儲器中讀出,送入文件緩沖池中等待解碼器對其進行讀取并解碼。
1.2視頻解碼器
視頻解碼器是系統的核心。如圖1所示,視頻解碼器由熵解碼器、反量化、反離散余弦變換、運動補償模塊和視頻幀緩存5個模塊組成。
圖1視頻解碼器結構框圖解碼時,首先對輸入碼流進行熵解碼,然后根據幀的頭信息判斷幀的類型。對于每個宏塊,熵解碼后首先經過IQ,再經過IDCT變換得到空間域的值。對于參考幀(R-Frame),由于不需要進行運動補償,變換后的結果直接輸出,同時還要將它存儲在視頻幀緩存中,留給后面的預測幀(P-Frame)做運動補償。對于預測幀,先通過熵解碼得到運動向量,根據運動向量搜索到相應的參考幀后,再將IDCT變換后的預測差值與之相加,合成最后的預測幀圖像。解碼后的預測幀同樣是一路輸出,一路存放于視頻幀緩存當中。
視頻解碼如果采用純軟件方式實現,運算量太大,難以滿足實時性要求。利用NiosII的自定義指令,將IQ、IDCT和MC這3個主要的計算密集型解碼單元用硬件邏輯方式實現,以硬件邏輯的復雜性換取解碼的實時性。
1.3YUV-RGB變換器
解碼器解碼得到的YUV格式圖像不適合直接用于LCD顯示。要在LCD上顯示解碼得到的圖象必須將YUV格式的圖像轉換為RGB格式,兩者的轉換關系如下:
R=1.164(Y-16)+1.569(V-128)
G=1.164(Y-16)+0.813(V-128)+0.391(U-128)
B=1.164(Y-16)+2.018(U-128)
YUV到RGB格式的轉換是一個很占用CPU資源的過程。本系統以查表的方式,采用硬件邏輯實現該轉換。
1.4LCD控制模塊
標準VGALCD顯示模塊(640×480,@60Hz)是一種逐行掃描設備。這種掃描是順序的,下一個掃描點能夠預知,從而可以將需要送出的像素信息排成一行,看作一個數據流(Streaming)。借助于NiosII的Avalon流模式外設的設計方法,可以實現一個Avalon流模式的LCD控制器。利用DMA控制器在流模式的LCD控制器和系統SDRAM之間建立一條DMA傳送通道,由硬件完成像素信息的讀取和送出。NiosII只需要操作SDRAM中的相應區域就可完成顯示圖像的更新。
2系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 禮儀用品行業品牌形象塑造與品牌傳播策略研究考核試卷
- 電機運行與維護管理考核試卷
- 耐火土石礦山開采對地形地貌的影響考核試卷
- 抗疫“心”能量-生命主題教育課程
- 水電工程建設項目后評價方法與案例考核試卷
- 肉類罐頭銷售渠道拓展與管理考核試卷
- 體育用品租賃業務中的用戶體驗優化考核試卷
- 糖果的食品安全突發事件應對考核試卷
- 少兒美術教育課程
- 幼兒園的法制教育課件
- 青馬工程筆試試題及答案
- 豆粕交易合同協議
- 項目設計安全管理制度
- 電子化采購招投標平臺系統建設項目解決方案
- 小學京劇知識
- (2025)漢字聽寫大會競賽題庫(含答案)
- 鐵塔土建施工方案
- 2025年演出經紀人《演出市場政策與經紀實務》考前點題卷一
- GB/T 45235-2025電子電氣產品中雙酚A的測定高效液相色譜法
- 消防管線施工方案
- 2025年度祠堂宗教用品銷售承包合同3篇
評論
0/150
提交評論