




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
視音頻基礎知識深圳市迪威視訊股份有限公司羅欽騎2主要內容一、音頻基礎知識二、視頻基礎知識三、視頻會議終端及高清視
頻接口簡介一、音頻基礎知識音頻基本特性音頻特性
音頻信號由許多頻率不同的聲波組成。音頻信號的兩個基本參數是頻率(音調)和幅度(聲強)。人發音器官聲音頻頻率范圍:80~3400Hz。人耳感知音頻頻率范圍:20~20000Hz。
音頻信號數字化模擬信號與數字信號處理對比
時間上離散-采樣幅度上離散-量化語音質量與采樣頻率
Nyquist原理語音質量與采樣精度
量化噪聲與量化比特數語音質量與數據率音頻壓縮的必要性人耳可以聽到最高頻率約20KHz。根據奈奎斯特抽樣定理,為保證數字化的音頻信號正確還原,采樣頻率必須大于等于音頻信號的2倍,即40KHz。每樣本用16比特量化,立體聲碼率達40K*2*16=
1.28Mbps聲音的靜聽域靜聽閾是隨頻率變化的,人耳對2KHz~5KHz的聲音比較敏感各人的聽覺閾值不同聲音的頻域遮蔽現象一種頻率的聲音會阻礙聽覺系統感受另一種頻率的聲音,這種現象稱為聲音的頻域掩蔽效應。聲音的時域掩蔽效應除了同時發出的聲音之間有掩蔽現象之外,在時間上相鄰的聲音之間也有掩蔽現象,稱為時域掩蔽。時域掩蔽又分為超前掩蔽和滯后掩蔽。產生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間,也就是說,一個強音發生時,除了提高同一時刻的聽覺閾值外,還會提高強音發生前和發生后一段時期的聽覺閾值。一般來說,超前掩蔽很短,只有大約5~20ms,而滯后掩蔽可以持續50~200ms。音頻壓縮的可行性 由于人耳對聲音的感知存在這些掩蔽效應,我們可以利用人耳心理模型對聲音進行分析,將被掩蔽的信號去除,或用少量比特進行量化,只要保證量化噪聲低于聽覺閾值,則人耳聽不出還原后的聲音與原始聲音的差別。子帶編碼技術就是利用這種掩蔽效應來實現的。音頻壓縮技術時域壓縮技術子帶壓縮技術變換壓縮技術時域壓縮技術 直接針對音頻PCM碼流的樣值進行處理,通過靜音檢測、非線性量化、差分編碼等手段對碼流進行壓縮。算法復雜度低,聲音質量一般,壓縮比小,編解碼延時最短,一般多用于語音壓縮、低碼率應用場合。主要包括G.711、ADPCM(G.721,自適應差分脈沖編碼)、LPC(線性預測編碼)、CELP(碼激勵線性預測)等子帶壓縮技術
首先把時域中的聲音數據變換到頻域,對頻域內的子帶分量分別進行量化和編碼,然后根據心理聲學模型確定樣本的精度,從而達到壓縮數據量的目的。這種壓縮方式會引入大量的量化噪聲。然而根據人類的聽覺掩蔽曲線,在解碼后,這些噪聲被有用的聲音信號掩蔽掉了,人耳無法察覺。技術復雜,編碼效率、聲音質量也高,編碼延時相應增加,目前廣泛應用于數字聲音節目的存儲、制作和數字化廣播中。典型的代表有G.722、MPEG-1層Ⅰ、層Ⅱ子帶壓縮技術輸入PCM音頻信號經過一個多相濾波器組變換到頻域里的多個子帶中。輸入聲音信號同時經過心理聲學模型,計算噪聲掩蔽閾值,然后分析輸入信號和子帶中的信號以確定每個子帶里的信號能量與掩蔽閾值的比率,即信掩比。量化/編碼部分根據信掩比決定分配給子帶信號的量化位數,使量化噪聲低于掩蔽閾值。最后通過成幀器將量化的子帶樣本和其他數據按照幀結構組裝成位數據流。變換壓縮技術 它與子帶壓縮技術的不同之處在于該技術對一段音頻數據進行“線性”的變換,對所獲得的變換域參數進行量化、傳輸,而不是把信號分解為幾個子頻段。通常使用的變換有DFT、DCT、MDCT等。根據信號的短時功率譜對變換域參數進行合理的動態比特分配可以使音頻質量獲得顯著改善,而相應付出的代價則是計算復雜度的提高。有代表性的變換壓縮編碼技術有DolbyAC-2音頻壓縮標準標準采樣率(KHZ)碼率(Kbps)G711864G7221664/56/48G728816G72988MPEG1-L2(MUSICAM)32/44.1/4832~384MPEG4-AAC32/44.1/4864/96/128注:96Kbps碼率AAC的音頻質量超過了128Kbps的MP3(MPEG1-L3)格式二、視頻基礎知識視頻的色度空間三基色原理:任何顏色均由紅(R)、綠(G)、蘭(B)三種顏色分量組成;在電視領域,用亮度(Y)、藍色差(U)、紅色差(V)三個分量表示。兩種方法相互之間的轉換: Y=0.3R+0.59G+0.11B U=B–Y V=R–Y視頻信號的數字化標清標準:ITU-RBT.601
Y、U、V三分量的抽樣頻率分別為13.5MHz、6.75MHz、6.75MHz。 每個樣點的量化比特數用于演播室為10bit,用于傳輸為8bit。
Y、U、V三分量樣點之間比例為4:2:2。高清標準:ITU-RBT.709
720P及1080i的Y、U、V三分量的抽樣頻率分別為74.25MHz、37.125MHz、37.125MHz。1080P50/60高達148.5M、74.25MHz、74.25MHz4:2:2采樣4:2:0采樣視頻格式標清: PAL:隔行,720×576,50Hz NTSC:隔行,720×480,60Hz高清: 720P:逐行,1280×720,25/30/50/60Hz 1080i:隔行,1920×1080,50/60Hz 1080P:逐行,1920×1080,24/25/30/50/60Hz逐行與隔行逐行與隔行Kell系數=0.9Kell系數=0.7垂直分解力=行數xKell系數視頻信號波形視頻分辨率720P為標清的2.2倍,1080P為標清的5倍視頻壓縮的必要性標清數據量(720+360+360)×576×25×8=
165.888Mbps,加上行、場同步、消隱等時基信號,則碼率高達216Mbps高清數據量(含時基信號) 720P/1080i:74.25×2×8=1.188Gbps 1080P50/60:148.5×2×8=2.376Gbps視頻壓縮的可行性時間冗余性相鄰幀對應象素點的值往往相近或相同,具有很強的相關性視覺冗余性對亮度敏感,對色度不敏感對低頻敏感,對高頻不敏感
空間冗余性一幅視頻圖像相鄰各點的取值往往相近或相同,相鄰像素之間具有很強的相關性圖像信號中存在的冗余Time時間冗余1sec2sec3sec4sec5sec6sec7sec空間冗余視頻壓縮的基本技術正交變換去掉空間冗余性,主要采用DCT
運動估計/補償去掉時間冗余性色度下采樣(4:2:0)去掉視覺冗余性MPEG2編碼框圖32DCT離散余弦變換1TVline(64us)720pixels“Luminance”700mV0mVfrequency1TVline(64us)720pixels“Luminance”0mVfrequencyDCT變換Y分量原始數據DCT系數以8x8塊為單位,反變換后可完全復原原始數據,無損。量化量化是針對DCT系數進行的,量化過程就是以某個量化步長(QP)去除DCT系數。量化步長的大小稱為量化精度,量化步長越小,量化精度就越細,則量化造成的失真就越小。去除視覺上不敏感的數據,是變換編碼中的真正對數據進行有效壓縮的步驟。不可逆過程,有損。CBR(恒定碼率,QP變化)VBR(變碼率,QP固定)量化Z型掃描15,0,-2,-1,-1,0,0,-1,0,0,0,0,0,0,…游程編碼掃描后的DCT系數中存在很多零系數,可以只告訴解碼器那些非零系數,并告之兩個非零系數之間有多少個零,則解碼器可通過插入零系數的方法恢復數據,這種方法稱為游程長度編碼。15,3,0,0,0,2,0,0,0,0,0,1,0,0,0,0,0,0,1…(0,15),(0,3),(3,2),(5,1),(6,1)…VLC編碼
頻繁出現的數據用較短的碼字表示,不經常出現的數據用較長的碼字表示,則平均碼字長度最小。15,3,0,0,0,2,0,0,0,0,0,1,0,0,0,0,0,0,1(0,15),(0,3),(3,2),(5,1),(6,1)VLC:11111111,0111,00100110,000111,0000110--33比特原始:11111111,00000011,00000000,…,00000001--152比特運動估計運動估計以宏塊(16x16)為單位進行在參考幀搜索匹配塊,計算被壓縮圖像與參考圖像對應位置上的宏塊間的位置偏移,即運動矢量參考幀當前編碼幀(-6,-1)運動補償根據運動矢量,計算參考塊與當前編碼塊之間的誤差對誤差進行DCT、量化、VLC編碼解碼時將該誤差與參考塊疊加,得到當前圖像
幀間編碼類型
I幀B幀P幀編碼序列12345678910IBBPBBPBBPBBPBBPBB原始圖像順序編解碼圖像順序色度下采樣
4
5
0
1
2
3YCrCb編碼的塊噪聲
碼率越低,量化步長越大,則塊噪聲越明顯。圖像分辨率、幀率與碼率的關系視頻編碼標準標準分辨率碼率應用范圍H.261176144~35228864kb/s~2.048Mb/s窄帶電視會議、可視電話MPEG13522881.5Mb/sVCDH.262/MPEG-2352288~192011521.5~50Mb/s數字視頻廣播(DVB),DVD,高清電視(HDTV),寬帶電視會議H.263/H.263+12896~14081152協議本身沒有對碼率進行限制,碼率取決于傳輸通道。同等圖像質量下,碼率是H.261的一半,比MPEG-2節省30%主要面向窄帶應用,但碼率在600kb/s時可極大提高圖像質量,現在基本上取代了H.261,應用于窄帶電視會議、視頻監控等場合視頻編碼標準三基色原理:任何顏色均由紅(R)、綠(G)、蘭(B)三種顏色分量組成;在電視原理里,用亮度(Y)、藍色差(U)、紅色差(V)三個分量表示。兩種方法相互之間的轉換:Y=0.3R+0.59G+0.11BU=B–YV=R–YR=Y+V標準分辨率碼率應用范圍MPEG-4176144~19201088移動視頻編碼速率為5~64kb/s,影視(352288~720576)應用速率可達15Mb/s。對于19201080的應用可達38.4Mb/s。比H.263節省17%,比MPEG-2節省43%。主要面向多媒體應用,如低比特率移動多媒體通信,流媒體,基于內容的交互多媒體數據庫檢索。監控場合應用較多。H.264/MPEG-4AVC12896~19201152同等圖像質量下,碼率比H.263節省50%,比MPEG-4ASP節省28%,比MPEG-2節省64%視頻通訊(如電視會議、可視電話),數字電視廣播,視頻存儲播放,監控H.264SVCH.264SVC編碼器產生的碼流包含一個或多個可以單獨解碼的子碼流,子碼流可以具有不同的碼率,幀率和空間分辨率。分級的類型:時域可分級(Temporalscalability):可以從碼流中提出具有不同幀頻的碼流。空間可分級(Spatialscalability):可以從碼流中提出具有不同圖像尺寸的碼流。質量可分級(Qualityscalability):可以從碼流中提出具有不同圖像質量的碼流。H.264SVCH.264SVC時域分級空域分級層間幀內預測:圖像紋理復雜并且幀間搜索匹配不好的宏塊,如果基本層采用的是幀內預測,增強層可以采用層間幀內預測模式提高編碼效率。具體做法是把基本層的I塊重建上采樣得到增強層的預測,增強層只需要傳原始圖像和層間幀內預測的殘差。EL(Enhancement
Layer)的參考,可以是來源于同一層的其他幀,也可以是低層上采樣的幀。但是不可以是更高層的幀,那樣的話丟棄高層的nalu會導致低層無法解碼。三、視頻會議終端及
高清視頻接口簡介5354FOCUS3800 FOCUS3800是迪威公司集合先進的視頻編解碼和傳輸通信技術,根據最新的視頻會議終端流行趨勢,推出功能強大的一款會議電視終端。該終端同時支持H.264、H.263算法,適應各種帶寬和應用場合,可以達到FULLHD圖像質量,色彩鮮明,畫面清晰,音質優美。FOCUS3800具備IP和專線E1接口,對網絡有更大的適應能力。FOCUS3800還支持雙流,可以讓數據應用更方便地融入。FOCUS3800會議電視終端和FOCUS8600MCU組成一個系統,適用于政府機關、軍隊、公安、教育、金融及電
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東南華工商職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年山西經貿職業學院高職單招職業技能測試近5年常考版參考題庫含答案解析
- 2025年山東藥品食品職業學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年安徽涉外經濟職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年寧德職業技術學院高職單招(數學)歷年真題考點含答案解析
- 危險源定義課程
- 護士規范化培訓管理
- 簡述重癥超聲診療規范
- 管路護理操作流程
- 復古花紋模板
- pet塑盒生產工藝
- 火災形勢分析報告
- 山西省醫療服務項目收費
- 項目管理與領導力培訓資料
- 歷年全國高考英語完形填空試題匯總及答案
- 加強疾病預防控制體系信息化建設的實施方案
- 山西、蒙西、京津唐電力市場交易規則介紹(中長期+現貨)
- 醫療安全(不良)事件匯總登記表(科室)
- 部編版小學語文六年級上冊教案全冊
- 甲狀腺手術課件
- 經穴秘密(人體361個經穴全部解析)
評論
0/150
提交評論