




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、ARM上的OpenBLAS性能優化技術什么是BLAS?lBasic Linear Algebra Subprogramsl基本線性代數子程序BLAS3級:矩陣-矩陣BLAS2級:矩陣-向量BLAS1級:向量-向量BLAS與深度學習lAlexnetOpenBLASl2011年,forked from Gotoblas2l全球最好的開源矩陣計算庫l2016 中國計算機學會科技進步二等獎l進入主流Linux發行版l進入OpenHPC套件OpenBLASl支持主流CPU處理器Intel,AMDARM,AArch64MIPS,龍芯IBM Powerl支持常見操作系統LinuxWindowsMac OSX
2、FreeBSDAndroidOpenBLAS用戶OpenBLAS性能lIntel Sandy BridgeOpenBLAS性能l龍芯3AGEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法l核心匯編代碼寄存器分塊指令流水線SIMD,循環展開,預取BLAS性能優化流派l自動調優 Auto- tuningATLAS快速開發和移植性能一般l手工核心匯編GotoBLAS/Ope nBLAS性能好新架構?Auto-tuning生存高效代碼?AUGEMlAutomatically Generate Efficient Matrix kernell目標
3、:自動生成BLAS中高效匯編l支持x86 ISASSE,AVX,AVX 2.0l支持ARMv7 ISANeonAUGEMl輸入類似C代碼片段l輸出高性能匯編l基于模版Template隱含手工優化知識C級別Kernel優化Input simple C code of gemm kernelOutput Optimized C code of gemm kernelTemplate識別Output Optimized C code of gemm kernelLoad: Load:tmp0 = ptr_A0; tmp1 = ptr_B0;Multiply: tmp2 = tmp0 * tmp1;
4、Add:res0 = res0 + tmp2;Load: tmp0 = Cj*LDC+i; Add:res0 = res0 + tmp0; Store: Cj*LDC+i = res0;Template識別l預定義6種Template2組Template優化lSIMD向量化mmUnrolledCOMP(ptr_A,0,2,ptr_B,0,2,(res0,res1,res2,res3) mmCOMP(ptr_A,0,ptr_B,0,res0)1.tmp0 = ptr_A0; 2.tmp1 = ptr_B0; 3.tmp2 = tmp0 * tmp1; 4.res0 = res0 + tmp2;m
5、mCOMP(ptr_A,1,ptr_B,0,res1) 1.tmp0 = ptr_A1;2.tmp1 = ptr_B0; 3.tmp2 = tmp1 * tmp1; 4.res1 = res1 + tmp2;mmCOMP(ptr_A,0,ptr_B,1,res2) 1.tmp0 = ptr_A0;2.tmp1 = ptr_B1; 3.tmp2 = tmp0 * tmp1; 4.res2 = res2 + tmp2;mmCOMP(ptr_A,1,ptr_B,1,res3) 1.tmp0 = ptr_A1;2.tmp1 = ptr_B1; 3.tmp2 = tmp0 * tmp1; 4.res3
6、= res3 + tmp2;Vld ptr_A, 0, vec0Vdup ptr_B, 0, vec1Vmul vec0, vec1, vec2Vadd vec2, vec3, vec3Vld ptr_A, 0, vec4Vdup ptr_B, 1, vec5Vmul vec4, vec5, vec6Vadd vec6, vec7, vec7Template優化l寄存器分配根據用途分組ABC中間結果不考慮寄存器溢出臨時保存到堆棧 XVld ptr_A, 0, vec0Vdup ptr_B, 0, vec1Vmul vec0, vec1, vec2Vadd vec2, vec3, vec3Vld
7、 ptr_A, 0, vec4Vdup ptr_B, 1, vec5Vmul vec4, vec5, vec6Vadd vec6, vec7, vec7Template優化l匯編指令映射Vld ptr_A, 0, reg0Vdup ptr_B, 0, reg1Vmul reg0, reg1, reg2Vadd reg2, reg3, reg3Vld ptr_A, 0, reg4Vdup ptr_B, 1, reg5Vmul reg4, reg5, reg6Vadd reg6, reg7, reg7InstructionsSSEAVXVld array, offset, regVld offse
8、t(array),regVld offset(array),regVst reg, array, offsetVst offset(array),regVst offset(array),regVmul reg0,reg1,reg2Vadd reg2,reg3,reg3Vmov reg1,reg2Vmul reg0,reg1 Vadd reg1,reg3Vmul reg0,reg1,reg2Vadd reg2,reg3,reg3Vld 0(ptr_A), reg0Vdup 0(ptr_B), reg1Vmov reg1,reg2Vmul reg0, reg1Vadd reg1, reg3 6.
9、Vld 0(ptr_A), reg0Vdup 0(ptr_B), reg1Vmul reg0, reg1, reg2Vadd reg2, reg3, reg3 5.匯編生成l將剩余代碼生成匯編循環控制l保持寄存器分配的一致性引入reg_table全局記錄表Algorithm of Template OptimizerAUGEM性能測試AUGEM性能測試lDGEMM on Intel Sandy BridgeAUGEM性能測試lDGEMM on AMD PiledriverAUGEM性能測試lDGEMV (BLAS2級)AUGEM性能測試lDAXPY (BLAS1級)PerfSGEMM on ARMl單精度SGEMMNeon SIMD指令與IEEE 754標準不一致Round mode (Flush to Zero)不影響深度學習的精度l AUGEM生成匯編代碼支持ARM特殊指令vmla.f32c, a, bdPerfSGEMM on
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 影視播放器硬件構成考核試卷
- 電子運動比賽現場設備考核試卷
- 窄軌機車車輛基礎知識考核試卷
- 清理呼吸道分泌物的護理技術
- 河北省邢臺市2023~2024學年高一數學下學期第三次月考試題含答案
- 江西環境工程職業學院《外科學實踐》2023-2024學年第一學期期末試卷
- 廈門安防科技職業學院《醫學實驗技術導論》2023-2024學年第二學期期末試卷
- 西藏藏醫藥大學《中小學舞蹈創編》2023-2024學年第二學期期末試卷
- 山東藝術學院《普通物理專題研究》2023-2024學年第二學期期末試卷
- 江蘇省連云港市贛榆區2024-2025學年小升初總復習數學精練含解析
- 2024年浙江公路技師學院招聘筆試真題
- 2025年中考語文一輪專題復習:古詩詞曲梳理復習重點整合
- 2025年中學教師資格考試《綜合素質》教育教學能力提升教育政策分析試題(含答案)
- 2025-2030中國菊芋菊粉行業市場發展趨勢與前景展望戰略研究報告
- 2025-2030中國氯堿行業市場發展分析及發展趨勢預測研究報告
- 2025-2030中國建筑智能化工程行業市場發展分析及發展趨勢前景研究報告
- 呵護地球家園點亮綠色希望-2025年4月22日第56個世界地球日主題教育班會 高中主題班會優 質課件
- 網絡安全問題及其防范措施(基礎篇)-國家計算機網絡應急中心
- 橋隧工技能鑒定理論資源高級技師模擬考試題含答案
- 2025-2030中國5G基站建設情況及前景趨勢與投資研究報告
- 話題10 AI人工智能-2025年中考《英語》高頻熱點話題寫作通關攻略
評論
0/150
提交評論