




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS 01.020 TCCS A00團 體 標 準T/CI506—2024智慧科研機構大數據平臺技術要求Technicalrequirementsforbigdataplatformofintelligentscientificresearchinstitutions2024-09-18發(fā)布 2024-09-18實施中國際技促會 發(fā)布PAGE\*ROMANPAGE\*ROMANII目次前言 II范圍 1規(guī)范性引用文件 1術語和定義 1縮略語 2平臺架構概述 2功能性技術要求 3非功能性技術要求 8前言本文件按照GB/T1.1—2020《標準化工作導則 第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別專利的責任。本文件由中國國際科技促進會提出并歸口。本文件主要起草人:王新民、喬歡、孫鵬飛、朱洪波、劉志斌、陳平、林家全、于敏、佟盛、全曉東、高辰杰、張雷、汪偉民、何佳、王路寬、張艷麗,肖洪,李洪生、趙紫峰、尚爾鈞、張林虎。11智慧科研機構大數據平臺技術要求范圍規(guī)范性引用文件(包括所有的修改單)適用于本文件。GB∕T37721-2019信息技術大數據分析系統(tǒng)功能要求GB/T38673-2020信息技術大數據系統(tǒng)基本要求術語和定義下列術語和定義適用于本文件。3.1智慧科研機構intelligentscientificresearchinstitutions3.2分布式計算distributedcomputing一種覆蓋存儲層和處理層的、用于實現多類型程序設計算法模型的計算模式。3.3集群cluster一組相互獨立的、通過高速網絡互聯的計算機或服務器。[來源:GB/T38673-2020,3.3]3.4租戶tenant對一組物理和虛擬資源進行共享訪問的一個或多個云服務用戶。[來源:GB/T38673-2020.3.4]縮略語下列縮略語適用于本文件。API:應用程序編程接口(ApplicationProgrammingInterface)HTML:超文本標記語言(HyperTextMarkupLanguage)JSON:JavaScript對象簡譜(JavaScriptObjectNotation)LPA:標簽傳播算法(LabelPropagationAlgorithm)SDK:軟件開發(fā)工具包(SoftwareDevelopmentKit)XML:可擴展標記語言(ExtensibleMarkupLanguage)平臺架構概述21。2PAGEPAGE10圖1智慧科研機構大數據平臺參考架構數據接入提供結構化數據、非結構化數據或半結構化數據的采集、數據的導入導出XML、表格、JSON、HTML、電子郵件等。數據存儲提供大數據的分布式存儲管理,涵蓋多種存儲方式和文件系統(tǒng)。APISDK數據分析通過機器學習、可視化、統(tǒng)計分析等組件支持不同的數據分析類型、分析模式。數據服務為科研工作者提供個性化內容推薦、用戶畫像、科研成果數據分析、知識運維管理包含資源管理和系統(tǒng)管理等,具備高可靠、安全、容錯、易用的集群管理能力,能夠保護用戶的數據隱私和安全,防止數據泄露和濫用。功能性技術要求數據接入功能要求作業(yè)調度包括但不限于以下要求:應支持對不同實驗室、不同實驗設備、不同業(yè)務系統(tǒng)的數據接入作業(yè)做智能調度;應支持對不同業(yè)務類型、實驗類型的數據接入作業(yè)做智能編排、調度;應支持各類數據接入作業(yè)的批量啟停、導入、導出;宜支持不同作業(yè)設備、業(yè)務數據接入任務的可視化、窗口化管理。數據采集包括但不限于以下要求:應支持與硬件實驗設備、科研業(yè)務系統(tǒng)、科研文獻系統(tǒng)等的互聯互通;應支持數據的批量采集和實時采集;應支持對結構化數據、非結構化數據和半結構化數據的自動采集;PDF宜支持采集任務的可視化配置管理、圖形窗口式操作;應支持多種形式的數據導入方式,如報表、XML、API消息隊列包括但不限于以下要求:應支持高吞吐、分布式消息的處理;應支持消息的緩存;宜支持多種設備類型、多平臺、多種客戶端間的通信。數據傳輸包括但不限于以下要求:應支持通用的數據傳輸協議,如實驗設備、機器數據、API應保證數據傳輸的穩(wěn)定性、連續(xù)性、完整性、安全性。數據存儲功能要求分布式文件系統(tǒng)應符合GB/T38673-2020中6.3規(guī)定,另包含但不限于以下要求:應支持文件容錯機制和系統(tǒng)高可用機制,包括系統(tǒng)級、節(jié)點級、模塊級的容錯、系統(tǒng)快速恢復等;宜支持將小文件自動打包為大文件,進行集中存儲;應支持結構化、半結構化、非結構化數據存儲。分布式列數據庫應符合GB/T38673-2020中6.3規(guī)定,另包含但不限于以下要求:應支持對不同架構、操作系統(tǒng)的兼容性;應支持根據工作負載和運行環(huán)境,提供配置參數修改的能力;應支持多級索引。分布式圖數據庫應符合GB/T38673-2020中6.3規(guī)定,另包含但不限于以下要求:RESTful宜內置多種科研領域算法模型,如結合科研項目、科研課題、科研人才、科研成果轉化、科研機構輿情等進行算法模型構建。分布式關系型數據庫包括但不限于以下要求:應支持結構化數據的分布式存儲機制,保障數據存儲的可擴展性和一致性;應支持多表關聯、跨庫關聯;API數據處理功能要求批處理GB/T38673-20206.4流處理應符合GB/T38673-2020中6.4規(guī)定,另包含但不限于以下要求:應支持用戶級別的訪問控制;應支持滾動窗口和滑動窗口兩種窗口方式的實時分析任務,時間窗口大小可調;應具備高容錯能力,如節(jié)點、進程等出現異常時,能夠重新部署該處理單元;應支持與常見數據庫接口的兼容性;flink、spark圖計算應符合GB/T38673-2020中6.4規(guī)定,另包含但不限于以下要求:應支持同步計算模型或異步計算模型編寫迭代算法;應支持實現水平擴展的分布式圖計算和圖查詢;宜支持索引,提供在線圖分析和圖查詢功能;PageRank、社區(qū)發(fā)現、最短路、LPA內存計算應符合GB/T38673-2020中6.4規(guī)定,另包含但不限于以下要求:應支持負載均衡和水平擴展;應支持高度抽象算子,快速構建分布式的數據處理應用;應支持根據任務復雜程度及依賴關系,自動調度任務。批流融合計算應符合GB/T38673-2020中6.4規(guī)定,另包含但不限于以下要求:宜支持常用時間窗口,包括滾動窗口、滑動窗口,窗口大小可調節(jié);宜支持對復雜任務的調度,如支持深度學習的訓練等。數據分析功能要求分析模式GB∕T37721-20198.1分析類型應符合GB∕T37721-2019中8.2對預測型分析、描述型分析等模塊的規(guī)定。分析支撐組件查詢應符合GB∕T37721-2019中7.1對查詢接口、查詢優(yōu)化等模塊的規(guī)定。機器學習應符合GB∕T37721-2019中7.2對數據集管理、支持算法、模型評估內容等模塊的規(guī)定。統(tǒng)計分析應符合GB∕T37721-2019中7.3對統(tǒng)計分析的內容模塊規(guī)定。可視化包括但不限于以下要求:Excel、關系型數據庫、JSON、XML應支持數據可視化,支持多維度、多圖表、多形式的展示方式;應支持數據模型可視化,支持可視化交互、調整模型;宜支持數據資產可視化,如數據資產圖譜等;宜內置多種行業(yè)、專業(yè)可視化展示模版,如仿真模擬數據可視化、三維可視化、科研管理可視化、成果轉化可視化等;宜支持根據科研資訊、數據爬取、系統(tǒng)已有數據等內容自動生成科研報告。流程編排GB∕T37721-20199數據服務功能要求個性化內容推薦包括但不限于以下要求:應支持用戶行為分析,包括查詢偏好、活躍度等;應支持個性化內容推薦,如科研熱點、學術推薦、榮譽認定等。用戶畫像包括但不限于以下要求:應支持用戶自然屬性數據分析;應支持用戶系統(tǒng)日志、科研數據分析;應支持用戶標簽及多維度細分,包括科研領域、活躍度、忠誠度、影響力、用戶屬性、瀏覽偏好等;應支持多用戶的關聯分析。科研成果數據分析包括但不限于以下要求:宜支持科研相關業(yè)務數據的管理服務,如課題申報、經費管理、課題批文、論文投宜提供多維度科研績效考核服務。知識產權服務包括但不限于以下要求:應支持智慧科研機構專利檢索、分析等服務;應支持專利文獻信息聚類分析,對技術熱點進行文本聚類和引證分析;應支持智慧科研機構知識產權信息動態(tài)發(fā)布;應支持智慧科研機構成果轉化延伸服務、資源管理、資源對接等。數據基礎服務包括但不限于以下要求:應支持用戶數據訪問控制,包括用戶基本信息、科研領域等;應支持上層應用注冊機制、鑒權、管理;應支持服務功能查詢機制;宜支持數據訂閱、報告推送等功能。運維管理功能要求資源管理GB/T38673-20206.8系統(tǒng)管理GB/T38673-20206.9非功能性技術要求可靠性高可用應符合GB/T38673-2020中7.1.1的規(guī)定,另包含但不限于以下要求:應保障業(yè)務連續(xù)性;宜具備提供計算、存儲、網絡資源等核心組件的故障替換維護能力。數據冗余存儲與分布應符合GB/T38673-2020中7.1.2的規(guī)定,另包含但不限于以下要求:應支持存儲資源故障恢復后,數據能夠自動重構,實現數據分布再平衡;數據備份和恢復GB/T38673-20207.1.3故障恢復與遷移應符合GB/T38673-2020中7.1.4中對故障恢復、故障遷移、故障影響等模塊的規(guī)定。兼容性包括但不限于以下要求:兼容不同品牌的操作系統(tǒng);宜支持國產自主可控操作系統(tǒng)及數據庫等。安全性用戶管理GB/T38673-20207.3.1權限管理應符合GB/T38673-2020中7.3.2對權限配置的規(guī)定。日志管理應符合GB/T38673-2020中7.3.3對操作日志統(tǒng)計、查詢、分析等模塊的規(guī)定。數據安全包括但不限于以下要求:應支持數據傳輸鏈路冗余機制,保障數據傳輸可靠性;應支持數據采集、傳輸、存儲、處理等全流程安全加密機制,防止信息泄露;應支持數據分級、分類處理策略;應支持數據清洗、轉換及使用過程中的安全性及可追溯性;應支持個人隱私信息保護,應支持個人信息授權同意、更正、刪除;應支持基于用戶角色的安全控制機制;應支持應用、設備與外部服務
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年自動化工程師考試試題及答案
- 2025年中級會計職稱考試試卷及答案
- 2025年土木工程與建筑材料專業(yè)考試題及答案
- 2025年電影與視聽藝術專業(yè)的國考真題及答案
- 2025年財務報表分析與決策考試試卷及答案
- 房山區(qū)水污染防治計劃措施
- 七級數學競賽試題及答案
- 交換合同協議書怎么寫
- 重慶永川港橋工業(yè)園產業(yè)集群方案初稿規(guī)劃篇106p
- 河洛鎮(zhèn)上半年工作總結
- 長輸管道工序監(jiān)理作業(yè)指導書
- 審計業(yè)務約定書
- 石灰破拱計量投加系統(tǒng)技術規(guī)范書
- JJG 40-2011X射線探傷機
- GB/T 33217-2016沖壓件毛刺高度
- GB/T 31765-2015高密度纖維板
- GB/T 21618-2008危險品易燃固體燃燒速率試驗方法
- GB/T 19165-2003日光溫室和塑料大棚結構與性能要求
- 品質管理概念培訓
- 《思想道德與法治》 課件 第四章 明確價值要求 踐行價值準則
- 《擬行路難》課件26張
評論
0/150
提交評論