T-CI 506-2024 智慧科研機構(gòu)大數(shù)據(jù)平臺技術(shù)要求_第1頁
T-CI 506-2024 智慧科研機構(gòu)大數(shù)據(jù)平臺技術(shù)要求_第2頁
T-CI 506-2024 智慧科研機構(gòu)大數(shù)據(jù)平臺技術(shù)要求_第3頁
T-CI 506-2024 智慧科研機構(gòu)大數(shù)據(jù)平臺技術(shù)要求_第4頁
T-CI 506-2024 智慧科研機構(gòu)大數(shù)據(jù)平臺技術(shù)要求_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

CCSA00團(tuán)T體標(biāo)準(zhǔn)I前言 2規(guī)范性引用文件 3術(shù)語和定義 4縮略語 25平臺架構(gòu)概述 26功能性技術(shù)要求 37非功能性技術(shù)要求 8前言本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔(dān)識別專利的責(zé)任。本文件由中國國際科技促進(jìn)會提出并歸口。本文件起草單位:北京大學(xué)長沙計算與數(shù)字經(jīng)濟(jì)研究院、華為技術(shù)有限公司、北京大學(xué)大數(shù)據(jù)分析與應(yīng)用技術(shù)國家工程實驗室、工業(yè)和信息化部電子第五研究所、船舶信息研究中心(中國船舶集團(tuán)有限公司第七一四研究所)、北京航天情報與信息研究所、北京新科時代傳媒信息技術(shù)有限公司、嵊州市大數(shù)據(jù)發(fā)展管理中心、嵊州市檔案館、同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司、智慧流動(北京)科技有限公司、河南聚合科技有限公司、紫光軟件系統(tǒng)有限公司、北京國科標(biāo)研科技有限公司。本文件主要起草人:王新民、喬歡、孫鵬飛、朱洪波、劉志斌、陳平、林家全、于敏、佟盛、全曉東、高辰杰、張雷、汪偉民、何佳、王路寬、張艷麗,肖洪,李洪生、趙紫峰、尚爾鈞、張林虎。1智慧科研機構(gòu)大數(shù)據(jù)平臺技術(shù)要求本文件規(guī)定了智慧科研機構(gòu)大數(shù)據(jù)平臺的平臺架構(gòu)概述、功能性技術(shù)要求、可靠性等相關(guān)內(nèi)容。本文件適用于對智慧科研機構(gòu)在建立大數(shù)據(jù)平臺的技術(shù)要求指導(dǎo),包括科研機構(gòu)、高校,研究型機構(gòu),以及具有科研屬性的實體單位。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB∕T37721-2019信息技術(shù)大數(shù)據(jù)分析系統(tǒng)功能要求GB/T38673-2020信息技術(shù)大數(shù)據(jù)系統(tǒng)基本要求3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1智慧科研機構(gòu)intelligentscientificresearchinstitutions通過大數(shù)據(jù)、人工智能、云計算等新一代信息技術(shù)的應(yīng)用,實現(xiàn)科研流程數(shù)字化、智能化、協(xié)同化、開放化、創(chuàng)新化的科研機構(gòu)。3.2分布式計算distributedcomputing一種覆蓋存儲層和處理層的、用于實現(xiàn)多類型程序設(shè)計算法模型的計算模式。3.3集群cluster一組相互獨立的、通過高速網(wǎng)絡(luò)互聯(lián)的計算機或服務(wù)器。[來源:GB/T38673-2020,3.3]3.4租戶tenant對一組物理和虛擬資源進(jìn)行共享訪問的一個或多個云服務(wù)用戶。[來源:GB/T38673-2020.3.4]4縮略語下列縮略語適用于本文件。API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)HTML:超文本標(biāo)記語言(HyperTextMarkupLanguage)JSON:JavaScript對象簡譜(JavaScriptObjectNotation)LPA:標(biāo)簽傳播算法(LabelPropagationAlgorithm)SDK:軟件開發(fā)工具包(SoftwareDevelopmentKit)XML:可擴(kuò)展標(biāo)記語言(ExtensibleMarkupLanguage)5平臺架構(gòu)概述智慧科研機構(gòu)大數(shù)據(jù)平臺的目標(biāo)是基于大數(shù)據(jù)、人工智能等新一代信息技術(shù),為科研機構(gòu)提供全面、精準(zhǔn)、實時數(shù)據(jù)服務(wù)的平臺,通過整合多個數(shù)據(jù)源,如科研文獻(xiàn)、研究論文、實驗記錄、科研人員信息、科研項目數(shù)據(jù)等,實現(xiàn)大數(shù)據(jù)的精準(zhǔn)挖掘和分析,為科研人員提供全面的科研支持和服務(wù),架構(gòu)見圖1。23智慧科研機構(gòu)大數(shù)據(jù)平臺由數(shù)據(jù)接入、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)和運維管理等部分組成,主要內(nèi)容如下。a)數(shù)據(jù)接入提供結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)的采集、數(shù)據(jù)的導(dǎo)入導(dǎo)出以及數(shù)據(jù)流的定義等功能,支持多協(xié)議接入,支持多系統(tǒng)集成。結(jié)構(gòu)化數(shù)據(jù)包括數(shù)據(jù)庫文件以及結(jié)構(gòu)化文本文件等,非結(jié)構(gòu)化數(shù)據(jù)包括圖片、音頻、視頻、文檔及應(yīng)用數(shù)據(jù)等。半結(jié)構(gòu)化數(shù)據(jù)包括XML、表格、JSON、HTML、電子郵件等。b)數(shù)據(jù)存儲提供大數(shù)據(jù)的分布式存儲管理,涵蓋多種存儲方式和文件系統(tǒng)。c)數(shù)據(jù)處理支持結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),提供豐富的API接口和SDK開發(fā)包,支持分布式計算技術(shù)、流處理技術(shù)、內(nèi)存計算技術(shù)等,實現(xiàn)穩(wěn)定、強大的數(shù)據(jù)處理能力。d)數(shù)據(jù)分析通過機器學(xué)習(xí)、可視化、統(tǒng)計分析等組件支持不同的數(shù)據(jù)分析類型、分析模式。e)數(shù)據(jù)服務(wù)為科研工作者提供個性化內(nèi)容推薦、用戶畫像、科研成果數(shù)據(jù)分析、知識產(chǎn)權(quán)服務(wù),以及實驗數(shù)據(jù)、論文數(shù)據(jù)、科研資料、專利信息的訪問、查詢、可視化等基礎(chǔ)服務(wù)。f)運維管理包含資源管理和系統(tǒng)管理等,具備高可靠、安全、容錯、易用的集群管理能力,能夠保護(hù)用戶的數(shù)據(jù)隱私和安全,防止數(shù)據(jù)泄露和濫用。6功能性技術(shù)要求6.1數(shù)據(jù)接入功能要求6.1.1作業(yè)調(diào)度包括但不限于以下要求:a)應(yīng)支持對不同實驗室、不同實驗設(shè)備、不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)接入作業(yè)做智能調(diào)度;b)應(yīng)支持對不同業(yè)務(wù)類型、實驗類型的數(shù)據(jù)接入作業(yè)做智能編排、調(diào)度;c)應(yīng)支持各類數(shù)據(jù)接入作業(yè)的批量啟停、導(dǎo)入、導(dǎo)出;d)宜支持不同作業(yè)設(shè)備、業(yè)務(wù)數(shù)據(jù)接入任務(wù)的可視化、窗口化管理。6.1.2數(shù)據(jù)采集包括但不限于以下要求:4a)應(yīng)支持與硬件實驗設(shè)備、科研業(yè)務(wù)系統(tǒng)、科研文獻(xiàn)系統(tǒng)等的互聯(lián)互通;b)應(yīng)支持?jǐn)?shù)據(jù)的批量采集和實時采集;c)宜支持爬蟲功能,支持對科研資訊、科研熱點、政策熱點、科研機構(gòu)輿情等互聯(lián)網(wǎng)數(shù)據(jù)的抓取;d)應(yīng)支持對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的自動采集;e)宜支持對PDF等文檔數(shù)據(jù)的批量導(dǎo)入、數(shù)據(jù)轉(zhuǎn)換、提取入庫等功能;f)宜支持采集任務(wù)的可視化配置管理、圖形窗口式操作;g)應(yīng)支持多種形式的數(shù)據(jù)導(dǎo)入方式,如報表、XML、API接口、機器語言等。6.1.3消息隊列包括但不限于以下要求:a)應(yīng)支持高吞吐、分布式消息的處理;b)應(yīng)支持消息的緩存;c)應(yīng)支持離線應(yīng)用和在線應(yīng)用對消息的使用和處理,保證實驗設(shè)備數(shù)據(jù)采集的完整性;d)宜支持多種設(shè)備類型、多平臺、多種客戶端間的通信。6.1.4數(shù)據(jù)傳輸包括但不限于以下要求:a)應(yīng)支持通用的數(shù)據(jù)傳輸協(xié)議,如實驗設(shè)備、機器數(shù)據(jù)、API接口數(shù)據(jù)等的傳輸;b)應(yīng)保證數(shù)據(jù)傳輸?shù)姆€(wěn)定性、連續(xù)性、完整性、安全性。6.2數(shù)據(jù)存儲功能要求6.2.1分布式文件系統(tǒng)應(yīng)符合GB/T38673-2020中6.3規(guī)定,另包含但不限于以下要求:a)應(yīng)支持文件容錯機制和系統(tǒng)高可用機制,包括系統(tǒng)級、節(jié)點級、模塊級的容錯、系統(tǒng)快速恢復(fù)等;b)宜支持將小文件自動打包為大文件,進(jìn)行集中存儲;c)應(yīng)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)存儲。6.2.2分布式列數(shù)據(jù)庫應(yīng)符合GB/T38673-2020中6.3規(guī)定,另包含但不限于以下要求:a)應(yīng)支持對不同架構(gòu)、操作系統(tǒng)的兼容性;b)應(yīng)支持根據(jù)工作負(fù)載和運行環(huán)境,提供配置參數(shù)修改的能力;c)應(yīng)支持多級索引。56.2.3分布式圖數(shù)據(jù)庫應(yīng)符合GB/T38673-2020中6.3規(guī)定,另包含但不限于以下要求:a)應(yīng)支持主流開發(fā)接口,如RESTful等接口;b)宜內(nèi)置多種科研領(lǐng)域算法模型,如結(jié)合科研項目、科研課題、科研人才、科研成果轉(zhuǎn)化、科研機構(gòu)輿情等進(jìn)行算法模型構(gòu)建。6.2.4分布式關(guān)系型數(shù)據(jù)庫包括但不限于以下要求:a)應(yīng)支持結(jié)構(gòu)化數(shù)據(jù)的分布式存儲機制,保障數(shù)據(jù)存儲的可擴(kuò)展性和一致性;b)應(yīng)支持多表關(guān)聯(lián)、跨庫關(guān)聯(lián);c)宜提供常見API接口類型,實現(xiàn)數(shù)據(jù)的各類查詢操作、接口對接操作。6.3數(shù)據(jù)處理功能要求6.3.1批處理應(yīng)符合GB/T38673-2020中6.4規(guī)定,應(yīng)包含但不限于支持離線計算任務(wù)進(jìn)度與狀態(tài)的實時上報。6.3.2流處理應(yīng)符合GB/T38673-2020中6.4規(guī)定,另包含但不限于以下要求:a)應(yīng)支持用戶級別的訪問控制;b)應(yīng)支持滾動窗口和滑動窗口兩種窗口方式的實時分析任務(wù),時間窗口大小可調(diào);c)應(yīng)具備高容錯能力,如節(jié)點、進(jìn)程等出現(xiàn)異常時,能夠重新部署該處理單元;d)應(yīng)支持與常見數(shù)據(jù)庫接口的兼容性;e)宜支持基于多種分布式流處理引擎的查詢語言,如flink、spark等。6.3.3圖計算應(yīng)符合GB/T38673-2020中6.4規(guī)定,另包含但不限于以下要求:a)應(yīng)支持同步計算模型或異步計算模型編寫迭代算法;b)應(yīng)支持實現(xiàn)水平擴(kuò)展的分布式圖計算和圖查詢;c)宜支持索引,提供在線圖分析和圖查詢功能;d)宜支持PageRank、社區(qū)發(fā)現(xiàn)、最短路、LPA等多種圖計算能力。6.3.4內(nèi)存計算應(yīng)符合GB/T38673-2020中6.4規(guī)定,另包含但不限于以下要求:a)應(yīng)支持負(fù)載均衡和水平擴(kuò)展;6b)應(yīng)支持高度抽象算子,快速構(gòu)建分布式的數(shù)據(jù)處理應(yīng)用;c)應(yīng)支持根據(jù)任務(wù)復(fù)雜程度及依賴關(guān)系,自動調(diào)度任務(wù)。6.3.5批流融合計算應(yīng)符合GB/T38673-2020中6.4規(guī)定,另包含但不限于以下要求:a)宜支持常用時間窗口,包括滾動窗口、滑動窗口,窗口大小可調(diào)節(jié);b)宜支持對復(fù)雜任務(wù)的調(diào)度,如支持深度學(xué)習(xí)的訓(xùn)練等。6.4數(shù)據(jù)分析功能要求6.4.1分析模式應(yīng)符合GB∕T37721-2019中8.1對離線數(shù)據(jù)分析、流數(shù)據(jù)分析、交互式數(shù)據(jù)分析等模塊的規(guī)定。6.4.2分析類型應(yīng)符合GB∕T37721-2019中8.2對預(yù)測型分析、描述型分析等模塊的規(guī)定。6.4.3分析支撐組件6.4.3.1查詢應(yīng)符合GB∕T37721-2019中7.1對查詢接口、查詢優(yōu)化等模塊的規(guī)定。6.4.3.2機器學(xué)習(xí)應(yīng)符合GB∕T37721-2019中7.2對數(shù)據(jù)集管理、支持算法、模型評估內(nèi)容等模塊的規(guī)6.4.3.3統(tǒng)計分析應(yīng)符合GB∕T37721-2019中7.3對統(tǒng)計分析的內(nèi)容模塊規(guī)定。6.4.3.4可視化包括但不限于以下要求:a)應(yīng)支持常見的數(shù)據(jù)源數(shù)據(jù)格式作為輸入,如Excel、關(guān)系型數(shù)據(jù)庫、JSON、XML等;b)應(yīng)支持?jǐn)?shù)據(jù)可視化,支持多維度、多圖表、多形式的展示方式;c)應(yīng)支持?jǐn)?shù)據(jù)模型可視化,支持可視化交互、調(diào)整模型;d)宜支持?jǐn)?shù)據(jù)資產(chǎn)可視化,如數(shù)據(jù)資產(chǎn)圖譜等;e)宜內(nèi)置多種行業(yè)、專業(yè)可視化展示模版,如仿真模擬數(shù)據(jù)可視化、三維可視化、科研管理可視化、成果轉(zhuǎn)化可視化等;f)宜支持根據(jù)科研資訊、數(shù)據(jù)爬取、系統(tǒng)已有數(shù)據(jù)等內(nèi)容自動生成科研報告。76.4.4流程編排應(yīng)符合GB∕T37721-2019中第9章對工作流管理、告警和日志內(nèi)容模塊等模塊的規(guī)定。6.5數(shù)據(jù)服務(wù)功能要求6.5.1個性化內(nèi)容推薦包括但不限于以下要求:a)應(yīng)支持用戶行為分析,包括查詢偏好、活躍度等;b)應(yīng)支持個性化內(nèi)容推薦,如科研熱點、學(xué)術(shù)推薦、榮譽認(rèn)定等。6.5.2用戶畫像包括但不限于以下要求:a)應(yīng)支持用戶自然屬性數(shù)據(jù)分析;b)應(yīng)支持用戶系統(tǒng)日志、科研數(shù)據(jù)分析;c)應(yīng)支持用戶標(biāo)簽及多維度細(xì)分,包括科研領(lǐng)域、活躍度、忠誠度、影響力、用戶屬性、瀏覽偏好等;d)應(yīng)支持多用戶的關(guān)聯(lián)分析。6.5.3科研成果數(shù)據(jù)分析包括但不限于以下要求:a)宜支持科研相關(guān)業(yè)務(wù)數(shù)據(jù)的管理服務(wù),如課題申報、經(jīng)費管理、課題批文、論文投稿、論文發(fā)表、學(xué)術(shù)著作、成果鑒定、驗收管理、成果獲獎、成果轉(zhuǎn)化、專利管理、學(xué)術(shù)會議、項目評審、業(yè)務(wù)申報評審等業(yè)務(wù)數(shù)據(jù);b)宜提供多維度科研績效考核服務(wù)。6.5.4知識產(chǎn)權(quán)服務(wù)包括但不限于以下要求:a)應(yīng)支持智慧科研機構(gòu)專利檢索、分析等服務(wù);b)應(yīng)支持專利文獻(xiàn)信息聚類分析,對技術(shù)熱點進(jìn)行文本聚類和引證分析;c)應(yīng)支持智慧科研機構(gòu)知識產(chǎn)權(quán)信息動態(tài)發(fā)布;d)應(yīng)支持智慧科研機構(gòu)成果轉(zhuǎn)化延伸服務(wù)、資源管理、資源對接等。6.5.5數(shù)據(jù)基礎(chǔ)服務(wù)包括但不限于以下要求:a)應(yīng)支持用戶數(shù)據(jù)訪問控制,包括用戶基本信息、科研領(lǐng)域等;b)應(yīng)支持上層應(yīng)用注冊機制、鑒權(quán)、管理;8c)應(yīng)支持服務(wù)功能查詢機制;d)宜支持?jǐn)?shù)據(jù)訂閱、報告推送等功能。6.6運維管理功能要求6.6.1資源管理應(yīng)符合GB/T38673-2020中6.8資源管理模塊規(guī)定,宜支持超算、智算等多種算力資源的提供、智能調(diào)度等功能。6.6.2系統(tǒng)管理應(yīng)符合GB/T38673-2020中6.9對配置管理、租戶管理、監(jiān)控告警、服務(wù)管理、健康檢查管理等模塊的規(guī)定。7非功能性技術(shù)要求7.1可靠性7.1.1高可用應(yīng)符合GB/T38673-2020中7.1.1的規(guī)定,另包含但不限于以下要求:a)應(yīng)保障業(yè)務(wù)連續(xù)性;b)宜具備提供計算、存儲、網(wǎng)絡(luò)資源等核心組件的故障替換維護(hù)能力。7.1.2數(shù)據(jù)冗余存儲與分布應(yīng)符合GB/T38673-2020中7.1.2的規(guī)定,另包含但不限于以下要求:a)應(yīng)支持存儲資源故障恢復(fù)后,數(shù)據(jù)能夠自動重構(gòu),實現(xiàn)數(shù)據(jù)分布再平衡;b)應(yīng)支持至少一種數(shù)據(jù)庫高可用架構(gòu),如主備、主從、多活等,可結(jié)合數(shù)據(jù)庫高可用能力保證業(yè)務(wù)連續(xù)性。7.1.3數(shù)據(jù)備份和恢復(fù)應(yīng)符合GB/T38673-2020中7.1.3對數(shù)據(jù)全量備份、數(shù)據(jù)增量備份、數(shù)據(jù)自動備份、數(shù)據(jù)手動備份、數(shù)據(jù)恢復(fù)等模塊的規(guī)定。7.1.4故障恢復(fù)與遷移應(yīng)符合GB/T38673-2020中7.1.4中對故障恢復(fù)、故障遷移、故障影響等模塊的規(guī)定。7.2兼容性包括但不限于以下要求:a)兼容不同品牌的操作系統(tǒng);9b)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論