用大數據技術來提高學科建設培養(yǎng)社會繼續(xù)的應用型人才94_第1頁
用大數據技術來提高學科建設培養(yǎng)社會繼續(xù)的應用型人才94_第2頁
用大數據技術來提高學科建設培養(yǎng)社會繼續(xù)的應用型人才94_第3頁
用大數據技術來提高學科建設培養(yǎng)社會繼續(xù)的應用型人才94_第4頁
用大數據技術來提高學科建設培養(yǎng)社會繼續(xù)的應用型人才94_第5頁
已閱讀5頁,還剩90頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

用大數據技術來提高學科建設,培養(yǎng)社會繼續(xù)的應用型人才倪軍博士2013年3月27日第一頁,共九十五頁。演講提綱大數據項目宗旨大數據實驗平臺與學科建設結合項目進展第二頁,共九十五頁。數據尺度測量Yottabyte(YB),1024Zettabye(ZB),1021Exabyte(EB),1018Petabyte(PB),1015Terabyte(TB),1012Gigabyte(GB),109Megabyte(MB),106Kilobyte(KB),103當今未來過去軟盤Zip驅動硬盤U盤USB-硬盤RAIDorarray硬盤系列第三頁,共九十五頁。ScaleExamples2.5Petabytes:人腦的內存容量13Petabytes:每個美國人同時上網,每二分鐘可下載的容量98Petabytes:谷歌所能檢索到的網站容量4.75Exabytes:全世界總人口的人類基因序列總和422Exabytes:2008年全球所產生的數據1Zettabyte:目前全世界數據存儲的總容量1.8Zettabytes:2011年全球所產生的數據資源:PopularScienceandKatiePeek第四頁,共九十五頁。大數據預測思科公司的預測資源:"TotalMobileDataTrafficwillbeOffloadedin2017,---CISCOReport2013第五頁,共九十五頁。第六頁,共九十五頁。第七頁,共九十五頁。第八頁,共九十五頁。大數據預測第九頁,共九十五頁。大數據預測如果美國醫(yī)療保健能夠使用大數據創(chuàng)造性地,有效地提高效率和質量,該部門每年可以創(chuàng)造超過三千億美元的價值。其中三分之二可以用來減少8%的美國醫(yī)療保健支出。第十頁,共九十五頁。信息的獲取和提煉數據量的劇增數據結構的豐富多彩Rr數據尺度的增大時間進程商業(yè)醫(yī)療衛(wèi)生工程教育事業(yè)產業(yè)服務業(yè)第十一頁,共九十五頁。大數據的定義定義1:大數據可以被定義為已經生成或正在生成的空前龐大的數據量,這些數據具有同構和異質并存的數據結構。他們可以通過特殊的技術(包括數據的采集,管理,處理和分析等手段,獲取非常有價值的信息。第十二頁,共九十五頁。大數據的定義定義2:是一種大規(guī)模并且復雜的數據的集合,這些數據難以用常規(guī)的數據庫管理工具或傳統(tǒng)的數據處理應用程序來處理。

---根據維基百科定義3:“大數據指的是用于特大型數據的流程和程序技術,其中包括數據的建立、操作和管理大型數據集和存儲設施”---根據第十三頁,共九十五頁。大數據的定義定義4:大數據指的是新興的、針對巨大的數據集的信息技術,其中包括各種工具、流程和程序,用于收集、管理、處理、分析和挖掘這些數據集第十四頁,共九十五頁。大數據的定義這些定義的共同點:數據中必須蘊藏信息、數據量巨大、數據結構復雜、數據量快速增長常規(guī)的數據處理和管理的方法無法解決大數據不僅僅是指數據,它包容相關的技術第十五頁,共九十五頁。大數據的定義定義:大數據可以定義為前所未有、迅速增長的、結構復雜的、具有信息價值的龐大數據之集,以及與其相關的緊急而又特殊的數據技術,使人們能夠采用這些技術來獲取、管理、處理、分配、分析和挖掘這些數據,其宗旨是為機構的運作和決策提供服務。第十六頁,共九十五頁。舉例:醫(yī)療衛(wèi)生也的大數據由來醫(yī)療儀器設備的數值化醫(yī)療實踐從相對傳統(tǒng)的個人觀察、主管經驗判斷走向標準化、和科學依據為基礎的醫(yī)療醫(yī)療系統(tǒng)的數字化和信息化第十七頁,共九十五頁。舉例:醫(yī)療衛(wèi)生也的大數據由來采納系統(tǒng)化電子醫(yī)療記錄(EHR)技術和標準(DICOM,HL7,IHE等)臨床醫(yī)學、轉化醫(yī)學、生物醫(yī)學信息學、醫(yī)療信息學等領域的加盟和新科技的轉化應用第十八頁,共九十五頁。醫(yī)學科學的數值化進程所引發(fā)的數據劇增資源:美國伯克利大學細細管理系統(tǒng)學院0C.E.200340,000BCE

cavepaintingsbonetools3500

writingpaper1051450

printing1870electricity,telephonetransistor1947computing19501993TheWeb數字心臟病學ElectronicMedicalRecord

電子-醫(yī)療衛(wèi)生遺傳工程數值放射學1999Late1960sInternetPetabytes數值病理學第十九頁,共九十五頁。醫(yī)療衛(wèi)生大數據的來源數字醫(yī)療服務、信息流程和管理的普及應用轉化醫(yī)學和生物醫(yī)學所帶來的新知識、新成果,以及醫(yī)學的新探索和新發(fā)現社會網絡和數字通訊高速發(fā)展來源:BigDataAnalyticsforHealthcarebyJimengSunandChandanK.Reddy,TutorialpresentationattheSIAMInternationalConferenceonDataMining,Austin,TX,2013;Sarkar,IndraNeil."Biomedicalinformaticsandtranslationalmedicine."JournalofTranslationalMedicine8.1(2010):22.第二十頁,共九十五頁。醫(yī)療衛(wèi)生大數據的來源全尺度的醫(yī)療服務微觀尺度性的臨床基因診斷和基因治療生物信息學的成就和發(fā)展人體組織和器官尺度的醫(yī)學影像數字化和病理數字化進程和應用醫(yī)學影像信息學和病理信息學的成熟和廣泛應用宏觀大尺度下的、基于社會網絡的醫(yī)療服務信息化和公共衛(wèi)生健康信息化醫(yī)療信息學和公共醫(yī)療衛(wèi)生信息學第二十一頁,共九十五頁。大數據的定義IBM最近的報告預測在2020年之前大約有萬億個新的設備連接到互聯網:其中80%的數據將是非結構性的,這一趨勢將有助于推動數字數據的增長,同時要求大力發(fā)展大規(guī)模數字分析技術第二十二頁,共九十五頁。大數據的特性歸納為四點,既4H或4V數據尺度和量級上非常巨大

Hugedatavolume在數據結構上具有混合多樣性和復雜性Hybridstructureandcomplexityformatvariety第二十三頁,共九十五頁。大數據的特性歸納為四點,既4H或4V在數據量的迅速擴展上具有高速性、動態(tài)定、和實時性

High-speedanddynamicgrowthinbothvolumeanddimensions,real-timestreamingprocessing在數據的內涵中,存有巨大的信息價值Hiddeninformation(compriseinformationofvalidityorveracity)第二十四頁,共九十五頁。大數據的特性第一個特征:巨大數據量前所未有的數據量數據量太大而無法用常規(guī)的技術對其處理和分析在數據的存儲、調配、管理等方面超越傳統(tǒng)的數據庫管理技術Source:Reading:Hilbert,Martin;López,Priscila(2011)."TheWorld'sTechnologicalCapacitytoStore,Communicate,andComputeInformation."Science332(6025):60–65.第二十五頁,共九十五頁。大數據的特性大數據增長的技術因素:信息技術(硬軟件和網絡技術)的迅猛發(fā)展無處不在的信息資源、感知移動設備劇增傳感技術的成熟應用攝像機的普及應用射頻識別器的普及應用無線傳感器網絡的迅猛發(fā)展數字建模和仿真計算(科學探索中除理論和實驗之外的第三種方法)第二十六頁,共九十五頁。大數據的特性比如全球性海洋流動觀測數據的匯總和可視化Source:NASA'smovie:第二十七頁,共九十五頁。大數據的特性第二個特征:數據結構的多樣和異構性結構性數據:列式性數據,比如關系型數據MSAccess,Excel,SQL表常用于數據記錄和交易數據(RecordandTransaction)非結構性數據:關系型數據文本(Text):互聯網語言,微博,聊天,短信log,internet,tweetsandchatting,textmessageXML(半結構化)多媒體(Multimedia):圖像,視頻,音頻

image,video,audio,XML(semi-structured)etc.第二十八頁,共九十五頁。大數據的特性第二個特征:數據結構的多樣和異構性(繼續(xù))大數據往往是不同數據結構系統(tǒng)的混合組合或集成比如非結構、半結構、結構包含非結構性、半結構型、和結構型數據的交通、合并、分解、融合等。比如非結構的短信和日志和結構型數據的融合醫(yī)院診斷報告、病人病例、病人信息等等在大數據分析中的關系第二十九頁,共九十五頁。大數據的特性第二個特征:數據結構的多樣和異構性(繼續(xù))舉例:醫(yī)療衛(wèi)生和放射信息系統(tǒng)中的大數據應用范例的思考兼容非結構型DICOM影像圖片的PACS系統(tǒng)數據和結構型病人病例數據之間的大數據分析基因治療和遺傳臨床診斷之間的關系分析非結構型基因序列和儲存在電子醫(yī)療記錄系統(tǒng)(eHR)中的結構型病人記錄文本之間大數據分析非結構型病例診斷實驗分析報告醫(yī)院信息系統(tǒng)中的病人記錄檔案數據分析第三十頁,共九十五頁。大數據的特性第二個特征:數據結構的多樣和異構性(繼續(xù))很難用當前的數據庫管理系統(tǒng)來管理比如基于SQL的關系型數據搜索很難用傳統(tǒng)的數據處理和應用系統(tǒng)來分析第三十一頁,共九十五頁。大數據的特性要求1:需要研發(fā)一種特殊的處理機制和平臺,使得可以管理和處理不同數據結構的數據,比如維基(wiki)、博客、網絡日志、

來源于網絡的任何信息要求2:需要合適地設計一種相應的分析和挖掘流程機制和平臺

這種平臺必須建立在系統(tǒng)工程的理念上第三十二頁,共九十五頁。大數據的特性系統(tǒng)工程的技術理念帶來異常的技術挑戰(zhàn)分布式大數據存儲基于SQO/NoSQL并存的數據搜索大數據的表達和可視化大數據的分配和網絡設計大數據的分析流程動態(tài)管理大數據的處理和分析大數據信息挖掘和決策HugedatavolumeHybriddatastructureHiddeninformationdiscoveryHigh-speeddatagrowth第三十三頁,共九十五頁。大數據的特性第三個特征:數據結構的多樣和異構性快速增長數據流的動態(tài)性要求:高性能數據計算系統(tǒng)用大數據過濾、壓縮、刪除來解決"大數據堆積"采用大數據的轉化、移植、和變化技術正確選擇中央型和分布型計算機平行計算的數據處理平臺實時性信息挖掘和智能決策第三十四頁,共九十五頁。大數據的特性第四個特征含有信息的價值需要高性能的數據統(tǒng)計和挖掘采用智能計算技術迅速轉化為決策的依據、增強企業(yè)的競爭力和產業(yè)第三十五頁,共九十五頁。大數據的優(yōu)勢和效益重新設計相關的數據信息屬性結構和行為,特別是各類數據之間的接口和關系,確保大數據信息的應用擴展性改造高性能數據處理和分析的流程,以便直接為產業(yè)和服務業(yè)實時服務建立嶄新的決策機制,有利于銳化組織運營與管理、和企業(yè)的利益第三十六頁,共九十五頁。大數據應用范例氣象學基因學和基因工程應用神經科學物理數學建模與仿真生物技術環(huán)境研究和改善第三十七頁,共九十五頁。大數據應用范例網絡搜索財經商務信息生物醫(yī)學與醫(yī)療健康石油勘探宇航和太空探索第三十八頁,共九十五頁。大數據應用范例第三十九頁,共九十五頁。大數據應用范例生物醫(yī)學研究中的大數據自人類基因工程建立之后,基因鏈被移植和應用到成千上萬的人體、動物實驗中,獲取非凡的成就。基因序列數碼的發(fā)明和創(chuàng)新、計算技術的成素、以及嶄新的生物信息學的健康發(fā)展,產生了新的、具有重大意義的生命科學技術分支,特別是臨床轉化醫(yī)學的應用。第四十頁,共九十五頁。大數據應用范例比如臨床醫(yī)學轉化的大數據由美國國家癌癥研究院主持的、SusanHolbeck博士測試的5000多對美國藥物總局認可的癌癥藥物對60多種細胞鏈的反應。一共進行了30萬次的實驗,人們終于認識到每一個細胞鏈中的每一個基因的RNA表達式的層次。第四十一頁,共九十五頁。大數據應用范例臨床醫(yī)學轉化的大數據獲得巨大的序列,蛋白質和微小RNA表達譜數據后,通過大數據挖掘,人們懂得了一個細胞鏈往往會對某些良好的組合做出反應,而對另一些組合不產生反應。這樣的觀察可以變成一個理性的、具有針對性的藥物臨床試驗。第四十二頁,共九十五頁。大數據應用范例臨床醫(yī)學轉化的大數據讓我們在看一段今年超算會議上由JanisLandry-Lane女士所作的關于IBM在生命科學方面的解決方案。演講主要圍繞IBM大數據挖掘時如何幫助他們的用戶來完成臨床基因學方面的大數據挖掘。她的演講特別提到用IBM大數據技術來設計數據的獲取,管理、處理和分析的進程。這種大數據技術可以直接應用到不同的領域。第四十三頁,共九十五頁。大數據技術挑戰(zhàn)的當務之急如何存儲大數據?如何處理非結構型數據?如何用現有的計算設備來動態(tài)的、并行的處理大數據?如何研發(fā)新的處理和分析的方法來挖掘信息?如何把大數據,通過信息的提煉,轉化為決策機制?第四十四頁,共九十五頁。所需的計算技術充分利用現有的計算設施跟蹤和積累信息技術的和經歷、掌握分布式計算技術重視標準化和開源軟件的開發(fā)和流程設計建立高性能分布式存儲系統(tǒng)盡快掌握大數據的系統(tǒng)構架和流程設計、配置和安裝集成、維護和服務等技能第四十五頁,共九十五頁。高校大數據項目舉例:

項目背景和宗旨學院狀況:上海杉達學院(民辦高校)信息學科已有較長時間的歷史,但也有跟上信息技術迅速發(fā)展的迫切需要以“大數據”技術為抓手,確立兩個研究方向:大數據處理技術(云計算、并行處理、分布存儲,高性能計算等)方向,以此帶動杉達學院傳統(tǒng)信息技術的及教學和科研上一個臺階,緊跟信息技術發(fā)展的前沿。大數據分析及其應用(在醫(yī)學醫(yī)療衛(wèi)生健康、商務和管理等領域的數據挖掘及數據分析等),以此發(fā)揮大數據技術隊其他學科領域的輻射作用,將大數據技術和上述其他學科領域相結合產生新的學科發(fā)展生長點第四十六頁,共九十五頁。數據實驗平臺與學科建設結合研究任務落實的具體情況

(按三個明確的階段開展)實驗室平臺建設建立了大數據計算設施平臺(分布式計算、云計算、高性能計算、

數據分析處理和挖掘、統(tǒng)計計算)(第一階段)確定并展開大數據應用領域(建立了醫(yī)療衛(wèi)生的大數據庫存平臺,大約80萬數據(第二階段)基于SPSS的健康衛(wèi)生醫(yī)療大數據輸入,格式轉化,和顯示系統(tǒng)實驗室機房:IBMFlex高性能大數據和高性能計算系統(tǒng)第四十七頁,共九十五頁。數據實驗平臺與學科建設結合研究任務落實的具體情況

(按三個明確的階段開展)實驗室平臺建設管理/登錄/調度節(jié)點:配置1臺x240雙路刀片服務器,作為管理、登錄的調度節(jié)點,配置64GB內存,2顆E5-2620CPU(2.0GHz/6-core),8塊1TB7近線SAS硬盤;計算和數據分析節(jié)點:8臺Flexx240雙路刀片服務器,做為計算和數據分析節(jié)點,配置32GB內存,2顆E5-2620CPU(2.0GHz/6-core),2塊1TB7近線SAS硬盤;管理網絡和InfiniBand高速網絡:所有節(jié)點間通過56GbInfiniBand高速網絡連接,保證高速通訊和存儲I/O,管理網絡采用IBM千兆以太網,負責集群管理和監(jiān)控。第四十八頁,共九十五頁。數據實驗平臺與學科建設結合第四十九頁,共九十五頁。數據實驗平臺與學科建設結合第五十頁,共九十五頁。數據實驗平臺與學科建設結合第五十一頁,共九十五頁。數據實驗平臺與學科建設結合Connections

Storageareanetwork(SAN)TCP/IP

InfiniBandAvailability

Datamigration,

replication

andbackupManagement

Centralized

monitoring

andautomatedDatabasesApplicationserversBackupand

archive第五十二頁,共九十五頁。數據實驗平臺與學科建設結合第五十三頁,共九十五頁。數據實驗平臺與學科建設結合建立一個公共健康信息系統(tǒng)大數據實驗平臺科研與教學兼顧分布式模擬大數據存儲基于多核(Multi-core)這個平臺既有硬件的系統(tǒng)設置,又有軟件的配套計算第五十四頁,共九十五頁。數據實驗平臺與學科建設結合三方法:在所建立的實驗平臺上探索和研究大數據儲存方法大數據平行處理方法大數據挖掘方法第五十五頁,共九十五頁。數據實驗平臺與學科建設結合調研、匯總包括數據處理、分析、和數理統(tǒng)計在內的、各類現有常用計算方法和應用性軟件根據應用范疇,整合一套較為完整的、實際有效的大數據處理和挖掘軟件系統(tǒng)為基層衛(wèi)生信息系統(tǒng)的建設提出參考的價值和建議。第五十六頁,共九十五頁。數據實驗平臺與學科建設結合三培養(yǎng):青年教師創(chuàng)新性科研能力的培養(yǎng)師資隊伍的學科建設能力的培養(yǎng)學生應用性技能的培養(yǎng)第五十七頁,共九十五頁。數據實驗平臺與學科建設結合采用分布式和集中式相結合的大數據并行計算平臺,側重計算任務的分配和數據域的再分解相結合的方法在混合式操作環(huán)境下、共享和分布式內存相結合的、多種多核處理器相結合的計算模式研發(fā)國際HL7,DICOM和其它IT標準接口規(guī)范方法收集、研發(fā)、整合各類數據處理分析、統(tǒng)計、挖掘的方法技術和方法第五十八頁,共九十五頁。數據實驗平臺與學科建設結合小采樣和大數據之間的關系性方法各類數據之間的格式轉化、制作必要的軟件數據分配的非平衡處理方法大數據的統(tǒng)計計算方法科研和教學相結合的教學培養(yǎng)方法第五十九頁,共九十五頁。數據實驗平臺與學科建設結合調研、分析需求、制定系統(tǒng)的初步方案設計和搭建計算平臺收集大數據資源實現基于高性能計算的數據處理和挖掘的可行性分析和實驗以若干應用為實例,研究適用于公共健康數據挖掘的算法及其實施方案探索具有大數據分析能力的應用性專門人才的培養(yǎng)模式,制定培養(yǎng)方案,實施培養(yǎng)計劃整理實驗數據,培養(yǎng)青年教師如何開展科研,特別注重科研與教學的結合培養(yǎng)青年教師的寫作國際論文能力第六十頁,共九十五頁。數據實驗平臺與學科建設結合A.搭建面向基層的公共健康信息管理與分析系統(tǒng)平臺;實現基本層次的、基于高性能計算的數據處理和挖掘的可行性研究C.培養(yǎng)相關的應用性專門人才的新模式B.醫(yī)療衛(wèi)生健康數據二次開發(fā)的實踐,探索數據分析與挖掘新功能模式;實現基于高性能計算的數據處理和挖掘應用性研究衛(wèi)生信息系統(tǒng)的調研、國際數據資源調查、分析需求、制定系統(tǒng)(硬件和軟件)的初步方案建立公共衛(wèi)生信息分布式數據管理系統(tǒng)、建立中央式分析和基本層次高性能計算系統(tǒng)開放式接口、可擴展性和安全性研究衛(wèi)生健康數據采集、調配,預處理、處理計算衛(wèi)生健康數據統(tǒng)計(SAS或SPSS)、挖掘和融合,中期驗收衛(wèi)生健康數據融合、整合、系統(tǒng)兼容性研究根據測試和驗證結果,必要時對系統(tǒng)進行修正、改進和完善采用小樣本來模擬數據和系統(tǒng)的可行性;同時收集和研發(fā)并行計算軟件國際標準數據的調試計算模塊的數據分析及挖掘的功能;調整應用性層次的高性能計算系統(tǒng)平臺對數據管理系統(tǒng)和計算分析系統(tǒng)進行修正,調試;研究計算任務分配和數據的傳遞和可視設計培訓課程(數值計算、統(tǒng)計計算、并行計算、數據分析與挖掘等)開設培訓課程;學術論文課題的收尾工作(數據整合、課題報告、論文準備、延伸課題的預研等)課題開始中期驗收課題完成驗收2013.62014.62015.52013.102014.32014.102015.3第六十一頁,共九十五頁。數據實驗平臺與學科建設結合研究任務落實的具體情況

(按三個明確的階段開展)持續(xù)進行有助于整個信息學科的發(fā)展和內涵提升,也有助于促進其他學科產生新的科研教學生長點科研小組D科研小組A科研小組B科研小組C科研小組E實驗室科研培訓第六十二頁,共九十五頁。數據實驗平臺與學科建設結合研究任務落實的具體情況

(按三個明確的階段開展)研究成果固化成課程的形式,豐富和完善了信息學科的課程體系(第三個階段)將大數據技術融合到現有的課程中,同時建設新的教學課程為學科建設奠定實驗設施基礎、研發(fā)平臺、課程實踐、教師培養(yǎng),以及學生實習奠定了基礎。為青年教師培訓大數據基礎知識和技術第六十三頁,共九十五頁。數據實驗平臺與學科建設結合實驗室平臺建設帶動科研項目開展新的課程建設大數據計算設施平臺大數據資源和庫存平臺100%50%30%第六十四頁,共九十五頁。數據實驗平臺與學科建設結合科研經費管理科研處、設備處、財務處、校方大力支持科研經費規(guī)范體現在:經費到位、需求的設備申報、購買評估和審批項目的資金分配,按校內評估分期撥款(50%)財務的規(guī)范化,帳務的平衡支撐條件落實,項目管理規(guī)范本項目得到校方的大力支持,校方提供400萬,追加本項目的開支本項目作為學校學科整體規(guī)劃和建設的一個重要組成,推動整個學校的學科建設和教學課程改革、以及師資力量的提高。本項目從開題、中期檢查、經費撥款、實驗室場地落實、團隊建設、人員配備等得到校方的鼎力支持和具體的落實。第六十五頁,共九十五頁。與青年教師團隊建設結合團隊建設結合情況項目團隊取得的階段性成果完成大數據實驗平臺搭建

(設計、評估、申報、購置、安裝、調試)大數據的技術探索、資料收集、系統(tǒng)設計、大數據結構獲取并建立80萬大數據資源和數據庫存(其中

包括SEER大數據等團隊著手學習和掌握大數據處理技術,特別是醫(yī)療信息數據的分析和挖掘收集大數據成功應用范例鼓勵并帶領青年教師積極開展科研項目,建設新的課程第六十六頁,共九十五頁。與青年教師團隊建設結合團隊建設結合情況項目團隊取得的階段性成果與IBM建立大數據實訓平臺,廣泛深入展開一下合作項目師資培訓、教學平臺共建、聯合研究開發(fā)精品課程共建、課程與技術傳授、學生實習2014年3月11日第六十七頁,共九十五頁。與青年教師團隊建設結合團隊建設結合情況學科帶頭人培養(yǎng)、教學科研團隊建設在確立研究方向的同時,也樹立了相應的學科帶頭人倪軍:負責大數據處理技術陳瑛:負責大數據應用帶領6名青年教師:劉在英、沙潔、楊平、馬暉男、章鳴嬛、朱琳玲第六十八頁,共九十五頁。與青年教師團隊建設結合團隊建設結合情況學科帶頭人培養(yǎng)、教學科研團隊建設每周三召開團隊學術會議,探討和學習大數據技術、布置科研任務,匯報任務落實和進展計劃通過組織青年教師參與本項目實施的全過程,培養(yǎng)了青年教師的教學科研能力,促進師資隊伍的建設第六十九頁,共九十五頁。與青年教師團隊建設結合團隊建設結合情況學術交流情況

(校級學術交流)在全校范圍內,通過科技專題講座,為校管理干部和教師們進行了大數據與云計算的解讀,并就大數據背景下如何推進我校的學科專業(yè)發(fā)展作了探討2013年3月20日第七十頁,共九十五頁。與青年教師團隊建設結合團隊建設結合情況學術交流情況

(校級學術交流)杉達學院嘉善校區(qū),與基礎部教師開展學術研討2013/10/16第七十一頁,共九十五頁。與青年教師團隊建設結合團隊建設結合情況學術交流情況

(國際交流):在杉達學院主辦了第7屆科學與工程網絡計算國際會議,會議論文由國際IEEE計算機學會出版,論文全部EI檢索。青年教師踴躍投稿,積極參加會議學術交流、并參與會議服務和編輯工作。邀請美國佛蒙特大學計算機系首席教授,現任復旦大學計算機學院院長王曉陽博士作關于“大數據分析”學術報告。2013年9月22日第七十二頁,共九十五頁。與青年教師團隊建設結合團隊建設結合情況團隊成員參與程度人數上:團隊成員人數不斷增加,技能的不斷提升鼓勵開展與之相關的輻射的技術,直接為科研和教學服務從學科內涵為基點,在大數據技術層和應用技術層基礎上,尋求科研教學新的伸長點大數據項目的宗旨大數據高性能計算技術(平行計算)數據獲取處理分析挖掘(數據結構和計算方法)服務界面技術(云計算、分布式計算醫(yī)療大數據數據庫系統(tǒng)商業(yè)信息大數據處理和挖掘(TheOrganizationforEconomicCo-operationandDevelopment,OECD)醫(yī)療大數據結構特征分析和挖掘第七十三頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況整合大數據技術到整個信息科學與技術學院的科研和教學體系中把大數據內涵技術應用到不同專業(yè)領域的學科建設(科研和教學)中第七十四頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況與課程建設、教材建設、教學名師、精品課程、實驗科研基地建設等結合情況把該技術融合到其他課程建設,補充現有課程的內容,提高課程的教學質量把大數據實驗室建設成科研實驗基地,以大數據實驗室為基地,展開各類應用領域的研發(fā),開發(fā)新的學科領域和課程,比如第七十五頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況Hadoop/MapReduce大數據解決非結構數據的方案Hadoop是Apache軟件基金會管理的開源軟件平臺Hadoop是在分布式服務器集群上存儲海量數據并運行分布式分析應用的一種方法Hadoop有兩個主要部分:一個數據處理框架(MapReduce)和一個分布式數據存儲文件系統(tǒng)(HDFS)。通常會把輸入的數據集切分為若干獨立的數據塊,由map任務(task)以完全并行的方式處理它們。框架會對map的輸出先進行排序,然后把結果輸入給reduce任務。通常作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中。整個框架負責任務的調度和監(jiān)控,以及重新執(zhí)行已經失敗的任務。第七十六頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況FlexSystem+PlatformSymphony---大數據計算解決方案

IBMPlatformSymphony軟件提供強大的企業(yè)級管理,用于在可擴展的共享網格上運行分布式應用程序和大數據分析。

它可加速數十個同時運行的應用程序,以加快實現成果并更好地利用所有可用資源。 IBM?Platform?Symphony軟件可幫助您控制當前和將來的技術計算系統(tǒng)中可用的大量計算能力,以應對最艱巨和最復雜的問題。第七十七頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況IBMPlatformComputing軟件技術理念就是讓客戶能把成千上萬臺計算機當作一臺來使用和管理。為了達到這個目的,IBMPlatformComputing采用了3層軟件功能第一層是資源整合,把企業(yè)所有的服務器及操作系統(tǒng)的軟硬件整合成一個邏輯層,交給第二層資源分配來處理,第二層是資源分配,是網絡層次的一個概念,把資源整合的邏輯層根據應用的使用、資源情況動態(tài)分配,大幅提高資源的利用率,并同時滿足用戶的服務標準。第三層是資源使用,使用戶通過API或UI界面或APP能夠清楚明了地使用資源。如果是一個并行任務,用戶可以通過一個中間件API調用資源,滿足并行應用。

第七十八頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況這三層邏輯抽象,就構成了完整的PlatformComputing的軟件應用層次,可以支持多用戶、多應用、共享、動態(tài)的平臺,實現主流的技術計算。Symphony是PlatformComputing平臺一個并行分析的計算平臺,從理解的角度,與WEB服務器的應用服務器類似,可以把Symphony看成是PlatformComputing技術運算平臺的應用服務器,它包含針對低延遲、可靠性和資源共享進行優(yōu)化的MapReduce,還可以兼容ApacheHadoop,進行大數據分析。第七十九頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況如何用PlatformSymphony做大數據分析IBMPlatformSymphony是一個并行分析的計算平臺,可以支持各種類型的計算密集型和數據密集型的應用。從開發(fā)者的角度來說,Symphony是一個可以成百上千倍提高運用速度,提供低延時、高并行度、高可靠性的應用中間件。同時,還可以把Symphony看成是一個面向技術運算的服務器。數據顯示,Symphony遠程并行服務的延遲低至毫秒級,每秒鐘可以同時啟動17000個服務任務,每一個應用可以使用多達10000個核,每一個集群可以支持多達40000個核,可以實現多個任務、多個應用同時運行。第八十頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況如何用PlatformSymphony做大數據分析不僅如此,Symphony還可以同時支持計算密集型應用和數據密集型應用的管理軟件。隨著分析工作負載的計算與數據密集性的不斷增高,許多類型的應用程序都要求快速分析使用內存中的數據網格存儲的或分布式文件系統(tǒng)上的大量數據。不同于其他網格管理解決方案,PlatformSymphonyAdvancedEdition(Symphony的高級版)并不需要單獨的基礎架構來支持這些數據密集型問題。它包含針對低延遲、可靠性和資源共享進行優(yōu)化的MapReduce,還可以兼容ApacheHadoop。用戶可以通過使用此功能在相同的共享分布式基礎架構上運行使用其他語言編寫的Hadoop和非Hadoop應用程序。此外,PlatformSymphony的多租戶架構可以使其在單一的共享式基礎架構上部署多個MapReduce引擎第八十一頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況如何用PlatformSymphony做大數據分析就工作環(huán)境而言,PlatformSymphony客戶機和服務可以在不同的操作系統(tǒng)、語言和框架上實施,集群還可包含運行多個操作系統(tǒng)的節(jié)點。PlatformSymphony可在相同的集群中管理多種不同類型的主機,并控制每個主機上運行的應用程序服務。第八十二頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情PlatformSymphony支持GPFS(GeneralParallel)----大數據平行文件存儲IBMPlatformSymphony支持各種類型的數據,開源MapReduce只支持開源的HDFS(TheHadoopDistributed)IBMPlatformSymphony支持包括IBMGPFS、HDFS、數據倉庫以及其它數據來源和輸出端GPFS是一個高性能的,共享磁盤空間的文件系統(tǒng)的管理方案。GPFS運用于集群環(huán)境中,提供快速可靠的數據訪問。通過GPFS,同一個集群中的多個節(jié)點可以同時訪問同一個共享文件。IBMGPFS提供快速的數據訪問以及簡單且經濟有效的數據管理。IBMGPFS可幫助:消除數據相關的瓶頸,簡化數據管理規(guī)模,實現全球協作,經濟有效地管理完整的數據生命周期,確保端到端數據的可用性、可靠性和完整性第八十三頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況PlatformSymphony支持GPFS(GeneralParallel)----大數據平行文件存儲GPFS還可以提供在線存儲管理、可擴展的訪問和集成的生命周期管理工具,并且有能力管理PB級的數據和數十億的文件,可以大大減少切換時間,減小客戶應用的不可用時間。GPFS可以幫助企業(yè)降低存儲管理成本,并能減少數據重復和更有效的使用離散的存儲組件,使之成為一個邏輯整體,使信息呈現一個集中的、高性能存儲的架構。GPFS還可以幫助改善服務器硬件利用率,從任何節(jié)點通過允許動態(tài)存儲訪問所有數據,GPFS多層次的方法可以減少存儲成本。第八十四頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況與IBM聯合開設課程Hadoop分布式存儲與分布式計算開源框架概覽本課程主要介紹了開源hadoop的基本原理,重要的組件MapReduce和HDFS。還詳細指導學生如何構建一個開源的hadoop集群,如何在上面運行指令等。本課程包含以下小節(jié)內容:Hadoop基本架構介紹大數據概念的由來,開源hadoop的歷史起源,背景,架構,重要組件基本功能,管理運行機制,1.0版本的架構缺陷及改進的2.0版本的發(fā)展方向等。

Mapreduce基本原理介紹MR的運行原理,管理機制,Map、Reduce兩個具體的實現過程,MR的應用開發(fā),如何參數調優(yōu)等。HDFS基本原理介紹HDFS的設計思想,基本原理,架構框圖,適用范圍,目前的市場前景及發(fā)展方向。Hadoop其他的重要組件介紹Pig、Hbase、Hive、Jaql、Zookeeper的作用,基本原理,實現機制,市場應用等。如何構建一個小型的hadoop集群指導學生如何在一個集群的多個節(jié)點上部署開源hadoop1.0.0,如何設置各種參數及其具體意義,如何運行各種類,如何通過開源hadoopGUI來進行作業(yè)檢查等。第八十五頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況與IBM聯合開設課程IBMGPFS企業(yè)級分布式存儲架構與實踐本課程主要介紹IBMGPFS的基本原理,以及面向大數據應用的GPFSFPO新特性。還詳細指導學生如何構建一個IBMGPFSFPO存儲集群,如何管理和運維等。本課程包含以下小節(jié)內容:GPFS基礎架構及原理介紹IBMGPFS通用并行文件系統(tǒng)的基礎架構,包括高可靠性、可擴展性、數據復制機制、POSIX兼容性等等。GPFSFPO面向大數據應用新特性介紹GPFSFPO面向Map-Reduce分布式應用的存儲架構,以及GPFSFPO與開源HDFS的對比、技術優(yōu)勢。如何構建一個小規(guī)模的GPFSFPO集群介紹如何安裝和調試GPFS-FPO存儲集群,在實驗平臺上,一步一步演示搭建GPFS集群的過程,包括常用參數的設置與優(yōu)化等。GPFS運行維護及故障診斷如何運行GPFS系統(tǒng)管理命令,如何查看系統(tǒng)日志,常見錯誤與故障處理等等。第八十六頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況與IBM聯合開設課程IBMPlatformSymphony企業(yè)級分布式計算架構與實踐本課程主要介紹了IBM的旗艦產品PlatformSymphony的基本原理,架構和運行機制,而且還詳細介紹了如何安裝PlatformSymphony及如何運維。本課程包含以下小節(jié)內容:

Symphony基本原理及架構介紹symphony的原理,整體架構,包含組件,接口平臺,可以實現的功能,對數據庫和文件系統(tǒng)的支持原理等。

Symphony資源管理介紹symphony的一些基本概念,如resourcegroup、consumer、slots,以及所有的調度策略。介紹如何針對不同的場景進行資源動態(tài)分配設計,如何結合優(yōu)先級、資源比例、時間段進行資源的分配,如何進行資源池的總體監(jiān)控等。SymphonySOA架構

介紹symphony的低延遲SOA架構原理,具體運行機制,各種性能指標及其含義,主要特點及優(yōu)勢,高可用功能等。介紹symphony如何對作業(yè)進行全程的監(jiān)控,如何設置有效的監(jiān)控參數等。

第八十七頁,共九十五頁。與學校建設結合情況與學科整體規(guī)劃、專業(yè)建設、結構布局等結合情況與IBM聯合開設課程IBMPlatformSymphony企業(yè)級分布式計算架構與實踐SymphonyMR架構介紹symphony的MR原理,和開源hadoop的區(qū)別,功能優(yōu)勢以及性能優(yōu)勢,Benchmark數據如何測試等。Symphony的安全和部署機制介紹symphony的安全機制,包括三級用戶的設置及不同的角色分配,如何何第三方安全軟件集成等。介紹APP、session、service的概念及部署機制和整體流程。介紹AppProfile的詳細參數配置等。

Symphony的市場定位及成就介紹symphony如何和第三方軟件集成,已有的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論