物流大數據平臺可行性研究報告_第1頁
物流大數據平臺可行性研究報告_第2頁
物流大數據平臺可行性研究報告_第3頁
物流大數據平臺可行性研究報告_第4頁
物流大數據平臺可行性研究報告_第5頁
已閱讀5頁,還剩67頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目概述項目名稱項目名稱:XX項目承擔單位項目承擔單位:XX項目負責人:編制依據本報告的編制依據主要包括以下內容:《國務院關于積極推進“互聯網+”行動的指導意見》(國發〔2015〕40號);《促進大數據發展行動綱要》(國發〔2015〕50號);《北京市大數據和云計算發展行動計劃(2016—2020年)》;《計算機信息網絡國際聯網保密管理規定》國家保密局;《計算機軟件產品開發文件編制指南》(GB8567-88);《計算機軟件開發規范》(GB8566-88);《計算機軟件質量保證計劃規范》(GB/T12504-90);《計算機病毒防治管理辦法》中華人民共和國公安部令第51號;其他法律法規、相關文件等。項目建設內容本項目行業大數據平臺主要建設內容為:物流大數據平臺可行性研究報告全文共69頁,當前為第8頁。物流大數據平臺可行性研究報告全文共69頁,當前為第8頁。項目建設原則系統的總體設計應遵循高標準嚴要求的原則,具備技術的穩定性和業務系統的實用、方便性。1.先進性和前瞻性在應用系統實用、高效的基礎上,采用先進的信息技術,適應未來6-8年技術發展趨勢,具備一定的前瞻性,并保證系統管理、維護、升級和擴展的方便性。2.開放性及可擴展性由于本項目中建設的平臺將為今后幾年全國XX相關數據收集分析工作提供支撐,因此要求軟件平臺應具有良好的可擴充、擴展能力,能夠方便進行系統升級和更新,以適應今后業務的不斷發展。安全可靠性選用的主機服務器要求能夠支持高可用的持續服務技術,能夠連續7×24小時不間斷工作,出現故障及時告警,具有完整的操作權限管理功能和完善的系統安全機制,保證系統正常可靠運行。保護投資保護既往投資、整合現有資源。系統建設立足對已有業務應用系統和數據庫等資源的完善與整合,重視業務流與信息流的結合和重組優化,使既往投資和現有資源發揮更大作用。5.易于管理維護物流大數據平臺可行性研究報告全文共69頁,當前為第9頁。建設時充分考慮到管理維護的需要,保證系統建成后易于管理和維護。物流大數據平臺可行性研究報告全文共69頁,當前為第9頁。投資估算主要依據原國家發展計劃委員會、信息產業部:《電信建設管理辦法》信息產業部《通信建設工程投資估算指標》(試行)《關于認真開展電子工程監理的通知》信息產業部信規(2000第206號文件)《信息系統工程造價指導書》中國市場出版社項目需求及市場調研。投資估算物流大數據平臺可行性研究報告全文共69頁,當前為第10頁。根據項目建設的內容和規模,依據國家有關部門的相關規定,在市場調研的基礎上,綜合考慮需求分析費、系統設計費、應用軟件開發費、系統集成和調試費等,XX行業大數據平臺建設總投資估算為XX萬元,各分項價格如下表所示:物流大數據平臺可行性研究報告全文共69頁,當前為第10頁。序號分項分項描述金額(萬元)1需求分析項目需求調研,解決方案討論,產品原型圖設計與確認2UI、UE設計所有頁面、交互設計、UI效果圖設計與確認3系統開發系統程序開發4數據移植現有數據移植5項目管理、測試與發布項目管理、集成測試、部署與培訓、產品發布GrandTotal總計:項目總投資估算表效益目標績效目標質量目標:系統建設之前,項目組會充分研究討論,并廣泛收集專家意見制定出最適合本項目的質量控制標準,保證承建方嚴格按照質量要求建設。時效目標:與系統建設之前相比,系統建設投入使用以后可提高工作效率70%以上。成本目標:軟件及實施、培訓等投入控制在XXX萬元人民幣以內。效果目標經濟效益目標:系統不直接產生經濟效益。但系統運行以后可增加中心影響力,提高服務能力,為XX行業發展等提供數據支撐,為各單相關企業節省支出,按照目前行業發展水平及相關服務費用計算,每年可增加收入約XX萬元。社會效益目標:提高管理水平,降低管理層管理難度,提高用戶滿意度,促進行業發展。環境效益目標:本項目作為信息化建設的重要組成部分,在提高數字化水平,改善管理環境中起到至關重要的作用。可持續目標:經過充分的系統論證,前瞻性的建設規劃,開放式的平臺接口,在國家相關政策下本系統使用期限在6-8年以上。物流大數據平臺可行性研究報告全文共69頁,當前為第11頁。滿意度目標:項目建設完成投入使用以后,要達到所有使用者滿意度不低于80%。物流大數據平臺可行性研究報告全文共69頁,當前為第11頁。建設背景及可行性建設背景時代背景當今人類社會已經進入數字化和信息化時代,主要特征就表現在高效性、多樣性、綜合性等,在這樣的時代背景之下,人們的生活質量顯著提高,計算機技術的發展是數字化和信息化時代出現的根本原因,在社會的各行各業之中,由于計算機技術的廣泛應用,企事業單位開始建立計算機網絡平臺,實現了信息的數字化管理,同時各企事業單位之間可利用互聯網進行信息的交流與溝通,進一步擴展了數字化和信息化的普及范圍,數字化和信息化在世界范圍內迅速普及,正在對經濟、政治、文化、科技、軍事等各個領域產生重大影響,深刻改變著人們的生產、工作和生活方式,并將繼續對人類精神文明和物質文明產生深遠影響,引發人類社會生活層面的各種變革。政策背景2015年9月5日,經李克強總理簽批,國務院印發《促進大數據發展行動綱要》(以下簡稱《綱要》),系統部署大數據發展工作。《綱要》是到目前為止我國促進大數據發展的第一份權威性、系統性文件,從國家大數據發展戰略全局的高度,提出了我國大數據發展的頂層設計,是指導我國未來大數據發展的綱領性文件。物流大數據平臺可行性研究報告全文共69頁,當前為第12頁。《綱要》提出,要加強頂層設計和統籌協調,加大大數據關鍵技術研發、產業發展和人才培養力度,著力推進數據匯集和發掘,深化大數據在各行業創新應用,促進大數據產業健康發展;完善法規制度和標準體系,科學規范利用大數據,切實保障數據安全。物流大數據平臺可行性研究報告全文共69頁,當前為第12頁。2017年1月17日工業和信息化部印發《大數據產業發展規劃(2016-2020年)》,規劃指出創新大數據技術服務模式。加快大數據服務模式創新,培育數據即服務新模式和新業態,提升大數據服務能力,降低大數據應用門檻和成本。圍繞數據全生命周期各階段需求,發展數據采集、清洗、分析、交易、安全防護等技術服務。推進大數據與云計算服務模式融合,促進海量數據、大規模分布式計算和智能數據分析等公共云計算服務發展,提升第三方大數據技術服務能力。推動大數據技術服務與行業深度結合,培育面向垂直領域的大數據服務模式。業務背景XX是現代經濟的核心之一,國務院印發的《XX業發展中長期規劃(2014~2020年)》明確提出要以提高XX效率、降低XX成本為重點。因此,在大數據時代背景下,XX行業也必須高度重視統計數據。

XX大數據可以劃分為三類:第一是微觀層面,包括運輸、倉儲、配送、包裝、流通加工等,第二是中觀層面,最顯著的影響是橫向流程延拓,縱向流程壓縮簡化;從供需平衡角度出發,為供方(XX企業)提供最大化的利潤,為需方提供最佳的服務;第三是頂層設計,利用大數據技術把握行業動態,預測發展趨勢,實現行業頂層規劃設計。物流大數據平臺可行性研究報告全文共69頁,當前為第13頁。XX大數據發展比較緩慢。從細分市場來看,醫藥XX、冷鏈XX、電商XX等都在嘗試趕乘大數據這輛高速列車,大數據在XX中的應用貫穿了整個XX的各個環節。主要表現在XX決策、XX企業行政管理、XX客戶管理及智能預警等過程中。XX業務具有突發性、隨機性、不均衡性等特點,通過大數據分析,可以有效了解用戶偏好,市場情況,預判可能,提前做好準備,從而為行業健康快速發展奠定基礎。物流大數據平臺可行性研究報告全文共69頁,當前為第13頁。XX現行網站及相關業務系統建設時間較早,在當前使用過程中,存在諸多問題,包含如下:業務邊界較窄:中心工作任務相對系統建設初期有了較大變化,現有系統所支撐業務范圍較窄,如政策信息、XX數據的采集、統計分析等,現有信息系統已無法滿足新的需求;業務模式不足:中心工作任務涵蓋省市級、地市級、地方社團三級體系相關數據報送,現有系統所支撐業務的業務流程相對單一,已無法更快更準確的對用戶需求做出響應;業務規模較小:現有信息系統所支撐業務的業務量、用戶量較小,并發量達到一定規模時系統會發生卡頓甚至崩潰;數據安全無法保障:由于系統建設時間較長,為數據處理系統建立和采用的技術和管理的安全保護手段已無法更新維護,計算機硬件、軟件和數據會有遭到破壞、更改和泄露的危險,其中數據包含各企業詳細信息、統計數據及相關保密數據等,發生泄漏后會造成不可預估的損失。綜上所述,在當前背景下,為了強化經濟、XX等數據監測分析,建立規范化指標體系,推進數據共享和業務協同,為決策提供及時、準確、可靠的信息依據,提高工作的前瞻性和針對性,加大宏觀調控力度,XX中心行業大數據平臺建設顯的非常必要和迫切。項目可行性政策環境可行性物流大數據平臺可行性研究報告全文共69頁,當前為第14頁。2015年9月,經李克強總理簽批,國務院印發《促進大數據發展行動綱要》,自此“大數據”“云平臺”等政策措施密集出臺,自“大數據”上升為國家戰略以來,國家部委和地方政府紛紛發布“大數據”領域的政策文件。2017年1月工業和信息化部印發《大數據產業發展規劃(2016-2020年)》,提出全面提升我國大數據的資源掌控能力、技術支撐能力和價值挖掘能力,“大數據”環境愈加堅實,為XX行業大數據平臺建設指明了方向。物流大數據平臺可行性研究報告全文共69頁,當前為第14頁。技術可行性目前,XX行業大數據平臺的核心是對數據的收集、處理與分析,通過整合數據和業務流程流轉控制實現業務系統相關功能,架構一個能夠提供數據采集、流程控制和挖掘分析服務的大數據技術處理平臺,并具有健壯性、可擴展性和技術先進性,目前國內相關技術已達到實用水平,并有了相對成熟的產品,為上述實現提供了可能。本平臺建成后與現有系統比較主要優越性有:簡單性:在實現平臺的功能的同時,盡量讓平臺操作簡單易懂,這對于一個平臺來說是非常重要的。針對性:該平臺設計包含網上數據報送及后臺管理等定向開發設計,具有專業突出和很強的針對性。實用性:該平臺能完成相關數據采集、調查、報送等,具有良好的實用性。經濟可行性物流大數據平臺可行性研究報告全文共69頁,當前為第15頁。XX行業大數據平臺建設將本著減少重復建設、節約投資、充分利用已有資源、協調利用已有互聯網管理系統資源的原則進行建設。本項目作為信息中心的主要保障條件建設項目,建成后可提升中心的服務環境、提高工作效率和科學管理水平,直接和間接地產生效益。物流大數據平臺可行性研究報告全文共69頁,當前為第15頁。一次性收益縮短各業務人員數據報送、審核周期,提高工作效率,可以依據縮短時間的天數和工作量的減少,酌情不再新增辦公人員,使勞動力資源得到更合理的利用,從而降低了信息化建設項目成本,避免了消耗,減少了管理費用的支出等。不可定量收益使管理人員決策及時、準確、更科學化;使信息中心上下級的信息流通結構更趨合理;提高中心公信力,擴大影響力,增強競爭力;提高用戶滿意度等。以上這些方面的效益一般不能通過定量計算得到,具有一定的隱含性質和延遲性,但對于XX的管理以及發展、壯大都具有不可定量的收益。需求分析非功能性需求靈活性需求本部分主要說明XX行業大數據平臺要具備適應需求發生變化(業務變化及機構變化)的能力。(1)平臺在設計時,應充分考慮XX業務需求的變化和功能整合的可擴展性、方便性、快捷性,以適應可能的各種變化和發展。(2)應充分考慮系統與機構的無關性、與硬件的無關性及處理存儲分布性,當業務需求發生變化時,能快速修改業務過程,對已有系統的影響盡可能小,對程序的改變只涉及相對獨立的局部,而不會對其他部分或整體造成影響。物流大數據平臺可行性研究報告全文共69頁,當前為第16頁。(3)平臺應具有獨立性,應充分考慮使用開放性標準來確保相對獨立于硬件和軟件產品廠商,同時易于實現軟硬件系統集成。物流大數據平臺可行性研究報告全文共69頁,當前為第16頁。安全性需求數據安全(1)數據在傳輸過程中,對敏感數據進行加密;(2)所有對敏感數據的存取權限應該嚴格控制,并利用日志進行全程記錄跟蹤;(3)對登錄過程進行監管、記錄以控制對敏感數據的存取。應用安全(1)為開發、測試、培訓和運行提供各自獨立的環境,以便軟件集成的維護和版本的有效控制;(2)建立程序改進過程,以便加強軟件版本控制;(3)在控制和審計狀態下完成計算機設備和軟件的安裝;(4)在確認測試成功后運行系統。系統存取權限控制(1)定義與登錄系統活動相關的日志文件,比如成功登錄和不成功登錄活動、授權用戶賬號活動、用戶存取權限變更、軟件密碼的改變和修改等活動;(2)系統保存的日志可以提供充分的信息以支持審計和安全度量;(3)日志需要保存一定的時間;物流大數據平臺可行性研究報告全文共69頁,當前為第17頁。(4)采取嚴格的密碼設定策略,比如:最小的密碼長度、最初的任務、限制詞和格式、密碼聲明周期、用戶密碼指南等;物流大數據平臺可行性研究報告全文共69頁,當前為第17頁。(5)用戶在授權下訪問網絡資源;(6)對遠程系統的連接進行驗證;(7)實施嚴格的系統監管,以確保各類操作滿足存取權限標準。數據保密需求XX行業大數據平臺中包含大量企業數據和敏感信息。因此系統在設計時要求制定一套有效的保密措施以確保這些信息的保密性,同時需要預防外部侵擾的破壞,防止信息泄露。(1)系統須防止非法訪問、修改數據。除根據有關法律、法規而進行的數據披露外,這些數據不能被泄露;(2)系統須采取“錄入—復核”雙人操作,確保變更的準確性和有效性,所有的歷史信息必須被保存并能夠被查詢,同時要采用詳細的日志記載修改的操作。災難恢復需求XX行業大數據平臺包含敏感信息,所以必須有較高的健壯性,有完整的數據備份及災難恢復機制。這里所說的災難,是指計算機系統受火災、水災或人為破壞而產生的嚴重的后果,災難恢復是指災難產生后迅速采取措施恢復計算機系統的正常運行。(1)本系統中的重要網絡和計算機設備、以及重要的通信線路,需要采用冗余備份措施(冷備份、熱備份和負載均衡相結合);(2)本系統中的數據,除了要采取各種備份措施之外,還必須設立一整套完善的災難恢復機制;物流大數據平臺可行性研究報告全文共69頁,當前為第18頁。(3)在數據備份過程系統應對數據進行壓縮,以便使數據量盡可能小,減少存儲空間;物流大數據平臺可行性研究報告全文共69頁,當前為第18頁。(4)數據在恢復時要指定介質、時間、數據類型、機構等相關信息,經過確認后才可以恢復,以避免錯誤覆蓋現象;(5)備份的介質要編寫序號,歸檔管理,專人負責保管。系統集成需求平臺數據吞吐量大,計算密集度高。在系統集成里,要充分考慮整個系統數據量大小、數據流量和處理量的大小,在此基礎上對整個系統的基礎設施、業務系統和安全體系進行集成,涵蓋了總體技術架構設計、主機和存儲設計、各種系統的選型與集成、已有系統及數據的遷移、各種硬件設備配置和報價、所提供的各種服務等。基礎設施類集成基礎設施類的集成包括:網絡系統集成、計算設備安裝調試、系統軟件或工具的部署調試。基礎設施的集成主要體現在設備的采購、物理連接、安裝、部署、調試、驗收等方面。網絡連接可分解成內網連接、外網連接、網絡設備安裝調試等。計算設備集成可分解成主機系統、存儲系統、備份系統的安裝和調試。軟件開發工具和支撐環境可分解成數據庫管理系統、智能檢索系統等。物流大數據平臺可行性研究報告全文共69頁,當前為第19頁。建設XX行業大數據平臺局域網,進行軟硬件系統集成,系統應該具有平臺獨立性,應充分考慮使用開放性標準來確保相對獨立于硬件和軟件產品廠商,同時易于實現軟硬件系統集成。物流大數據平臺可行性研究報告全文共69頁,當前為第19頁。業務應用類集成應用集成是在不同的應用系統之間實現功能的調用,通過應用集成實現不同系統功能和信息共享;還有一類應用集成是具有數據分析應用的子項系統需要調用支撐平臺上面部署的統計分析工具提供的功能,實現工具的集中部署,分布應用。這些功能的調用需要按照不同工具提供的訪問模式和信息交換格式進行。安全體系集成安全體系涉及系統的所有層面,集成時要通盤考慮。其中,網絡的安全管理和網絡建設息息相關。應用安全體系和應用系統的建設和集成關系緊密。XX行業大數據平臺要實現穩定、持續運行,實現用戶認證、權限管理、數據安全備份和災難性恢復等安全保障功能。功能性需求整體用例圖建設內容通過對XX業務的梳理,本項目主要建設內容分為以下幾個模塊:一體化網站:數據報送:網絡信息采集:整合企業資源物流大數據平臺可行性研究報告全文共69頁,當前為第20頁。靈活可控的統計指標體系管理;物流大數據平臺可行性研究報告全文共69頁,當前為第20頁。依據數據挖掘、機器學習平臺等實現對XX數據、倉儲數據的深度挖掘統計,實現數據統計可視化展示等。數據遷移:已有數據庫(包括數據庫和文件)完整移植(導入、校驗)等。方案設計建設目標項目以“技術引領,應用為本”為核心導向,以政企用戶為主要服務對象,以分布式并行計算框架為基礎,充分應用多元數據存儲、大規模數據檢索和智能文本挖掘、機器學習等先進技術,構建XX行業大數據平臺。大數據平臺包括數據預處理系統、海量數據存儲檢索、數據智能挖掘分析。數據預處理系統實現對多源數據的接入、預處理和數據入庫等功能;數據統一存儲在海量數據存儲檢索系統中,實現數據的統一存儲、管理、檢索等功能;同時,為應用層提供數據智能挖掘分析服務,及對數據進行準確分析,提供潛在的有價值的信息。設計理念物流大數據平臺可行性研究報告全文共69頁,當前為第21頁。XX行業大數據平臺的建設應當采取:“制定規范——搭建框架——業務開發——集成”的模式,其中“制定規范、搭建框架”最為重要。具體的開發模式如下圖所示:物流大數據平臺可行性研究報告全文共69頁,當前為第21頁。開發模式示意圖采用這種模式是出于以下幾點考慮:項目設計和建設過程中,必須加強標準化建設,發揮標準化的指導、協調和優化作用,少走彎路,提高效率,確保系統運行安全,發揮預期效能。平臺建設任務重、業務專業性強,要想高效地完成實施,必然要并行展開,分步實施。為此需要首先搭建整體框架。各個子系統的實施必須在整體框架中進行。物流大數據平臺可行性研究報告全文共69頁,當前為第22頁。行業大數據平臺面臨集成問題,包括新建各個業務系統的集成、與現有地方協會系統和其它部門的數據交換等。為此,采用首先搭建框架,在框架解決集成接口的問題,各個業務系統也通過框架接口與外部交互,從而統一了要集成系統與平臺的交互界面,簡化了業務系統的接口工作。物流大數據平臺可行性研究報告全文共69頁,當前為第22頁。大數據平臺建設是個不斷發展完善的過程,功能將會不斷修改、擴充,一個好的框架可以確保系統在修改、擴充時,影響范圍最小。設計原則大數據平臺建設要做到“兩結合一兼顧”。首先是技術先進性與成熟性相結合,既要保持一定時期內技術領先性,又要實現系統運行的穩定性。其次是應用需求和客觀條件相結合,設計低成本高效用的建設方案,同時兼顧系統的可擴展性、可靠性、安全性等要求。實用性與可行性:根據業務需求,既要最大限度地滿足業務上的各項功能要求,又要確保實用性,具有良好的性能價格比;先進性:采用先進、成熟、實用的技術,既要實現各業務部門的功能,又要確保在未來幾年內其技術仍能滿足應用發展的需求;開放性:采用的各種設備(軟、硬件)均應符合通用標準,符合開放設計原則,使用的技術要與技術發展的潮流吻合,具有良好的開放性、技術延伸性、技術親合性,要充分考慮后期工程的需要。能夠滿足業務不斷增長的需求。在軟件、協議、服務和傳輸方面提供更多選擇,使用模塊化設計、集群分布方案,可根據需求變動適當取舍;安全性:保證數據的高安全性,從設備和技術上采取必要的防范措施(物理隔離、防火墻和防毒墻技術),使整個網站在受到有意、無意的非法侵入時,被破壞的可能達到最小程度;可靠性和容錯性:在設計中要考慮整體的可靠性,根據設備的功能、重要性等分別采用冗余、容錯等技術,以保證局部的錯誤不影響整體運行;物流大數據平臺可行性研究報告全文共69頁,當前為第23頁。可伸縮性:支持多種硬件平臺以及不斷發展的業務和用戶需求;物流大數據平臺可行性研究報告全文共69頁,當前為第23頁。靈活性:易于修改,并可在軟件、協議、服務和傳輸方面提供更多選擇,使用模塊化設計方案,可根據需求變動適當取舍。可管理性:能夠實時地管理網站運行,動態配置資源,構成高效安全的運行環境,監視系統中的錯誤,及時排除故障,使整個系統能夠堅持長時間的無故障運行;易維護性:系統的管理、維護和維修應具有簡易性和可行性。總體架構設計根據大數據處理技術平臺項目的建設要求,總體架構圖如下圖所示:系統架構圖數據源:包括各子系統應用數據、報送數據、網絡信息采集數據及系統運行數據等。大數據計算:包括數據清洗、數據入庫、數據計算、數據挖掘等。服務接口:web服務、rest服務、標準接口(包括API、HTTP、WebService、微服務等)。物流大數據平臺可行性研究報告全文共69頁,當前為第24頁。業務應用:根據權限模型對各用戶(各業務部門、服務使用者及決策者等)提供高效完善的系統應用服務。物流大數據平臺可行性研究報告全文共69頁,當前為第24頁。技術架構設計技術架構技術架構主要包括數據集成、數據存儲、數據處理計算、數據智能挖掘分析。數據集成采用sqoop、flume、kettle等實現數據的接入、轉換、入庫等操作,同時采用文本挖掘系統對數據進行預處理操作。數據存儲采用Hadoop分布式文件系統(HDFS),分布式數據庫HBase進行數據存儲,并通過rdbms關系數據庫管理系統對關系型數據庫進行管理,支持海量數據存儲、高效索引和檢索等服務。數據處理計算基于yarn、zookeeper的Hadoop集群安裝,通過ooize、spark、hive等提供數據處理計算服務。數據智能挖掘分析物流大數據平臺可行性研究報告全文共69頁,當前為第25頁。主要是實現大規模數據的挖掘分析功能,由實時計算框架(SparkStreaming)、離線計算框架(MapReduce)以分布式消息隊列(Kafka)、數據挖掘引擎(Mahout)構成。針對數據特點,智能分析模型系統結合了業界最領先的技術提供豐富的數據挖掘、機器學習服務,可以滿足各種數據處理存儲的應用場景。物流大數據平臺可行性研究報告全文共69頁,當前為第25頁。物流大數據平臺可行性研究報告全文共69頁,當前為第26頁。整個系統中的各個分系統都提供接口服務,接口方式包括包括API、HTTP、WebService、微服務等,通過接口的調用,可以靈活構建豐富的上層系統功能應用。物流大數據平臺可行性研究報告全文共69頁,當前為第26頁。網絡拓撲設計物流大數據平臺可行性研究報告全文共69頁,當前為第27頁。平臺通過數據接收服務器接收不同數據源的數據,接收到的數據會臨時落地,再經由數據推送服務器創建數據推送任務,調用預處理服務器的數據預處理子系統和智能分析服務器的智能分析子系統進行數據推送、數據處理及數據入庫服務,數據入庫后進行數據存儲、索引,并可對外提供檢索服務和智能分析服務。各服務平臺均提供對外接口,供系統間及第三方平臺調用,接口詳細設計系統接口設計。物流大數據平臺可行性研究報告全文共69頁,當前為第27頁。系統非功能性設計跨平臺性大數據處理技術平臺具有跨平臺性,可以運行在常見操作系統(Windows或Linux)和應用服務器中間件平臺上,支持私有云和公有云平臺部署。系統安全設計數據層安全物流大數據平臺可行性研究報告全文共69頁,當前為第28頁。數據層的安全主要是指保護數據庫以防止不合法使用造成的數據泄露更改或者破壞,用來保證數據庫中數據的完整性,一致性以及數據庫備份與恢復。數據庫的安全性和計算機系統的安全性(包括操作系統、網絡系統的安全性)相互聯系,相互支持,只有各個環節都安全,才能保證數據庫的安全性。當前對數據庫安全的威脅主要分為物理上的威脅和邏輯上的威脅。物理上的威脅指水災火災等造成的硬件故障,從而導致數據的損壞和丟失等。為了消除物理上的威脅通常采用備份和恢復的策略。邏輯上的威脅主要是指對信息的未被授權的存取。為了消除邏輯上的威脅,DBMS必須提供可靠地安全側羅,以確保數據庫的安全性。當前所采用的數據庫安全技術主要有標志和鑒別、訪問控制、信息流控制、推理控制、審計和加密等,其中目前應用最廣也最為有效的是訪問控制技術。訪問控制就是當主體請求對客體訪問時,系統根據主體(進程)的用戶和組的標識符、安全級和權限,客體的安全級、訪問權限以及存取訪問的檢查規則,決定是否允許主體對客體請求的存取訪問方式(讀、寫、修改、刪除、加入記錄等)的訪問。物流大數據平臺可行性研究報告全文共69頁,當前為第28頁。Web層安全Web層安全致力于解決諸如如何有效進行介入控制,以及如何保證數據傳輸的安全性的技術手段,防護方法包括四個方面:防火墻、VPN、反病毒軟件,以及入侵檢測系統(IDS)。防火墻(作為阻塞點、控制點)能極大地提高一個內部網絡的安全性,并通過過濾不安全的服務而降低風險。通過以防火墻為中心的安全方案配置,能將所有安全軟件(如口令、加密、身份認證、審計等)配置在防火墻上。與將網絡安全問題分散到各個主機上相比,防火墻的集中安全管理更經濟。例如在網絡訪問時,一次一密口令系統和其它的身份認證系統完全可以不必分散在各個主機上,而集中在防火墻一身上。VPN是利用開放的公共網絡建立一個安全的專用數據傳輸通道,采用加密和認證技術,利用公共通信網絡設施的一部分來發送專用信息,為相互通信的節點建立一個相對封閉的、邏輯的專用網絡。目前VPN主要采用4項技術,分別是隧道技術、加解密技術、密鑰管理技術、使用者與設備身份鑒別技術。入侵檢測系統通過網絡上的所有報文,分析處理后,報告異常和重要的數據模式和行為模式。應用層安全應用層是開放系統的最高層,是直接為應用進程提供服務的。其作用是在實現多個系統應用進程相互通信的同時,完成一系列業務處理所需的服務。保障應用層的安全包括使用FTP、SMTP、HTTP、DNS等協議。物流大數據平臺可行性研究報告全文共69頁,當前為第29頁。平臺開發及應用安全防護設計物流大數據平臺可行性研究報告全文共69頁,當前為第29頁。采用分層的體系架構,使得Web層、應用層、數據層有效地分離,用戶不會直接訪問到核心數據庫系統。全文檢索、分析和發布系統基于EJB/J2EE技術平臺進行開發,通過跨平臺的應用服務保證系統能夠進行穩定地部署,提高系統安全性。為了保證數據實時更新,以及符合動態權限管理要求,系統采用動態發布的方式,在系統后臺提供應用程序。輔助提供密碼加密措施,即用戶信息、密碼等私密數據需要以密文方式存儲,即使黑客訪問到后臺數據庫,也無法獲得私人信息。提供用戶身份標識唯一和鑒別信息復雜度檢查功能,保證應用系統中不存在重復用戶身份標識,身份鑒別信息不易被冒用。提供登錄失敗處理功能,可采取結束會話、限制非法登錄次數和自動退出等措施。啟用身份鑒別,用戶身份標識唯一性檢查、用戶身份鑒別信復雜度檢查以及登錄失敗處理功能,并根據安全策略配置相關參數。建立完整的系統管理、欄目授權認證體系、數據審核機制。采用權限管理機制,使得只有有權限的用戶才能對相關信息進行操作。并且,將操作的權限進行細分,可以對瀏覽、編輯、管理單獨授權物流大數據平臺可行性研究報告全文共69頁,當前為第30頁。同時,在數據量增大的情況下,為了保證平臺能夠提供優異的訪問性能,在系統設計中采用了自動分庫的手段,不同類型的分析數據分庫進行存放,這樣的設計模式一方面保證了分析工具不至于承擔很大的分析負荷,另一方面數據分庫存儲,也減少了數據庫被破壞的風險。物流大數據平臺可行性研究報告全文共69頁,當前為第30頁。備份和恢復根據數據要求及運行情況,提供本地數據備份與恢復功能,完全數據備份至少每天一次,備份介質場外存放。本項目在不降低業務系統性能的條件下保證數據完整性、業務連續性、運行不間斷性和快速恢復性。備份方式:邏輯備份簡述:邏輯備份包括讀一個數據庫記錄集和將記錄集寫入一個文件中。這些記錄的讀出與其物理位置無關。備份模式:完全備份模式邏輯備份分為三種模式:表備份、用戶備份和完全備份。完全備份模式3種導出方式1.完全增量導出(CompleteExport)把整個數據庫文件導出備份。2.增量型增量導出(IncrementalExport)只備份上一次備份后改變的結果。3.累積型增量導出(CumulateExport)導出自上次完全增量導出后數據庫變化的信息。(三)備份方案采用下面的方式進行每天的增量備份。周一:完全備份(A);周二:增量導出(B);周三:增量導出(C);周四:增量導出(D);周五:累計導出(E);周六:增量導出(F);物流大數據平臺可行性研究報告全文共69頁,當前為第31頁。周日:增量導出(G);物流大數據平臺可行性研究報告全文共69頁,當前為第31頁。這樣可以保證每周數據的完整性,以及恢復時的快捷和最大限度的數據損失。系統穩定性和高可用性設計系統的穩定性、高可用性即數據報送子系統、數據采集子系統、數據預處理子系統、海量數據存儲檢索子系統、數據智能挖掘分析子系統等,各系統滿足7×24小時不間斷工作,不存在單點故障。數據預處理系統穩定性和高可用性設計數據預處理服務器支持雙機備份,當主機發生宕機時,備機自動接管該服務器管理的數據處理任務,以及遠程執行引擎列表。由此保證了數據接入、轉換、入庫等操作的穩定性和高可用性。接入數據后對數據進行預處理時使用文本挖掘系統,同時對服務器進行任務的調度,當某一個服務器發生故障時,調度器會啟動另外一個服務器進行數據的預處理操作,實現了熱備,保證數據預處理環節的穩定性和高可用性。海量數據存儲檢索系統穩定性和高可用性設計物流大數據平臺可行性研究報告全文共69頁,當前為第32頁。海量數據存儲檢索系統采用多副本機制,一個索引可由多個子集組成,分布在不同的節點上,實現分布式檢索;索引的各個子集可在不同的節點上存儲多個副本,索引子集多副本實現了容災備份,避免單點故障,同時也實現了負載均衡,提高并發檢索能力。由此保證海量數據存儲檢索系統的穩定性和高可用性。物流大數據平臺可行性研究報告全文共69頁,當前為第32頁。數據智能挖掘分析系統穩定性和高可用性設計數據智能挖掘分析系統采用CKMSTA架構對CKM服務器進行任務的調度,當某一個CKM服務器發生故障時,STA調度器會啟動另外一個CKM服務器進行數據的挖掘分析,實現了熱備,保證數據智能挖掘分析環節的穩定性和高可用性。系統擴展性設計系統需要滿足至少6-8年使用需求,擴展性要求是系統設計需要首要考慮的問題,我們按照以下原則進行系統設計,以達到系統可靈活擴展滿足隨著時間推移和技術進步等出現的新需求。1. 高效管理服務器的數量、性能系統提供自動管理機制滿足高效管理服務器數量靈活增加及性能控制。2. 快速提高存儲容量,加快響應速度系統存儲容量可根據實際情況便捷、靈活擴展,以滿足要求和提高響應速度。3. 保證功能模塊的獨立性,可根據用戶需求自由增刪模塊各模塊間采取松耦合方式運作,更有利于系統維護管理,相互間互不影響,并且可提高靈活配置和自由增刪模塊的便捷性。4. 與現行系統進行數據對接,實現數據的共享與交換系統提供二次開發接口,可靈活定制與其他系統進行數據對接和數據共享和交換。能夠將其他系統數據接入大數據平臺。低耦合設計物流大數據平臺可行性研究報告全文共69頁,當前為第33頁。平臺總體軟件體系結構遵循J2EE標準,運行在J2EE應用服務器平臺上;采用面向服務體系結構設計;系統采用三層架構的體系結構,具有靈活的擴展性和良好的移植性。業務開發和建設遵循XML、WebService標準規范。大數據處理技術平臺各個系統都提供接口,以便于二次開發。各模塊間采取松耦合方式運作,更有利于系統維護管理,相互間互不影響,并且可提高靈活配置和自由增刪模塊的便捷性。物流大數據平臺可行性研究報告全文共69頁,當前為第33頁。系統的實用性該系統能達到好用、易用和實用的標準。實用性包括當前實用性和未來實用性。因此需要最大限度地滿足當前的業務需求,同時又要兼顧未來發展的需求。因此,應采取總體設計、分步實施的技術路線,在總體設計的指導下,首先實現帶有普遍意義和具有核心價值的(用戶急需的)系統功能,并優先實施系統可靠性設計。最終能與用戶的實際需求緊密聯系,同時也保障了系統擴充和升級的連貫性和平滑性。技術路線和關鍵技術平臺總體軟件體系結構遵循J2EE標準,運行在J2EE應用服務器平臺上;采用面向服務體系結構設計;系統采用三層架構的體系結構,具有靈活的擴展性和良好的移植性。業務開發和建設遵循XML、WebService標準規范。面向服務(SOA)的架構物流大數據平臺可行性研究報告全文共69頁,當前為第34頁。本項目總體應用框架采用SAO架構,SOA是一種面向企業級服務的系統架構,簡單來說,SOA就是一種進行系統開發的新的體系架構,在基于SOA架構的系統中,具體應用程序的功能是由一些松耦合并且具有統一接口定義方式的組件(也就是service)組合構建起來的。因此,基于SOA的架構也一定是從企業的具體需求開始構建的。但是,SOA和其它企業架構的不同之處就在于SOA提供的業務靈活性。業務靈活性是指企業能對業務變更快速和有效地進行響應、并且利用業務變更來得到競爭優勢的能力。對企業級架構設計師來說,創建一個業務靈活的架構意味著創建一個可以滿足當前還未知的業務需求的IT架構。物流大數據平臺可行性研究報告全文共69頁,當前為第34頁。利用基于SOA的系統構建方法,一個基于SOA架構的系統中的所有的程序功能都被封裝在一些功能模塊中,我們就是利用這些已經封裝好的功能模塊組裝構建我們所需要的程序或者系統,而這些功能模塊就是SOA架構中的不同的服務(services)。物流大數據平臺可行性研究報告全文共69頁,當前為第35頁。從面向服務的架構(SOA)示意圖來看,SOA是一個典型的MVC模式的架構。但是,與傳統方法相比,SOA更加強調以下優勢:基于標準、松散耦合、共享服務、粗粒度和聯合控制。通過不斷地構筑業務需要的各種標準服務,實實在在地形成一個“服務倉庫“,按需服務,最終實現業務自主。物流大數據平臺可行性研究報告全文共69頁,當前為第35頁。遵循XML數據標準內容整合系統要求數據采用統一規范的標準,目前通常采用XML規范標準。可擴展標記語言(XML)是Web上的數據通用語言。XML是一種開放的標準,XML語言不受任何實體的控制也不歸任何實體所有。XML可以擴展,XML標簽可以被任何人創建并被其他人所采用。它使開發人員能夠將結構化數據,從許多不同的應用程序傳遞到桌面,進行本地計算和演示。XML允許為特定應用程序創建唯一的數據格式。它還是在服務器之間傳輸結構化數據的理想格式。在系統應用中使用XML技術有以下的優勢:提供用于本地計算的數據傳遞到桌面的數據可以進行本地計算。XML分析器可以讀取數據,并將它遞交給本地應用程序(例如瀏覽器)進一步查看或處理。數據也可以由使用XML對象模型的腳本或其他編程語言來處理。向用戶提供正確的結構化數據視圖傳遞到桌面的數據可以以多種方式表示。本地數據集,可以根據用戶喜好和配置等因素,以適當的形式,在視圖中動態表現給用戶。允許集成不同來源的結構化數據一般情況下,使用代理,在中間層服務器上集成來自后端數據庫和其他應用程序的數據,使該數據能夠傳遞給桌面或者其他服務器,做進一步聚合、處理和分布。描述來自多種應用程序的數據物流大數據平臺可行性研究報告全文共69頁,當前為第36頁。由于XML是可擴展的,因此它可以用于描述來自多種應用程序的數據,從描述Web頁面集合到數據記錄。由于數據是自描述的,因此不需要數據的內置描述,也能夠接收和處理數據。物流大數據平臺可行性研究報告全文共69頁,當前為第36頁。通過粒度更新來提高性能XML允許粒度更新。開發人員不必在每次有改動時都發送整個結構化數據集。有了粒度更新后,只有改變的元素才必須從服務器發送到客戶機。改變的數據可以在不必刷新整個頁面或表的情況下顯示。基于WebService技術WebService技術可以讓地理上分布在不同區域的計算機和設備一起工作,以便為用戶提供各種各樣的服務。用戶可以控制要獲取信息的內容、時間、方式,而不必像現在這樣在無數個信息孤島中瀏覽,去尋找自己所需要的信息。從發展趨勢上看毫無疑問,WebService將成為下一代Web的主流技術。選擇WebService技術還基于如下的技術優點:WebService是創建可互操作的分布式應用程序的新平臺。WebService的主要目標是跨平臺的可互操作性。為了達到這一目標,WebService是完全基于XML、XSD等獨立于平臺、獨立于軟件供應商的標準的。WebService在應用程序跨平臺和跨網絡進行通信的時候是非常有用的。WebService非常適用于應用程序集成、B2B和G2G集成、代碼和數據重用,以及通過Web進行客戶端和服務器的通信的場合即WebService技術對新一代因特網協議標準的支持是其他技術不能望其項背的,這也是WebService技術倍受推崇,并取得成功的原因所在。組件技術和模塊化構造物流大數據平臺可行性研究報告全文共69頁,當前為第37頁。組件是獨立于特定的程序設計語言和應用系統、可重用和自包含的軟件成分,這些軟件成分可以很容易的被組合到更大的程序當中而不用考慮其本身的實現細節。在一個系統中,組件是一個可替換單元,因此,軟件系統更易于開發且具有更大的靈活性。物流大數據平臺可行性研究報告全文共69頁,當前為第37頁。組件技術是在面向對象的開發技術基礎上發展起來的,可以說是面向對象技術在系統設計級別上的延伸。與面向對象技術相比,組件技術繼承了面向對象的封裝性,而忽略了繼承性和多態性。組件是對象有機結合,不需要關心組件中的對象和實現細節。組件有其固定的特征,即軟件重用和互操作性、可擴展性、組件接口的穩定性和組件基礎設施穩固性而且無論是靜態還是動態的引用都可以穩定的提供組件的功能和接口。同時系統采用模塊化構造,具有良好的開放性、可擴展性,可以根據業務拓展需求不斷進行調整、組合、開拓新功能。反爬蟲機制網絡爬蟲,從功能上講一般分為數據采集,處理,儲存三個部分,是一個自動提取網頁的程序,它為搜索引擎從網上下載網頁,是搜索引擎的重要組成。但是當網絡爬蟲被濫用后,互聯網上就出現太多同質的東西,原創得不到保護。由于本系統及網站涉及大量行業、統計信息,為最大程度保護數據,需建立反爬蟲機制,可根據ip訪問頻率,瀏覽網頁速度,flash封裝,ajax混淆,js加密等技術來反對網絡爬蟲。網絡反爬蟲手段可分為兩種:一是從客戶端的角度進行反爬,二是從服務端進行反爬。物流大數據平臺可行性研究報告全文共69頁,當前為第38頁。從客戶端的角度進行反爬蟲,常見的如微博、QQ空間等復雜登陸流程和ajax動態加載,會讓爬蟲工程師的工作量增加,同時配合動態生成url,主要是動態生成構成該url的key阻止爬蟲爬取。物流大數據平臺可行性研究報告全文共69頁,當前為第38頁。從服務器的角度進行反爬蟲可分為兩類。一類是實時反爬蟲方式,另外一種是非實時反爬蟲方式。實時的反爬蟲方式可以直接通過requestheaders頭信息阻擋一些簡單小爬蟲,配合通用的采用滑動時間窗口驗證,增加爬取成本。非實時的反爬蟲方式即在Nginx等WebServer中獲取所有IP的訪問記錄,或根據頁面嵌入的JS統計流量的數據,基于這兩點拿流量統計記錄的IP和服務器日志記錄的IP進行比較,如果服務器日志里面某個IP發起了大量請求,但是流量統計里沒有,或者訪問量只有很少幾個,那么來源于該IP的請求則是爬蟲。爬蟲與反爬蟲是一個博弈的過程。爬蟲不能絕對的禁掉,只能盡可能的增加爬取成本,避免爬蟲對于正常業務的影響。反爬蟲的效果取決于使用的策略的復雜度,但是策略越復雜可能對于接口或者頁面的性能影響越大,因此需掌握好平衡度后實施。反反爬蟲采集行業信息、統計信息等采集是系統服務的基礎,為更好的解放勞動力,實現信息的自動化采集是重要的手段,然而在采集過程中,目標網站大都設置反爬蟲策略,爬取難度增大,故需對此設置反反爬蟲策略以更好的爬取相關內容。常見的反爬蟲策略及應對方法如下:通過Headers反爬蟲物流大數據平臺可行性研究報告全文共69頁,當前為第39頁。從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網站都會對Headers的User-Agent進行檢測,還有一部分網站會對Referer進行檢測(一些資源網站的防盜鏈就是檢測Referer)。遇到此反爬蟲機制時可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復制到爬蟲的Headers中;或者將Referer值修改為目標網站域名。對于檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers即可繞過。物流大數據平臺可行性研究報告全文共69頁,當前為第39頁。基于用戶行為反爬蟲部分網站是通過檢測用戶行為,例如同一IP短時間內多次訪問同一頁面,或者同一賬戶短時間內多次進行相同操作。對于第一種情況,使用IP代理即可解決。首先需寫一個爬蟲程序,爬取網上公開的代理ip,檢測后保存起來,然后可以每請求幾次更換一個ip,這樣就能繞過第一種反爬蟲。對于第二種情況,可以在每次請求后隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網站,可以通過請求幾次,退出登錄,重新登錄,繼續請求來繞過同一賬號短時間內不能多次進行相同請求的限制。動態頁面的反爬蟲部分網站需要爬取的數據是通過ajax請求得到,或者通過JavaScript生成的。針對這種反爬蟲,首先用Firebug或者HttpFox對網絡請求進行分析,找到ajax請求,分析出具體的參數和響應的具體含義,然后采用上面的方法,利用requests或者urllib2模擬ajax請求,對響應的json進行分析得到需要的數據。物流大數據平臺可行性研究報告全文共69頁,當前為第40頁。部分網站會將ajax請求的所有參數全部加密以應對爬蟲,造成無法構造所需要的數據的請求,遇到此種網站,可采用selenium+phantomJS框架,調用瀏覽器內核,并利用phantomJS執行js來模擬人為操作以及觸發頁面中的js腳本。從填寫表單到點擊按鈕再到滾動頁面,全部都可以模擬,不考慮具體的請求和響應過程,只是完完整整的把人瀏覽頁面獲取數據的過程模擬一遍。因為phantomJS就是一個沒有界面的瀏覽器,只是操控這個瀏覽器的不是人。利用selenium+phantomJS即可完成識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等,已完成數據的采集。物流大數據平臺可行性研究報告全文共69頁,當前為第40頁。業務流程控制建立靈活的業務流程控制,使信息中心可以隨著商業環境的變化而方便迅速的改變自身的業務流程。系統在配置階段,定義的流程在基于流程的信息系統中實施;在流程運行實施階段,業務流程開始利用在配置階段的內容開始實施;在診斷階段,系統開始分析業務流程以發現其中的問題和需要改進的地方,在流程設計階段重新定義,往返循環不斷的優化業務流程。業務流程的定義充分利用硬件環境的優勢,將任務合理分配到User端和Server端來實現,在流程定義階段,用戶只需定義組織結構,流程和表單就能夠完成流程的設計,流程頁面主要有兩種:1.表單頁表單頁的流程是根據信息中心的實際情況制定,流程表單也是根據實際情況進行后臺表的設計和前臺界面的繪制,這也是工作流的基本使用。2.接口頁接口頁是對于已有的頁面提供接口,使頁面在工作流系統中流轉,使用接口頁真正實現了業務的隨需應變,可以隨意的對于信息管理系統進行流程的按需設計按需管理。工作流配置流程模板管理工作流配置流程模板管理流程節點模板管理節點候選人管理節點場景配置異常流程處理發起流程根據模板初始化初始化表單數據初始化場景臨時保存流程保存代辦任務流程轉初始化場景節點候選人管理修改并保存流程物流大數據平臺可行性研究報告全文共69頁,當前為第41頁。物流大數據平臺可行性研究報告全文共69頁,當前為第41頁。采用業務流程控制達到以下目標:實現可視化流程自定義功能,可以無限量的去添加流程,流程以列表的形式顯示,在流程列表中,可以修改、刪除所選定流程。實現工作流分類的增加、刪除和修改。針對審批表單的項目進行統計,包含按照時間段、業務類型、表單狀態等。系統支持純WEB的管理監控工具,對于當前流程的審批狀態進行監控。通過對流程的監控可以讓用戶了解當前流程的進度。可以自定義的流程設定,使系統在易用性上有所增強,工作流引擎的引入加大了系統的實用性,用戶不需要再為變動的申請流程特意改變系統架構。大數據處理分析技術云存儲系統設計物流大數據平臺可行性研究報告全文共69頁,當前為第42頁。云存儲系統(分布式存儲系統)采用通用X86架構或ARM架構存儲服務器作為硬件載體,而非自身定制化硬件實體,通過在其上部署自身的分布式軟件以實現分布式云存儲的功能。所有硬件設備,如存儲服務器、交換機、磁盤以及相應的附件,均可在市場上采購,且不限于特定廠家或必須使用某種特定專有設備。分布式存儲軟件支持通過X86架構或者ARM架構的硬件,但又獨立于特定的硬件,而不是和特定硬件平臺或者設備綁定。云存儲系統具有高度可靠、性能優異、無限容量、在線伸縮等特點。物流大數據平臺可行性研究報告全文共69頁,當前為第42頁。分布式存儲服務在性能和容量上需具備具有高擴展性和線性增長能力。支持多種擴容方式,可通過增加磁盤、服務節點以及磁盤柜等多種靈活的方式,實時對云存儲容量進行擴充,并且在動態擴容期間服務不中斷。分布式數據庫系統設計數據庫服務包括傳統的關系型數據庫服務和分布式數據庫。分布式數據庫系統使用計算機網絡將物理位置分散而管理和控制又需要不同程度集中的多個邏輯單位(通常是集中式數據庫系統)連接起來,共同組成一個統一的數據庫系統,因此,分布式數據庫系統可以看成是計算機網絡與數據庫系統的有機結合。結合大數據系統的特點,分布式數據庫服務主要可分為2種:第一種主要面向的是采用結構化數據的關系型數據庫系統。第二種主要面向的是采用非結構化或半結構化數據的非關系型數據庫系統。分布式計算架構設計物流大數據平臺可行性研究報告全文共69頁,當前為第43頁。分布式計算框架為用戶提供容易使用的并行編程模式、處理海量數據的處理框架,用于對大規模數據集的并行處理。處理能力可以通過增加或減少機器達到動態調整。分布式計算框架采用先進的容錯技術,確保處理任務的可靠性,即使在異常情況下,如機器宕機、斷網的情況下,確保處理任務的實時性和準確性。分布式處理框架是建立在分布式存儲和分布式數據庫的基礎之上。物流大數據平臺可行性研究報告全文共69頁,當前為第43頁。安全保障體系設計大數據基礎平臺從數據、應用和虛擬化三個層面對傳輸安全、存儲安全、恢復安全和審計安全進行控制,通過對流量的清洗和監控以及基于計算、存儲和網絡的虛擬化技術,實現多用戶之間的資源隔離,明晰安全邊界,降低系統的安全風險,確保用戶的隱私保護。與此同時,制定標準規范體系,提高標準化意識,發揮標準化的導向作用,在確保技術協調一致和整體效能實現的前提下,增強系統的擴展性、數據共享性和互聯互通性。HDFS分布式文件系統物流大數據平臺可行性研究報告全文共69頁,當前為第44頁。分布式文件系統(DistributedFileSystem)是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網絡與節點相連。分布式文件系統的設計基于客戶機/服務器模式。一個典型的網絡可能包括多個供多用戶訪問的服務器。分布式文件系統HDFS(HadoopDistributedFileSystem)是一個開源云處理平臺Hadoop框架的底層實現部分,適合運行在通用硬件上的分布式文件系統,具有高容錯性,能提高吞吐量的數據訪問,非常適合于大規模數據集上的應用。HDFS對外部客戶機而言,HDFS就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件等。但是HDFS的架構是基于一組特定的節點構建的,這些節點包括NameNode(僅一個),它在HDFS內部提供元數據服務;DataNode,它為HDFS提供存儲塊。由于僅存在一個NameNode,因此這是HDFS的一個缺點(單點失敗)。存儲在HDFS中的文件被分成塊,然后將這些塊復制到多個計算機中(DataNode)。這與傳統的RAID架構大不相同。塊的大小(通常為64MB)和復制的塊數量在創建文件時由客戶機決定。NameNode可以控制所有文件操作。HDFS內部的所有通信都基于標準的TCP/IP協議。物流大數據平臺可行性研究報告全文共69頁,當前為第44頁。MAP/REDUCE分布式并行數據處理MapReduce在HDFS的基礎上實現的并行框架,為用戶提供容易使用的并行編程模式,MapReduce處理包括兩個階段,Map(映射)階段和Reduce(規范)階段。首先,Map函數把一組(Key,Value)輸入,映射為一組中間結果(Key,Value),然后通過Reduce函數把具有相同Key值的中間結果,進行合并化簡。MapReduce將處理作業分成許多小的單元,同時數據也會被HDFS分為多個Block,并且每個數據塊被復制多份,保證系統的可靠性,HDFS按照一定的規則將數據塊放置在集群中的不同機器上,以便MapReduce在數據宿主機器上進行處理。Spark實時計算框架Spark是專為大規模數據處理而設計的快速通用的計算引擎,Spark擁有HadoopMapReduce所具有的優點;但不同于MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。物流大數據平臺可行性研究報告全文共69頁,當前為第45頁。SparkStreaming構建在Spark上,基本原理是將Stream數據分成小的時間片斷(幾秒),以類似批量處理的方式來處理這小部分數據。優點在于,第一Spark可以低延遲執行(100ms+),另一方面相比基于Record的其它處理框架(如Storm),一部分窄依賴的RDD數據集可以從源數據重新計算達到容錯處理目的。此外小批量處理的方式使得它可以同時兼容批量和實時數據處理的邏輯和算法。方便了一些需要歷史數據和實時數據聯合分析的特定應用場合。物流大數據平臺可行性研究報告全文共69頁,當前為第45頁。ZOOKEEPER協調調度系統ZOOKEEPER是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。Zookeeper分為2個部分:服務器端和客戶端,客戶端只連接到整個ZooKeeper服務的某個服務器上。客戶端使用并維護一個TCP連接,通過這個連接發送請求、接受響應、獲取觀察的事件以及發送心跳。啟動Zookeeper服務器集群環境后,多個Zookeeper服務器在工作前會選舉出一個Leader,在接下來的工作中這個被選舉出來的Leader死了,而剩下的Zookeeper服務器會知道這個Leader死掉了,在活著的Zookeeper集群中會繼續選出一個Leader,選舉出leader的目的是為了可以在分布式的環境中保證數據的一致性。如圖所示:物流大數據平臺可行性研究報告全文共69頁,當前為第46頁。另外,ZooKeeper支持watch(觀察)的概念。客戶端可以在每個znode結點上設置一個觀察。如果被觀察服務端的znode結點有變更,那么watch就會被觸發,這個watch所屬的客戶端將接收到一個通知包被告知結點已經發生變化。若客戶端和所連接的ZooKeeper服務器斷開連接時,其他客戶端也會收到一個通知,也就說一個Zookeeper服務器端可以對于多個客戶端,當然也可以多個Zookeeper服務器端可以對于多個客戶端。物流大數據平臺可行性研究報告全文共69頁,當前為第46頁。大數據分析大數據分析需建立相應的統計分析模型,大數據建模是通過多個學科技術融合,實現數據的抽取、管理和分析,達到發現新知識和規律的目的,其步驟包含模型建立、模型訓練、模型驗證、模型預測,利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數據進行挖掘。分類:分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。它可以應用到用戶的分類、用戶的屬性和特征分析、用戶滿意度分析等,如一個XX企業將用戶按照對XX的速度、價格等因素劃分成不同的類,這樣營銷人員就可以將廣告手冊直接郵寄到相關用戶手中,從而大大增加了商業機會。物流大數據平臺可行性研究報告全文共69頁,當前為第47頁。回歸分析:回歸分析方法反映的是事務數據庫中屬性值在時間上的特征,產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。物流大數據平臺可行性研究報告全文共69頁,當前為第47頁。聚類:聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、市場的細分等。關聯規則:關聯規則是描述數據庫中數據項之間所存在的關系的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。在客戶關系管理中,通過對企業的大量數據進行挖掘,可以從大量的記錄中發現有趣的關聯關系,找出影響市場的關鍵因素,為決策支持提供參考依據。特征:特征分析是從數據庫中的一組數據中提取出關于這些數據的特征式,這些特征式表達了該數據集的總體特征。如通過對客戶流失因素的特征提取,可以得到導致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預防客戶的流失。變化和偏差分析:偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。物流大數據平臺可行性研究報告全文共69頁,當前為第48頁。Web頁挖掘:隨著Internet的迅速發展及Web的全球普及,使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web的海量數據進行分析,收集政治、經濟、科技、金融、市場等有關的信息,集中精力分析和處理對行業有重大或潛在重大影響的外部環境信息和內部信息,并根據分析結果找出管理過程中出現的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。物流大數據平臺可行性研究報告全文共69頁,當前為第48頁。模型的建立是一個反復的過程,需要仔細考察不同的模型及分析方法以判斷哪個模型對問題研究最有利,此部分工作需結合各部門業務及應用需要。機器學習機器學習的主旨是使用計算機模擬人類的學習活動,它是研究計算機識別現有知識、獲取新知識、不斷改善性能和實現自身完善的方法。學習意味著從數據中學習,通過對已知的樣本進行訓練得到算法模型,然后對未知樣本的度量結果(或者標簽)進行預測。機器學習處理過程基于大數據的機器學習物流大數據平臺可行性研究報告全文共69頁,當前為第49頁。傳統的機器學習算法,由于技術和單機存儲的限制,只能在少量數據上使用,機器學習依賴于數據抽樣,而實際中樣本往往很難做好隨機,導致學習模型不是很準確,在測試數據上效果存在偏差。隨著HDFS等分布式文件系統出現,存儲海量數據成為可能。XX行業大數據平臺采用sparkmllib及TensorFlow實現機器學習。物流大數據平臺可行性研究報告全文共69頁,當前為第49頁。Spark機器學習庫MLLibSpark提供了一個基于海量數據的ML庫(MLLib),MLLib提供了常用機器學習算法的分布式實現,可以通過調用相應的API來實現基于海量數據的ML過程。其次,Spark-Shell的即席查詢使得工程師可以邊寫代碼,邊運行,邊看結果。MLlib(Spark的機器學習庫)旨在簡化機器學習的工程實踐工作,并方便擴展到更大規模。MLlib由一些通用的學習算法和工具組成,包括分類、回歸、聚類、協同過濾、降維等,同時還包括底層的優化原語和高層的管道API。具體來說,其主要包括以下幾方面的內容:算法工具:常用的學習算法,如分類、回歸、聚類和協同過濾;特征化公交:特征提取、轉化、降維和選擇公交;管道(Pipeline):用于構建、評估和調整機器學習管道的工具;持久性:保存和加載算法,模型和管道;實用工具:線性代數,統計,數據處理等工具。使用MLPipelineAPI可以很方便的把數據處理,特征轉換,正則化,以及多個機器學習算法聯合起來,構建一個單一完整的機器學習流水線。TensorFlowTensorFlow是基于DistBelief進行研發的人工智能學習系統,Tensor(張量)意味著N維數組,Flow(流)意味著基于數據流圖的計算,TensorFlow為張量從流圖的一端流動到另一端計算過程。TensorFlow是將復雜的數據結構傳輸至人工智能神經網中進行分析和處理過程的系統。其使用方式包含:物流大數據平臺可行性研究報告全文共69頁,當前為第50頁。使用圖(graph)

來表示計算任務物流大數據平臺可行性研究報告全文共69頁,當前為第50頁。使用

tensor

表示數據通過變量(Variable)

維護狀態使用

feed

fetch

可以為任意的操作(arbitraryoperation)賦值或者從其中獲取數據自然語言處理基于大數據分析、機器學習技術,對采集數據、行業數據等進行文本處理,包括自動分詞、關鍵詞提取、文本摘要、命名實體識別、自動分類、拼音檢索、短語檢索等。自動分詞系統在接入數據后進行預處理時可采用分詞技術對文本內容進行分詞,分詞是指將文本切分成詞語,在詞語切分的基礎上可以方便地進行各種文本挖掘工作。采用基于規則與統計相結合的分詞技術,將中文的漢字序列切分成有意義的詞,能夠支持多種詞典,并保證分詞的快速性、準確性與實用性;可應用于文獻檢索、搜索引擎等諸多領域,提高檢索的相關性排序的準確度等。主要功能還包括:1.將文本進行切割形成分詞效果2.用戶可自行定義分詞的分隔符3.分詞結果可以連同詞性一起作為結果顯示關鍵詞提取物流大數據平臺可行性研究報告全文共69頁,當前為第51頁。在接入數據后進行預處理時可采用關鍵詞提取技術對文本的關鍵詞進行提取等操作,可自定義關鍵詞個數,保證關鍵詞提取的快速性和準確性。物流大數據平臺可行性研究報告全文共69頁,當前為第51頁。文本摘要在接入數據后進行預處理時可采用摘要技術對文本的摘要進行提取等操作,通過調節摘要百分比控制摘要占文章的長度的百分比,保證文本摘要的快速性和準確性。命名實體識別實體識別技術主要是對文本的實體詞進行識別操作,對文本抽取出其中包含的人名、地名、組織機構名、身份證號碼、電話、時間、Email、車牌號、專有名詞等實體信息。基于規則與統計相結合的技術,從非結構的文本信息中抽取有意義的實體信息,保證命名實體識別的快速性和準確性,被抽取的實體信息以結構化的形式進行描述,并可以存入結構化數據庫中,供分析和利用。自動分類文本自動分類技術支持兩種分類方式:基于內容的文本自動分類和基于規則的文本分類。自動分類支持置信度限制,可根據置信度對分類的結果進行過濾,支持分類結果和置信度共同輸出。基于規則的文本分類可輸入相關分類規則,如按行業、地域等,系統能基于規則實現類別的劃分。分類可同時使用,滿足自動分類的快速性、準確性。文本內容抽取物流大數據平臺可行性研究報告全文共69頁,當前為第52頁。文本內容抽取可將doc、pdf等文檔文件中的文字內容進行抽取,即提取文檔的純文本數據。支持多種抽取服務,并可以進行擴展,適應在不同條件下,使用不同的抽取服務,也可以輪詢多種服務,直到成功為止。物流大數據平臺可行性研究報告全文共69頁,當前為第52頁。數據入庫數據經過接入、處理后對數據進行入庫操作,為后續的統計分析及可視化提供基礎的數據源。支持多線程裝庫,保證數據入庫快速高效、數據完整性、一致性。支持數據入庫到多種關系型數據庫中,包括MySQL、SQLServer、DB2、Oracle、Sybase等常見數據庫類型。數據可視化基本概念數據可視化,是關于數據視覺表現形式的科學技術研究。可視化技術是利用計算機圖形學及圖像處理技術,將數據轉換為圖形或圖像形式顯示到屏幕上,并進行交互處理的理論、方法和技術。它涉及計算機視覺、圖像處理、計算機輔助設計、計算機圖形學等多個領域,成為一項研究數據表示、數據處理、決策分析等問題的綜合技術。其基本概念包含以下維度:1)數據空間。由n維屬性、m個元素共同組成的數據集構成的多維信息空間。2)數據開發。利用一定的工具及算法對數據進行定量推演及計算。3)數據分析。對多維數據進行切片、塊、旋轉等動作剖析數據,從而可以多角度多側面的觀察數據。物流大數據平臺可行性研究報告全文共69頁,當前為第53頁。4)數據可視化。將大型數據集中的數據通過圖形圖像方式表示,并利用數據分析和開發工具發現其中未知信息。物流大數據平臺可行性研究報告全文共69頁,當前為第53頁。數據可視化標準為實現信息的有效傳達,數據可視化應兼顧美學與功能,直觀的傳達出關鍵的特征,便于挖掘數據背后隱藏的價值。可視化技術應用標準應該包含以下4個方面:1)直觀化。將數據直觀、形象的呈現出來。2)關聯化。突出的呈現出數據之間的關聯性。3)藝術性。使數據的呈現更具有藝術性,更加符合審美規則。4)交互性。實現用戶與數據的交互,方便用戶控制數據。數據可視化數據可視化允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。數據可視化技術的基本思想,是將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。可視化數據通常分為:一維數據、二維數據、三維數據、高維數據、時態數據、層次數據和網絡數據。其中一維數據較為簡單,為直觀的展示,二維數據、三維數據應用最為廣泛,高維數據、層次數據、網絡數據、時態數據則處于發展前期。一維數據就是一條線,線上的每個點可以用一個數值來表示。如:a1:A99,B:B(A1:A99就如同數學里的線段,它是直線的一段,B:B就是直線化的數據)。物流大數據平臺可行性研究報告全文共69頁,當前為第54頁。二維數據就是一組平面化的數據,平面中的某個點的位置可以用兩個坐標值來表示,如:A1:E5,A:D。常見的二維數據表示方法如柱形圖、條形圖等。物流大數據平臺可行性研究報告全文共69頁,當前為第54頁。三維數據是一個立方體,立方體內的某個位置需要三個坐標值來表示,是多個二維平面數據的層疊,就如同若干張紙(二維的面)形成一本書(立體三維),常見的如氣泡圖、熱力圖等。高維數據是指每一個樣本數據包含p(p≥4)維空間特征。如果單從高維數據的抽象數據值上進行分析很難得到有用的信息。相對于對數據的高維模擬,低維空間的可視化技術顯得更簡單、直截。而且高維空間包含的元素相對于低維空間來說更加更復雜,容易造成人們的分析混亂。將高維數據信息映射到二三維空間上,方便高維數據進行人與數據的交互,有助于對數據進行聚類以及分類。層次數據具有等級或層級關系。層次數據的可視化方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論