智能交通系統技術創新能力提升_第1頁
智能交通系統技術創新能力提升_第2頁
智能交通系統技術創新能力提升_第3頁
智能交通系統技術創新能力提升_第4頁
智能交通系統技術創新能力提升_第5頁
已閱讀5頁,還剩108頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

上海張江國家自主創新示范區專項發展資金重點項目項目編號201310-PT-C0-009課題名稱智能交通系統技術創新能力提升智能交通系統技術創新能力提升技術報告上海電科智能系統股份有限公司2015年11月目錄1 項目研究概述 項目研究概述研究背景及意義項目研究背景智能交通系統作為《國家中長期科學與技術發展規劃綱要(2006-2020年)》中的優先主題,一直以來受到國家及上海市的高度重視,在《上海市國民經濟和社會發展第十二個五年規劃綱要》中又明確提出智能交通工程是信息化重點應用工程。歷經幾年的大規模交通信息化建設,至2010年,上海市已經實現了對全市高架道路、地面道路、周邊高速公路的全方位、多手段的交通信息采集,實現了面向快速路和地面道路的交通狀態自動判別與發布,建成了國內領先的匯集全市動態交通信息資源的上海市交通信息綜合平臺,整合了道路交通、公共交通、對外交通數據173項,為智能交通技術提升與產業化應用奠定了堅實的數據資源基礎,交通基礎信息數據的全面性和實時性也能夠得到充分的保證。自上世紀90年來以來,上海已經開始了大規模的交通信息化基礎設施和智能交通系統建設,以信息共享交換為基礎的交通部門協同管理、公眾信息服務等需求日益增長。據測算,目前上海市交通信息中心每日匯聚的實時動態交通信息數據共237項,數據日交換量超過300G,日存儲量超過10T,動態交通數據更新時間2分鐘以內。通過上海市交通信息中心匯聚交換的交通數據越來越顯現出大數據的四個特征:第一,數據體量巨大。第二,數據類型繁多。除結構化的常規格式數據外,還包括網絡文件、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有幾秒。第四,處理速度快,傳統的數據存儲、處理和數據管理技術已不能充分滿足如此巨量數據的分析與應用需求。世博后,隨著城市的擴展與機動車保有量的迅速攀升,城市交通問題與社會公共利益越來越密切,社會公眾對城市交通出行問題的關注度越來越高。尤其是大城市日益嚴重的交通擁堵問題,備受矚目。相比當前情況而言,交通信息數據的實際應用仍相對滯后,對交通信息數據的挖掘和綜合分析不夠深入,實時掌握和評價交通運行狀況的量化工具資源尚不充足,因此對智能交通核心技術研究能力的提升需求愈顯迫切。當前,智能交通技術的發展已經與新興技術產業發展已經廣泛接觸與深入融合的程度,國內外智能交通核心技術研究除了在交通控制、交通預測、交通誘導等傳統方向繼續開展研究外,在面向移動互聯網交通信息個性化服務、基于“大數據技術”的交通數據資源庫構建技術、交通數據深入挖掘與決策支持等方面,都呈現出新的技術發展方向與研究主題。其中,“大數據技術”已經成為當前最熱門的研究主題之一。2012達沃斯論壇年會認為當前最應該關注技術的首位是“大數據處理技術”,其出版報告《BigDataBigImpact》宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣;IDC2012年3月報告預測,大數據市場年增長率達40%,是整個IT與通信產業增長率的7倍;最具影響力的事件是,2012年3月29日,奧巴馬政府發布了《大數據研究和發展倡議》,提出將通過收集大數據并從中獲得知識以提升能力,協助并加速在科學、工程上的進步,強化美國國土安全,轉變教育和學習模式,美國政府提供超過2億美元用于大數據研究。Gartner、Mckinsey等著名咨詢機構都紛紛發表報告看好數據資源。前首席科學家表示“數據是原油,但石油要加以提煉后才能使用,從事海量數據處理的公司就是煉油廠伴隨著物聯網、云計算、大數據技術等不斷推進的信息化技術浪潮,智能交通建設迎來了新的戰略機遇期,以“數據”為核心“資產”的產業模態已經初現端倪。在“大數據技術”的推動與催化之下,對傳統交通信息建設的采集、處理與服務模式帶來深刻的技術變革。上海電科智能系統股份有限公司敏銳把握國內外技術最新動向,通過項目支持,積極開展交通監測與研判數字化指標集研發、移動互聯網絡條件下中心端交通信息推送服務、個性化信息智能手機端APP服務應用、基于HADOOP系統邏輯的大數據平臺構建技術、面向復雜決策管理與交通研判算法模型開發等技術、軟件、系統和平臺的研究建設,為提升智能交通行業技術創新能力進步發揮探路者與急先鋒作用。項目研究意義通過該項目實施,上海電科智能系統股份有限公司將在當前研究技術成果與工程建設基礎上,對智能交通技術創新能力帶來一個新的提升,同時對張江高新技術產業開發區拓展智能交通方向,輻射相關行業、企業的產業發展具有積極而深遠的意義。其作用和意義體現在:1)奠定張江創新示范園區在本行業的技術領先地位上海電科智能系統股份有限公司作為上海市乃至全國智能交通行業的領頭雁企業,一直引領著行業技術的進步與發展。通過多年積淀的國家科技部863項目、科技支撐計劃項目、上海市科委科技攻關項目、區域合作研發項目等技術成果,為上海市及全國其他城市的道路交通、公共交通、對外交通、高速公路等信息化建設注入了強大的技術基因,創造了高額的經濟產值與顯著的社會效益。通過本項目的開展,將公司先進的技術成果和建設成就引入到張江高新技術產業開發區及普陀分園,提升張江國家創新示范園區在智能交通行業的整體影響力與技術領先地位,促進張江園區相關高新技術行業、企業的技術進步、裝備改良和產業升級,為園區創新能力的提升與可持續發展起到示范與引領作用。2)拓展張江創新示范園區的產業輻射范圍上海電科智能系統股份有限公司作為上海市綜合交通信息平臺、上海市道路交通信息采集與發布系統工程(一期、二期)、上海市“市長基金”項目、浦東新區交通信息總平臺等關鍵項目的總承包建設單位,與上海市交通信息中心、上海市路政局、上海市交警總隊與浦東新區公安分局、以及各區交通主管部門等業主單位保持良好關系與項目合作。本項目研發的技術成果能夠很快得到實際應用與推廣,在擴大張江創新示范園區、普陀園產業輻射范圍的同時,也為園區相關行業、企業的項目合作渠道與合作模式開辟新的思路。3)提升張江創新示范園區的技術服務能力通過本項目的技術研發與成果轉化,在進一步推動智能交通行業的可持續發展,提高行業內相關職能部門、建設部門、管理部門等業主單位的技術儲備與管理效率,為社會公眾提供更加優質、高效交通信息資源的同時,也為張江創新示范園區帶來技術服務能力的提升。項目成果將以標準規范、應用軟件、系統平臺、整體技術解決方案等形式進行呈現,通過集約化的組織與流程的優化,為張江創新示范園區、普陀分園及其他分園相關行業、企業提供更優質低價的技術咨詢服務、技術支持和產業發展服務,為持續加快產業發展步伐、改進產業合作模式、提高經濟效益和社會效益做出重要貢獻。研究內容及技術路線項目研究目標及內容項目研究目標:項目以張江示范園區及普陀園在城市智能交通領域的產業拓展深化與技術能力提升為目標,進一步加強智能交通核心技術對城市交通信息化建設、服務及行業發展的引領作用與優勢地位,基于當前最新的交通信息化成果與工程建設成果,把握國際國內技術發展前沿,從數字化交通信息資源提供、跨行業數據資源的組織與處理、交通數據建模與挖掘分析等三大方面開展技術攻關與實驗平臺建設。主要研究內容:交通數字化監測與研判關鍵技術研究交通大數據系統構建關鍵技術研究交通數據挖掘與分析關鍵技術研究智能交通技術創新能力工程應用示范技術創新點:(1)基于HADOOP的海量數據處理架構技術,面向大數據應用服務需求,提出HADOOP、關系數據庫、內存庫多元合一的交通大數據系統架構技術,實現對結構化、半結構化、非結構化數據的集成管理與應用。(2)交通大數據統一語義表達規范,提出交通大數據服務類及對象建模,交通大數據統一語義理解機制、交通數據模式與內容映射、交通數據類及對象構建方法。(3)跨行業交通大數據智能處理分析技術,通過快速路車牌識別數據與地面道路卡口數據的聯合算法模型驗證分析,測試大數據平臺系統性能,嘗試利用公安交管系統的數據服務道路交通數據分析。項目研究技術路線項目的技術路線圖如圖1-1所示。圖STYLEREF1\s1SEQ圖\*ARABIC\s11技術路線考核指標完成情況1、完成“智能交通系統技術創新能力提升”研究報告1份,形成標準草案2份,《上海市交通大數據統一數據組織規范(草案)》、《城市道路交通狀態指數評價指標體系》。2、申請3項發明專利(1項已授權):(1)一種實時指數匹配記憶區間的異常交通狀態特征識別方法(申請號:201310451579.9),申請人:上海電科智能系統股份有限公司,已授權。(2)一種出行熱點路網影響評估的交通指數區域劃分方法(申請號:201410848926.6),申請人:上海電科智能系統股份有限公司。(3)一種基于本體庫的交通大數據語義應用服務方法(申請號:201510548823.2),申請人:上海電科智能系統股份有限公司。3、獲得軟件著作權8項:(1)電科智能基于多源數據的交通狀態決策級融合軟件V1.0,登記號:2014SR196823;(2)電科智能基于卡口數據的交通狀態判別專家軟件V1.0,登記號:2014SR196321;(3)電科智能基于大數據技術的卡口綜合查詢軟件V1.0,登記號:2014SR196499;(4)電科智能基于大數據技術的卡口車牌快速檢索軟件V1.0,登記號:2014SR196605;(5)電科智能全時空城市路網交通指數計算及分析軟件V1.0,登記號:2014SR196629;(6)電科智能快速路網交通數據質量監控和修補專家軟件V1.0,登記號:2014SR196600;(7)電科智能交通手表手機應用軟件V1.0,登記號:2014SR196606;(8)電科智能基于IVE模型的交通碳排放決策支持軟件V1.0,登記號:2014SR197344。4、在國內外核心學術期刊和會議上發表論文5篇(1)林瑜,吳超騰,何承,顧承華,翟希.城市道路交通狀態指數的研究與應用[J].智慧交通,2013,12:84-86.(2)吳超騰,馬偉民,肖永來,劉振,陳昱颋.交通數據軌跡全環節監控方法研究[J].中國交通信息化,2014,3:58-60.(3)竇瑞,吳超騰.考慮低速問題的浮動車數據道路行程車速估計[J].2014第九屆中國智能交通年會大會論文集,2014:572-578.(4)吉靜,李玉展,林瑜.基于交通大數據的宏觀碳排放計算與決策支持應用研究[J].第十屆中國智能交通年會大會論文集,2015:394-403.(5)吳超騰,鐘銳,肖永來.面向交通大數據語義實戰應用的本體建模研究[J].第十屆中國智能交通年會大會論文集,2015:409-418.5、經上海浦東軟件園評測中心檢測,電科交通大數據平臺SEARI-TBDS容量達到100TB。詳見《上海市交通狀態智能預報與決策管理支持系統》軟件測試報告。6、查新報告《智能交通大數據信息服務云平臺關鍵技術》。交通數字化檢測與研判關鍵技術研究基于時空權重的交通指數構建技術城市道路交通狀態指數,以下簡稱交通狀態指數(TrafficStateIndex,TSI),量化反映城市道路交通運行狀態的相對數值。概念模型:(STYLEREF1\s2SEQ公式\*ARABIC\s11)當前車速偏離最佳車速的相對程度,是一種相對感受指標;指數值的大小體現了描述道路對象的整體擁擠程度或舒適程度;消除了快速路、地面道路因道路等級因素帶來的絕對車速差異影響,實現對不同路網對象的統一評價;概念簡單,便于各類人群理解和接受。算法模型:按照TSI定義,通用化的區域指數算法模型如下所示:(STYLEREF1\s2SEQ公式\*ARABIC\s12)式中:——發布段i的行程車速; ——發布段i的里程長度; ——發布段i的車道數; ——靜態配置權重,如在城市不同地域范圍內具有特殊作用的道路對象可配以不同權重; ——動態交通流權重,如流量、密度等交通流參數對不同道路對象的影響可配以不同權重; ——不同等級路網的自由流車速。簡單來講,TSI就是一種能夠描述道路交通擁堵程度的相對數,是綜合反映交通出行暢通程度的量化指標。TSI可以看成路況是否舒適的“數值儀表”或“溫度計”,通過實時監控道路的“擁堵體溫”來告知人們道路是否“過熱”,以便避讓出行。對不同等級道路的統一評價是通過自由流車速(vf)實現的,自由流車速將按照道路等級標定。指數計算采用的自由流車速按照多個等級進行篩選和標定,首先,按照《上海城市道路分級體系研究》中對城市道路各等級車速的設計值,粗分車速閾值范圍。表STYLEREF1\s2SEQ表\*ARABIC\s11城市道路各等級車速閾值道路等級高速公路快速路主干路次干路支路自由流車速(km/h)80~10060~8035~4030~4020~30但在實際的交通環境下,理論上的自由流車速往往無法真正達到,即便同等級路網往往也具有不同過的設計車速。在設計自由流車速的基礎上,指數計算選擇的自由流車速基于三個候選車速:道路設計車速、道路限制車速、調研最大車速,而最終的自由流車速選取則是選擇在交通法規限制范圍內的最大車速,計算關系為: (STYLEREF1\s2SEQ公式\*ARABIC\s13)根據指數描述道路對象在時間尺度、空間尺度上的不同,交通狀態指數分為基本算法與合并算法兩個部分:基本算法(BasicAlgorithm,BA):由行程車速和自由流車速生成交通狀態指數的過程,即參數到指數階段。基本TSI模型就是BA算法。合并算法(MergeAlgorithm,MA):由低層次、微觀交通狀態指數生成高層次、宏觀交通狀態指數的過程,即指數到指數階段。BA算法與MA算法在實際應用實例中,分別針對不同的路網對象與時間尺度生成相應的算法結構,得到指數結果。結合上海市實際路網條件,面向快速路網與地面道路網分別構建了完整的TSI計算流程。多時空對象道路交通狀態指數指標體系研究交通狀態指數空間維度劃分交通狀態指數按空間維度可劃分為路段、區域、路網三個層次,即:宏觀層次(路網):整體路網信息量化提供與指標分析,用于政府決策和長期趨勢對比,為路網規劃、管理布局提供指標參考。中觀層次(區域):按照地理區位、行政區劃、用地性質、事件(或活動)影響范圍進行劃分的區域,具有較為相近的區位特征或交通特征。微觀層次(通道):面向某種具體應用目標的若干發布段組合,一般用于交通管理分析應用或出行路徑信息服務應用。具體劃分方案見表2-2。表STYLEREF1\s2SEQ表\*ARABIC\s12空間維度層次劃分序號空間對象示例路段武寧路(曹楊路至中寧路)區域快速路:內環高架(內圈、外圈)……地面道路:按地理區位:浦西地區、浦東地區;內環以內區域……按行政區劃:徐匯區……按用地性質:人民廣場……按事件(活動)影響范圍:國際車展周邊區域……路網整體快速路網、整體地面道路網交通狀態指數時間維度劃分交通狀態指數按時間維度可劃分為實時、時段、日、周/月/季/年,實時交通指數:以交通區域為對象,提供最小2min時間間隔的指數信息,用于實時發布。關聯指標包括區域流量、平均行程車速、延誤等。時段(小時)交通指數:在2min時間間隔的基礎上,構建30min、1小時交通指數,為管理應用提供趨勢分析與統計分析工具。關聯指標項包括擁堵時長、擁堵時間比例、擁堵強度等。日交通指數:以全天數據的整體結果為對象,構建全天交通指數,用于不同天之間交通特征對比分析。關聯指標項包括擁堵日期、工作日擁堵系數等。進一步可構建周交通指數、月交通指數、年交通指數等,并關聯生成配套的指標項。見表2-3。表STYLEREF1\s2SEQ表\*ARABIC\s13時間維度層次劃分序號時間顆粒度示例實時2min時段30min、1h、早晚高峰日工作日、節假日其他周/月/季/年交通狀態指數時空組合根據評價需求,可按照空間維度、時間維度進行相應組合,見表2-4。表STYLEREF1\s2SEQ表\*ARABIC\s14交通狀態指數時空組合空間對象時間顆粒度實時時段日周/月/季/年路段區域路網研究面向統計分析(包含特征分析、對比分析)、宏觀趨勢分析、預測預警、決策支持等方面的指標架構設計,部分指標項目在經過時空對象實例化后,可完善到UGCDS應用指標體系框架中。交通狀態指數應用指標研究時間過程評價指標指數定基比(TSIFixedbaseperiod,TSI_FBP):也簡稱總速度,指數報告期水平(n)與某一固定時期(0)水平之比,表明TSI在較長時期內總的變化情況與發展趨勢。定基比的核心是基期合理選取,根據城市對象和分析需要,可以選擇歷史上某個具有典型交通特征為指數基期,也可以選擇某個交通最好的時間為基期。(STYLEREF1\s2SEQ公式\*ARABIC\s14)定基增長率(Fixedbaseperiodratio,FBPR):定基比的增減率,由報告期(n)相對于基期(0)TSI增減量與基期TSI的比值,結果可正可負,采用百分率表示。(STYLEREF1\s2SEQ公式\*ARABIC\s15)指數環比(TSIchain,TSI_C):指數報告期(n)與連續的上一報告期(n-1)之間的水平之比,采用百分率表示。根據分析需要,環比報告期可為最小時間周期、定周期時段、全天、一周、一個月或一年等等。(STYLEREF1\s2SEQ公式\*ARABIC\s16)環比增長率(chainratio,CR):指數環比的增減率,由報告期(n)相對于連續上一報告期(n-1)TSI增減量與上一報告期TSI的比值,結果可正可負,采用百分率表示。(STYLEREF1\s2SEQ公式\*ARABIC\s17)指數同比(TSIAn,TSI_A):一般指TSI本期(n)發展水平與上年同期(ln)發展水平對比,而達到的相對發展速度,采用百分率表示。根據分析對象需要,同比報告期可以為年度、月度等等。(STYLEREF1\s2SEQ公式\*ARABIC\s18)同比增長率(AnRatio,AR):指數同比的增長率,由報告期(n)相對于上年同期(ln)TSI增減量與上年同期TSI的比值,結果可正可負,采用百分率表示。(STYLEREF1\s2SEQ公式\*ARABIC\s19)空間過程評價指標差異率(DeviationRatio,DR):在一個選定的路網總體R內,各樣本區域TSI在指定統計時段內呈現出的差異程度,反映路網交通狀態擁堵程度的空間不均衡性。(STYLEREF1\s2SEQ公式\*ARABIC\s110)在所選路網總體R中,DRn越大表示總體中各樣本區域TSI偏差越顯著,狀態一致性越差,DRn越小表示各樣本區域TSI偏差越不顯著,狀態一致性越高。相關性:又稱時間同步率,是指任意一個區域TSI的時序變化特征與另一個或幾個區域的時序特征保持趨勢一致與形態一致性的程度。采用Pearson相關系數作為處理參數。交通狀態指數分級與閾值標定研究交通狀態指數TSI作為一種區間數字化評估指標,能夠細致的刻畫目標道路交通狀態,但為了理解與比較的需要,還需要在純數字結果的基礎上進行分級研究,以從特征上表達交通狀態等級描述。從交通管理與出行體驗角度來看,指數區域劃分應體現以下幾點:1)指數等級之間特征過度明顯;2)區域內交通特征盡量接近;3)區域不宜過多;4)指數等級要符合區域內大部分出行者的體驗;5)指數分級盡可能與“紅黃綠”三色狀態分級標準兼容。狀態分級與指數分級的關系和區別由于交通狀態概念已深入人心,駕駛員對“紅、黃、綠”三色交通狀態已充分熟悉和理解,并且指數的結果來源于路段行程車速的模型化處理,因此,在指數分級工作開展之前,將系統比較一下交通狀態與交通指數的關系與差別。發布段交通狀態劃分的標準與應用調整1)發布段狀態劃分標準采用平均行程車速作為狀態判別的標準,分為暢通、擁擠、堵塞三級。分級的標準如下:(1)暢通路段中車輛的平均密度小,車輛在行程中能夠自由操控,在一定距離內的平均行程車速大于40km/h。(2)擁擠路段中車輛的平均密度較高,車輛在行程中被動的加減速頻繁,在一定距離內的平均行程速度在20-40km/h內。(3)堵塞路段中車輛的平均密度高,車輛在行程中有較長時間的停車等候,在一定距離內的平均行程速度低于20km/h。考慮到地區、道路和路段交通流特征的差異,狀態閾值需要根據地區和路段的實際情況進行標定。同時考慮到線圈故障和缺失導致的數據異常對算法的影響,需要開發數據質量判別算法,對故障線圈和實時數據進行判別并輸出。根據數據質量情況對算法的發布模式(自動發布和人工狀態)進行切換。2)實際應用調整通過以上標準可見,發布段狀態的最終輸出結果包含以下情況:在標準約定速度閾值的基礎上,根據不同線型、坡度和長度的發布段需進行定制化調整,即每個發布段可建立自身的狀態分級標準;狀態發布由算法結果與人工結果兩項保障,最終輸出結果將可能由人工進行監控與修正,而監控員對擁堵的判斷與確認將不嚴格和數據結果保持一致。區域交通狀態指數分級依據和調整方向根據介紹的TSI算法模型,指數以來的基礎參數為路段行程車速,因此從同源數據的概念一致性上考慮,指數的分級與狀態分級具有相同的參數基礎,即以車速分級為基本依據開展。如以快速路為例,當自由流車速為80km/h時,對應指數0,車速為40km/h時,對應指數50,車速20km/h時,對應指數75。如果在發布段層面構建指數,則從上述對應關系,應確保分級一致,即指數也應該分為三級。但對區域而言,情況就有所不同,以南北高架東西兩側,在早高峰、午高峰、晚高峰的六個時段指數與發布段行程車速對應關系為例,如下表所示。表STYLEREF1\s2SEQ表\*ARABIC\s15區域指數與發布段速度關系2013-12-26日數據,南北高架東西兩側魯班至共和區域指數與發布段速度關系早高峰7:40東線西線午高峰14:30東線西線晚高峰17:50東線西線通過以上組圖對比可以發現以下兩點差異:(1)由于區域指數是眾多發布段行程車速的一種函數轉換,其等級劃分閾值與單一發布段顯而易見不能一一對應。而且隨著區域范圍的增大,區域里程的增大,發布段總體及抽樣樣本的增多,劃分閾值越是差異明顯。(2)從出行者體驗上來看,由于區域路網的里程范圍顯著高于發布段,同等級狀態特征的持續體驗時間具有很大的差異,在發布段并未完全進入擁堵狀態前,區域的擁堵體驗已經十分明顯,故從此點來分析也不應嚴格保持分級規則的一致。綜上對比分析,在兼容發布段交通狀態分級標準的基礎上,本研究將基于行程車速損失、指數與區域流量的函數關系、大范圍人工觀察等幾個角度對指數分級開展探索研究。基于行程車速損失的交通指數分級研究交通狀態指數(TSI)取值范圍為0~100,根據指數輸出結果,兼容當前狀態分級暢通、擁擠和阻塞,將指數數據區間劃分成三個狀態級別。在每個狀態級別內部,按照TSI真值的偏向,進一步劃分成兩個子狀態等級,故形成六級指數狀態特征。暢通級別:下限0,上限為閾值1(TH1),閾值1是暢通與擁擠的分隔閾值;擁擠級別:下限為閾值1,上限為閾值2(TH2),閾值2是擁擠與阻塞的分隔閾值;阻塞級別:下限為閾值2,上限100。TH1:該閾值是標定暢通和擁擠的分界閾值,該值假定道路對象整體車速降到自由流車速的67%以下,單位里程出行時間增加了50%,是自由流狀態下1.5倍的指數臨界值。TH2:該閾值是標定擁擠和阻塞的分界閾值,該值假定道路對象整體車速降到自由流車速的33%以下,單位里程出行時間增加了200%,是自由流狀態下3.0倍的指數臨界值。表STYLEREF1\s2SEQ表\*ARABIC\s16TSI指數等級劃分指數等級暢通級別[0,TH1)擁擠級別[TH1,TH2)阻塞級別[TH2,100)一級閾值[0,34)[34,67)[67,100)細分等級暢通較暢通較擁擠很擁擠阻塞嚴重阻塞二級閾值[0,20)[20,34)[34,50)[50,67)[67,80)[80,100)在每個大的狀態等級內部,還可根據相同的原則進行細致劃分,每個狀態可進一步再劃分“偏好、偏差”兩個子等級。子等級可參考的分級過程:暢通等級:基于大的狀態級別劃分區間,按照TSI真值對應的車速值下降梯度劃分,如以快速路為例,在0~34指數區間,車速累計降幅34%左右,從感受的角度,出行時間波動不大,在車速下降80%左右作為子狀態劃分閾值,對應TSI閾值為:20,分為暢通和較暢通兩個子狀態等級。從便于觀察的角度,將TSI結果向速度整值進行微調。擁擠等級:基于大的狀態級別劃分區間,按照TSI真值對應的車速值下降梯度劃分,如以快速路為例,在34~67指數區間,車速累計降幅67%左右,從感受的角度,出行時間顯著增加,在車速下降50%左右作為子狀態劃分閾值,對應TSI閾值為:50,分為較擁擠和很擁擠兩個子狀態等級。從便于觀察的角度,將TSI結果向速度整值進行微調。阻塞等級:基于大的狀態級別劃分區間,按照TSI真值對應的車速值下降梯度劃分,如以快速路為例,在67~100指數區間,車速累計降幅99%左右,從感受的角度,路上滯留時間嚴重,在車速下降50%左右作為子狀態劃分閾值,對應TSI閾值為:80,分為阻塞和嚴重阻塞兩個子狀態等級。從便于觀察的角度,將TSI結果向速度整值進行微調。圖STYLEREF1\s2SEQ圖\*ARABIC\s11TSI指數(橫軸)、行程車速(左)和行程時間(右)之間的關系基于交通流函數關系的指數分級研究根據交通流速度與流量的函數曲線關系,從區域層面研究指數與平均流量的函數對應關系。以南北高架東線魯班路立交至共和路立交為案例分析區域,提取1個月的TSI指數結果與區域流量數據,在經過數據質量處理與修復基礎上,得到了如下圖所示的函數關系結果。圖STYLEREF1\s2SEQ圖\*ARABIC\s12區域指數與小時平均流量的函數關系從該結果可見,目標區域車道平均流量隨著TSI指數的增大而呈現出負二次函數特征,具有通行能力頂部的拋物線。在TSI=30點附近達到了車道通行能力1570pcu/h,而在TSI=70點附近,出現流量關系的急速下降與紊亂,呈現出極端擁堵情況。而TSI在30~70之間的區域,則呈現30~50為飽和流平穩區,50~70為擁堵形成區,且在TSI處于60~70之間,形成了流量加速下降的局面,尤其在TSI=60點左右時,出現了流量下降的拐點,故屬于擁堵快速發展的階段。課題還對快速路其他區域進行了區域指數與流量的關系分析,除通行能力閾值不同外,均得到相似的函數關系結果,且達到通行能力的TSI值與嚴重擁堵的TSI值分別在30點與70點附近波動,而交通流飽和的TSI區間為30~55。該結果從區域的層面,驗證了TSI與交通流量之間的函數關系。TSI閾值劃分綜合結果交通指數的分級除了要考慮交通流參數的相互影響關系外,還需要結合交通管理者的實際經驗與人們日常出行的擁堵體驗,綜合考慮交通指數的等級劃分與邊界閾值選取問題。基于上述幾點考慮及分析,并以區域指數與流量的函數關系為基礎,以二分法為基本體驗劃分依據。所謂二分法是首先對區域指數劃分為暢通和擁堵兩個顯著差異數據區間,在此基礎上,在每個半區中繼續分為兩種指數特征,即形成四個閾值區間。綜上,建立如表所示的指數分級閾值區間分配關系。表STYLEREF1\s2SEQ表\*ARABIC\s17交通指數等級劃分與邊界閾值等級(顏色)暢通(深綠)較暢通(淺綠)擁堵(橘黃)嚴重擁堵(暗紅)指數區間[0,30)[30,50)[50,70)[70,100]通過使用綠色、淺綠、橘黃、暗紅等四種顏色,分別表示指數的暢通、較暢通、擁堵、嚴重擁堵四個狀態等級。各等級的含義說明如下:暢通(深綠):交通運行狀況很好,路網平均車流密度小、車速高,只有很低比例的道路處于擁擠或阻塞;指數區間0~30左閉右開。較暢通(淺綠):交通運行狀況較好,路網平均車流密度較小、車速較高,只有較小比例的道路處于擁擠或阻塞;指數區間30~50左閉右開。擁堵(橘黃):交通運行狀況一般,路網平均車流密度較大、車速不高,處于擁擠或阻塞的道路占有顯著的比例;指數區間50~70左閉右開。嚴重擁堵(暗紅):交通運行狀況很差,路網平均車流密度很高、車速很低甚至停駛,處于擁擠或阻塞的道路占有相當高的比例;指數區間70~100左閉右閉。除TSI與流量之間的二次拋物線函數關系外(如圖2-3所示),TSI還與單位里程行程時間(s/km)具有指數關系,快速路TSI指數與1km行程時間的對照關系。圖STYLEREF1\s2SEQ圖\*ARABIC\s13TSI指數(橫軸)、行程車速(左)和行程時間(右)之間的關系從交通指數計算的公式可知,TSI模型在面向不同路網實例化過程中,使用的vf即自由流車速各不相同,因此,TSI與單位流程旅行時間之間的指數關系雖然形態一致,但閾值卻各不相同。TSI閾值劃分研究建議綜合以上三條研究論述可見,交通狀態指數分級與閾值標定存在以下幾個特征:1)當前TSI模型與發布段狀態都是以路段行程車速為核心參數,因此在理論上,分級基礎在大的方面應盡可能保持一致;2)面向區域的指數分級與發布段狀態分級無論在閾值上,還是結構上可以不盡相同。區域作為多個發布段的集合,其里程長度往往是獨立發布段的若干倍,累計出行時間的延誤給駕駛員帶來的影響會遠高于單個發布段擁堵,即產生“量變到質變”的效果,因此,單獨建立指數分級標準也具有技術合理性;3)由于狀態發布標準是速度和人工雙重標準的綜合結果,與TSI純算法的結果存在差異,因此,TSI分級的靈活性要大于狀態分級的靈活性;4)由于在區域層面,乃至路網宏觀層面,尚不具備劃分指數的經驗,因此前文分級研究探索的結果具有一定的主觀性。當前研究重點是偏向面向管理者與決策者的使用,面向出行者信息服務的指數分級還需要進一步開展深入調研與分析。交通狀態指數作為一項服務上海市民出行的新生事物,將在中觀、宏觀兩個層面豐富信息服務內涵。在現階段“紅、黃、綠”三色狀態已經深入人心的大前提下,公眾對交通狀態指數的接受和理解還需要一個較長的時間過程。考慮到道路交通狀態發布與道路交通指數發布可能長期共存的客觀事實,應使交通指數分級與狀態分級保持兼容,避免兩類信息發布對出行者在上產生理解矛盾。因此從研究的角度增補建議兩種指數分級方式。方案一,從交通管理者更為關心宏觀交通擁堵狀態的角度對指數進行劃分,可對映以車速劃分的交通狀態區間,劃分0<=TSI<=30為暢通,30<=TSI<=50為較暢通,對應車速40km/h以上;50<TSI<=75為擁擠,對應車速20~40km/h;75<TSI<=100為阻塞,對應車速20km/h以下。方案二,從出行者實際駕車感受角度考慮,擁擠至堵塞之間的不同程度在表達上應盡量細化,建議暢通區間不再分級,而將擁擠區間進行再次劃分,對應快速路以15km/h左右作為劃分車速的管理界限,在指數分級中以TSI=80為細分擁堵和嚴重擁堵的指標,即劃分0<=TSI<=50為暢通,對應車速40km/h以上;50<TSI<=70為擁擠,對應車速24~40km/h;70<TSI<=80為阻塞,對應車速16~24km/h。80<TSI<=100為阻塞,對應車速16km/h以下。表STYLEREF1\s2SEQ表\*ARABIC\s18面向出行者的交通狀態指數閾值劃分建議交通指數等級劃分與邊界閾值等級(顏色)暢通(深綠)擁擠(金黃)擁堵(橘黃)嚴重擁堵(暗紅)指數區間[0,50)[50,70)[70,80)[80,100]基于交通指數的道路交通擁堵趨勢分析技術交通指數具備所有交通流參數相同的交通規律分析能力,相比傳統數據分析模式,利用TSI進行交通規律分析除了具有顯著的數字特征外,還可以提供更加智能的分析結果,使指數具有“思維”能力。交通指數參考值計算方法通過前文研究成果,交通狀態指數TSI的參考值將通過大量歷史數據的統計分布得到,而為了能夠更加客觀獲得某個TSI的“道路真值”,本課題研究了三種計算指數參考值的計算方法。1.指數特征分布第一種:按照全年特定時刻點交通指數由大到小的排序,取指定日期的指作為全年指數時刻特征值;如第100名;圖STYLEREF1\s2SEQ圖\*ARABIC\s14快速路全網時刻指數全年統計分布(8:30)圖STYLEREF1\s2SEQ圖\*ARABIC\s15快速路區域時刻指數全年統計分布(8:30)第二種:按照全年特定時刻點交通指數由小到大累加,選取指數值在全年總量第85%分布位置上的對應日期指數值;圖STYLEREF1\s2SEQ圖\*ARABIC\s16快速路全網時刻指數全年統計百分比(8:30)圖STYLEREF1\s2SEQ圖\*ARABIC\s17快速路區域時刻指數全年統計百分比(8:30)2.全量與分類統計分布全量統計方法:按照全年365天指定時刻交通指數為樣本總體,計算指數均值(期望)與方差,根據方差覆蓋范圍創建標準區間與排除集,基于標準區間重新計算。(STYLEREF1\s2SEQ公式\*ARABIC\s111)(STYLEREF1\s2SEQ公式\*ARABIC\s112)(STYLEREF1\s2SEQ公式\*ARABIC\s113)(STYLEREF1\s2SEQ公式\*ARABIC\s114)表STYLEREF1\s2SEQ表\*ARABIC\s19全量統計分析指標對比表8:30:00快速路全網內環高架路內側(西南段)均值19.3132.89標準差6.3415.29標準區間[12.97,25.65][17.60,48.18]參考值20.433.3分類統計方法:按照工作日與雙休日分類統計平均值,分別計算工作日的均值與方差,雙休日的均值與方差,并創建排除集;方法同全量統計方法,結果分為兩組。見表2-10與表2-11所示。表STYLEREF1\s2SEQ表\*ARABIC\s110分類統計分析指標對比表(工作日)8:30:00快速路全網內環高架路內側(西南段)均值21.7538.8標準差5.2913.65標準區間[16.46,27.04][25.15,52.45]參考值22.137.9表STYLEREF1\s2SEQ表\*ARABIC\s111分類統計分析指標對比表(雙休日)8:30:00快速路全網內環高架路內側(西南段)均值13.1418.04標準差4.246.7標準區間[8.9,17.37][11.34,24.74]參考值1317.183.基于眾數的參考值計算眾數分布計算:按照工作日與雙休日進行分類,分別計算工作日與雙休日的指數覆蓋區間,將總區間以5指數值為步長,劃分成若干區間,根據區間范圍計算260天工作日中處于各指數區間的日期天數,由最大區間確定參考值。圖STYLEREF1\s2SEQ圖\*ARABIC\s18快速路全網時刻指數眾數統計法(8:30)最大天數區間20~25,該區間指數均值22.18即為參考值。圖STYLEREF1\s2SEQ圖\*ARABIC\s19快速路區域時刻指數眾數統計法(8:30)最大天數區間35~40,該區間指數均值37.36即為參考值。表STYLEREF1\s2SEQ表\*ARABIC\s112各種方法交通指數特征值比較表方法比較(8:30:00)快速路全網內環高架路內側(西南段)指數特征值分布第一種(100天)22.7140.96第二種(85%位)26.0956.46全量與分類統計全量統計20.433.3工作日22.137.9雙休日1317.18眾數分布計算22.1837.36通過以上研究與對比,采用排在第100天的指數結果更接近真實的感受,因此采用該結果作為最終的指數參考值,用以進行實時結果的比對。該結果以歷史表存在源數據庫中,并以事實表的形式存儲在數據倉庫中。宏觀路網分析系統案例基于指數參考值作為一項至關重要的研究成果,為基于TSI道路交通規律與擁堵分析帶來了巨大的方便,使得基于TSI的數據分析有了認識上的“基準”,在數量判別基礎上具備了智能分析的能力。圖STYLEREF1\s2SEQ圖\*ARABIC\s110基于指數參考值的全路網大面積擁堵判別與分析從圖2-10中可見,在2012年10月22號當天,因為大雨的影響,快速路主線早高峰TSI指數上升到38點,相比日常的25點水平增長了50%以上,南北高架西線、延安高架全線、內環高架全線幾乎都處于擁堵和嚴重擁堵,指數精確的反映了擁堵發生的時刻與程度(地面道路情況相近),對擁堵嚴重程度的客觀結論輸出奠定了重要的數據基礎。交通狀態指數展示在上海市城市快速路網、地面道路網得到應用,下圖為展示界面。圖STYLEREF1\s2SEQ圖\*ARABIC\s111城市快速路網交通指數展示圖STYLEREF1\s2SEQ圖\*ARABIC\s112城市地面道路網交通指數展示為評估道路交通擁堵當前態勢與發展態勢,本項目開展基于交通指數的關聯分析,如下圖所示。圖STYLEREF1\s2SEQ圖\*ARABIC\s113基于指數的關聯分析應用交通大數據系統構建關鍵技術研究交通大數據應用系統架構研究交通大數據系統構建需求交通大數據應用系統構建除了滿足多元用戶應用需求,還需要滿足分布式存儲、分布式計算、本地計算等方面技術要求。分布式存儲為了保證高可用、高可靠和經濟性,大數據一般采用分布式存儲的方式存儲數據,并采用冗余存儲的方式進一步保證數據的可靠性,基于Hadoop的分布式文件系統(HadoopDistributedFileSystem,HDFS)信息存儲方式是目前較為流行的數據存儲結構,如圖2-5所示,通過構建基于HDFS的云存儲服務系統,解決智能交通海量數據存儲難題,降低實施分布式文件系統的成本。Hadoop分布式文件系統是開源云計算軟件平臺Hadoop框架的底層實現部分,具有高傳輸率、高容錯性等特點,可以以流的形式訪問文件系統中的數據,從而解決訪問速度和安全性問題。圖STYLEREF1\s3SEQ圖\*ARABIC\s11HDFS邏輯架構圖分布式計算城市交通大數據的強大計算能力能對龐大、復雜而又無序的交通數據進行分析處理,基于大數據平臺的交通數據建模及時空索引、歷史數據的挖掘、交通數據的分布式處理和融合及交通流動態預測,都需要大數據平臺的分布式計算能力,即高性能并行計算模型MapReduce。MapReduce是一個用于海量數據處理的編程模型,它簡化了復雜的數據處理計算過程:它將數據處理過程分為map階段和reduce階段,其執行邏輯模型如圖2-6所示。MapReduce通過把對數據集的大規模操作分散到網絡節點上實現可靠性。每個節點會周期性的把完成的工作和狀態的更新報告回來,如果一個節點保持沉默超過一個預設的時間間隔,主節點記錄下這個節點狀態為死亡狀態,然后把分配給這個節點的任務發到別的節點上。MapReduce是完全基于數據劃分的角度來構建并行計算模型的,具有很好的容錯能力。圖STYLEREF1\s3SEQ圖\*ARABIC\s12MapReduce執行原理本地計算如果說分布式計算是利用網絡完成數據共享和計算的話,那么本地計算講的就是傳統的以數據庫為中心的計算模式,分布式計算無疑擁有巨大潛力和優越性。所謂數據庫中心的本地計算模式,就是將軟件系統的處理能力和負載主要集中在一兩臺數據庫服務器,如果要提高計算處理能力,只能不斷提高數據庫服務器的硬件水平,從普通雙核多核PC機到小型機,直至中型機和超級計算機,隨著處理能力提高,系統的建設成本也越來越高。兩種計算模式有者鮮明的對比,分布式計算通過軟件來管理所有的數據和計算任務,資源都通過網絡共享,計算任務下發后,被分發到多個計算機上進行計算。本地計算則把所又需要計算的資源統統傳輸到計算中心的計算機上進行處理。通過對比可以發現,一個是集中式多任務管理,一個是分布式多任務管理,在數據量巨大的情況下,各有優缺點,能夠形成互補優勢,需要根據實際應用的需求選取合適的技術。基于HADOOP的分布式數據處理技術前文從系統的角度闡述大數據普遍遵循的技術原理和方法,從存儲、計算的角度闡述了MapReduce的基本原理和實現邏輯,本節將進一步介紹大數據領域最熱門的開源分布式系統Hadoop。在詳細闡述Hadoop之前,不妨先看下目前在工業界(學術界)里比較流行的幾種分布式計算框架(平臺)。幾種流行的分布式計算框架MapReduce(MR)。前文所述,最為常見和流行的一個分布式計算框架,Hadoop是其開源實現之一,它已經得到了極為廣泛的運用,同時在Hadoop基礎上發展起來的項目也有很多(HBase、Hive等),另外像Cloudera、Hortonworks、MapR這樣的在Hadoop基礎上發展起來的公司也有很多。Pregel。Pregel也是谷歌發明的一種分布式計算框架,其優勢是可以更為高效地完成一些適合于抽象為圖算法的應用,Giraph是一個比較好的開源實現。Storm。Storm是推特的項目,號稱是Hadoop的實時計算平臺,對于一些需要實時性高性能的任務可以擁有比MR更高的效率。Spark。Spark是UCBerkeleyAMPLab的項目,其很好地利用了JAVA虛擬機中的堆處理技術,對于中間計算結果可以有更好的緩存支持,因此其在性能上要比MR高出很多,因為側重于堆計算,所以內存要求較高。Shark是其基礎上類似于Hive的一個項目。Dryad和Scope。這兩個都是微軟研究院推出的MR類的項目,Dryad是一個更為通用的計算框架,支持有向無環圖類型數據流的并行計算,通過通道實現通信,兩者組成一個二維的管道流模型;而Scope有點類似于Hive和Shark,都是將某種類似于SQL的腳本語言編譯成可以在底層分布式平臺上計算的任務。但是這兩個項目因為不開源,所以資料不多,也沒有開源項目那樣的社區支持。除了以上一些有名氣的系統外,還有一些比如谷歌的Dremel系統,Yale的HadoopDB等,這些分布式計算系統基本都是以MR為原理,在此不再多述,有興趣的讀者可以參閱相關技術文獻。以下詳細引述使用最廣泛的Hadoop框架。HADOOP分布式計算框架Hadoop由Apache軟件基金會于2005年秋天作為\o"Lucene"Lucene的子項目Nutch的一部分正式引入。它受到最先由谷歌開發的MapReduce和谷歌文件系統(GoogleFileSystem,GFS)的啟發。2006年3月份,MapReduce和Nutch分布式文件系統(NutchDistributedFileSystem,NDFS)分別被納入Hadoop項目中。發展到現在,圍繞著Hadoop已經形成了一個豐富的生態圈,這主要由HDFS、MapReduce、HBase、Hive和ZooKeeper等成員組成。其中,HDFS和MapReduce是兩個最基礎最重要的成員。HDFS是谷歌GFS的開源版本,一個高度容錯的分布式文件系統,它能夠提供高吞吐量的數據訪問,適合存儲海量(PB級)的大文件。MapReduce則是用于并行處理大數據集的軟件框架。因此,Hadoop是一個能夠對大量數據進行分布式處理的軟件框架,它是一種技術的實現,并且在其上整合了包括數據庫、云計算管理、數據倉儲等一系列平臺,其已成為工業界和學術界進行云計算應用和研究的標準平臺。通俗地說,Hadoop是一套開源的、基于Java的分布式計算框架,能夠讓數千臺普通、廉價的服務器組成一個穩定的、強大的集群,使其能夠對PB級的大數據進行存儲和計算。基于Hadoop,用戶可編寫處理海量數據的分布式并行程序,并將其運行于由成百上千個結點組成的大規模計算機集群上。Hadoop已被全球幾大IT公司用作其云計算環境中的重要基礎軟件,亞馬遜公司則基于Hadoop推出了亞馬遜簡單存儲服務(AmazonSimpleStorageService,AmazonS3),提供可靠、快速、可擴展的網絡存儲服務。Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件上的分布式文件系統。它和現有的分布式文件系統有很多共同點。但同時,它和其他的分布式文件系統的區別也是很明顯的。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束,來實現流式讀取文件系統數據的目的。Hadoop從發布至今已經發布到了2.X.X版本,其中1和2兩種版本是有很大區別的。Hadoop2其實與Hadoop1建立在完全不同架構上,針對hadoop1時代的缺陷做了很大的變革,圖3-3顯示了其中的區別。圖STYLEREF1\s3SEQ圖\*ARABIC\s13Hadoop1.0與Hadoop2.0架構對比根據圖3-4來看MapReduce如何演變的,首先看Hadoop1.0的實現流程。圖STYLEREF1\s3SEQ圖\*ARABIC\s14Hadoop1.0下MapReduce實現流程從圖3-4中可以清楚的看出原MapReduce程序的流程及設計思路:首先用戶程序(JobClient)提交了一個作業(job),job的信息會發送到JobTracker中,JobTracker是HadoopMapReduce框架的中心,它需要與集群中的機器定時檢測心跳(heartbeat),需要管理哪些程序應該跑在哪些機器上,需要管理所有job失敗、重啟等操作。TaskTracker是Hadoop集群中每臺機器都有的一個部分,它做的事情主要是監視自己所在機器的資源情況。TaskTracker同時監視當前機器的任務(tasks)運行狀況。TaskTracker需要把這些信息通過心跳(heartbeat)發送給JobTracker,JobTracker會搜集這些信息以確定新提交的作業分配到哪些機器上運行。圖2-8中虛線箭頭就是表示消息的發送-接收的過程。總結Hadoop的架構,其由如下部分組成:NameNode。Hadoop集群中只有一個NameNode,它負責管理HDFS的目錄樹和相關文件的元數據信息。SencondaryNameNode。SencondaryNameNode有兩個作用,一是鏡像備份NameNode上的元數據,二是日志與鏡像定期合并,并傳輸給NameNode。SencondaryNameNode可以在NameNode崩潰時提供恢復集群的能力。DataNode。負責實際的數據存儲,并將信息定期傳輸給NameNode。可以看得出原來的Hadoop架構是簡單明了的,在最初推出的幾年,也得到了眾多的成功案例,獲得業界廣泛的支持和肯定,但隨著分布式系統集群的規模和其工作負荷的增長,原框架的問題逐漸浮出水面,主要的問題集中如下:JobTracker是Hadoop的集中處理點,存在單點故障。JobTracker完成了太多的任務,造成了過多的資源消耗,當作業非常多的時候,會造成很大的內存開銷,也增加了JobTracker失效的風險,這也是業界普遍總結出Hadoop的Map-Reduce只能支持4000個節點主機的上限。在TaskTracker端,以map/reduce任務的數目作為資源開銷的表示過于簡單,沒有考慮到中央處理器、內存的占用情況,如果兩個大內存消耗的任務被調度到了一臺機器上,很容易出現內存不足(OutofMemory)的情況。在TaskTracker端,把資源強制劃分為map任務槽(taskslot)和reduce任務槽,如果當系統中只有map任務或者只有reduce任務的時候,會造成資源浪費,也就是前面提過的集群資源利用不足的問題。源代碼層面分析的時候,會發現代碼非常難讀,常常因為一個Java類(class)做了太多的事情,代碼量過大,造成類的任務不清晰,增加缺陷(bug)修復和版本維護的難度。從操作的角度來看,現在的HadoopMapReduce框架在有任何重要的或者不重要的變化(例如缺陷修復、性能提升)時,都會強制進行系統級別的升級更新。更糟的是,它不管用戶的喜好,強制讓分布式集群系統的每一個用戶端同時更新。這些更新會讓用戶為了驗證之前的應用程序是否還適用新的Hadoop版本而浪費大量時間。從業界使用分布式系統的變化趨勢和Hadoop框架的長遠發展來看,JobTracker-TaskTracker機制需要大規模的調整來修復它在可擴展性、內存消耗、線程模型、可靠性和性能上的不足。在過去的幾年中,Hadoop開發團隊做了一些缺陷的修復,但是最近這些修復的成本越來越高,這表明對原框架做出改變的難度越來越大。為從根本上解決舊框架的性能瓶頸,促進Hadoop框架的更長遠發展,從0.23.0版本開始,Hadoop的MapReduce框架完全重構,發生了根本的變化。新的HadoopMapReduce框架命名為MapReduceV2,也被稱為Yarn(YetAnotherResourceNegotiator)最新的下一代的資源統一管理系統。重構的基本思想是將JobTracker的兩個主要功能分離成單獨的組件,這兩個功能是資源管理和任務調度/監控。新的資源管理器(ResourceManager)全局管理所有應用程序計算資源的分配,每一個應用的應用管理器(ApplicationMaster)負責相應的調度和協調。一個應用程序是一個單獨的傳統MapReduce任務或者是一個有向無環圖任務。資源管理器和每一臺機器的節點管理器(NodeManager)能夠管理用戶在那臺機器上的進程并能對計算進行組織。事實上,每一個應用的ApplicationMaster是一個詳細的框架庫,它從ResourceManager獲得資源,并與NodeManager協同工作來運行和監控任務。ResourceManager支持分層級的應用隊列,這些隊列享有集群一定比例的資源。從某種意義上講它就是一個純粹的調度器,它在執行過程中不對應用進行監控和狀態跟蹤。同樣,它也不能重啟因應用失敗或者硬件錯誤而運行失敗的任務。ResourceManager是基于應用程序對資源的需求進行調度的;每一個應用程序需要不同類型的資源因此就需要不同的容器。資源包括:CPU、內存、磁盤、網絡,等等。可以看出,這同之前的Hadoop固定類型的資源使用模型有顯著區別。ResourceManager提供一個調度策略的插件,它負責將集群資源分配給多個隊列和應用程序。調度插件可以基于現有的能力調度和公平調度模型。圖3-5中NodeManager是每一臺機器框架的代理,是執行應用程序的容器,監控應用程序的資源使用情況(CPU、內存、磁盤、網絡等),并向調度器匯報。每一個應用的ApplicationMaster的主要職責是:向調度器索要適當的資源容器,運行任務,跟蹤應用程序的狀態和監控它們的進程,處理任務的失敗原因。Hadoop2.0主要由以下幾部分組成:(1)ResourceManager:負責集群中的所有資源的統一管理和分配,接受來自各個NodeManager的資源匯報信息,并把這些信息按照一定的策略分配給各種應用程序(ApplicationMaster)。(2)NodeManager:與ApplicationMaster承擔了MapReduce1框架中的tasktracker角色,負責將本節點上的資源使用情況和任務運行進度匯報給ResourceManager。(3)DataNode:負責實際的數據存儲(這點沒有發生變化)。圖STYLEREF1\s3SEQ圖\*ARABIC\s15Hadoop2.0下MapReduce實現流程本節利用一些篇幅來介紹城市交通大數據的基礎處理技術,重點對MapReduce、Hadoop系統進行了引述。毫無疑問,Hadoop系統是當前非常熱門的分布式系統之一,其與大數據的有機結合為整個IT行業帶來的影響已經滲透到各個方面,由于這個系統本身也在不斷成長和進化,且詳細討論其運行機理和版本差異已經不屬于本研究的核心內容,在此不再展開介紹,但本項目交通大數據應用系統構架技術中的核心部分將以HADOOP系統為主體。交通大數據統一語義理解與交互技術研究當今世界科技急速發展使人們接收到的信息快速增加。在社會生產領域,各個行業的從業人員即將面對大量數據和信息,在處理這些數據和信息的過程中有不同的方法和技術,這些方法和技術的好壞決定著大量數據和信息給從業人員帶來的收益。在這樣的背景下,語義網技術正在不斷地發展。語義網是擴展后的萬維網,是web網絡的一個延伸,其中所有的信息都有完好的含義,它的目的是擴展當前的萬維網,使其能夠表達被機器(計算機)所理解的語義,以便任何機器以及機器之間的交互合作。語義網可以使散亂的信息通過一定的邏輯關系聯系起來,讓其在表面的散亂下有一定的規律可循,使整個信息網絡達到邏輯化、智能化。目前它的應用已廣泛分布在各個領域,但是它不僅用于互聯網,它代表的一組技術也可以很好地應用于公司的內聯網,這類似于Web服務不僅表示整個互聯網的服務,也表示一個公司內互聯網的服務,因此它可以解決目前信息技術架構所面臨的若干關鍵問題。隨著智能交通技術、計算機技術的不斷發展,交通行業也迎來大數據時代,交通信息呈現出迅速增長、總量急速增加的趨勢。原有的系統已無法適應這種大數據環境帶來的沖擊,在具體工作中的體現就是,數據處理梳理工作繁重、效率低、系統提供的數據服務不與所收集的交通信息量呈正比,造成了巨大的資源浪費。于此同時,大數據的概念已被多個領域所提及,交通領域雖還未出現這樣的概念,但從事實上來看也進入了“大數據”時代,海量的車流、車速、位置及其他交通信息每天24小時源源不斷地進入數據庫,并且隨著信息采集設備的普及數據量的增加速度也在不斷增長。只收集數據,而不進行開發、挖掘工作不是交通信息采集的初衷。如何利用采集到的交通信息獲得更多的內在規律和趨勢,為政府和民眾提供更好的公共服務是進行交通信息采集和建設ITS系統的核心目的。政府和各智能交通企業、研究機構都意識到了這一點,并且已開始大規模應用計算機技術對交通信息進行挖掘。在挖掘過程中如何突破原有數據庫架構的瓶頸,如何提高數據查詢效率,如何實現大規模來自不同服務器數據的互聯與組織是國內外ITS相關領域人員在大數據背景下進行數據挖掘所必需要面對的新問題。結合基于類的語義網技術的特點各研究機構已進行了一定的探索。北京交通大學的時衛靜在城市交通信息服務領域展開了類建模的研究,通過類與服務建模法,構建了城市交通信息服務類,并在Protégé軟件上進行了實現。同濟大學的黃柯萍和蔣昌俊從類角度對城市交通的知識進行了分析和推理,使得交通信息在語義層面上實現了交互,為城市交通信息服務提供了語義支撐。北京交通大學的張素靜將語義網技術引入到公共交通領域,研究并實現了一種基于類的語義檢索技術在軌道交通系統中的應用。華東理工大學的朱勤斯和虞慧群研究了基于語義網技術和類的數據集成方法,并且將此技術應用到了數據集成系統的各個方面。美國俄勒岡州立大學的PaeaLePendu和匹茲堡大學的GwenA.Frishkoff提出了一種自動建立一種基于類的相關數據庫的方法,這種方法基于SQL語句,可高效響應語義查詢。以上研究工作從各個方面說明了基于類的語義網技術是大數據時代最強有力的武器,它可以有效地解決大數據背景下的數據組織,存儲與查詢問題。雖然類概念是語義網研究的一個重要組成部分,但從根本上講,類概念依舊需要以類和對象為模型基礎,因此課題組通過對智能交通領域交通信息服務的分類開始,研究面向多元對象服務的交通信息服務的類及對象構建,并提出基于數據有機互聯的全息電子檔案概念模型,支撐未來交通大數據基礎資源組織及重構。交通大數據信息服務分類體系根據中國智能運輸系統體系框架對交通信息服務領域類及對象劃分為以下幾類(圖3-6):交通信息服務領域、電子收費服務領域、交通管理與規劃服務領域、運營管理服務領域、綜合運輸服務領域、緊急事件和安全服務領域、自助公路服務領域及車輛安全輔助駕駛服務領域。其中,每一種服務領域中又包含多個子服務,每個子服務又包含多個服務。交通狀態信息用戶類別見表3-1,交通狀態信息服務見表3-2。圖STYLEREF1\s3SEQ圖\*ARABIC\s16交通信息服務的層次結構表STYLEREF1\s3SEQ表\*ARABIC\s11用戶分類戶類別用戶道路使用者(出行者)1乘客2小型汽車駕駛員3公交車駕駛員4貨車駕駛員5摩托車駕駛員6緊急車輛駕駛員7軍用運輸車駕駛員8特種運輸車輛駕駛員9出租車駕駛員10非機動車輛駕駛員11行人12老弱病殘等特殊人員道路、交通建設者1基礎建設部門2道路、交通養護部門交通管理者城市交通管理部門公路交通管理部門城間交通管理部門運營管理者城市公共交通運營部門公路客運部門道路運營部門公路貨運部門鐵路運營管理部門(鐵路貨運、客運)水運運營管理部門(水運貨運、客運)航空運營管理部門(航空貨運、客運)公共安全、緊急事件負責部門公安部門消防部門城市緊急救援中心醫療急救中心抗震減災部門危險品運輸、處理部門相關部門政府部門學術機構規劃部門環保機構表STYLEREF1\s3SEQ表\*ARABIC\s12交通狀態信息服務分類服務領域服務名稱子服務名稱服務用戶交通信息服務出行前信息服務1出行前公共交通信息服務{公交線路、發車時刻表、公交票費}2出租車預約服務{根據出行者路線請求為出行者安排最近的出租車或為出行目的地相近的出行者安排同乘服務}3出行規劃服務{提供給用戶即刻出行所需的信息,包括:計算好的路線、換乘方式、估計行程時間、當前實時行程狀況、一條或多條備選路線方案}4交通系統當前狀態信息服務{事故和事件、道路建設的當前狀況、被推薦的備選路徑和指定路徑的當前速度、重點區域的當前泊車狀況、當前的天氣情況}道路使用者行駛中駕駛員信息服務5車輛運行位置信息{裝載有GPS提供的定位信息}6交通事件信息{交通事故及重大事件發生時間及地點等信息,使駕駛員做出相應決策,從而使交通得到及時疏導}7停車場信息{行駛區域附近的停車場泊位、類型和停車費用}8交通狀況信息{動態地為駕駛員提供交通流量、路段占有率、擁擠度、交通事故等信息}道路使用者→機動車駕駛員9公共交通調度信息{動態地為公交駕駛員提供靜態的發車時刻表和當前的實際調度信息,引導駕駛員及時調解車速,實現正點運行}10停車選擇{動態為公交車駕駛員提供前方乘客數目,根據車內情況,駕駛員判斷是否下一站停車}公交車駕駛員11交通法規信息{一般交通法規和路網中各路段的交通管制信息,如單行線、禁止停車、禁止鳴笛、禁止左轉彎等}12道路工程施工信息{有關規劃或突發的道路施工、道路關閉、道路維護,輔助駕駛員選擇備用路徑}13收費站信息{為駕駛員提供路網中收費站的位置、收費標準、支付方式、支付金額}14氣象信息{駕駛員動態的接收氣象部門發布的當前和未來一段時間的天氣情況信息}15路邊服務信息{路邊餐飲、宿舍、誤樂、加油站等服務信息}道路使用者→機動車駕駛員途中公共交通信息服務16換乘信息{多種運輸方式之間和同種運輸方式之間的換乘信息,換乘時間、地點、可能的換乘方式等}17車輛運行信息{為出行者提供當前公交車輛的運行信息:車輛到達下一站的預測時間、車輛行駛速度及所處的位置等信息}18調度信息{為乘客提供固定的行車時刻表,同時也提供實時調度信息如因特殊需要所發出的大站車、區間車和快車等}19票價信息{提供包括所有公交方式不同服務水平的票價信息}道路使用者→乘客個性化信息服務20公共服務設施信息{公共服務信息:加油站、汽車修理廠、醫院、賓館、飯店等的位置和服務時間、到達服務處所應乘坐的公交線路等信息}21公共服務預訂{汽車、火車、飛機票預定、賓館預訂、餐飲預訂等}22旅游景點信息{當地的旅游景點、相關公交車輛的信息、公園及商店和飯店的營業時間等信息}道路使用者路徑誘導及導航服務23自主導航{當前車輛的位置、目的地方向及位置、路網中路段數據(限速、車道數、寬度等)、引導其行駛在最佳通往目的地的路徑上。達到緩解交通壓力;減少交通阻塞和延誤的目的}24動態路徑誘導{除了具有自主導航服務之外,還為用戶實時顯示路網狀況和公共交通信息(如車輛運行的精確信息以及道路情況和警告信息),以及與交通管理和運營部門信息實時交互。}25混合模式路徑誘導{支持自主導航與動態誘導,當動態誘導請求失敗,則進入自主導航}道路使用者→機動車駕駛員電子收費電子收費26路橋隧不停車電子收費服務{以非現金、非手工交易方式達到車輛連續行駛通過收費點,對使用道路、橋梁、隧道的車輛使用者收取費用}27路橋隧停車自動收費服務{以非現金、非手工交易方式,對使用收費道路、橋梁和隧道的車輛使用者停車收取使用費}28停車場自動收費服務{對停車場使用者自動收取使用費}29路側停車自動收費{在非主干道上允許適度的停車,并自動收取使用費}機動車駕駛員30有償交通信息和服務使用電子交易{對使用有償交通信息和服務的用戶自動收取信息和服務使用費}乘客、機動車駕駛員、運營部門、管理部門31公交電子自動收費{以非現金方式對使用公交服務的用戶征收使用費}乘客交通管理與規劃交通控制32自適應交通信號控制{自適應控制策略,實現城市或交通流運行的通暢和平穩}33行駛方向變換管理{特定時間段通過設置行駛方向變換的專用車道來提高道路的通行能力}34城市和城市之間的集成控制{通過通訊及控制手段對城市以及城市之間交通運行進行集成控制,提高路網容量和路段通行能力}35交通控制和路線誘導的集成{交通控制策略與路線誘導進行有效結合,為駕駛員提供快捷、安全的信息服務}36匝道和速度控制{對道路的出入口匝道出入進行控制以及對道路的行駛速度分布進行適當的控制}37交通管理策略的實現{利用各種信息以及控制手段保證事先制定的交通策管理略的實現}交通管理者需求管理{通過一些策略影響不同運輸方式的總體需求}38可達性控制管理{對特定區域或路段的駛入車輛進行控制已達到影響該區域或路段交通需求的目的}39擁擠價格管理{對具有不同交通需求的路段的使用采取不同的收費標準達到控制交通需求的目的}40停車管理{對管理區域的停車狀況及占有率情況進行整體協調,制定不同的停車價格來對不同區域的交通需求進行間接控制和平衡}41公交需求管理{通過調整公交運營方式、運營線路以及對公交乘客采用不同的收費價格,來調整出行者的路線,從而達到調整區域交通需求的目的}42環境質量管理{通過應用環境的改善措施等手段,改變區域交通吸引}交通管理者緊急事件管理43事件的預防{提供實時的道路狀況、交通狀況、自然災害及氣象信息}44事件的檢測{根據實時信息來證實公共交通中某一事件已發生}45事件的鑒別{明確事件發生的位置、性質及類型等信息}46事件的響應{根據事件的信息通知有關部門向事件現場派出合適的緊急救援人員和設備,同時,對其進行協調和管理}47事后的管理{事件現場安全及時地清除,盡快恢復道路的最大通行能力}48事件的記錄{對事件發生時及發生后所獲取的各種信息(時間、地點及性質、事件發生所涉及的車輛和人員數目及車輛類型、參與救援的部門、人員與設備、當時的交通狀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論