



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
文本大數據分析技術在鐵路行車安全領域的應用研究獲獎科研報告摘要:現如今,我國的鐵路建設越來越多,同時鐵路的安全被十分重視,保障鐵路行車安全是鐵路工作的重點,通過鐵路事故調查報告等文本數據對事故原因進行分析,是提高鐵路行車安全的重要手段之一。但由于鐵路系統存在海量的非結構化事故故障文本數據,難以進行有效檢索和分析,因此提出鐵路行車安全領域文本大數據分析總體框架,包括文本數據從集成、存儲到處理、計算,再到檢索、分析及應用的全部流程,并對基于鐵路領域文本數據的全文檢索、特征提取等文本大數據分析關鍵技術進行研究。最后以某鐵路局集團公司的事故故障追蹤報告為樣本,進行事故故障報告的全文檢索、故障詞云展示及關聯性分析,取得了良好效果。
關鍵詞:大數據;非結構化;行車安全;事故故障;全文檢索;文本挖掘
引言
隨著鐵路信息化的不斷發展,已相繼建成車、機、工、電、輛等各專業安全監測/監控系統近60余個,產生和存儲了PB級的文本、圖紙、視頻、圖像、聲音等多種類型的監控/監測數據。鐵路安全領域迎來了大數據時代,由于傳統數據庫無法對這些海量的數據資源進行有效的利用,從而使這些數據占據了大量的存儲空間而不能被挖掘使用,造成了數據資源的浪費。伴隨著大數據技術的快速發展,針對海量數據的存儲、分析和可視化展示等問題,出現了新的技術來支撐,例如:分布式文件存儲、并行處理等。鐵路運輸安全是一個復雜的安全系統工程,其故障(事故)之間存在著相關關聯、相互影響的耦合關系。通過運用大數據分析技術不僅可以對海量的歷史數據進行學習和挖掘,從而預測安全風險發現事故規律和事故間的相關關系,對高實時性要求的監控數據進行實時在線分析,提高預警水平。
1文本大數據分析總體框架
1.1鐵路事故故障知識圖譜技術
鐵路事故故障知識圖譜主要是構建有關事故故障實體、概念和關系的鐵路行業知識庫,以便于進行事故故障的查詢、分析和推理等。知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,其構成一張巨大的語義網絡圖,節點表示實體或概念,邊則由屬性或關系構成。KG是人工智能技術的組成部分,其強大的語義處理和互聯組織能力,為智能化信息應用提供了基礎。為了提高搜索引擎的能力和搜索體驗,Google于2012年5月正式提出。隨著人工智能的長足發展和普及,作為人工智能關鍵技術的知識圖譜的應用越來越廣泛,例如在基于知識圖譜的智能搜索、基于知識圖譜的智能語音問答、基于知識圖譜的語義分析和基于知識譜圖的個性化推薦等。
1.2文本數據處理
文本數據處理包括本體庫構建、命名實體識別、文本向量表示和中文分詞等技術,是文本分析挖掘的重要步驟。本體庫構建是指對所研究的領域建立統一的對象模型框架,之后所有的分析都基于這個框架進行;命名實體識別是指對文本中具有特定意義的實體進行識別,包括人名、地名、機構名等;文本向量表示是指通過某些方法把文本數據向量化,轉化為向量形式的標識,從而便于之后各類分析方法的計算;中文分詞是指根據相應領域的字典并利用分詞工具將連續的文本內容切分為單獨的中文詞匯的過程。
2文本大數據分析關鍵技術
2.1基于ElasticSearch的事故故障文本全文檢索技術
為實現鐵路非結構化文本大數據的分析挖掘,首先要實現非結構化文本的分布式存儲和全文檢索。分布式存儲是應用分布式文件系統,實現非結構化文本動態可擴展的存儲。EelasticSearch(ES)通過集群提供分布式全文檢索,1個ES集群可以由多個節點組成,可動態增加。ES各節點之間通過唯一的集群名字進行識別,默認的集群名字為“EelasticSearch”,集群名字可通過elasticsearch.yml文件進行配置。ES采用去中心化節點架構,即各節點平等,可任意選1個節點為主節點。ES各節點之間通過TCP協議進行集群交互,并通過RestfulAPI接口為其他應用提供服務。ES需建立索引(Indices),實現文檔(Document)集合的統一存儲和查詢。1個索引內可以定義1種或多種類型(Type),1種類型下可以設置多個字段(Field)以便于檢索。同時ES為了提高性能和吞吐量,對索引進行分片(Shard),默認1個索引分為5個分片(R0—R4),分布在不同的節點上,同時通過復制(Replica)分片實現高可用性,以防止節點/分片出現故障。基于ES的中文文本全文檢索主要包括文本提取、中文分詞、索引建立與檢索等過程。其中中文分詞技術是實現中文文本全文檢索的基礎;索引建立是實現中文分詞后數據轉化為索引文件的過程,主要利用的技術為倒排索引;檢索過程是對要檢索內容進行中文分詞后,根據索引文件找到所檢索文檔的過程。
2.2融合鐵路領域詞典的中文分詞
鐵路事故故障文本分布式全文檢索的首要和基礎工作是實現事故故障文本的分詞。中文分詞不同于英文分詞,中文詞語之間沒有空格標記進行分割。不同的上下文環境、不同的詞語組合和不完備的語料庫造成了中文分詞的歧義。尤其針對鐵路領域的中文分詞,由于缺乏行業領域的語料庫,鐵路專業術語無法實現有效的識別。同時鐵路行業的事故故障描述不一,為鐵路事故故障文本分詞帶來更大的挑戰。例如“軌道電路紅光帶”、“軌道區段紅光帶”、“紅光帶”等描述的是一種故障,但是在文本文檔中不同人員的描述不一致,造成了同一種故障但是由多種詞語進行描述,如果嚴格按照中文分詞就出現了3種不同的故障,為文本檢索和分析造成了困難。同時鐵路行業缺乏語料庫,對于事故故障命名實體沒有統一的規范,造成事故故障文本中事故故障名稱無法識別。
2.3融合文本結構及正則表達式的特征提取
鐵路事故故障報告全文檢索實現了對文本信息的有效存儲和搜索。結合文本挖掘的分類、預測和相關性分析等,可以挖掘鐵路事故故障發生規律,指導現場人員對重點事故故障進行防范,保障鐵路安全運行。鐵路事故故障報告的基本格式有標題、概述、調查過程、原因分析、定性定責和措施及要求等六大部分。本文采用基于段落格式及正則表達式的文本特征提取。即通過正則表達式找到相應的段落,然后對重點段落的內容進行中文分詞和特征提取,提取時需要和事故故障詞庫、事故地點詞庫等專業詞庫進行匹配,若專業詞庫中存在則直接提取,若專業詞庫中不存在,需要根據正則表達式依據語法結構進行截取。
2.4鐵路設備安全風險評估
基于大數據技術進行鐵路設備安全風險評估應構建2個層面:(1)基于設備故障特征和故障模式的設備安全風險評估方法,根據設備故障診斷結果,對故障特征和故障模式進行數字化表達,建立設備的特征、模式與故障特征、故障模式的距離函數來度量設備狀態與標準故障狀態的相似程度,距離函數的值越小,則設備安全風險越高。(2)基于設備健康狀態的設備安全風險評估,根據設備當前的狀態數據,劃分不同的安全風險等級,設備狀態越差,其安全風險等級則越高。
結語
基于鐵路大數據技術,研究提出鐵路行車安全領域文本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年的汽車租賃合同樣本
- 農田水渠施工合同標準文本
- 2025智能物流系統項目軟件開發合同
- 儀表工聘用合同樣本
- 保險中標合同標準文本
- 隧道若爆破方案范本
- 2025年農產品買賣的合同范本
- 專業工程建設合同樣本
- 公寓家電清洗合同標準文本
- 2025工業廢棄土地租賃合同
- 2025陜西核工業工程勘察院有限公司招聘(21人)筆試參考題庫附帶答案詳解
- 2025年山東、湖北部分重點中學高中畢業班第二次模擬考試數學試題含解析
- 湖北省孝感市高新區2023-2024學年七年級下學期數學期中考試試卷(含答案)
- 8.2 誠信經營 依法納稅課件-高中政治統編版選擇性必修二法律與生活
- 領導帶班及24小時值班制度
- 2025年超高功率大噸位電弧爐項目發展計劃
- DB32T 5076-2025 奶牛規模化養殖設施設備配置技術規范
- 2024年四川省高等職業教育單獨考試招生文化素質考試中職英語試卷
- 人教A版必修第二冊高一(下)數學6.3.2-6.3.3平面向量正交分解及坐標表示【課件】
- 森林防火安全專項施工方案完整
- 胸部常見病變的CT診斷
評論
0/150
提交評論