




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、結構化大數據通信協議技術領域結構化大數據通信協議是一種通信協議,也是一種讓數據成為合格的結構化大數據的技術。結構化大 數據通信協議也類似于ETL,ETL是處理現有的信息系統所產生的數據的問題,而結構化大數據通信協議 是在設計信息系統之初就開始預防數據產生問題。ETL是為數據治病,結構化大數據通信協議是預防數據 產生疾病。ETL是對現有技術所產生的問題進行小修小補,結構化大數據通信協議提出了新的數據處理方 案。結構化大數據通信協議也是一種軟件開發模式,利用結構化大數據通信協議所建立的各種信息系統都 是大數據信息系統,只要以鏡像的方式把各大數據信息系統中的數據上傳到大數據中心即可累加成合格的 結構
2、化大數據。合格的結構化大數據是不經ETL轉換即可高效挖掘的結構化數據。背景技術隨著大數據時代的到來,人們發現各行各業已有很多信息系統,然而信息系統雖多卻不能滿足大數據 時代的需求,信息孤島嚴重,難以互聯互通,數據共享困難,各行各業已有很多數據,然而數據雖多,卻 難以高效挖掘。目前是利用關系數據庫來解決這些問題,但只能解決局部的問題,不能從根本上解決問題。 結構化大數據通信協議就是針對這些問題而創立的。結構化大數據通信協議來源于模仿大腦記憶、聯想、 思維,始于1982年,那時想讓計算機模仿大腦的聯想功能。發明內容結構化大數據通信協議是通過對數據的優化及軟件開發模式的改變而避免信息孤島問題、互聯互
3、通問 題、數據共享問題產生,并使數據容易挖掘。結構化大數據通信協議可使數據具有12個技術特性:“唯一 性、歸屬性、可識別性、獨立性、完整性、規范性、與系統的耦合性(耦合度為零)、結構統一性、可累 加性、可移植性、時間性、真實性”,只有同時滿足12個技術特性的數據才是合格的結構化大數據。 發明所要解決的技術問題發明所要解決的技術問題是大數據4V中“數據類型多(Variety)”問題及“數據速度快(velocity)” 問題。所針對的具體的技術問題:各行各業已有很多信息系統,然而信息系統雖多卻不能滿足大數據時代 的需求,信息孤島嚴重,難以互聯互通,數據共享困難;各行各業已有很多數據,然而數據雖多,
4、卻難以 高效挖掘。有益效果實現互聯互通、數據共享容易,查詢速度快,數據挖掘容易。具體實施方式結構化大數據通信協議的創新表現在如下5個方面:1、首次提出了結構化大數據的12個技術特性,只有同時滿足12個技術特性的數據才能成為合格的 結構化大數據。為使數據滿足12個技術特性,創立了與12個技術特性相對應的12個數據優化方法。2、通信的基礎是雙方必須采用同一個協議。結構化大數據通信協議所提出的“結構化大數據的12個 技術特性”就是結構化數據互聯互通的“通信協議”。3、在結構化大數據的每一條數據中都增加了體現“數據的唯一性”和“數據的歸屬性”的數據項。 現有數據庫技術由于都是用于處理小數據,都沒有考慮
5、這兩個數據項的作用,現有的數據中也都沒有這兩 個數據項。這兩個數據項是表明一個數據是不是合格的結構化大數據的關鍵數據項。4、特別強調數據的標準化、規范化。因為大數據環境中,標準化、規范化的數據能自動模仿大腦的 聯想功能,從而大幅度提高查詢數據的速度和靈活性。關系數據庫對數據不加任何限制,完全由數據庫的 設計人員自己定義;結構化大數據通信協議對數據的限制非常嚴格,絕對不充許設計人員任意定義數據, 所有數據都必須是規范的,這也是讓大數據容易挖掘的一項重要措施。5、利用結構化大數據的12個技術特性為大數據的真實性提供保障。小數據只是在某個單位內部使用, 大數據是在很多單位之間使用,因此大數據的真實性
6、、公證性、權威、不可悔改性就顯得非常重要。結構化大數據通信協議在對數據優化時是以“萬能數據結構表”(如表一所示)來存貯數據,“萬能 數據結構表”可以用一張表存貯各種各樣的結構化數據。表一:萬能數據結構表存貯數據的例子ID事物代號事物屬性事物屬性值超長屬性值單位附件時間10991280數據來源廣州第一醫院2014.5.311001280事物分類病歷2014.5.311011280事物分類住院病歷2014.5.311021280事物分類醫療費用2014.5.311031280身份證號XXXXXXXXXX2014.5.311041280住院號XXXXXXXXXX2014.5.311051280姓名張
7、三2014.5.311061280性別男2014.5.311071280中藥費56元2014.5.311081280西藥費72元2014.5.311091280其它費用180元2014.5.3說明1:合格的結構化大數據的12個技術特性及12個數據優化方法合格的結構化大數據具有12個技術特性,或者說只有同時滿足12個技術特性的結構化數據才是合格 的結構化大數據。結構化大數據通信協議就是使結構化數據滿足12個技術特性的方法。為使數據擁有結 構化大數據的12個技術特性,結構化大數據通信協議提出了 12種相應的數據優化方法。1、數據的唯一性數據的唯一性:同一事物的各種數據在生存周期中,在不同的信息系統
8、中,都應該是唯一的、可識別 的,不能因時間、空間的變化而變成不可識別的數據。數據的唯一性所針對的問題:當前的同一事物的各種數據在不同的信息系統中的表達形式各不相同, 在大數據挖掘時難以準確地識別。例如,同一商品,在不同的經銷商的信息系統中具有不同的編碼;同一 患者在不同的醫院就醫時,患者的住院號各不相同,在大數據環境中查患者病史時,會因為與患者相關的 數據沒有一個統一的標識碼而難以查詢。數據優化方法一:讓同一事物的所有數據,在不同的時間、空間、環境中,都必須含有一個(或若干 個)唯一的、統一的大數據識別碼。大數據識別碼是數據的身份證、車牌號。大數據識別碼與關系數據庫 中的ID有本質的差異,ID
9、只是在一張表的范圍內標識數據,大數據識別碼是在大數據的范圍內標識數據。大數據范圍:不同的大數據所涉及到的范圍不同。在國際貿易中,大數據范圍是全球,國家醫療大數 據的大數據范圍是醫療行業,廣州大數據的數據范圍是廣州市。大數據識別碼可分為兩種,一種是某個具體事物的識別碼,猶如設備的序列號,但與設備的序列號有 本質的差異,設備序列號是企業自己編寫的,大數據識別碼需要按國際統一的標準來編碼;另一種是某類 事物的識別碼。例如,在了解某種型號的手機在各個經銷商的銷售情況時,就需要該種型號手機的大數據 識別碼,因為手機由全世界數十萬個經銷商銷售,手機廠家需要與全世界數十萬信息系統互聯互通。與人 相關的數據全
10、應含有身份證號,以確保在全球范圍內,在任何時間段,與某人相關的數據都是唯一的,可 識別為同一個人的。大數據會涉及到多個不同的信息系統,而小數據只是在同一個信息系統中生存,因此 在大數據環境中,數據的唯一性就非常重要,沒有統一的、標準的、規范的識別碼會導致數據挖掘非常困 難。數據的唯一性是大數據挖掘、分析的基礎。大數據識別碼必須使可以方便數據分類統計。2、數據的歸屬性數據的歸屬性:數據不僅要反映事物的各種屬性,也要反映出數據是歸誰所有(或者說由誰采集、或 者說從何而來)。數據優化方法二:每一個事物的數據中都要含有“數據來源”數據項。“數據來源”是結構化數據具 有了 “歸屬性”,一般情況下,可用單
11、位名稱來表示“數據來源”。大數據源于成千上萬家單位,若不標明“數據來源”,在大數據挖掘時會引起識別混亂。3、數據的識別性數據的識別性:是指讓信息系統可識別,讓人也可識別。進一步而言,不但要讓自己的信息系統識別, 也要能讓他人的信息系統識別,不但要讓自己能識別,也要讓他人能識別。數據的識別性所針對的問題:關系數據庫中的數據只有數據庫的設計人員自己和自己的信息系統可識 別。其它人、其它信息系統只能通過軟件對數據庫中的數據進行解釋、注釋、翻譯之后才能識別。數據優化方法三:以適當的冗余使數據可識別,盡量用標準的、規范的自然語言來表達數據,盡量避 免用代碼來表達數據。在對數據進行優化時的原則是“讓相應領
12、域的技術人員能看懂,讓別人的信息系統 也能識別,而不能只是數據庫的設計人員能看懂,也不只是自己的系統能識別。”在大數據環境中,數據的最重要、最關鍵的一個特性就是“數據的識別性”。關系數據庫的一個策略 是:盡量減少數據冗余。關系數據庫在降低了數據冗余的同時卻增加了識別數據的難度。結構化大數據通 信協議的策略與關系數據庫正好相反。結構化大數據通信協議的策略:以適當的冗余而使數據具有可識別 性,從而使數據可以讓他人讀懂,也讓他人的信息系統能識別。關系數據庫是一種“數據、數據結構、程序、數據庫系統四者密不可分的數據庫”。因為關系數據庫 中的數據脫離具體的表結構和程序以后就變成了無意義的數據,關系數據庫
13、中的數據只有在特定的表中才 具有意義。“萬能數據結構表”是一種“數據與程序無關的數據結構”,或者說是一種“是什么就是什么,與程 序無關”。因為“萬能數據結構表”中的數據脫離其數據結構后,其數據的真實含義不變。“萬能數據結 構表”中的數據是用標準的、規范的自然語言而表達的,只要懂自然語言,誰都可以看懂“萬能數據結構 表”中的數據的真實含義。從表面上看,關系數據庫減少了數據冗余,這是其一大優點。然而,這也是關系數據庫的最大缺點之 一。關系數據庫在減少了數據冗余的同時,也導致了數據失真。數據失真的結果就導致了 “信息交換、信 息孤島、數據挖掘難”等等問題。在關系數據庫中,只有通過編寫大量的程序,才能
14、解決數據失真問題。 無數事實表明,關系數據庫因數據冗余問題而付出了非常高昂的代價。當“數據與程序密不可分”時,要 存貯、讀取、查詢數據就必須編寫大量的程序。當“數據與程序無關時”,只要編寫一個通用的程序,其 它人借助這個程序就可以非常方便地存貯、讀取、查詢數據,而不必每開發一個數據庫都開發大量的軟件。結構化大數據通信協議的一個原則:基本上不考慮數據冗余問題,以空間換取智能和使用方便,讓數 據自己說話,而不是讓程序替數據說話。而關系數據則是通過應用程序而代替數據說話。用數據代替程序: 寧愿增加大量的“冗余”,也要使數據具有獨立性、完整性、可識別性。或者說為了使數據具有獨立性、 完整性、可識別性,
15、不考慮數據冗余問題,無論增加多少冗余都可以。在用關系數據庫設計信息系統時, 總是用程序來解讀數據庫中的數據。這種策略所帶來的嚴重惡果就是在處理數據時需要編寫大量的程序, 不編寫程序就無法處理數據。結構化大數據通信協議的策略:不惜一切代價,讓數據自己說話,杜絕用程序當翻譯!“讓數據自已說話”的目的是:無論把一個數據放到任何地方、任何環境中都能獨立地、完整地表 達出同樣的、完整的含義。在大數據時代,一個數據會出現在不同的信息系統中,因此,必須確保數據在 不同的信息系統中、不同的環境中都有相同的含義。結構化大數據通信協議使數據具有“獨立性、完整性、 識別性、唯一性、歸屬性”的目的就是讓數據自己說話,
16、在大數據環境中,這樣可以大幅度地減少編寫程 序的數量。關系數據庫中的數據沒有獨立性,也沒有完整性,關系數據庫做不到“讓數據自己說話”。關 系數據庫中的數據需要借助各種“關系”才能表達出完整的含義。結構化大數據通信協議可以讓數據自己 說話,而關系數據庫中的數據需要配備“七大姑八大姨”的“關系”才能準確地表達出相應的含義。關系數據庫的“七大姑八大姨”的“關系”:數據與數據庫系統具有密不可分的關系,數據與表結構 具有密不可分的關系,數據與應用程序具有密不可分的關系,數據與數據庫中的眾多表之間具有密不可分 的關系。關系數據庫中的數據必須依靠關系數據庫系統、數據結構、數據類型、應用程序才具有意義。當 關
17、系數據庫系統中的數據脫離了相應的關系數據庫系統、數據結構、數據類型、應用程序之后就變成了無 意義的數據。當前的信息系統所存在的“信息孤島問題、信息交換問題、數據接口問題、互聯互通問題、 系統的升級換代問題”等等,都是由于關系數據庫系統中的數據不能自己說話而造成的。用關系數據庫系統設計電子病歷系統時,對“患者基本情況”會采用如下形式:表二:患者基本情況表(關系數據庫中的表)IDHZXMGZDWZBXBZZNLRQHFBXRQMZCSZ26胡鳳橡膠廠工人0蒙古路2號321991-4-3已1991-4-3漢本人上述形式的數據是小數據時代的經典結構形式。其實“字段名”也是很重要的信息,必須用標準的、
18、規范的自然語言來描述。“患者基本情況”經過結構化大數據通信協議進行優化之后,在“萬能數據結構 表”中的表達形式:表三:患者基本情況表(萬能數據結構表)ID事物代號事物屬性事物屬性值超長屬性值單位附件時間1001001數據來源上海市第一醫院1011001事物分類病歷1021001事物分類住院病歷1031001事物分類入院病歷1041001事物分類患者基本情況1051001患者編號SH10-199103Z211061001健康卡號XXXXXXXXXXXX091071001身份證號XXXXXXXXXXXXXX1081001姓名胡風1091001工作單位上海橡膠廠1101001職別工人1111001性
19、別女1121001住址蒙古路20號1131001年齡321141001入院日期1991-4-301151001婚否已婚1161001病史采取日期1991-4-301171001民族漢1181001病情陳述者本人通過上述兩張表的對比發現,用“萬能數據結構表”所表達的信息是一種完全用自然語言所表達的不 失真的信息,這種信息無論放在什么地方其含義都是一樣的。從表面上看用“萬能數據結構表”所存貯的信息會多占據一倍左右的存貯空間,但這樣存貯數據可以 減少很多復雜的數據抽取、轉換工作。“萬能數據結構表”中的“數據冗余”就是讓“數據自己說話”, 讓數據不依賴數據庫系統、不依賴數據結構,不依賴數據類型,不依賴
20、應用程序。結構化大數據通信協議 的策略是“以空間換智能及使用方便”。與30年前相比,目前硬盤的存貯容量已提高了 10萬倍以上,多 占據一倍左右的存貯空間的代價很低,可以忽略不計。“讓數據自己說話”就是讓數據猶如自然語言那樣, 可以準確、無誤地表達應有的含義,不需要注釋,也不需要應用程序的解讀。4、數據的獨立性數據的獨立性:數據不依靠數據庫系統、不依靠數據結構、不依靠注釋、不依靠應用程序而獨立地表 達出某種含義。針對的問題:關系數據庫中的數據不具有獨立性,需要借助于注釋、數據結構、應用程序才能解讀數 據的含義。關系數據庫中的很多表的字段名用的是不規范的字母縮寫,在呈現給用戶時,需要通過信息系 統
21、為表加上表頭才能表達出數據的真正含義。數據優化方法四:通過一定的數據冗余而是數據可以自己說話,讓“數據不依靠數據庫系統、不依靠 數據結構、不依靠注釋、不依靠應用程序而獨立地表達出某種含義”,如上表三所示的萬能數據結構表可 實現數據的獨立性。5、數據的完整性數據的完整性:數據不依靠數據庫系統、不依靠數據結構、不依靠注釋、不依靠應用程序而完整地表 達出某種含義。針對的問題:關系數據庫中的數據不具有完整性,需要借助于注釋、數據結構、應用程序才能解讀數 據完整的含義。數據優化方法五:通過一定的數據冗余而是數據可以自己說話,讓“數據不依靠數據庫系統、不依靠 數據結構、不依靠注釋、不依靠應用程序而獨立地表
22、達出某種含義”,如上表三所示的萬能數據結構表可 實現數據的獨立性。6、數據的規范性數據的規范性:數據應為標準的、規范的、統一的、無歧義的。針對的問題:當前的各種信息系統中的數據不規范導致數據挖掘非常困難。數據優化方法六:應在信息系統設計、數據采集階段就確保數據是規范的。數據的規范性需要建立在“國標大數據標準、國家大數據標準、行業大數據標準”的基礎之上,而不 是建立在某個單位內部的數據標準、規范的基礎之上。只有符合“國標大數據標準、國家大數據標準、行 業大數據標準”的規范的數據才有資格成為合格的結構化大數據。當前的問題是各家單位的數據規范只是 自己制訂的,各不相同,沒有“國標大數據標準、國家大數
23、據標準、行業大數據標準”,這是阻礙大數據 發展的一個大障礙。有了標準、規范,并按標準、規范執行,那么在對大數據進行挖掘時,不再需要丁兀如何體現結構化大數據的規范性:在設計信息系統時就要考慮數據的規范性,在采集、生成數據時, 必須嚴格按照“國標大數據標準、國家大數據標準、各行各業大數據標準”輸入數據、生成數據,只有這 樣,信息系統所生成的數據才是規范的數據。各行各業的數據的標準化、規范化是一項工程量巨大的工程。只有做好這項工作,才能確保“結構化 大數據的規范性”。數據的標準化是大數據的基礎。可以說沒有數據的標準化就沒有合格的大數據。大數 據工程,標準先行。從某一方面而言,由于目前國際上、國內的各
24、行各業都未能做好數據標準化工作,所 以目前根本就沒有合格的大數據!“信息系統名、數據庫名、表名、字段名、數據庫中的數據”都要用標準的、規范的、統一的自然語 言,盡量避免使用不規范的代碼,這是讓數據自然形成“聯想關系”的關鍵,也是實現萬能查詢的關鍵。 這也是結構化大數據通信協議主張數據規范化的一個非常重要的原因!在大數據環境中,這種“聯想關系” 可為數據挖掘帶來極大的便利,可以大幅度地提高查詢數據的速度。關系數據庫理論對數據基本上沒有任何限制,全部由設計人員任意定義。這是關系數據庫中的數據非 常難以挖掘的一個根本原因。結構化大數據通信協議對數據的要求、限制非常嚴格。嚴格要求數據必須是 標準的、規
25、范的、統一的,必須滿足12個技術特性,每一個數據都必須嚴格符合國際標準、國家標準、 行業標準。嚴禁設計人員任意私自定義數據。數據猶如通用機械地零部件,必須標準化才可以。大數據標準涉及到每一個行業,也涉及到各種各樣的業務。大數據標準涉及數據的標準、數據結構的 標準、業務的標準、業務流程的標準、信息系統標準等。在大數據時代,一定要在信息系統中采用統一的、標準的、規范的自然言,盡量避免用代碼。這是確 保數據獨立性、數據的完整性和數據的識別性,降低數據與系統的耦合度的必要措施。7、數據與系統的耦合性數據與系統的耦合性:數據與系統的耦合度越高,數據對系統的依賴程度就越高。當數據對系統的依 賴程度比較高時
26、,數據一旦脫離了原有的系統就變成了無意義的數據。如果說一個數據不需要任何信息系 統的解讀,用戶就能讀懂,那么該數據與信息系統的耦合度為零。針對的問題:關系數據庫中的數據與信息系統的耦合度非常高。關系數據庫中的數據與數據庫系統、 與數據結構、與應用程序是密不可分的,關系數據庫中的數據一旦脫離了原信息系統到了大數據環境中之 后,就變成了無意義的數據。數據優化方法七:必須確保每一個數據與信息系統的耦合度為零。以適當的數據冗余而使數據具有獨 立性、完整性、識別性、規范性、唯一性、歸屬性,以數據的獨立性、數據的完整性、數據的識別性、數 據的規范性、數據的唯一性、數據的歸屬性而確保每一個數據都是與信息系統
27、耦合度為零的數據。大數據的數據來源于成千上萬家單位的系統,因此,大數據中的數據應該是與系統的耦合度為零的數 據,否則就需要編寫很多的應用程度來解讀數據,這會增加處理數據的難度、成本。人們用自然語言所編 寫的各種文章就是相應專業的人員可直接讀懂的,不需要任何的信息系統的解讀,因此,這種數據與信息 系統的耦合度為零。在大數據中,其數據量數以千億條計,如果其中的每一個數據都與系統都有一定的耦 合度,那么就需要編寫海量的程序才能解讀大數據。如果說大數據中的每一個數據都是與信息系統的耦合 度為零的數據,那么在處理大數據時,就不必再編寫任何程序對數據進行解讀。關系數據庫的設計者習慣用代碼來表示各種數據。例
28、如,有的設計人員用0”代表女性,用“1”代 表男性,而有的設計人員用“W”代表女性,用“M”代表男性。面對成千上萬的信息系統所產生的數千億 條以上的數據,這種不標準、不規范的代碼就會為大數據挖掘帶來巨大災難。用關系數據庫所建立的信息系統之所以會產生嚴重的信息孤島問題,一個重要原因在于關系數據庫中 的數據是不完整的、不獨立的、難以識別的。關系數據庫是用各種“關系”來表達各種事物間的關系。關 系數據庫中的數據與關系數據庫系統、表結構以及相應的應用程序密不可分,一旦分開,關系數據庫中的 數據將會變成無意義的數據,正是這種“關系”導致關系數據庫必然產生“信息孤島”。“萬能數據結構表”中的數據與數據庫系
29、統、表結構及應用程序無關,可以完全脫離數據庫系統、表 結構及應用程序而獨立地存在。“表一”中的數據是經過結構化大數據通信協議進行優化后的數據,這樣 的數據即使脫離表結構也能表達出原來的含義。大數據的原則:盡量避免代碼,盡量用標準的自然語言。判斷數據是不是合格的大數據的方法:與信息系統耦合度為零的數據才有資格成為合格的大數據。推論:由于當前的關系數據庫中的數據全部都是與信息系統密切耦合的數據,所以當前的關系數據庫 中的數據都不是合格的大數據。8、數據結構的統一性數據結構的統一性:合格的結構化大數據的數據結構必須是統一的。目前只有“萬能數據結構表”可 以使數據實現“數據結構的統一性”。針對的問題:
30、各個關系數據庫中的數據的數據結構各不相同。數據優化方法八:結構化大數據通信協議利用“萬能數據結構表”(如下表四所示)來實現數據的“數 據結構的統一性”。結構化大數據通信協議不充許設計人員設計任何數據結構,所有結構化數據都必須存 貯在一張,或若干張結構完全一樣的、標準的、統一的表中。用關系數據庫理論做不到數據結構的標準化。表四:萬能數據結構表可實現數據結構的統一性ID事物代號事物屬性事物屬性值超長屬性值單位附件時間1001001數據來源上海市第一人民醫院1011001事物分類病歷1021001事物分類住院病歷1031001事物分類入院病歷1041001事物分類患者基本情況1051001患者編號S
31、H10-19910430Z211061001健康卡號XXXXXXXXXXXXX091071001身份證號XXXXXXXXXXXXXXX1081001姓名胡風1091001工作單位上海橡膠廠1101001職別工人1111001性別女1121001住址上海市蒙古路20號1131001年齡321141001入院日期1991/4/301151001婚否已婚1161001病史采取日期1991-4-301171001民族漢1181001病情陳述者本人1000052367數據來源廣州動物園1000152367事物分類動物管理系統1000252367事物分類企鵝1000352367事物分類帝企鵝1000452
32、367事物分類動物檔案1000552367大數據識別碼GZQE00031000652367名字漢武帝1000752367購入日期2013-3-211000852367身高1.2m1000952367體重20kg1001052367出生日期2011-4-21001152367照片JPG1001252367籠舍編號0981001352367管理員張三1001452367父GZQE00011001552367母GZQE00021001652367性別雄關系數據庫的最大問題就是數據結構不標準。關系數據庫理論對數據結構沒有任何限制,完全由設計 人員自由定義數據結構。數據結構標準化是處理大數據的基礎,數據
33、結構不標準會導致數據處理非常困難。9、數據的累加性數據的累加性:是指“使數據可以(猶如圖書那樣)不經任何處理即可累加在一起”。針對的問題:當前的關系數據庫系統已產生了很多數據,然而這些數據都不能累加成大數據。數據優化方法九:數據的累加性可通過“數據的唯一性、數據的歸屬性、數據的識別性、數據的獨立 性、數據的完整性、數據的規范性、數據與系統的耦合性、數據結構的統一性”來實現的,也可以說只有 同時擁有這些屬性的數據才具有累加性。傳統的寫在紙上的信息具有可累加性,圖書館就是眾多圖書之和,檔案館就是眾多檔案之和。數據若 具有累加性,那么,廣州市政府各部門的數據全部以鏡像方式集中存貯到云平臺之后就等于建
34、立了廣州市 大數據,全國97.8萬家醫療機構的所有數據全部以鏡像的方式上傳到國家醫療大數據中心就等于建成了 國家醫療大數據。可惜的是,當前的各種信息系統中的數據不具有累加性。10、數據的移植性數據的移植性:“無論把數據移植到任何環境中,數據都能保持原有含義不變,能讓各種信息系統識 別,能讓用戶識別”,這樣的數據才具有移植性。針對的問題:用關系數據庫所建立的信息系統難以互聯互通,即一個系統中數據不能移植到另一個系 統中。數據優化方法十:數據的移植性是通過“數據的唯一性、數據的歸屬性、數據的識別性、數據的獨立 性、數據的完整性、數據的規范性、數據與系統的耦合性、數據結構的統一性”來實現的,也可以說
35、只有 同時具有這些屬性的數據才具有移植性。數據的移植性關系到信息系統的互聯互通。具有移植性的數據才能任意地在各個系統之間互聯互通。 數據的移植性與數據的累加性是一樣的,具有移植性的數據也具有累加性,只是數據的移植性是用來體現 數據是否可以在各個系統之間互聯互通,數據的累加性指的是能否把眾多的小數據累加成大數據。11、數據的時間性數據的時間性:大數據中的每一個數據都應有相應的時間。數據優化方法十一:為每一個數據增加時間戳。12、數據的真實性數據的真實性:小數據猶如自己記帳而產生的數據,大數據猶如不同單位之間的資金來往而產生的數 據,因此大數據的真實性就是非常重要的。數據優化方法十二:必須把數據防
36、偽、數據防篡改當作重要工作,可通過第三方認證、第三方公證、 第三方數據備案的方法使數據的真實性得到保證。說明2:數據的唯一性是實現“數據全球通”的基礎在班、組這樣的小環境中可以用每個人的姓名而區分出每一個人,然而在全國范圍內,由于人數太多, 重名的很多,因此僅靠姓名就不能準確無誤地識別出每一個人。大數據時代以前的關系數據庫中的數據只 是應用于某個機構內部,因此各個數據就容易識別,然而如果把關系數據庫中的數據放到大數據環境中, 那么這些數據就成了不可識別的數據。在大數據環境中,有關人的所有數據都必須含有“身份證號”,這 是為了表明數據的唯一性。關系數據庫用“ID”來表明每張表中的數據的唯一性。關
37、系數據庫所考慮的只是一張表中的數據的唯 一性問題,而未考慮大數據環境中的數據唯一性問題。例如,在很多醫療信息系統中,只是用“門診號”、 “住院號”來標識患者的信息,而未含有患者的身份證號。如果要在國家醫療大數據環境中查詢某個患者 的病史數據,那么,就會由于患者的數據中未含有身份證號而為查詢造成非常大的困難,因為患者的病史 數據有可能包含在全國97.8萬家醫療機構所產生的數百萬張以上的表中。在大數據環境中,每個事物的數據的“數據的唯一性”就是一個非常重要的問題。“數據的唯一性” 是確保數據在大數據環境中具有“數據的識別性”的一個關鍵。例如,在生產廠家、經銷商的信息系統中, 同一件商品的代號都必須
38、是全球唯一的、統一的、標準的,這樣才能確保在大數據環境中數據是可識別的。 然而,目前國際上還未做到這一點,各家企業的信息系統都有自己的編碼方式,各不相同,針對同一種商 品,不同企業的編碼是不一樣的,這為數據的全球通及大數據分析造成了很大的困難。合格的大數據應該是:在藥店買一盒藥,可以根據這盒藥上面的唯一的編碼而查詢到這盒藥的整個生 產、流通環節各種相關情況,是哪個廠家生產的,何時生產,何時出廠,中間經過了哪幾個中間商。世界經濟最需要的是“數據全球通”,即全球所有企業的信息系統中的各種數據都可以“互聯互通”, 或者說“全球任何兩個企業的信息系統之間都可以及時地發送、接收任何商品的數據。”當前的實
39、際情況 是:每家企業都有獨有的產品編碼規則,當企業接到訂單時,還需要手工把訂單數據轉換為自己的信息系 統可識別的數據,然后自己的系統才能處理客戶的訂單數據,只有極少數的企業的信息系統可以直接處理 上游企業發來的數據。這種“全球數據都不通”的現象的根本原因就在于當前的數據缺乏“數據的唯一性”, 沒有國際統一的、標準的商品編碼標準為“數據的唯一性”提供支持。要跟蹤一種商品在世界各地的流通情況,“數據的唯一性”是基礎。一種商品的數據會出現在全球數 百萬個企業的信息系統中,只有體現“數據的唯一性”的大數據識別碼才能準確無誤地從數百萬個信息系 統中把這種商品的數據識別出來。全球大數據統一編碼、解碼(可稱
40、作為大數據識別碼)是大數據中的一 項非常重要的工作,也是一項非常復雜的工作。在國際貿易中訂單、商品的全球統一編碼、解碼就非常重 要,這是商品“數據全球通”的基礎。對企業而言,在大數據時代,訂單、商品數據的國際標準、國家標準、行業標準是全球企業實現“數 據全球通”的基礎。沒有訂單、商品的標準,企業就不能進入到大數據時代。說明3:數據的歸屬性是區分大數據與小數據的一個關鍵如果從關系數據庫理論的角度來看,增加“數據來源”會使系統中產生大量的冗余數據。然而,在大 數據時代,所要處理的數據來源于數百萬個以上的信息系統,因此,就非常有必要說清楚各個數據從何而 來,不然,就無法區分眾多的數據。在大數據環境中
41、,“數據來源”就是非常關鍵的數據,也是必不可少 的。在大數據中,為每一個數據都增加“數據來源”數據項的目的就是讓數據無論在哪里都能獨立地、完 整地表達出其完整的含義。數據如物,人類社會的各種物都有其主,數據也應有其主。區分大數據與小數據的一個關鍵指標就是數據中是否含有“數據來源”。凡是不含有“數據來源”的 數據都是小數據,都是不合格的結構化大數據,這是關系數據庫高手很難理解的,然而這也是數據庫技術 人員的思想觀念是否已轉到大數據時代的一個標志。大數據所面對的是:數十萬家以上的單位,數百萬個 以上的信息系統,數千萬以上的表,數萬億以上的數據。在大數據環境中,沒有“數據來源”就會引起大 混亂。在大
42、數據時代,有了 “數據來源”可以大幅度減少編寫程序代碼的行數,在數據交換時就需要有“數 據來源”,數據共享時,需要有“數據來源”。說明4:數據的標準化、規范化是實現萬能查詢的關鍵結構化大數據通信協議是在模仿大腦的記憶、聯想、思維的基礎上而創立的,開始于1982年,當時 是希望計算機能模仿人的大腦的聯想功能(即查詢)。人的大腦在處理數據時所采用的技術是“超級高保 真數據處理技術”。“數據的標準化、規范化是實現萬能查詢的關鍵”,這需要從人的大腦的超級高保真 數據處理技術的角度來理解。目前人們都是從計算機技術的角度來解讀什么是“數據”,實際上從人的大 腦記憶、聯想、思維的角度來解讀什么是“數據”才是
43、最合適的。人的大腦是大自然界最優秀的“計算機”。人的大腦中所存貯的才是真正合格的“數據”。人的大腦 中的“數據”是“超級高保真數據”。人的大腦中的數據都是模擬數據,幾乎是不失真的,是超級的高保 真數據,是真正的數據,能非常真實地反映自然界的各種事物,是自然界的各種事物的在大腦中的一個縮 影。人的大腦中的數據與數據之間的關系是以事物的自然屬性而自然地建立起來的自然關系,可以真實地 反映到自然界的各種事物之間微妙關系,這才是大腦具有超強功能的根本。計算機中的數據是死的,人的大腦中的信息是活的。大腦可以突破時間、空間,隨時地激活大腦中的 “各種事物”,回放過去的各種場景。計算機也可以放電影,但是計算
44、機不能為電影中的各個事物建立聯 想關系。人的大腦可以由一個場景而聯想到另一個場景,計算機就不能。大腦在回憶北京的故宮、長城時, 眨眼間就可回憶起在上海的黃埔,又一眨眼就跑到了貴州黃果樹。大腦可實現“瞬間數千年,眨眼九萬里”。 計算機中的數據與數據之間沒有什么關系,然而任何輸入到人的大腦中的事物的信息,人的大腦都會自動 地與大腦中的相關事物信息之間形成聯想關系,這種聯想關系是根據事物的自然屬性而建立的。人的大腦的超級高保真數據處理技術主要有四種:1、超級高保真數據采集技術;2、超級高保真數據 存貯及再現技術;3、超級高保真形成數據與數據之間的關系技術(形成聯想關系);4、超級高保真利用 數據之間
45、的關系技術(即以聯想來處理數據)。用當前的技術可以比較好地模仿大腦的“超級高保真數據采集技術”及“超級高保真數據存貯及再現 技術”。然而現有技術無法全面實現(甚至說根本無法模仿)大腦的“超級高保真形成數據與數據之間的 關系技術”和大腦的“超級高保真數據處理技術”,這兩種技術才是大腦具有超級功能的根本。超級高保真數據采集技術:大腦是通過視覺、聽覺、觸覺、嗅覺、味覺、痛覺等感覺器官而采集數據。超級高保真存貯及真實再現數據技術:大腦不但可以以超級高保真的形式存貯數據,猶如把自然界的 事物“搬,到了大腦中,而且還可突破時間、空間使以往的事物隨意再現(聯想)。大腦中的數據是自然 界真實的具體的事物的縮影
46、。超級高保真建立數據之間的關系技術:大腦不但可以采集、存貯數據,更重要的是,大腦可以自動地 讓數據在大腦中形成相似聯想、接近聯想、同時聯想關系。大腦中的數據聯想關系是根據事物的自然屬性 而自然地建立的。大腦不只是超級高保真存貯了數據,而且還超級高保真地存貯了數據與數據之間的自然 關系。這是現有技術難以模仿的。超級高保真利用數據之間的關系技術(數據處理技術):計算機所處理的只是數字信號,而人的大腦 所處理的全是模擬信號。大腦以相似聯想、同時聯想、接近聯想等方式處理超級高保真的模擬數據(即大 腦思維)。現有技術根本無法全面模仿這種技術,只能局部模仿。下面用事例比較詳細地說明“大腦的超級高保真數據處
47、理技術”。主要說明:自然事物、事物的屬性、 大腦根據事物的屬性而進行聯想、推理,以及數據與數據之間的聯想關系是根據事物的自然屬性而建立的。1、“人可以通過聽聲音而判斷出你是在敲鐵塊,還是在敲木頭。”這是因為,在人的大腦的記憶中, 敲鐵塊發出的聲音已非常自然地與鐵塊聯系在一起,敲木頭的聲音已非常自然地與木頭自然地聯系在一 起,這些信息都是人們在日常生活中所接收到的。因此,人們可以通過聲音而聯想到相應的事物。計算機 也可以存貯音像文件,然而計算機不能實現聲音與圖像之間的自然聯系,也不能靈活地識別聲音和圖像。2、“我在手中輕輕地把松花蛋拋起幾次,就可以判斷出這個松花蛋是不是好的。”這是因為好的松 花
48、蛋在手中輕拋時,手掌就會感到一種輕微的顫動,而生雞蛋、熟雞蛋就不會產生顫動,壞的松花蛋也不 會產生顫動。在我的大腦的記憶中,顫動已與松花蛋自然地建立了聯系。3、“買雞蛋時,把雞蛋拿在手中輕輕地搖一搖就可以判斷出雞蛋的好壞。”壞雞蛋,或者說放時間 長的雞蛋,用手輕輕地搖一搖,雞蛋里面的蛋黃、蛋清就會動,而好雞蛋中的蛋黃蛋清就不會動。在我的 大腦記憶中,這些有關雞蛋的信息,已自然地與雞蛋的好壞建立起了聯系。4、“看見窗外樹在動,就知道刮風了。”人的大腦中已存貯了風吹樹動的信息。5、“看見窗外的樹在動,就知道那是有人在搖樹。”因為人搖樹與風吹樹是不一樣的。風吹樹,彳艮 多樹都動。人搖樹,只有一棵樹在
49、動,其它樹不動。而且人搖樹引起的樹動,與風吹樹引起的樹動是有差 別的。與人的大腦相比,關系數據庫中的數據幾乎是百分之百的失真數據。關系數據庫是人為地為數據建立 關系,關系數據庫理論認為這是關系數據庫的最突出的優勢,然而這才是關系數據庫的最致命的缺陷!因 為,人為地為數據建立關系,破壞了自然界的事物之間本身的自然聯系。關系數據庫不能象人的大腦那樣 根據事物的自然屬性而建立聯系。關系數據庫的一個優點是數據冗余非常小。然而這也是關系數據庫的致 命缺陷!因為關系數據庫在降低了數據冗余的同時也導致數據嚴重失真。嚴重失真的數據就不能根據事物 的自然屬性而自然地建立關系。關系數據庫把數據存貯在不同的表中,這
50、樣就割裂了事物與事物之間的自然屬性之間的關系。關系數 據庫把同一類事物的數據存貯在同一張表中,不同類的事物的數據存貯在不同的表中。大腦是根據事物的 自然屬性而對事物進行分類,事物是不是同一類,由事物的自然屬性決定,擁有相同屬性的事物就是同一 類事物。塑料盆、塑料杯子、塑料袋子、塑料桶,形態各不相同,大腦是根據塑料的自然屬性而把它們歸 為一類。對于塑料杯子、玻璃杯子、鋼杯子,大腦是根據“杯子”的自然屬性而把它們歸為一類。大腦中 的數據都在同一張表中,大腦根據事物的自然屬性就可以非常靈活地對各種數據進行分類。“數據”并不只是一個代號、符號,真正的“數據”應該是自然界的具體事物的縮影。人的大腦可以
51、把敲鐵塊所發出的聲音自然地與鐵聯系在一起,關系數據庫就不能讓“數據”實現這樣的自然聯系。結構化大數據通信協議模仿了大腦的超級高保真數據處理技術。結構化大數據通信協議就是要堅決鏟 除關系數據庫中的“人為關系”,讓數據獨立地、自然地根據事物的自然屬性而建立“自然的關系”。關 系數據庫中的關系是人為建立的,破壞了事物之間的自然關系。要想使計算機接近人的大腦的超級思維功 能,就必須象大腦那樣使數據盡量地少失真,使數據能夠根據事物的自然屬性而建立自然的關系。也必須 堅決地鏟除人為地為數據建立的關系,因為人為的關系肯定會破壞數據與數據之間的自然關系。計算機中的“數據”的概念非常狹隘。“數據”不應該只是“數
52、字”、“代號”,而且還應該是自然 界的事物的真實反映,更重要的是也應該反映出“數據”與“數據”之間的自然關系。計算機中的“手機” 只是數字,而人的大腦中的“手機”卻是真實的“手機”的真實的反映,大腦通過視覺、聽覺、觸覺接收 到了海量的有關“手機”的各種各樣的信號。合格的“數據”應該是失真程度最少的,能夠比較全面地反 映具體的事物,也能真實反映出事物之間的自然關系。關系數據庫中的數據不能真實地反映出數據與數據 之間的自然關系。數據與數據之間的關系絕對不能人為地建立,而應該是由事物本身的自然屬性而自然地 建立關系。結構化大數據通信協議是通過一定量的“數據冗余”而使數據盡量地少失真,使“數據”與“數
53、 據”之間自然地根據事物的自然屬性而建立“自然的關系”。“信息系統名、數據庫名、表名、字段名”要用標準化的、統一的、規范的自然語言,盡量不用代碼, 以便實現“聯想”。信息系統的名稱、數據庫的名稱、表名、字段名都是非常重要的事物屬性,都具有重 要含義。關系數據庫系統的設計人員習慣于用代碼、英文縮寫、漢語拼音縮寫作為數據庫名、表名、字段 名。這就導致普通用戶看不懂關系數據庫中的數據。關系數據庫忽視了這種信息,因為它所處理的是小數 據。在大數據環境中,這些信息就是非常重要的,不能缺省。在結構化大數據通信協議中,為了使數據具有獨立性、完整性、可識別性,在每個數據中都增加了 “信 息系統的名稱、數據庫的
54、名稱、表名”,“信息系統的名稱、數據庫的名稱、表名”實際上是事物的“分 類”,或者說是事物的屬性。這種做法是關系數據高手所難以理解的、不可思議的,因為這種做法增加了 大量的數據冗余。結構化大數據通信協議在“數據冗余”與“數據的獨立性、數據的完整性、數據的識別 性、數據與系統的耦合度”之間選擇后者。其目的是讓不懂技術的普通人也能看懂數據的真實含義。關系數據庫的數據冗余非常少,但其代價是,不懂技術的普通人看不懂關系數據庫中的數據,關系數 據庫中的數據只能存貯在相應的數據庫中,一旦脫離了相應的數據庫就變成了無意義的數據。關系數據庫 中的數據需要通過大量的應用程序的翻譯才能讓普通用戶讀懂。如果數據庫中
55、的數據都是標準化的、規范化的,那么,這些數據就可以自然地根據“萬能數據結構表” 中的“事物屬性”和“事物屬性值”而自動地聯立起自然的“聯想”關系(通過索引而建立)。由于利用 結構化大數據通信協議所建立的各種信息系統所產生的數據全部存貯在一張,或若干張結構完全一樣的 “萬能數據結構表”中,所以可以很容易地編寫出通用的“萬能查詢”工具。例如,如果全國的各種醫療 信息系統都是用結構化大數據通信協議而建立的,那么就可以通過患者的身份證號而方便地從國家醫療大 數據中心而“聯想”(查詢)到患者的病史數據。因為患者的病史中的每條數據中都含有身份證號(大數 據識別碼),通過患者的身份證號就可以“聯想”到與患者
56、有關的所有數據。而當前的各種醫療數據中不 一定含有患者身份證號,所以從全國各家醫院的信息系統中查詢患者的病史數據就非常困難。結構化大數據通信協議之所以用大量的“數據冗余”而使數據滿足12個技術特性,其根本目的就是 為了使數據成為“高保真的數據”,“數據冗余”彌補了數據的失真,只有“高保真的數據”才能使信息 系統可以象人的大腦那樣實現“超級高保真數據處理”。說明5:不必進行ETL轉換即可高效挖掘并可實現萬能查詢要對當前的全國的醫療數據進行挖掘將是非常困難的,原因在于當前的各種信息系統中的數據不標 準、不規范。例如:醫療行業有數百萬張表,數千億條記錄,各表的結構各不相同。對如此之多的結構各 不相同
57、的表中的數據進行挖掘、查詢,需要編寫大量的程序。如果全國的各家醫療機構的各種信息系統全 部是按結構化大數據通信協議而設計,那么對這樣的信息系統所產生的數據進行挖掘、查詢將是很容易的。 因為這些信息系統全都采用“萬能數據結構表”,其中的數據全是標準的、規范的、統一的。表五:兩種方法的數據挖掘、查詢效果對比表序 號對比內容用關系數據庫而建設的當前的 全國醫療的各種信息系統用結構化大數據通信協議而建設 的全國醫療的各種信息系統1表的數量 及結構數百萬張以上的表,各表結構各不相同。數百萬張表,各表的結構完全相 同,全部采用“萬能數據結構表”。2數據量數千億條數千億條3ETL、數據挖掘因各家醫療機構的數
58、據全都不標準、不規范、不 統一,ETL的難度非常高,數據挖掘成本非常高。 因性別、癥狀名稱、疾病名稱、藥名各不相同, 不統一,數據挖掘、統計、分析非常困難。在信息系統的設計階段,在數據 采集階段,在產生數據階段,全 部都采用標準的、規范的、全國 統一的數據,不需要ETL就已是 標準的、規范的、全國統一的數 據,數據挖掘、統計、分析非常 容易。4以查詢患者病史為 例要對全國的數百萬張結構各不相同的表進行查 詢,需要編寫大量的程序,成本非常高。各醫療 機構是以住院號、門診號作為標識而記錄患者的 各種數據,而各家醫院的住院號、門診號的編碼 各不相同,相互之間沒有規律,在全國范圍內查 患者病史數據很難
59、。需要先根據患者的名稱、身 份證號從全國97.8萬醫療機構的信息系統中分 別查詢患者是否有就診記錄,若有還要查相應的 住院號、門診號,然后再根據住院號、門診號而 從各種表中查詢患者的病史數據。(注:由于原 來沒有“數據的唯一性”、大數據識別碼的概念, 同一患者的醫療數據,在不同的醫療機構的表現 形式各不相同,識別方式也各不相同,不能保持 “唯一”。)數據百萬張表,結構完全相同。 因此,可以通過技術處理,編寫 一個通用的查詢工具,使用戶在 查詢數據時猶如查詢一張表中的 內容。因為與患者相關的所有數 據中都包含了患者身份證號,因 此只要通過身份證號即可查詢到 所有數據。有了通用的查詢工具 后,查詢
60、的難度及工作量大幅度 減少(即只是查詢一張表中的數 據)。(注:這也體現出了“數 據的唯一性”、大數據識別碼在 大數據中強大作用。)5萬能查詢要從數百萬張結構各不相同的表中查詢數據,不 能實現萬能查詢。經技術處理后,猶如只有一張表, 可實現萬能查詢,只要編寫一個 通用的軟件工具即可。“大數據的最關鍵技術是查詢技術”:大數據的特點是大,正因為大,要想獲得所需數據特別困難, 因此,從大數據中查詢到所需要的數據就是最關鍵的,然后才是對查詢到的數據的分析、統計。因此,可 以說“大數據就是查詢”,大數據的前期工作是為查詢做準備,大數據的后期工作是對查詢到數據進行統 計、分析,大數據的各種工作都是以查詢為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云南省昆明市西山區民中2024-2025學年數學高二下期末教學質量檢測模擬試題含解析
- 西南名校2025屆物理高二下期末復習檢測試題含解析
- 浙江省金蘭教育合作組織2025年高二數學第二學期期末達標測試試題含解析
- 財產保全擔保合同(金融借貸合同中的資產保全協議)
- 節能環保車輛承運合同與綠色運輸服務管理細則
- 風險管理型柴油發電機組采購合同
- 財務總監股權激勵勞動合同
- 股權激勵稅務籌劃與咨詢合同
- 車輛掛靠業務合作經營合同
- 股權收購代理股權過戶執行合同
- 央企華潤集團杭州片區年度品牌傳播策略案
- HG-T 4823-2023 電池用硫酸錳
- 英雄壇說人物位置
- 監理預驗收表格(共11頁)
- 中國電信移動終端營銷策略
- 學校考試A3試卷模板(共6頁)
- 百勝餐飲HIC高效能的輔導
- 《就在今生》班迪達尊者著果儒鐘苑文共譯簡體
- 皇家寵物食品有限公司的營銷策略分
- [畢業設計精品]6502電氣集中工程設計
- 紅頭文件任命書(模板)
評論
0/150
提交評論