




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據時代數字圖書館第一頁,共82頁。
1
23提綱
大數據與數字圖書館:為
何要提出這個命題?
大數據對數字圖書館的挑
戰:為何總是信息革命?
對策探討:數字圖書館
向業務流程上游移動第二頁,共82頁。3?
大數據與數字圖書館第三頁,共82頁。?
數字圖書館受到廣泛的重視,
成績斐然?
數字圖書館的建設與需求存在
差距大數據與數字圖書館?
什么是大數據?大數據在哪里?第四頁,共82頁。根據IDC監測,全球數據量大約每兩年翻一番,意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量,預計到2020年,全球將總共擁有35ZB的數據量,相較于2010年,數據量將增長近30倍。
指數型增長的海量數據圖片來源:IBM;Cisco;comScore;MapReduce;Radicati
Group;Twitter;You
Tube第五頁,共82頁。?
什么是大數據?第六頁,共82頁。?準確化(Veracity):浪里淘沙卻又彌足珍貴11/26/2012?社會80%的數據到底掌握哪里?政府、企業?今天的數字圖書館在業務流程的哪一端??“大數據”是一個用來描述海量的結構化和非
結構化數據的流行短語,這些數據的容量非常
巨大以至于很難用傳統的數據庫和軟件技術進
行存儲、管理和處理。?大數據的特性可以用4V描述?大量化(Volume):存儲大;計算量大?多樣化(Variety):來源多;格式多?快速化(Velocity):增長速度快;處理速度要求快第七頁,共82頁。大數據的四個主要特征圖片來源:國金證券研究所第八頁,共82頁。?
大數據在哪里?第九頁,共82頁。
業務流程數據含天文望遠鏡拍攝的圖像、視頻數據、氣象學里面的衛星云圖數據等
科學大數據
含數據庫等
社會大數據
含SNS、微博、新聞
媒體、視頻網站、電
子商務、招聘信息等
個人大數據含個人實時位置、狀態、見聞、言論等
企業大數據含物聯網、聯通、移動、電信等通信和互
聯網運營商等
Big
Data
2011年產生與復制的信息量
超過1.8ZB
5年中增長了9倍第十頁,共82頁。?
數字圖書館的成就斐然第十一頁,共82頁。11/26/2012我國數字圖書館的成就斐然?
結構化學術資源內容豐富,結構完整。包
括電子圖書、電子期刊、電子報紙、數據
庫、音視頻資源、網絡資源在內的海量數
字資源?
數字圖書館將資源進行有序組織,在一定
程度上突破了時間和空間的限制,為學術
界便捷地獲取信息與知識、社會數字閱讀第十二頁,共82頁。11/26/2012我國數字圖書館的成就斐然?
數字圖書館為社會構建了一個資源共享的
公共服務平臺,它集館藏、服務和人為一
體,延伸了傳統圖書館的服務功能?
我國的數字圖書館多數是聯合建設型圖書
館,多以政府投資的形式開展,注重館際
合作,共同爭取經費支持,以實現資源的
合理布局與共享第十三頁,共82頁。?
數字圖書館的建設與需求存在差距第十四頁,共82頁。數字圖書館與實體館資源同質?數字圖書館處理的問題是數據資源數字化、音頻視頻信息的轉換、存貯和檢索以及多媒體信息技術的擴展深化,但缺乏對海量數據的加工處理與管理服務。?從長遠發展的角度來看,數字圖書館應該進行數字資源的深層次開發,拓展對原始數據的挖掘、采集、組織、保存與利用,開拓一條數據資源主導型的發展新模式。?技術上的差距并不難彌補,最大的差距是收集數據的意識。我們收集數據的意識不強,對于數據在決策當中的重要性認識不夠,這才是數字圖書館最大的制約因素。第十五頁,共82頁。數字圖書館與實體館用戶同質?因數字圖書館資源內容多數為館藏資源的數字化,實體館用戶同質的現象較為普遍。一些數字圖書館系統自成體系?走出實體館的象牙塔,實現不同用戶群體的信息共享與利用第十六頁,共82頁。11/26/2012
數字圖書館非結構化數據空白大數據可以分成二種類型:?一是結構化數據即行數據,存儲在數據庫里,可以用二維表結構來實現的數據。?二是半結構化或者非結構化數據這種數據包括電子郵件、辦公處理文檔,以及許多存儲在Web上的信息及圖像、音頻和視頻等可以被感知的信息。第十七頁,共82頁。?企業中80%是非結構化或半結構化的。世界結構化數據增長率大概是32%,而非結構化數據增長則是63%。至2012年,非結構化數據占有比例將達到互聯網整個數據量的75%以上。?這些非結構化數據的產生往往伴隨著社交網絡、移動計算和傳感器等新的渠道和技術的不斷涌現和應用。?數字圖書館中,多數為數據庫建設,非結構化的數據內容所占比重非常低。缺乏大數據的分析,數字圖書館很難融入企業等用戶群體的細節服務。數字圖書館非結構化數據空白第十八頁,共82頁。科學研究的變化要求數字圖書館大數據的支撐?科學研究的不斷變化轉型對數字圖書館的大數據利用提出了要求。?然而,數字圖書館缺乏大數據的利用,這無法迎合科學研究的變化要求。第十九頁,共82頁。11/26/2012研究變化了:數據驅動的研究?????面向問題的研究面向數字與模擬的研究面向決策支持的研究面向創新驅動的研究越來越依賴數據第二十頁,共82頁。11/26/2012學術交流模式已經變化了
(學術交流融合)第二十一頁,共82頁。11/26/2012
傳統學術交流的四要素:
登記-鑒定-發現-保存?
Registration-establishing
the
intellectual
priority
of
an
idea,
concept,
or
research;?
Certification-certifying
the
quality
of
the
research
and/or
the
validity
of
the
claimed
finding;?
Awareness-ensuring
the
dissemination
and
accessibility
of
research,
providing
a
means
by
which
researchers
can
become
aware
of
new
research;
and?
Archiving-preserving
the
intellectual
heritage
for
future
use第二十二頁,共82頁。數字圖書館面臨新的研究需求
?
?
?
?
?
?11/26/2012E-Science海量數據科教結合協同創新產學研結合第四范式第二十三頁,共82頁。創新主體的轉移要求大數據?十八大報告指出,要更加注重協同創新,要構建以企業為主體、市場為導向、產學研相結合的技術創新體系?產業轉型升級依賴于科技創新。這個過程萌芽于科學發現,生長于成果轉化,科學發現就成了科技創新的原點?發現隱秘的消費規律;微博和手機的普及、社交網絡的廣泛應用使得以往幾乎不可能完成的一些人群活動規律研究成為可能。例如人群在物理上如何移動??全球多家互聯網巨頭都意識到“大數據”時代來臨的重要意義。惠普、IBM、微軟等紛紛通過收購“大數據”相關廠商來實現技術整合。Gartner研究表明,全球500強中85%的企業將無法利用他們的大數據第二十四頁,共82頁。國際上的大數據開發趨勢強勁?2009年,歐洲一些領先的研究型圖書館和科技信息研究機構建立了伙伴關系致力于改善在互聯網上獲取科學數據的簡易性。?2010年7月,聯合國發布了《大數據促發展:挑戰與機遇(Big
Data
for
Development:
Challenges
&Opportunities)》白皮書,指出大數據對于全世界是一個歷史性的機遇,可以利用大數據造福人類。?2012年1月,瑞士達沃斯召開的世界經濟論壇上,大數據是主題之一,會上發布的報告《大數據,大影響:國際化發展的新機遇(Big
Data,
Big
Impact:New
Possibilitiesfor
International
Development
)》
宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。第二十五頁,共82頁。11/26/2012國際上的大數據開發趨勢強勁?
2009年5月,美國政府成立了名為Data.Gov的公共數據開放的門戶網站;?
2010年12月,奧巴馬政府出臺了《規劃數字化未來》的專門報告,把數據收集和使用的工作提到了戰略的高度。?
2012年3月,美國政府發布了《大數據研究和發展計劃》
,此項帶有2億多美元推動資金的倡議,旨在通過推動和改善與大數據相關的收集、組織和分析工具及技術,提升從海量和復雜的數據集中獲取知識和洞察分析能力。奧巴馬則強調政府必須和公司、大學合作結盟,全民動員來應對“大數據”時代的挑戰。?
2012年5月,美國行政管理和預算局發布了《數字政府:
建立一個面向21世紀的平臺來更好服務美國人民(DigitalGovernment:
Building
a
21st
Century
Platform
to
Better
Servethe
American
People)》行政指令,旨在實現“隨時、隨地、任何設備”都能獲得政府信息資源,提高全社會服務的質量。第二十六頁,共82頁。圖片來源:
McKinsey
Global
Institute:“Big
Data
–
The
next
frontier
forinnovation,
competition
and
productivity”(2011
年
5
月)麥肯錫評估報告中指出,大數據的應用每年潛在可為美國醫療健康業和歐洲發達經濟體政府分別節省3000億美金和2500億歐元的開支。利用個人位置信息潛在可創造出1000億美金的消費者剩余。在國際社會的強力驅動下,我國在大數據開放方面還有待進一步的努力。
大數據的市場空間及對社會的貢獻第二十七頁,共82頁。?任何人在任何時間、任何地點,可以獲得所需要的任何知識,這是數字圖書館建設的美好愿景。?而當前,多數數字圖書館服務系統都是基于門戶網站開展的服務。少數數字圖書館的服務范圍已從互聯網向移動通信網、廣播電視網等網絡平臺逐步拓展,開展了移動圖書館等新媒體服務建設,但服務功能有限。?我國數字圖書館對用戶信息需求與信息獲取習慣的變化還不夠敏感,缺乏創新理念與服務機制,缺乏與業務流程的融合數字圖書館處在象牙塔遠離創新前沿第二十八頁,共82頁。?
大數據對數字圖書館的挑戰第二十九頁,共82頁。11/26/2012
為何總是信息革命??
數字圖書館缺乏大數據,導致
數字圖書館處在象牙塔?
科學研究的變化,要求數字圖
書館適應新的需求?
創新主體的轉移,要求數字圖
書館適應企業界的需要?
用戶信息素養的變化,要求數
字圖書館適應社會搜尋的需要?
國際上圖書館的變化?
對數字圖書館的競爭第三十頁,共82頁。?
原生大數據的缺乏,與實體圖書館資源和用戶同質現象?
非結構化數據缺乏,數字圖書館通常都是在數據庫里存在的結構化數據,非結構化數據如聲音、視頻、音頻、圖片等可視可聽的數據空白?
數字圖書館中的數據則是在各種國內外數據庫里存在的結構化數據,大數據的缺乏導致數字圖書館處在象牙塔中。數字圖書館缺乏大數據,導致數字圖書館處在象牙塔第三十一頁,共82頁。科學研究的變化,要求數字圖書館適應新的需求?
現在越來越多新的學科領域,完全建立在大量數
據的基礎上,比如系統生物學(Systems
Biology)
、宏生態學(Macroecology)、基因組學(pure
Genomics)等。?
美國國家科學基金會和美國國家衛生研究院將對大數據進行聯合招標,旨在改進核心科學與技術手段,提高從各種大型數據集中提取重要信息并對其進行有效管理、分析和可視化能力,加速科技成果的產生,并帶領國家進入一些全新的、以往不可企及的研究領域。第三十二頁,共82頁。33?
李國杰院士認為:“長期以來,許多領域都是在用小數據做科學實驗,找出一個模型和規律。現在越來越復雜,有一堆數據看上去沒有規律。科學家要找到新的研究方法,這種模式和方法的改變需要探索。要研究大數據的問題在哪兒,在應用中發現什么技術難題,這些有針對性的問題,不是憑空想出來的,是需要實踐總結出來的。”?
從目前來看,大數據技術主要涵蓋的領域有可視化分析、數據挖掘算法、預測性分析能力、語義引擎、數據質量和數據管理等?
因此,數字圖書館應適應科學研究變化的新領域、新技術與新需求,推動數字圖書館的發展第三十三頁,共82頁。創新主體的轉移,要求數字圖書館適應企業界的需要?
黨的十八大:
要構建以企業為主體、市場為
導向、產學研相結合的技術創新體系(2012年
11月8日)?
全國科技創新大會,推進科技與經濟結合(2012年7月6日)?
技術創新企業主體地位第三十四頁,共82頁。大數據概覽圖片來源:互聯網
國金證券研究所第三十五頁,共82頁。11/26/2012?
從上圖的大數據概覽中可以看到企業作為創新主體的重要
作用。?
企業應用還是大數據的主要推動者。生物、醫學、天文、
環境、物理、工程、經濟、互聯網等諸多領域涉及大數據
的處理和應用。?
自2005年以來,IBM投資160億美元進行了30次與大數據有
關的收購,促使其業績穩定高速增長。2012年,IBM股價
突破200美元大關,3年之內翻了3倍。華爾街早就開始招
聘精通數據分析的天文學家和理論數學家來設計金融產品
。IBM現在是全球數學博士的最大雇主,數學家正在將其
數據分析的才能應用于石油勘探、醫療健康等各個領域。
eBay通過數據挖掘可以精確計算出廣告中的每一個關鍵字
為公司帶來的回報。第三十六頁,共82頁。?
大數據應用也早已在商業領域應用。金蝶他們參與搭建的全國中小企業信息平臺,匯集了4000萬家企業,通過對這些企業海量數據的挖掘和分析,能對經濟運行狀況作出準確的預警?
在微觀經濟領域,“大數據”的作用也越發凸顯。天氣預報的信息和數據可以幫助農業的種植者在特定季節中避免遭受氣象災害?
在企業管理上,大數據可以用來決策下一步的投資、戰略部署、產品研發。”第三十七頁,共82頁。用戶信息素養的變化,要求數字圖書館適應社會搜尋的需要?
今天的圖書館用戶研究不像從前?
從大量的數據中分析潛在的價值決定著大數據時代的圖書館的發展水平及方向。?
隨著個性化、學科化等越來越專業、編輯服務的實施與出現,用戶的服務要求也日益提高?
在大數據時代,圖書館的數據處理范圍、方式、對象、目的等將發生巨大的變化?
在大數據時代,數據分析、數據挖掘、數據增值第三十八頁,共82頁。11/26/2012圖書館需要融于社區第三十九頁,共82頁。國際上圖書館的變化?
ARL報告第四十頁,共82頁。11/26/2012
We
have
seen
in
recent
years
it
can
be
argued
that:?
Many
users
now
have
the
skills
and
access
to
technologies
to
find
and
access
resources
which
previously
were
mediated
by
librarians.?
We
are
seeing
a
decrease
in
the
importance
of
finding
via
metadata
and
an
increase
in
the
importance
of
social
discovery.第四十一頁,共82頁。11/26/2012Focussing
on
the
technologicaldevelopments
we
have
seen
in
recentyears
it
can
be
argued
that:?
Many
users
now
have
the
skills
and
access
totechnologies
to
find
and
access
resourceswhich
previously
were
mediated
by
librarians.?
We
are
seeing
a
decrease
in
the
importance
offinding
via
metadata
and
an
increase
in
theimportance
of
social
discovery.第四十二頁,共82頁。11/26/2012?
We
are
seeing
a
decrease
in
the
importance
oflibraries
providing
access
to
trusted
resources.Instead
users
now
wish
to
access
resourcesthey
find
in
the
wild
–
but
will
need
to
be
ableto
evaluate
such
resources.?
We
are
seeing
a
decrease
in
an
unquestioningbelief
in
the
value
of
libraries
and
librariansand
a
need
for
the
sector
to
be
able
todemonstrate
value
and
pro-actively
marketthemselves.第四十三頁,共82頁。對數字圖書館的競爭?
對于社會中以知識存貯、利用與開發為己任的
圖書館來說,在這個“大數據”時代如何提高
海量增長的文獻處理能力,搜尋新的數據計算、
知識發現及信息服務的新途徑,面臨挑戰?
數字圖書館應由靜態發展轉向動態發展,將數字圖書館與產業、社區結合在一起第四十四頁,共82頁。?
數字圖書館的對策探
討:向業務流程上游移動第四十五頁,共82頁。數字圖書館的對策探討?
非結構化大數據開發?
分布式大數據開發?
大數據開發相關技術?
領域大數據開發?
原生大數據開發?
特藏大數據開發第四十六頁,共82頁。大規模非結構化數據急劇增長?
大數據時代的數據膨脹導致圖書館無法在一定時間內用常規軟件工具對其內容進行抓取、處理和管理。?
這些數據主要有兩類情況:一類是原有數據種類量的增加另一類是過去我們沒有關心或沒有能力關心的數據:如社交媒體、實時位置、智能設備、傳感器計量等復雜業務數據第四十七頁,共82頁。
非結構化大數據開發
大數據環境下,圖片、音頻、視頻、XML、HTML、辦公文檔、各類報表等非結構化數據大量增加。圖片來源:甲骨文公司(《從非結構化數據到大數據(Big
Data)》)第四十八頁,共82頁。非結構化大數據開發?
大數據分析經常會用到存儲數據庫來快速處理大量記錄的數據流通。一、結構化數據:?
海量數據的查詢、統計、更新等操作效率低二、非結構化數據?
圖片、視頻、word、pdf、ppt等文件存儲?
以多種物理的和邏輯的格式存儲的,而且儲存地點具有分散
性,其內容可能存儲于圖書館內部的不同設備之中以及圖書
館外部。?
不利于檢索、查詢和存儲三、
半結構化數據?
轉換為結構化存儲?
按照非結構化存儲第四十九頁,共82頁。圖片來源:甲骨文公司(《從非結構化數據到大數據(Big
Data)》)結構化與非結構化數據的統一管理
甲骨文公司的大數據解決方案:第五十頁,共82頁。
分布式大數據開發?
如何從海量數據中發現特定知識,如何高效地處理海量數
據,幾乎是任何一個信息分析機構要面對的問題。大規模
非結構化數據的激增,需要分布式大規模數據庫的開發。
目前,如果不談架構層面上傳統的IaaS、PaaS與SaaS,就
數以分布式與虛擬化為主要代表的云計算技術被普遍接受。圖片來源:中信證券,張新峰,大數據(Big
Data)專題研究報告《大數據大市場大機遇》第五十一頁,共82頁。分布式大數據開發?
目前,云數據管理技術因其低成本、去中心化、
可無限水平擴展、可無間歇在線擴展和海量數
據管理能力,在很多領域取得明顯成功,如
Google,Amazon,國內的淘寶等。基于云技術
的分布式大規模數據庫將全面替代主流關系數
據庫的呼聲越來越高。?
分布式計算技術可對海量數據進行分析以實時
得出答案。云計算是分布式計算、并行計算和
網格計算的發展,是實時分析與NoSQL數據功
能的結合。第五十二頁,共82頁。
分布式大數據開發?
云計算的數據存儲技術主要有Google的非開源的GFS(
file
system)
和Hadoop的GFS
開源實現HDFS
(
Hadoop
distributed
file
system)
。?
以Google為代表的云計算以其應用簡單、高效得到了廣泛
認可。它通過在分布式文件系統GFS基礎之上的MapReduce
編程模型以及廉價集群的建立,解決了許多大規模數據的
計算問題。?
由雅虎資助的開源項目Hadoop,是一個類似于Google
云計
算的技術平臺,專注于海量數據存儲、處理的分布式系統,同時提供了基于Java的MapReduce框架,能夠將分布式應用部署到大型廉價集群上。與此同時,Hadoop在圖書館也得到了應用。例如,Nutch搜索引擎中的分布式搜索、索引等。第五十三頁,共82頁。
以Hadoop云計算平臺為例?
Hadoop是Apache開源組織的一個分布式計算開
源框架,它基于廉價PC服務器,專注于海量數
據存儲、處理的分布式系統。?
Hadoop具備低廉的硬件成本、開源的軟件體系、
較強的靈活性、允許用戶自己修改代碼等特點,
同時能支持海量數據存儲和計算任務。?
Hadoop提供由Java
實現的Map-Reduce技術框
架,能夠將分布式應用部署到廉價服務器上。
同時為應用程序提供了一組穩定可靠的接口。?
Hadoop框架中最核心的設計是Map-Reduce和
HDFS。第五十四頁,共82頁。
Map-Reduce分布式計算?
Hadoop
中的Map-Reduce是一個軟件框架,基于它寫出來的應用
程序能夠運行在大型集群上,并以一種可靠容錯的方式并行處理
大規模的數據集。?
Map-Reduce
模型使用函數Map分割數據和函數Reduce合并數據。圖片來源:《云計算與大數據----
新一代第五十五頁,共82頁。數字圖書館體系結構預測用戶行為日志、微博HDFS用戶信息NoSQLDataBase大數據集縮減
針對用戶的
最佳推送
批處理查詢、借閱
信息內容推送
用戶管理
數字圖書館用戶信
系統
息系統技術架構客戶端應用層(SAAS)
應用
平臺門戶網站、用戶管理、搜索引擎等數據處理接口數據分塊、數據合并、Map、Reduce集群
VM主機
Hadoop
Map-Reduce
HDFS負載均衡、容錯機制、資源管理平臺層(PAAS)基礎設施層(IAAS)虛擬化層
計算/
存儲/
網絡/
應用/
服務器
虛擬化實體層CUP/存儲/網絡/IO/計算/其他資源第五十六頁,共82頁。大數據開發的相關技術?
大數據開發是建立在一個獲取、組織和分析范式之上的:?
1、獲取:大數據開發方案必須能夠以高速度獲得海量數據。這通常要通過服務器群集來傳播大量文檔和存儲,每個服務器都在各自的本地磁盤上存儲整體數據的一個子集,雖然有很多方案,但Hadoop和NoSQL是提供這一功能兩個最基本的技術。?
2、組織:從大規模的非結構化數據中識別和提取有用的信息,而不移動這些數據的組織能力是十分必要的。Hadoop
Map-Reduce框架通過分布在群集中的所有服務器上處理工作來提供這一功能。通過各節點返回主節點的高度綜合的數據可以被其他統計工具分析或載入傳統的數據倉儲中。第五十七頁,共82頁。NoSQL非關系型數據庫?
NoSQL=Not
Only
SQL?
NoSQL在很多情況下又叫做云數據庫。處理數據的模式完全是分布于各種低成本PC服務器和存儲磁盤。?
NoSQL結構解決了關鍵數據集成的統一接口問題,強調高吞吐、高并發、高可用、高分區容錯性。?
不用將數據進行歸類組織,能處理各種類型的文檔,數據格式靈活多變,沒有標準,模型簡單。?
大部分數據關系僅需建立一次,數據結構和結構之間的關系穩定,不再經常變化;變化的只是數據值第五十八頁,共82頁。大數據開發的相關技術?
3、分析:經過組織的大數據可以被傳統的數據
分析工具分析,如加載匯總數據到數據倉儲。目
前已有專門的大數據處理引擎,提供基于數據庫
分析(In-database)和內存分析(In-memory)。?
數據庫分析進行動態數據管理,目的在于分析和報告數據運行情況、減少數據移動和促進更好的數據管理。使用可擴展的數據庫架構,進行庫內分析,可以減少數據準備的時間,構建、導出和更新分析模型。?
內存分析可以迅速解決大數據的復雜分析問題,使用內存和多用數據接口快速運行復雜的新計算。用戶可即時對數據檢索和可視化、構建和導出分析模型并完成具體業務和挑戰。這些都是在分布式的內存中進行的,而非在一個磁盤中。第五十九頁,共82頁。一、支持對象存儲的統一存儲技術?
文件+元數據=對象?
元數據通常稱為“關于數據的數據”,是有效管理、共享和存儲信息的最重要因素,可以實現大數據的集成和循環利用。?
大數據時代增長幅度最大的非結構化數據,將通過互聯網協議以文件或對象的形式提供。這些數據可增長至成百上千的拍字節和數十億個對象,?
除了需要更大的文件系統和可擴展的模塊存儲系統外,還需要對文件、模塊和對象數據存儲進行融合。通過消除數據保護的備份成本,數據分析的ETL(提取、轉換和加載)成本以及文件、模塊和對象存儲孤島的管理成本來提高存儲效率。其它大數據相關技術第六十頁,共82頁。?
數據挖掘技術可以對關系數據庫中的結構化數據,
或是文本、圖形、圖像數據等半結構化數據,甚
至是分布在網絡上的異構型數據進行采集。三、可視化技術?
由于難以以數據的形式清晰地進行觀察海量信息,
所以要通過直觀、生動的可視化圖形對數據進行
展示數據的關系和結構。大數據時代迅速增長的
非結構化數據也需要可視化技術向用戶展現。?
非結構化數據的可視化編輯系統用超圖模型的方
法,將傳統方法所不能表示的非結構化數據用超
圖模型統一表示,并能在數據庫中有效的存儲,
而且提供給用戶一個交互式的界面。
其它大數據相關技術二、數據挖掘技術第六十一頁,共82頁。可視化關系圖第六十二頁,共82頁。資料來源:國金證券(《大數據引領我們走向數據智能化時代——BigData專題報告》)領域大數據開發第六十三頁,共82頁。領域大數據開發?
政府投入大數據開發,形成示范效應,以推動大數據的發展。?
在民生領域,應用大數據技術,提升服務能力和運作效率,以及個性化的服務,比如醫療、衛生、教育等部門;?
在安防領域,應用大數據技術,提高應急處置能力和安全防范能力;?
在金融、電信等領域投資建立大數據的處理分析手段,實現綜合治理、業務開拓等目標。第六十四頁,共82頁。三峽工程長江中下
游干旱臺風
梅花
日本核輻射氣象輿情監測
?對氣候的影響
極端天氣頻發,有多少
是人為之禍?公眾對氣
象部門的氣象服務有了
全新的期待。依托數據中心與云服務平臺,拓爾思大數據管理系統還原熱點氣象事件引發的網絡輿情,總結氣象部門應對氣象危機的得失,為氣象部門開拓氣象服務新領域、提升氣象服務水平提供參考。中國氣象局大數據管理資料來源:北京拓爾思公司(《理解大數據,實踐大數據》)第六十五頁,共82頁。氣象信息月度走勢圖年度熱門氣象事件排行榜全國氣象輿情熱度概覽氣象口碑媒體分布圖中國氣象局大數據管理
借助數據中心的大數據與云服務平臺,拓爾思大
數據管理系統為氣象局提供了全面的多維度分析。資料來源:北京拓爾思公司(《理解大數據,實踐大數據》第六十六頁,共82頁。原生大數據開發?
原生數字資源被普遍認為是在產生之初無相同物理替代形態的數字信息。由于
原生數字資源
沒有其他的存儲形式,原生大數據的開發、采集、組織和保存工作更需得到圖書館重視。?
OCLC對于原生數字資源的分類有:數碼照片、數字文檔、網絡存檔、數字手稿、電子記錄、靜態數據集、動態數據、數字藝術、數字媒體出版物。第六十七頁,共82頁。
原生大數據開發1、數碼照片
使用數碼相機拍攝的數碼照片是增長最快的
一種原生數據。保存的重點在于將其以當前的
主流形式拷貝在同時時期的可持久使用的媒介
上。為保護照片的完整和原始,還要注意色彩
空間與壓縮。2、數字文檔
如今基本所有的文檔文件都是以數字形式創建的。是否保持其紙本或數字形式是一個基本而又重要的問題。以創建文檔的軟件區分這些數字文檔,繼續保留如PDF等標準格式的文檔。第六十八頁,共82頁。原生大數據開發3、網站存檔
機構可以自己通過互聯網捕捉網絡快照,以獲得集中的存檔:國家圖書館可以對該國的網站進行存檔;大學可以對某領域內容進行存檔。這些檔案可能集中于某一特定主題或事件。可以將這些檔案以ISO標準WARC文件格式保存;可以通過互聯網檔案的開源開發工具來抓取和訪問內容。第六十九頁,共82頁。原生大數據開發4、數字手稿可向手稿提供者推薦修改、組織、命名文件的方法和保存文件的格式與媒介。大多數收集來的手稿只需稍作處理以保障內容即可。只有極少數作者的手稿值得進行仿真重建以作收藏。5、電子記錄這類記錄包括政府文件和公司、機構、組織檔案。這類數據多處于文字處理格式的資料中,包括電子郵件、數據庫、電子表格、說明和其他類型的文件。由于其中一些只能通過專用軟件讀取,所以最好能從專有格式中將其抽取出來。第七十頁,共82頁。原生大數據開發6、靜態數據集靜態數據集是建立在研究過程中,并且是未來研究的基礎。但靜態數據集的創建往往沒有考慮保存和以后訪問的問題,一些數據集需要特殊的軟件和文件才能使用。因此,樣品的性質、收集數據的方法、軟件的使用等背景信息都應予以保留。7、動態數據動態數據是指在系統應用中隨時間變化而改變的數據,例如社交網絡上的大量社會信息。可以通過建立動態數據中心和自動化管理平臺,進行基于分布式數據庫的即時管理。第七十一頁,共82頁。
原生大數據開發8、數字藝術
數字藝術可以是數字攝影等簡單形式,也可以是混合媒介的、動態的、更為復雜的形式。9、數字媒體出版物
它們定期以數字形式發表。如音樂、電影、
視頻和游戲等商業出版物可以被放入其它可
替代的媒介中。對于一些類似早期電影的已
經失去商業價值的內容,由于版權和許可問
題,圖書館很難采取行動防止其在老化和衰
減過程中流失。第七十二頁,共82頁。特藏大數據管理?
大數據環境下,一個圖書館沒有必要也不可能將它的全部館藏數字化。?
但圖書館必須將優先對在某一方面形成了一定規模的、結構比較完整的文獻資源特別是原生信息資源,進行有系統、有組織地開發整理,以真正發揮數字圖書館的規模效益。?
例如美國國會圖書館的“美國記憶”項目,收集整理了照片、手稿、海報、樂譜、地圖、錄音、動態圖像等記載美國歷史文化的特藏。第七十三頁,共82頁。特藏大數據管理?
OCLC于2010年11月發布的調查結果顯示,館藏空間、原生資源和數字化問題是館藏大數據管理的三大最具挑戰性的問題。?
經過長時間的努力,仍有一半的檔案收集不在線,用戶需求仍然無法滿足;雖然減少了許多積壓,而幾乎同樣多的在繼續增長;原生數字資源管理仍處于起步階段。第七十四頁,共82頁。特藏大數據管理1、數字化?
完善大規模特色館藏數字化模式,包括選擇合適的資源、安全保護與操作、創建可持續元數據等;?
確定要數字化的不可多得的好書的范圍,挑出那些有開放存取許可的;?
確定完成合作項目主體的最重要的差距所在。第七十五頁,共82頁。
特藏大數據管理2、原生數字檔案資料?
定義原生數字檔案資料的特征,作為“特
色館藏”的重要依據;?
制定一套合理的基本步驟和一個長期計劃,
管理原生數字檔案資料;?
為原生數字檔案資料的選擇、管理和保存
開發使用案例和成本模型。第七十六頁,共82頁。特藏大數據管理3、館藏?
確定限制合作館藏發展的障礙,將關鍵特色和預期效果有效結合;?
風險性資料4、人員5、長期保存第七十七頁,共82頁。?????
向業務流程上游移動數字圖書館參與業務大循環與數據供應商合作與出版合作與企業合作我高興看到:CALIS啟動科學數據項目,中國科技
信息研究所啟動科技報告項目,國家圖書館啟動
國家記憶項目。我希望國家加大對這些項目的支
持力度。通過探索,積累經驗,為圖書館迎接大
數據時代做出貢獻!11/26/2012第七十八頁,共82頁。??????本演講參考了國內外作者的
著作,特此致謝![1]
Big
Data
:
The
Next
Frontier
for
Innovation,
Competition,
andProductive,
McKinsey
Global
Institute,
2011.5[2]
Big
Data
for
Development:
Challenges
&
Opportunities,
UN
GlobalPulse,
2012.5[3]Digital
Government:
Building
a
21st
Century
Platform
to
Better
Servethe
American
People,
the
office
of
Management
and
Budger,
2012.5[4]
Obama
Administration
Unveils
“Big
Data”Initiative:
Announces
$200Million
in
New
R&DInvestments,
Executive
Office
of
the
President,
2012.3[5]
Big
Data
Across
the
Federal
Government,
Executive
Office
of
thePresident,
2012.3?[6]Big
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 無購房款合同協議
- 2025年度建筑消防設施檢測維護合同協議
- 2025廣告合同調整協議范本
- 運沙居間合同協議
- 收購牛肉合同協議
- 設備銷售合同協議
- 秧苗買賣合同協議
- 涂料公司合同協議
- 治安調解協議書有誤
- 拓展基地合同協議
- 期中(試題)-2024-2025學年人教精通版(2024)英語三年級下冊
- 2025-2030中國煤焦油雜酚油行業市場發展趨勢與前景展望戰略研究報告
- 新版食品安全法培訓課件
- 2025年高考物理專項復習:電磁感應綜合題
- 第13課 亞非拉民族獨立運動 課件(共26張)2024-2025學年統編版高中歷史(必修)中外歷史綱要(下)
- 2020-2025年中國遼寧省風力發電行業發展潛力分析及投資方向研究報告
- 安全車輛測試題及答案
- (二模)咸陽市2025年高考模擬檢測(二)語文試卷(含答案)
- 2025高校教資《高等教育法規》核心備考題庫(含典型題、重點題)
- sl582-2012水工金屬結構制造安裝質量檢驗通則
- 行政事業單位財務知識培訓
評論
0/150
提交評論