




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據的產生、發展
談起大數據,我們的第一反應也許是互聯網、各種關于數據搜集的軟件以及中國政府、專家談及的大數據運用。比如,在研究一個社會問題中,關于數據方面,就會說“運用大數據技術,我們很容易得到這個結果”......
那么什么是大數據?大數據的運用又是什么?關于大數據的發展又是怎么樣的?在下面的內容里,會將大數據的起源,興盛做詳細的講述,希望每個同學在這個過程中真正的理解數據。
小數據之歷史
數據本無大小,但運用數據立場卻分出大小,是謂大數據。數據表示的是過去,但表達的是未來,所以觀察數據需要有歷史觀。當今美國的數據文化滲透在社會各個方面,呈現出高效,簡潔,以及秩序。這一切最早可以追溯到這個國家建立之初的數據分析要求,謂之初數時代。至此,在歷史的長河中一幅波瀾壯闊的宏偉畫卷驚艷了世界......初數時代:奠定共和克服民主的劣勢:用數據分權參眾兩院權利分衡:眾議院按人口比參議院每州兩名第一次人口普查:僅詢問家幾人、幾男幾女、幾黑幾白、幾大幾小,完全的“點人頭”。但在黑人問題上將
“
3∕5”寫入憲法,承認種族不平等。
第二次人口普查:學者建議收集“出生率、性別、年齡、婚姻狀況、健康、職業、壽命”但最終沒通過國會談論。1830年:統計每個家庭的殘疾人數。1840年:統計文盲、白癡、精神病患者數量以及各種牲畜的數量,農作物的產量。1850年:普查對象由家庭細化到個人。1860年:全國工廠、農場、學校、教堂的情況,教師、學生、雇員的多少都一一列入普查范圍1880年:普查全面改革,擴大為人口、出生死亡率、農業、社會、工業等五個部分。......美國成為世界上最早定期(10年)開展人口普查的國家,并因此開創了現代意義上的人口普查制度。初數時代:奠定共和
有數初成:共和反哺數據文化
1.人口普查從政治領域不斷擴張,蔓延政策制定,后是社會生活。
1794年,在美國黨政之爭初現端倪時,民間就出現了批判的聲音,主張通過“事實”和“數據”來營造共識、消除黨爭。其中當時的教育家諾亞·韋伯斯特和耶魯大學校長德懷特,他們主張:如果事實是制定政策的基礎、知識能夠在決策者之間營造共識,那么系統性收集數據的工作,就應該由政府親自來完成。
最終在志同道合者的呼吁之下,最終促使人口普查在19世紀逐漸推進到政策制定領域,在這個過程中,數據開始從政治精英走向平民大眾。
2.數學教育的普及,數據意識,數據文化逐步形成。
美國的建國者認為,共和國的目標不是愚民,而是培養有智識的公民。華盛頓、富蘭克林和杰斐遜便是其中的杰出代表。華盛頓的第一份工作是弗吉尼亞州的土地測量員,深知數據對于認識客觀世界的重要性,曾組織了美國的第一次農業調查。杰斐遜也曾做過土地測量員,除了是一名政治家還研究密碼學、測量學和考古學。在這樣一批建國者的推動下,數學教育很快在這個新生的國家普及。
3.改革貨幣體系,統一了重量和測量單位。
1831年,法國的史學家、政治家托克維爾在《論美國的民主》中寫到“美國人已經習慣了精確的計算”,“他們喜歡秩序井然,沒有秩序,事業就不能發達。他們特別重視信譽,信譽是生意健康發展的基礎。他們的大腦已經習慣于精確的計算,按常規辦事也在他們的頭腦中扎根。同一時期,英國哲學家托馬斯·漢密爾頓在《美國人及其作風》中總結“我認為,在這群不斷猜測、估算、預期和計算的美國人當中,算數就像是一種與生俱來的本能。”
比如在1825年,費城的一名醫生統計了7077名新生兒的重量,并制作了一張重量分布表,發給新生兒的母親,以方便她們對比掌握自己孩子的情況。初數時代:奠定共和
從1787年到19世紀30年代,這一階段認為是美國數據歷史的初數時代,這是個孕育的時代,可謂是有數初成。在這個時代,數據好比漣漪,靜靜在歷史長河上靜靜地泛起波紋,把千千萬萬普通人卷進它的暈圈,沖刷,洗滌,浸泡,使其成為具有數據意識的公民個體。內戰時期:終結奴隸制的燈塔用數據遠征:謝爾曼將軍的“向大海進軍”主動切斷自己后方補給,帶領全體部隊全力突進、穿越整個佐治亞州。他試圖以數據為“航標”,根據農場、牲畜、集市、車站等重要資源在各地的分布,精心計算,確定最佳的行軍路線和在各地的停留時間,沿著這條線路,部隊在當地完成補給,遭遇敵方最少的阻擊。這被后世歷史學家認為整個南北戰爭中“最為大膽、最為關鍵的一次行動”,是戰爭后期重要的轉折點,也被稱為“毀滅之路”。
向大海進軍
兵家與“向海洋進軍”
自古中國多良將,也有運用數據的經典案例。孫臏減灶,破龐涓于馬陵;虞詡疑兵,平羌軍于西涼;林彪臨戰,細查殲敵繳獲......但較之謝爾曼以數據行軍千里,決勝沙場,均有不及。這正是因為謝爾曼有數據可用,他人給他提供了大量數據。這種“有數據可用”,源于美國建國之后就開始的、長期的、周期的努力以及強大的制度保障。有沒有這種制度化的數據體系,才是近代美國將軍和中國將軍在數據使用方面拉開差距的根本原因。數據不僅僅應該是一種計算、科技符號,更應該是文化符號。爆發:鍍金時代的崛起世紀巔峰:大數據驅動的創新
1870美國歷史上出現第一件用于數據處理工作的機械設備——西頓制表機。可以同步查閱各張問卷上相應的數據,大大方便了制表工作。1890年,年輕的霍爾瑞斯打開了數據自動化處理的大門;在他的基礎上,IBM隨之開啟了一個打孔卡片的新時代;1951年,人口普查產生的大數據又促成了第一臺商用計算機的誕生......這些成就,最終引領美國在全世界率先邁入了信息時代。
抽樣時代:統計革命的福祉
最初的數據調查主要的目標是追求被調查群體的“大”,當時大家都相信,只有更大,才能更準。但隨著時間推移這種方法的效率較低以及費用大的缺點的暴露,人們開始尋求新的調查方法。
抽樣時代:統計革命的福祉
1895年,有學者提出抽樣的觀點,認為只要方法得當,就可以從總體當中抽出一部分有代表性的個體,通過研究部分個體的特點,從而推斷出整體的屬性,類似中國人所說的“一斑窺豹”、“一葉知秋”。抽樣調查很快便被證實實際可用性。蓋洛普在1936~2012年19次總統大選預測中,成功預測17次轟動全球。和《亂世佳人》共舞1936年在《亂世佳人》開拍之前,好萊塢對這本暢銷小說看法不一,甚至一度有流拍的趨勢。原因是在好萊塢出品的以南北戰爭為題材的電影全部虧本,沒有任何一部賺錢。為了知道這部小說在美國民眾的流行程度(雖然他們大概估計已有200~300萬),好萊塢的電話打到了蓋洛普的公司,用數據證明《亂世佳人》到底有多流行。一周之后,他告訴對方,此書非常流行,每10個受訪者中,就有8個表示聽說過這本書。1937年1月,蓋洛普非常肯定的告訴制片人《亂世佳人》已經成為美國有史以來最流行的小說,有1400萬美國人讀過,其流行程度僅次于《圣經》。
但在電影時長、是否分為上下兩集、黑色還是彩色,再到演員選取、廣告設計,制片人、劇組、發行商吵成一團。特別是制片人選定英國人費雯·麗飾演女主角后,引起了更大的爭議。因為涉及美國獨立,黑奴解放等重大歷史事件,部分南方人認為請外國人有失國格。制片人委托蓋洛普調查爭議問題的方方面面。通過兩年的調查,結果表明,大部分人不反對它分為上下兩集;60%的觀眾想看彩色電影;35%的受訪者對女主角的人選表示滿意,遠遠高于不滿意的比率(16%)。拍攝方在重大問題的決策中幾乎全部聽取了蓋洛普的意見。最后,蓋洛普給片方的結論是,這部電影將有5650萬觀眾,其人數之多,將創有史以來的電影之最。但對于這個數據卻沒有一個人當真。
最后,通過4輪上線,《亂世佳人》一共售出了5997萬張電影票,票房毛收入為3400萬美元,而1940年美國的人口普查結果為1.3億人口,也就是說,全國近一半的人觀看了這部電影。正如正如了蓋洛普預測的那樣,這部影片成為美國歷史上迄今為止最成功的電影。電影獲得了1940年最佳影片,最佳女主角等十項奧斯卡大獎,這部小說也因為注重史實,獲得1937年的普利策小說獎。
蓋洛普成功的法寶就是“科學抽樣”,他沒有盲目地大面積調查,而是根據民眾的人口特點,確定家庭主婦、工人、農民、老人、中年人、年輕人等各色人群在樣本中應該占有的份額,再確定電話訪問,郵件訪問,街頭訪問等各種調查方式所占的比例。由于樣本找的準,所以能以“小”見“大”。抽樣時代:統計革命的福祉
通過美國波瀾壯闊的的數據文化發展,我們對傳統的數據(小數據)有了一定的認識。一個數據治國的理念需要幾十年甚至是幾百年的發展但對數據的使用并不如此。中國現在正處于數據化浪潮之中,何去何從,關鍵在于對大數據的利用。
大數據=傳統的小數據+現代的大記錄(源于測量)(源于記錄)
大數據的崛起
每個國家都在追求一條自己的道路,這條道路,根植于這個國家人民的文化中。開放的經濟、開放的社會和開放的政府,是人類社會之所以能夠進步最深厚、最強大的基礎。
——奧巴馬,在聯合國大會的演講,2014.09
開放時代:內開放的歷程
內開放也就是國家內部的“人、財、物、信息”對社會開放。這關系到公民的自由、權利,也是政府管理社會、調控市場、服務經濟的發展的有效手段。在數據的時代里,數據將成為重要的生產資料和創新資源,內開放的程度,也將決定一個國家的發展動力,一個社會的創新的活力。開放時代:內開放的歷程內開放1.01960年代信息自由運動數據承載知情權內開放2.01980年代環保運動數據制衡企業,數據公開成為政府管理手段內開放3.02000時代美國社會經歷的內開放三部曲數據開放運動數據服務經濟、創造就業,推動技術進步LEHD項目:開放數據的使用權LEHD(工作單位和家庭住址的縱向動態系統)工作職位數據個人數據工作單位數據通過整合,實現了以下目標:?首次把個人住址和個人單位地址聯系在一起?可以查詢同一街區內有多少雇員上班,為科學估算白日人口打下了基礎?可以追蹤每個公司的雇員數量幾流動來源于州政府的勞工部門?行業、類別?公司職工數量?公司地址來源于州政府的勞工部門?失業保險?社會保險?報稅記錄主要來源于人口普查局和社會保險局?年齡、性別、種族?個人住址
LEHD項目的數據來源和三級政府的數據整合框架
從2006年起,普查局為LEHD開發了一個基于地圖的互動式界面——OnTheMap,無償提供給大眾使用。只要有一根網線,無論你在世界的哪一個角落,也無論你是哪國人士,甚至無需注冊,你都可以隨時登陸,查詢這些數據。LEDH的真正強大之初,還在于其數據分析的粒度,它可以按地區、郵編、選區、人口普查的片區等各層單位對數據進行層層下鉆,甚至連一個居民街區的人口情況都能分析出來。
本街區工作人員來源的方向和距離位置
除了這些分析,LEHD系統還有一個最大的特點,即提供以時間為跨度的縱向數據分析,這也是該系統被稱為“縱向動態”的原因。假如你是小區的管理者和研究者,通過這個系統,你可以輕松的獲得關于檢測地區工作職位和居民人口的變化。
開放時代:內開放的歷程
數據開放正在從公共領域向商業領域滲透和推進,尤其是商業領域的數據開放,將減少市場運行中的信息不對稱,鼓勵正面的市場競爭,優化社會資源配置,降低社會運行的成本。在大數據時代,數據就是最重要的生產資料,數據在全社會的自由流動,就代表著生產資料的盤活,知識和創新的自由和流動,內開放3.0將催生人類歷史上前所未有的開放社會。大數據時代:通往計算型的智能社會大數據摩爾定律社交媒體數據挖掘人類保存數據的能力增強人類生產數據的能力增強人類使用數據的能力增強價值維度容量維度大數據大數據大數據大容量非結構化數據現代的大數據大價值結構化數據傳統的小數據大數據的概念和維度9、春去春又回,新桃換舊符。在那桃花盛開的地方,在這醉人芬芳的季節,愿你生活像春天一樣陽光,心情像桃花一樣美麗,日子像桃子一樣甜蜜。4月-254月-25Friday,April11,202510、人的志向通常和他們的能力成正比例。16:39:5216:39:5216:394/11/20254:39:52PM11、夫學須志也,才須學也,非學無以廣才,非志無以成學。4月-2516:39:5216:39Apr-2511-Apr-25
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025全球貸款卓越合同模板
- 2025采購合同范本協議書
- 2025買賣合同違約范文
- 《智能穿戴設備裝配工藝培訓課件》
- 2025臨時勞動合同
- 北京市政府投資信息化項目全流程用戶培訓規劃備案
- 2025年大型娛樂設施服務項目合作計劃書
- 甲苯管路施工方案
- 景觀苔蘚施工方案
- “營改增”新政要點及對房地產業影響
- 中華民族節日文化知到課后答案智慧樹章節測試答案2025年春云南大學
- 《政府采購管理研究的國內外文獻綜述》5500字
- 糖尿病護理查房提出問題
- 回收設施布局與優化-深度研究
- 2024年國網浙江省電力有限公司招聘考試真題
- 微專題2 質量守恒定律的應用(解析版)
- 分析化學考試題(附參考答案)
- 廣東省廣州市越秀區2025年中考一模歷史模擬試題(含答案)
- 森林無人機滅火技術集成-深度研究
- 股份轉讓協議模板
- 利他思維培訓課件
評論
0/150
提交評論