


版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
實戰:如何進行大數據的入門級學習?
但從狹義上來看,我認為數據科學就是解決三個問題:1.datapre-processing;(數據預處理)2.datainterpretation;(數據解讀)3.datamodelingandanalysis.(數據建模與分析)這也就是我們做數據工作的三個大步驟:1、原始數據要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的數據;2、我們想看看數據“長什么樣”,有什么特點和規律;3、按照自己的需要,比如要對數據貼標簽分類,或者預測,或者想要從大量復雜的數據中提取有價值的且不易發現的信息,都要對數據建模,得到output。這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經驗來看,按照這個大思路走,數據一般不會做跑偏。這樣看來,數據科學其實就是門復合型的技術,既然是技術就從編程語言談起吧,為了簡練,只說說R和Python。但既然是薦數據科學方面的書,我這里就不提R/Python編程基礎之類的書了,直接上跟數據科學相關的。Rprogramming如果只是想初步了解一下R語言已經R在數據分析方面的應用,那不妨就看看這兩本:Rinaction:我的R語言大數據101。其實對于一個沒有任何編程基礎的人來說,一開始就學這本書,學習曲線可能會比較陡峭。但如果配合上一些輔助材料,如官方發布的Rbasics(/doc/contrib/usingR.pdf),stackoverflow上有tag-R的問題集(Newest‘r’Questions),遇到復雜的問題可在上面搜索,總會找到解決方案的。這樣一來,用這本書拿來入門學習也問題不大。而且這本書作者寫得也比較輕松,緊貼實戰。DataanalysisandgraphicsusingR:使用R語言做數據分析的入門書。這本書的特點也是緊貼實戰,沒有過多地講解統計學理論,所以喜歡通過情境應用來學習的人應該會喜歡這本入門書。而且這本書可讀性比較強,也就是說哪怕你手頭沒電腦寫不了代碼,有事沒事拿出這本書翻一翻,也能讀得進去。但如果你先用R來從事實實在在的數據工作,那么上面兩本恐怕不夠,還需要這些:ModernappliedstatisticswithS:這本書里統計學的理論就講得比較多了,好處就是你可以用一本書既復習了統計學,又學了R語言。(S/Splus和R的關系就類似于Unix和Linux,所以用S教程學習R,一點問題都沒有)DatamanipulationwithR:這本書實務性很強,它教給你怎么從不同格式的原始數據文件里讀取、清洗、轉換、整合成高質量的數據。當然和任何一本注重實戰的書一樣,本書也有豐富的真實數據或模擬數據供你練習。對于真正從事數據處理工作的人來說,這本書的內容非常重要,因為對于任何研究,一項熟練的數據預處理技能可以幫你節省大量的時間和精力。否則,你的研究總是要等待你的數據。RGraphicsCookbook:想用R做可視化,就用這本書吧。150多個recipes,足以幫你應付絕大多數類型的數據。以我現在極業余的可視化操作水平來看,R是最容易做出最漂亮的圖表的工具了。AnintroductiontostatisticallearningwithapplicationinR:這本書算是著名的theelementofstatisticallearning的姊妹篇,后者更注重統計(機器)學習的模型和算法,而前者所涉及的模型和算法原沒有后者全面或深入,但卻是用R來學習和應用機器學習的很好的入口。AhandbookofstatisticalanalysisusingR:這本書內容同樣非常扎實,很多統計學的學生就是用這本書來學習用R來進行統計建模的。PythonThinkPython,ThinkStats,ThinkBayes:這是AllenB.Downey寫的著名的ThinkXseries三大卷。其實是三本精致的小冊子,如果想快速地掌握Python在統計方面的操作,好好閱讀這三本書,認真做習題,答案鏈接在書里有。這三本書學通了,就可以上手用Python進行基本的統計建模了。PythonForDataAnalysis:作者是pandas的主要開發者,也正是Pandas使Python能夠像R一樣擁有dataframe的功能,能夠處理結構比較復雜的數據。這本書其實analysis講得不多,說成數據處理應該更合適。掌握了這本書,處理各種糟心的數據就問題不大了。IntroductiontoPythonforEconometrics,StatisticsandDataAnalysis:這本書第一章就告訴你要安裝Numpy,Scipy,Matplotlib,Pandas,IPython等等。然后接下來的十好幾章就是逐一介紹這幾個庫該怎么用。很全面,但讀起來比較枯燥,可以用來當工具書。PracticalDataAnalysis:這本書挺奇葩,貌似很暢銷,但作者把內容安排得東一榔頭西一棒子,什么都講一點,但一個都沒講透。這本書可以作為我們學習數據分析的一個索引,看到哪塊內容有意思,就順著它這個藤去摸更多的瓜。PythonDataVisualizationCookbook:用Python做可視化的教材肯定不少,我看過的也就這一本,覺得還不錯。其實這類書差別都不會很大,咬住一本啃下來就是王道。ExploratoryDataAnalysis和DataVisualizationExploratoryDataAnalysis:JohnTukey寫于1977年的經典老教材,是這一領域的開山之作。如今EDA已經是統計學里的重要一支,但當時還是有很多人對他的工作不屑一顧。可他愛數據,堅信數據可以以一種出人意料的方式呈現出來。正是他的努力,讓數據可視化成為一門無比迷人的技術。但這本書不推薦閱讀了,內容略過時。ExploratoryDataAnalysiswithMATLAB:這本書雖然標題帶了個MATLAB,但實際上內容幾乎沒怎么講MATLAB,只是每講一個方法的時候就列出對應的MATALB函數。這本書的重要之處在于,這是我讀過的講EDA最系統的一本書,除了對visualization有不輸于JohnTucky的講解外,對于高維的數據集,通過怎樣的方法才能讓我們從中找到潛在的pattern,這本書也做了詳盡的講解。全書所以案例都有對應的MATALB代碼,而且還提供了GUI(圖形用戶界面)。所以這本書學起來還是相當輕松愉悅的。VisualizeThis:中譯本叫“鮮活的數據”,作者是個“超級數據迷”,建立了一個叫的網頁展示他的數據可視化作品,這本書告訴你該選擇什么樣的可視化工具,然后告訴你怎樣visualize關系型數據、時間序列、空間數據等,最后你就可以用數據講故事了。如果你只想感受一下數據可視化是個什么,可以直接點開下面這個鏈接感受下吧!Atourthroughthevisualizationzoo(ATourThroughtheVisualizationZoo)MachineLearning&DataMining這一塊就不多說了,不是因為它不重要,而是因為它太太太重要。所以這一部分就推兩本書,都是”世界名著“,都比較難讀,需要一點點地啃。這兩本書拿下,基本就算是登堂入室了。其實作為機器學習的延伸和深化,概率圖模型(PGM)和深度學習(deeplearning)同樣值得研究,特別是后者現在簡直火得不得了。但PGM偏難,啃K.Daphne那本大作實在太燒腦,也沒必要,而且在數據領域的應用也不算很廣。deeplearning目前工業界的步子邁得比學術界的大,各個domain的應用如火如荼,但要有公認的好教材問世則還需時日,所以PGM和deeplearning這兩塊就不薦書了。TheElementofStatisticalLearning:要學機器學習,如果讓我只推薦一本書,我就推薦這本巨著。Hastie、Tibshirani、Friedman這三位大牛寫書寫得太用心了,大廈建得夠高夠大,結構也非常嚴謹,而且很有前瞻性,納入了很多前沿的內容,而不僅僅是一部綜述性的教材。(圖表也做得非常漂亮,應該是用R語言的ggplot2做的。)這本書注重講解模型和算法本身,所以需要具備比較扎實的數理基礎,啃起這本書來才不會太吃力。事實上掌握模型和算法的原理非常重要。機器學習(統計學習)的庫現在已經非常豐富,即使你沒有完全搞懂某個模型或算法的原理和過程,只要會用那幾個庫,機器學習也能做得下去。但你會發現你把數據代進去,效果永遠都不好。但是,當你透徹地理解了模型和算法本身,你再調用那幾個庫的時候,心情是完全不一樣的,效果也不一樣。DataMining:ConceptsandTechniques,byJiaweiHanandMichelineKamber數據挖掘的教材汗牛充棟,之所以推薦這本韓家煒爺爺的,是因為雖然他這本書的出發點是應用,但原理上的內容也一點沒有落下,內容非常完整。而且緊跟時代,更新的很快,我看過的是第二版,就已經加進去了socialnetworkanalysis這種當時的前沿內容。現在已經有第三版了,我還沒看過,但應該也加入了不少新內容。其實這本書并不難讀,只是篇幅較長,啃起來比較耗時。其實這兩本書里單拎出來一塊內容可能又是幾本書的節奏,比如bayesian方法,再拿出兩三本書來講也不為過,我個人用到的比較多,而且也確實有不少好書。但并非是所有datascientist都要用到,所以這一塊就不再細說。還有一些印象比較深刻的書:?BigDataGlossary:主要講解大數據處理技術及工具,內容涵蓋了NoSQL,MapReduce,Storage,Servers,NLP庫與工具包,機器學習工具包,數據可視化工具包,數據清洗,序列化指南等等。總之,是一本辭典式的大數據入門指導。MiningofMassiveDatasets:這本書是斯坦福大學WebMining的講義,里面很多內容與韓家煒的DataMining那本書重合,但這本書里詳細地講了MapReduce的設計原理,PageRank(Google創業時期的核心排序算法,現在也在不斷優化更新)講解得也比較詳細。DevelopingAnalyticTalent:作者是個從事了十幾年數據工作的geek,技術博客寫得很有個人風格,寫的內容都比較偏門,通常只有具備相關數據處理經驗的人能體會出來,絲毫不照顧初學者的感受。比如他會談到當數據流更新太快時該怎么辦,或者MapReduce在什么時候不好用的問題,才不管你懂不懂相關基礎原理。所以這本書不太適合初學者閱讀。這本書其實是作者的博客文章的集結,用howtobecomeadatascientist的邏輯把他近幾年的博客文章串聯了起來。Past,PresentandFutureofStatisticalScience:這本書是由COPSS(統計學社主席委員會,由國際各大統計學會的帶頭人組成)在50周年出版的一本紀念冊,里面有50位統計學家每人分別貢獻出的一兩篇文章,有的回憶了自己當年如何走上統計學這條路,有的探討了一些統計學的根本問題,有的談了談自己在從事的前沿研究,有的則給年輕一代寫下了寄語。非常有愛的一本書。其它資料HarvardDataScience:這是H大的Datascience在線課,我沒有修過,但口碑很好。這門課需要費用8千刀左右,比起華盛頓大學的4千刀的Datascience在線課雖貴一倍,但比斯坦福的14千刀要便宜將近一半(而且斯坦福的更偏計算機)。如果想自學,早有好心人分享了slides:(/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing)和homeworksandsolutions:(/cs109/content)PyData:PyData是來自各個domain的用Python做數據的人每年舉行一次的聚會,期間會有各路牛人舉行一些規模不大的seminar或workshop,有好心人已經把video上傳到github,有興趣的去認領吧(DataTau/datascience-anthology-pydata·GitHub)工具R/Python/MATLAB(必備):如果是做數據分析和模型開發,以我的觀察來看,使用這三種工具的最多。R生來就是一個統計學家開發的軟件,所做的事也自然圍繞統計學展開。MATLAB雖然算不上是個專業的數據分析工具,但因為很多人不是專業做數據的,做數據還是為了自己的domainexpertise(特別是科學計算、信號處理等),而MATLAB又是個強大無比的Domainexpertise工具,所以很多人也就順帶讓MATLAB也承擔了數據處理的工作,雖然它有時候顯得效率不高。Python雖然不是做數據分析的專業軟件,但作為一個面向對象的高級動態語言,其開源的生態使Python擁有無比豐富的庫,Numpy,Scipy實現了矩陣運算/科學計算,相當于實現了MATLAB的功能,Pandas又使Python能夠像R一樣處理dataframe,scikit-learn又實現了機器學習。SQL(必備):雖然現在人們都說傳統的關系型數據庫如Oracle、MySQL越來越無法適應大數據的發展,但對于很多人來說,他們每天都有處理數據的需要,但可能一輩子都沒機會接
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電氣發電廠試題及答案
- 系統架構設計師架構調整技巧探討試題及答案
- 并購投資面試題及答案
- 深入分析育嬰師考試中家庭文化對育兒的影響試題及答案
- 教師教學策略對學生行為的影響試題及答案中小學資格筆試
- 職業生涯規劃2025年衛生執業考試試題及答案
- 2025-2030客戶通信管理軟件行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030寵物罐頭行業市場發展現狀及競爭格局與投資戰略研究報告
- 2025-2030媒體處理器行業市場現狀供需分析及投資評估規劃分析研究報告
- 2025-2030圓柱鎖行業市場現狀供需分析及投資評估規劃分析研究報告
- 神經外科圍手術期
- 鋼結構光伏施工方案
- 舌后墜術后護理個案
- 樊昌信通信原理課后答案
- 創業思維-創造你喜愛的人生(浙江旅游職業學院)知到智慧樹答案
- 2024年10月自考03709馬克思主義基本原理概論試題及答案含解析
- 《數字中國建設整體布局規劃》解讀報告
- 智慧旅游平臺運營方案
- 《石油化工金屬管道布置設計規范》SHT3012-2011
- 《斷層解剖學》期末考試復習題庫(含答案)
- 2024版口腔癌術后口腔沖洗技術培訓課件
評論
0/150
提交評論