數據挖掘-r語言應用_第1頁
數據挖掘-r語言應用_第2頁
數據挖掘-r語言應用_第3頁
數據挖掘-r語言應用_第4頁
數據挖掘-r語言應用_第5頁
免費預覽已結束,剩余29頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

R語言應用梁妙玲2014年1月15日目錄應用領域介紹優勢和劣勢如何應用R語言簡介介紹圖形R是一門用于統計計算和作圖的語言,它不單是一門語言,更是一個數據計算與分析的環境。統計計算領域有三大工具:SAS、SPSS、S,R正是受S語言和Scheme語言影響發展而來。最主要的特點:免費、開源、各種各樣的模塊十分齊全,在R的綜合檔案網絡CRAN中,提供了大量的第三方功能包,其內容涵蓋了從統計計算到機器學習,從金融分析到生物信息,從社會網絡分析到自然語言處理,從各種數據庫各種語言接口到高性能計算模型。名稱優點缺點是否開源典型用戶R代碼庫支持,可視化深入的學習曲線是金融,統計Matlab優秀的矩陣計算,可視化費用貴,不完全支持統計否工程SciPyPython不成熟是工程Excel容易,可視化操作大數據集否商業SAS大數據集貴,過時的編程語言否商業,政府Stata簡單的統計分析否科學SPSS和Stata很像,但是更加貴,而且差表上可以看出主要是兩大陣營:更加面向編程的解決方案,R,matlab和python;面向分析的解決方案,Excel,SAS,Stata和SPSS。python“不成熟”:matplotlib,numpy和scipy都是獨立的代碼包,它們往往不在一起。matlab語言是很弱的語言matlab是最好的開發新的數學算法的工具,在機器學習方面非常流行。SPSS和Stata是一個類型的SPSS和Stata主要適合科學計算SAS主要是一些比較早的從事數據相關工作的群體使用R的內存限制可以通過mysql來處理,或者運用機器集群來運算處理SAS在處理圖形方面的能力有限R具有很強的可視化能力Excel擁有龐大的用戶群數據分析包的比較:R,Matlab,SciPy,Excel,SAS,SPSS,Stata如何導入數據如何找到合適的函數R有上千個PACKAGE,數函數

以LASSO為例獲取R的幫助什么是LASSO?1.LASSO是最小二乘法的一種推廣2.LASSO是一種具有穩健性的方法

對各種干擾因素的抵抗能力,也叫魯棒性3.LASSO可以做變量選擇如何找到合適的函數

如何找到合適的函數如何找到合適的函數如何找到合適的函數如何找到合適的函數如何找到合適的函數如何找到合適的函數如何找到合適的函數程序包菜單從本地zip安裝程序包;

加載程序包R資源1.R主頁:2.RGraphGallery:3.R的接口函數庫:4.Emacs+ESS:5.GOOGLEVISUALIZATIONAPI:

online/6.GooglereaderR資源-RGraphGalleryR資源-R接口函數

1.R+Googletrend2.R+MATLAB3.R+NYTimeR資源-EMACS+ESSR資源-googlevisualizationapi其他RandHadoop

大數據資訊R語言為Hadoop集群數據統計分析帶來革命性變化

()

R+Hadoop=DataAnalyticsHeavenusing

()

UsingRevolutionRenterprisewithapacheHadoopfor'BigAnalytics'

()

UsingRWithHadoop

()

RandStreamingfromHadoopinPractice

()貝葉斯貝葉斯推理開飛高能化學計量學和計算物理臨床試驗設計,監測和分析聚類的聚類分析和有限混合模型微分方程微分方程分布概率分布計量經濟學計量經濟學計算生態和環境數據的分析實驗設計實驗數據(DOE)及分析金融實證金融遺傳學統計遺傳學圖形圖形顯示和動態圖形與圖形設備和可視化高性能和并行計算與R機器學習和統計學習醫學圖像分析元數據分析多因素多元統計自然語言處理數值計算辦公統計與調查方法優化優化和數學規劃藥代動力學數據的藥代動力學分析系統發育系統發育,尤其是比較方法心理測試心理模型與方法重復性研究強大的穩健統計方法統計社會科學空間數據的空間分析時空處理和分析時空數據生存生存分析時間序列時間序列分析Web技術和服務GR圖形模型R中應用領域京東案例R語言還應用在?集群數據的調度清洗?建模過程中的數據預處理?統計分析和建模?數據可視化?算法的原型實現京東案例一般工作流程1.通過Hive集群獲取目標數據2.在R環境下進行數據預處理3.R環境下分析建模(FeatrueSelection,Benchmark)4.評估(離線評估和分流量測試)5.線上集成(R,HiveQL,Java,C++,Python...)京東案例數據的流動

京東案例涉及數據挖掘技術和相關的R包?數據傳遞及服務(RHive、RServe、rJava、RJDBC)?清洗及預處理(sqldf、stringr、XML)?抽樣、預測、分類、關聯規則、特征選擇、稀疏矩陣運算、矩陣分解、社交網絡、分詞等?高性能計算(rhdfs、rmr2、Rcpp)?其他京東案例挖掘模型服務對象?在線廣告優化?在線商品推薦?搜索詞優化?郵件營銷?移動客戶端?活動及促銷推送?開放平臺的PoP商戶項目中的應用參考資料

(應用介紹)(中文社區)(中文社區)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論