r在傳統行業的應用案例_第1頁
r在傳統行業的應用案例_第2頁
r在傳統行業的應用案例_第3頁
r在傳統行業的應用案例_第4頁
r在傳統行業的應用案例_第5頁
已閱讀5頁,還剩35頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、COS play RR 在傳統行業的應用案例李艦R 語言會議(大學第九屆)2015 年 05 月 28 日R9th1 / 31工具簡介 案例工具簡介 案例目 錄1工具簡介初級分析工具分析環境大數據平臺2案例R9th2 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例目 錄1工具簡介初級分析工具分析環境大數據平臺2案例R9th2 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例常用統計SPSS最受歡迎的統計之一,界面親和、操作簡單2009 年 7 月被以 12 億收購SPSS 的創始人之一 Norman H. Nie 在 SPSS 被收購后出任Revolution Analyti

2、cs 的 CEOS-PLUSMathSoft 公司 1993 年獲取 S 語言的排他使用權,推出了統計S-PLUS2001 年,MathSoft 總部搬到西雅圖,并改名為 Insightful2004 年,Insightful 以 200從朗訊科技手中購買了 S語言的所2008 年,Insightful 被 TIBCO 以 2500 萬被整合到 Spotfire 中其他統計收購,S-PLUSGAUSS、Stata、Eviews、Minitab、STATISTICA 等統計都曾紅極一時,不過在大數據下日漸式微R9th2 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例商業 BI 及數據可

3、視化系統BI 工具BO,曾經的巨頭,2007 年 10 月被 SAP 以 68 億收購BIEE,Oracle 的 BI 解決方案,2007 年 3 月 Oracle 以 33 億收購了 Hyperion 之后融合到了一起Cognos,2007 年 11 月被以 50 以收購Microstrategy,巨頭合并后剩下的最大的BI 公司QlikView,近年來增長最快的 BI,極其靈活而強大永洪 BI,國內崛起的 BI 廠商,2015 年 1 月融到 5000 萬元A+ 輪,12 月融到 1 億元 B 輪數據分析及可視化工具 Tableau,目前勢頭最猛的可視化工具,價格便宜功能強大, 接口方面非

4、常靈活JMP,SAS 旗下的統計,聚焦于數據交互與可視化Excel,使用最廣泛的數據分析和可視化工具,通過 VBA 擴展還能變成強大的分析環境R9th3 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例開源的 BI 和數據可視化解決方案數據抽取轉換加載(ETL)Kettle,最受歡迎的基于 Java 的 ETL 工具,已經整合到Pentaho 項目Talend,靈活的 ETL 工具,圖形界面基于 Eclipse基于 OLAP 的分析使用 Pentaho 旗下的 Mondrian 作為 OLAP 引擎使用 Saiku 進行前端展現可以使用 R 等語言自動建立 Cube,參考數據可視化采用

5、 HTML5 JavaScript 實現ECharts 之類的優秀開源工具:R9th4 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例Weka簡介Weka 是 Waikato 智能分析環境的縮寫來自于新西蘭, Weka 也是新西蘭秧雞的英文名遵循 GPL 協議, 目前已整合到Pentaho 項目和安裝.nz/ml/weka/根據操作系統最新版,如果系統已安裝 JRE ,可以無JRE 的版本雙擊默認安裝即可來自于 Witten 和 Frank 著作的配套Data Mining: Practical Machine Learning Tools and Techniques數據挖掘:實用

6、機器學習技術R9th5 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例RapidMiner和安裝簡介2001 年誕生于德國多特蒙德工業大學 2013 年總部遷到開源版本遵循AGPL-3.0 協議同時支持商業協議需要提前安裝 JRE 環境雙擊默認安裝即可當前最受歡迎的開源析平臺性分內置了豐富的數據挖掘和機器學習算法可以使用方面的圖形界面和拖曳操作進行復雜的建模R9th6 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例KNIME簡介和安裝2004 年開始于德國康斯坦茨大學,2006 年發布了第一個版本最早廣泛應用于制藥業,后來發展到很多其他行業開源版本遵循 GPLv3基于 Ja

7、va,需要提前安裝JRE 環境靈活的分析平臺可以在 Eclipse 環境下進行操作,通過插件的方式進行擴展內置了很多機器學習和數據挖掘的算法,能夠方便地通過圖形建模進行 ETL 和建模協議企業版需要付費R9th7 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例目 錄1工具簡介初級分析工具分析環境大數據平臺2案例R9th8 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例2015 年 KDNuggets 的調查2015 年你在數據分析/數據挖掘/數據科學工作中使用的最主要的編程語言是什么?該項調查于 2015 年 7 月進行,共有 512 人參與了投票R 語言得票率 51%,連

8、續 4 年排名第一得票率 29%,其他語言(Java、Scala 等)得票率 17%、SAS、在過去的一年里你在實際項目中用到的數據分析/大數據/數 據挖掘/數據科學或工具有哪些?該項調查于 2015 年 5 月進行,共有 2759 人參與了投票R 語言得票率 46.9%,排名第一,超過了 2014 年的冠軍RapidMinerRapidMiner 得票率為 31.5%,排名第二;SQL 排名第三; 排名第四;Excel 排名第五R9th8 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例2014 年 KDNuggets 的調查2014 年你在數據分析/數據挖掘/數據科學工作中使用過的

9、編程語言或者統計語言有哪些?該項調查于 2014 年 8 月進行,共有 719 人參與了投票R 語言得票率 49%,排名第一SAS 排名第二; 名第五排名第三;SQL 排名第四;Java 排在過去的一年里你在實際項目中用到的數據分析/數據挖 掘/數據科學或工具有哪些?該項調查于 2014 年 5 月進行,共有 3285 人參與了投票R 語言得票率 38.5%,排名第二RapidMiner 得票率為 44.2%,排名第一Excel 排名第三;SQL 排名第四;排名第五R9th9 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例常用分析環境R統計學家發明的編程語言,擅長統計建模,數據分析相

10、關的第資源非常豐富編程語言與主流計算機程序語言差別比較大,運算性能不是 很高靈活而高效的編程語言,計算機背景的分析師比較喜歡,數據分析相關的第資源比較豐富數據處理能力非常強,分析能力相對較弱SAS數據分析領域的傳統霸主,主流的商業傳統的編程語言比較古老、不靈活,圖形也不美觀,但在最 新的版本中都得到了改進在過去其內存外計算的能力可以高效地分析大量數據是其傳統優勢,不過在如今大數據大數據成了其弱點下并行編程比較弱難以處理R9th10 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例目 錄1工具簡介初級分析工具分析環境大數據平臺2案例R9th11 / 31初級分析工具 分析環境 大數據平臺

11、工具簡介 案例數據型數據庫商業,Oracle、MS SQL Server、DB2、Teradata 等PostgreSQL MySQL/MariaDBNoSQL 數據庫MongoDB Cassandra RedisHadoop 平臺上的數據庫/數據倉庫Hbase HiveR9th11 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例大數據分析的軟硬件框架服務器硬件方面,目前來說基于 X86 架構的 PC Server 是主流,大型服務器的需求逐漸是未來的趨勢,基于專門的計算的機器可能方面,通常使用 CentOS、Ubuntu 等開源操作系統基于 CPU目前常見應用中,使用 Hadoop

12、 Hive 作為數據倉庫,并通過 MapReduce 框架實現數據處理和常用的分析使用 Apache Kylin 實現 BI 分析使用 Spark SparkR 實現實時的大數據分析基于 GPUCUDA 接口mxnet、Tensor Flow 等機器學習/深度學習框架R9th12 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例常用的深度學習框架Theano應用最廣泛的深度學習包性能不是很好,調試比較麻煩caffeUC Berkeley 的賈揚清團隊開發,2013 年 12 月正式開源基于 C+ 的框架,提供了安裝配置比較麻煩Tensor FlowGoogle 開發的深度學習系統,20

13、15 年 11 月正式開源和接口基于 C+ 的框架,提供了速度比較慢MXnet目前勢頭最勁的開源深度學習框架, 發,2015 年 9 月發布基于 C+ 的框架,提供了 R、其算法框架 xgboost 比較,xgboost 獲得了 2015 年 Chambers 獎接口和 DMLC 團隊開、Julia 等接口開發的 R 包和R9th13 / 31初級分析工具 分析環境 大數據平臺工具簡介 案例目 錄1工具簡介2案例制藥食品零售快消其他R9th14 / 31制藥 食品 零售快消 其他工具簡介 案例目 錄1工具簡介2案例制藥食品零售快消其他R9th14 / 31制藥 食品 零售快消 其他工具簡介 案

14、例制藥業概況什么是藥?通常是指西藥,主要是基于化合物的藥的研發階段主要研究作用到后的各種反應中藥是很復雜的混合物,研究的難度比較高藥的市場整個制藥行業,每年的銷售額大約為 6 萬億元每年新藥研發花費的成本約為 1 萬億元每款能面市的新藥的平均研發時間是 12 年平均每款的研發成本約為 50 億元中篩選的化合物只有大約 1/1000 能夠進入到驗階段試R9th14 / 31制藥 食品 零售快消 其他工具簡介 案例臨床試驗各階段試驗對象目的% 成本年數3.5PreclinicalPhase I3515研究和動研究生物學的反應和安全性物實驗20-80 健康的志12確定決定劑量安全和愿者100-300

15、Phase IIPhase III4010評估有效性和發現副作用驗證有效性和長32.51000+期的不良反應FDAPhase IV審核和批準FDA 要求的面市所有群體后的測試R9th15 / 31制藥 食品 零售快消 其他工具簡介 案例藥效學(PK/PD)新藥研發中的藥動R9th16 / 31制藥 食品 零售快消 其他工具簡介 案例NONMEM,非線性混合效應模型R9th17 / 31制藥 食品 零售快消 其他工具簡介 案例使用 R 建立簡單的藥動學模型lV),R9th18 / 31library(nlme) head(Dosing)#ID TIME CONC AMT DOSE MDVAGEW

16、T ISM CLCR # 11 0.00NA 1001001 34.8 38.20 42.6# 21 0.25 13.0NA1000 34.8 38.20 42.6# 31 0.50 15.0NA1000 34.8 38.20 42.6# 41 0.75 14.2NA1000 34.8 38.20 42.6Dosing.fit - nlme(CONC phenoM(ID, TIME, AMT, lCl, fixed = lCl + lV 1, random = pdDiag(lCl + lV 1),data = Dosing.grp,start = c(lCl = -5, lV = 0), w

17、eight = varConstPower(const = 1,fixed = list(power = 1), na.action = function(x) x, naPattern = !is.na(CONC)exp(fixed.effects(Dosing.fit) #lCllV# 0.421 7.084制藥 食品 零售快消 其他工具簡介 案例制藥 食品 零售快消 其他血藥濃度的結果CID #1CID #2 051015200510Time, hrTime, hrR9th19 / 31Concentration, ug/mL51015Concentration, ug/mL12 14工

18、具簡介 案例統計模型和模擬R9th20 / 31制藥 食品 零售快消 其他工具簡介 案例系統的實現R9th21 / 31制藥 食品 零售快消 其他工具簡介 案例目 錄1工具簡介2案例制藥食品零售快消其他R9th22 / 31制藥 食品 零售快消 其他工具簡介 案例食品研發的流程R9th22 / 31制藥 食品 零售快消 其他工具簡介 案例感官分析示例R9th23 / 31制藥 食品 零售快消 其他工具簡介 案例配方優化示例R9th24 / 31制藥 食品 零售快消 其他工具簡介 案例目 錄1工具簡介2案例制藥食品零售快消其他R9th25 / 31制藥 食品 零售快消 其他工具簡介 案例GIS 與新店選址R9th25 / 31制藥 食

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論