大數據分析師發展之路_第1頁
大數據分析師發展之路_第2頁
大數據分析師發展之路_第3頁
大數據分析師發展之路_第4頁
大數據分析師發展之路_第5頁
已閱讀5頁,還剩37頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數據分析師發展之路如果你過的不好,你不得不拼命改變現狀多職業經歷計算機專業工作不穩定經常失業無一技傍身人生已無別出路,堅定信念不回頭轉行者應該怎樣夯實基礎,轉行者如何學習數學建模,如何把知識變成能力一個轉行者是如何學習的數據分析的我的學習路程-幾組數據CDA的SAS教程,累計觀看6遍以上讀書量:累計讀書 近40本公開課:累計觀看2遍以上前期以理論知識為主,后期以機器學習和社交網絡分析相關的實操書籍為主并兼顧復習舊內容統計分析的定義統計學習:以數據為研究對象,基于數據 構建概率統計模型并運用模型對數據進行預測與分析的一門學科, 是概率論,統計學,計算機等多個 領域的交叉學科,扎實的統計學基礎是

2、做好數據分析 的前提;數據分析師至少應該掌握那些模型一個數據分析師應該掌握那些模型客戶關系管理(CRM)的分析模型:RFMT檢驗,方差分析主成份法,因子分析相關,卡方,對應分析線性回歸,邏輯回歸決策樹,boosting,隨機森林,SVM關聯規則協同過濾K-means聚類,系統聚類樸素貝葉斯統計學習方法統計學統計學:從數據到結論應用多元統計分析概率論基礎(第3版)統計思維:程序員數學之概率統計(第2版)應用多元統計分析(第二版)統計學看穿一切數字的統計學可汗公開課(統計學+線性代數)誰說菜鳥不會數據分析(3本)分析師至少要學習那些課程-基礎篇分析至少要學習那些課程-提升篇線性回歸分析基礎應用回歸

3、及分類數據挖掘 概念與技數據挖掘技術:應用于市場營銷、銷售與客戶關系管理數據挖掘與數據化運營實戰思路、方法、技巧與應用線性模型和廣義線性模型(第3版)圖解機器學習大數據與機器學習:實踐方法與行業案例機器學習社交網絡分析機器學習實戰SPSS統計分析基礎高級教程張文彤 第二版 (全2本)Python大戰機器學習機器學習與R語言r語言與數據挖掘sas變成演繹sas編程與數據挖掘商業案例深入解析sassas統計分析與應用實例實用統計方法與sas系統網絡數據的統計分析與r語言網絡數據可視化與分析利器:Gephi分析師至少要學習那些課程-工具學習篇軟件1主攻 2個輔助分析師應該掌握哪些統計分析軟件統計分析

4、SAS R SPSS PythonBIexceltaleau軟件學習不貪多,精通一個再學習另外一個個人的軟件使用情況:做統計分析,數據挖掘用sas (熟練);機器學習:建議 r 和 python (基本應用)不會建模的分析師一定不是個優秀的分析師一個入門的數據分析師至少能處理哪些問題?結構性問題:1) 問:溫度和小學生數量2個維度是如何影響冰激凌銷量的?2) 問:女性粉絲數每增加一個單位,對廣告效果產生什么影響(低cpm,高購買轉化,高 互動)?3)信用評分卡, 根據申請貸款的客戶的各項數據進行打分數據分析師至少能解決哪些問題?2)預測哪些用戶即將流失3)銷量/庫存預測一個入門的數據分析師至少

5、能處理哪些問題?預測性問題(回歸時序分類):分類問題要比回歸更常見:1)用機器學習的方法找出哪些用戶是作弊用戶(根據數據中的知識對賬號打標簽1or0)一個入門的數據分析師至少能處理哪些問題?關聯分析:購物籃分析:那些商品會一起被購買?那幾個頁面之間存在重要關聯?商品最優結構特征優化物品擺放 電商推薦市場細分:客戶分群一個入門的數據分析師至少能處理哪些問題?移動電話卡為什么分為“全球通” “神州行”“動感地帶”給自己打分,如下問題你目前能解決幾個?結構性問題預測性問題客戶分群關聯分析學習中的困惑是什么知識點記不住,概念無法理解遇到模型就發懵學新忘舊如何把知識變成能力學習中的困惑-概念無法理解陌生

6、的數學符號被算法的推導過程迷惑拗口的定義剩下的實在無法理解的,手超三遍,總有一天你會開竅當年我沒懂的數學問題,在這2年的學習中全部懂了,時間會給你答案學習中的困惑遇到模型就發懵,無從下手如何學習模型-熟練掌握數據轉換的方法當數據無法滿足模型的適用條件怎么辦?1)如果線性回歸分析的y不符合正態分布 怎么辦?2)量剛問題是否處理如何處理? 數據的變換方法、標準化方法必會如何學習模型熟練掌握模型的原假設和適用條件想得到正確可信的分析結果,請務必遵循模型的適用條件#線性回歸模型的假設:a、線性:因變量與自變量間的線性關系。b、正態性:因變量的正態性(殘差服從正態性)。使用殘差圖診斷c、獨立同分布:殘差

7、間相互獨立,且遵循同一分布,要求方差齊性d、正交假定:誤差項與自變量不相關,其期望為零。想得到正確可信的分析結果,請務必遵循模型的適用條件如何學習模型每個模型能解決什么問題他們都能解決什么問題?線性回歸 邏輯回歸方差分析,t檢驗決策樹自行總結每個模型能解決的問題并匯集成文檔如何學習模型模型的差別模型優缺點T檢驗方差分析線性回歸邏輯回歸決策樹T檢驗方差分析線性回歸邏輯回歸決策樹做一個模型矩陣,在交叉處寫上模型的差別模型差別:在實際工作中,可以幫你快速的定位到適合的模型;支持向量機,邏輯回歸,神經網絡,決策樹or決策樹的集成算法你選那個?舉例:當我們知道模型的差別及優缺點后如下問題可以順利解決做分

8、類器的時候,38響應變量每個都有小程度的缺失,如果刪除缺失值后建模的話, 樣本量會降低請問你選擇那個模型?我應該從那幾個維度對比模型的優缺點是否能解決結構性問題對缺失值/異常值/量剛 是否敏感是不是黑箱模型能否處理連續(離散)的Y在代碼集合上,寫上模型的優缺點如何學習模型-如何把知識變成能力尷尬問題:學得一身本事但無法融合到業務問題中,最終變為大表哥 大表姐 我是如何突破這個問題的:1)論文是個好東西,業務與算法相結合最完美的學習資料;2)案例豐富的書籍 是你的首選 如:ibm spps數分析與挖掘實戰案例精粹建議:借鑒別人的經驗看別人是如何用知識解決問題的創建屬于自己的代碼本學新忘舊怎么辦記

9、憶力差,命令容易混淆學新忘舊-創建屬于自己的代碼本創建并不斷豐富自己的代碼集合:由三層組成第一層: 模型的原假設,適用條件,核心算法公式第二層: 代碼,一段代碼解決一個問題,qq圖怎么畫?異方差如何檢驗,調整?等第三層: 寫上你對改模型的總結和認識,優缺點是什么?重點:一個命令一段備注學新忘舊-對時間的充分把握環境:不在電腦前學新念舊:我個人離公司單程1.5小時,所以我有充足的時間在路上學習;早晨:大腦清醒,學習全新的知識,讀未讀過的書晚上:復習上一本書,防止學新忘舊,做到念念不忘;多以理論知識和算法理解為主我的學習方法-對時間的充分把握環境:電腦前正所謂百看不如一練,請不要放棄任何與統計軟件

10、打交道的機會,前幾頁推薦的工具類書籍是你練習的良好導師;優點1:你無須為數據源擔心,統計軟件都自帶數據源工具實操類書籍如何應用模型-根據業務目標進行模型組合K-means聚類 配合 系統聚類海量數據的聚類 既有速度又提高了精度借助聚類分析和woe組合使用可以探索不同屬性用戶群組的響應率算法組合可以有效的解決你的業務問題如何應用模型-模型可用的不僅僅是模型模型可用的不僅僅是模型, 還有模型的基算法例如:線性回歸的最小二乘,可以用來衡量微博賬號一段時間的粉絲增長速度(斜率)如何應用模型-模型可用的不僅僅是模型領悟算法精髓,你的人生不只一個RFM(時間,頻率,金額)借助該模型的思想, 把如上三個維度 進行替換,就可以生成屬于你的獨有模型如:衡量廣告主的價值 (rank最后一次投遞廣告時間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論