




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
光伏電站發電量預測案例背景人工智能應用素養光伏電站發電量預測案例背景1.能源是人類生存和發展的重要基石。隨著社會的飛速發展,人類對于能源的需求日益增多。光伏電站發電量預測案例背景我國能源供給能力和質量顯著提升。光伏是能源綠色轉型、低碳轉型的一個重要的主力能源。圖
2017-2022年光伏當年新增容量及同比增幅光伏發電由于自身間歇性和波動性造成的發電效率瓶頸有望通過人工智能算法來解決。感謝您的觀看!以上是
本節全部內容案例實現總體框架流程人工智能應用素養案例實現總體框架流程總體框架流程數據準備:數據讀取、預處理、數據劃分數據準備案例實現總體框架流程總體框架流程數據準備:數據讀取、預處理、數據劃分數據準備模型訓練模型訓練:生成模型、評估模型、模型調優案例實現總體框架流程總體框架流程數據準備:數據讀取、預處理、數據劃分數據準備模型訓練模型訓練:生成模型、評估模型、模型調優預測保存預測保存:使用模型進行預測,保存數據感謝您的觀看!以上是
本節全部內容案例環境準備人工智能應用素養01目錄CONTENTS編程語言介紹02案例代碼使用模塊編程語言介紹1PartMinimalistwindAIPython是一種效率極高的語言。相比于其他的語言,使用Python編寫時,程序包含的代碼行更少。Python的語法也有助于創建整潔的代碼:相比其他語言,使用Python編寫的代碼更容易閱讀、調試和擴展。編程語言介紹案例代碼使用模塊2Part案例代碼使用模塊1.NumPyNumPy是使用Python進行科學計算的基礎包主要包含:一個強大的N維數組對象;有用的線性代數、傅里葉變換和隨機數功能;通用數據的高效多維容器,可以定義為任意數據類型。案例代碼使用模塊2.PandasPython的核心數據分析支持庫,Python數據分析實踐與實戰的必備高級工具。能夠處理的數據包括:含異構列的表格數據;有序和無序(非固定頻率)的時間序列數據;帶行列標簽的矩陣數據,包括同構或異構型數據;其它形式的觀測、統計數據集,數據轉入Pandas數據結構時不必事先標記。案例代碼使用模塊3.scikit--learn一個開源的Python庫,旨在簡化基于內置機器學習和統計算法構建模型的過程,不需要硬編碼。具有易用性、一致性、可靠性和協作性、完備的文檔教程的優點。具有缺乏靈活性,參數調整或者模型架構中缺少自由選擇的空間;且不擅長深度學習。感謝您的觀看!以上是
本節全部內容案例數據準備人工智能應用素養01目錄CONTENTS數據讀取02數據預處理03數據劃分04數據升維與特征值選取數據讀取1Part1.pandas設置數據顯示格式本案例中使用pandas加載數據,pandas也可以設置數據的顯示格式2.pandas讀取數據數據讀取數據讀取1.
pandas設置數據顯示格式01行:設置顯示表格列中數據最?顯?寬度為100002行:設置表格中數據顯示的最大行數為50003行:設置表格中數據顯示的最大列數為50004行:設置表格中數據顯示的最大寬度為1000數據讀取2.pandas讀取數據01行:使用pandas的read_csv()函數讀取訓練集02行:使用pandas的read_csv()函數讀取測試集數據預處理2PartMinimalistwindAI計算機準確地理解數據需要以標準化方式提供數據,并且要求數據不包含異常值、噪聲數據、部分特征值缺少的條目。反之,系統將做出與數據不符的假設則模型訓練的速度就會變慢,并且由于數據解釋的失誤導致結果的不準確。數據預處理1.缺失數據處理數據預處理處理的數據包括處理異常值數據、處理噪聲數據和處理缺失數據。2.異常值處理數據預處理MinimalistwindAI僅一部分特征有值的數據,或者缺少有意義特征值的數據都被視為缺失數據。數據預處理紅色方框和箭頭標注數據特征值多數為0.00,特征值無意義,即可認為是缺失數據。1.刪除缺失數據處理缺失數據時,一般方法是刪除該值或者使用其他數值來替換。2.均值代入3.回歸代入數據預處理數據預處理1.本案例缺失值處理缺失值篩選:使用pandas的過濾功能篩選出數據中為0的數據,數據為0即可認為特征數據缺失。缺失值預測填充:發電量預測時將缺失數據的預測量使用特定值0.379993053填充。1.刪除異常值異常值指的是遠離均值的值。如果一個屬性的值遵循高斯分布,異常值則是位于尾部的值。2.閾值判斷+分配新值數據預處理數據預處理1.本案例異常值處理-定義刪除異常值函數01行:定義drop_all_outlier函數。02行:使用pandas中DataFrame的方法drop_duplicates去除數據中的重復值03-11行:調用pandas的drop的方法去除不符合要求的數據;電壓值在(500,800)區間,現場溫度在(-30,30)之間,轉換效率小于100,風向和風速在合理范圍內數據預處理1.本案例異常值處理-刪除異常值01、03行:調用數據復制方法,拷貝數據02、04行:調用方法去除訓練集、測試集的異常數據05行:獲取cleaned_sub_data的'ID'賦給cleaned_sub_data_ID變量1.查找異常值的行索引閾值判斷+分配新值分為以下四步:2.使用閾值法確定該行中異常值3.取距離該異常值最近的兩個正常值的平均數數據預處理4.使用該平均數代替異常值數據預處理2.本案例異常值處理-“閾值判斷+分配新值”01行:使用pandas的concat方法拼接數據,sort_values按照ID給數據重新排序,reset_index()方法對數據重置索引,drop(['index'],axis=1)刪除原來的索引列。03行:按照列索引遍歷數據,篩選并刪除異常值。04行:按照03行搜索到的索引查詢數據并按照ID升序排序。數據預處理2.本案例異常值處理-“閾值判斷+分配新值”01行:iterrows()遍歷異常數據;02行:獲取每行的‘ID’特征值;03行:找出有異常數據的行中異常的值的列索引;04行:獲得當前數據的行號。05-10行:取距該異常值最近的上下正常值的行偏移值;11行:取相鄰最近的上下兩個正常值的平均值。12行:使用平均值代替異常值。數據劃分3PartMinimalistwindAI訓練集用于訓練不同的模型,驗證集用于調整每個模型的超參數以選擇一個最優的超參數組合,而測試集可以用來比較模型,目的是對最終模型進行無偏評估。在有些項目中,數據集劃分僅劃分為訓練集和測試集,沒有驗證集。數據劃分數據集訓練集驗證集測試集MinimalistwindAItrain_test_split是數據劃分函數,從樣本中隨機的按比例選取traindata和testdata人工智能助力芯片制造train_data:所要劃分的樣本特征集,即Xtrain_target:所要劃分的樣本結果,即ytest_size:測試集占比,案例中為0.2,即訓練集和測試集的抽取比例為8:2random_state:是隨機數的種子數據升維與特征值選取4Part數據升維與特征值選取1.數據升維數據集的特征不足的情況,需要對數據集的特征擴充。交互式特征式在原始數據中添加交互項,使特征數量增加。01行導入相關庫和方法03行:使用該方法訓練數據,訓練完成后,數據的特征數量增加02行使用PolynomialFeatures給數據集添加特征:degree:度數,決定多項式的次數;interaction_only:默認為False,True表示只能交叉相乘,不能有a^2。1.單一變量法2.迭代式特征選擇法3.基于模型的特征選擇數據預處理2.特征值選取數據升維與特征值選取2.特征值選取本案例是SelectFromModel結合GradientBoostingRegressor(GBDT)實現01行導入相關庫和方法使用該模型處理數據X_train、X_test和sub_data,篩選出有效特征值使用GDBT進行模型創建感謝您的觀看!以上是
本節全部內容模型創建人工智能應用素養01目錄CONTENTS算法簡介02模型創建算法簡介1PartMinimalistwindAI本案例使用了6種機器學習的算法生成模型:XGBOOST(XGB)、GradientBoostingDecisionTree(GBDT)、隨機森林RandomForest(RF)、LightGradientBoostingMachine(LightGBM)、k最近鄰算法(KNN)和支持向量機(SVM)。算法簡介XGBOOST算法原理是不斷地添加樹,不斷地進行特征分裂來生長一棵樹。每次添加一個樹,其實是學習一個新函數,去擬合上次預測的殘差。當訓練完成得到k棵樹,要預測一個樣本的分數,其實就是根據這個樣本的特征,在每棵樹中會落到對應的一個葉子節點,每個葉子節點就對應一個分數,最后只需要將每棵樹對應的分數加起來就是該樣本的預測值。1.XGBOOST(XGB)算法簡介2.GradientBoostingDecisionTree(GBDT)算法簡介決策樹梯度迭代(GradientBoosting,GB)縮減ShrinkageBagging+決策樹=隨機森林bagging技術通過合適的投票機制把多個分類器的學習結果綜合為一個更準確的分類結果。集成學習采用新訓練集訓練一種或多種基本分類器,并通過選擇合適的投票機制,形成組合分類器。最后,運用組合分類器對測試集中的樣本進行預測,獲取這些樣本的標記。3.隨機森林RandomForest(RF)算法簡介LightGBM(LightGradientBoostingMachine)是一個實現GBDT算法的框架,支持高效率的并行訓練,并且具有更快的訓練速度、更低的內存消耗、更好的準確率、支持分布式可以快速處理海量數據等優點。4.LightGradientBoostingMachine(LightGBM)算法簡介根據k個最近的鄰居的狀態來決定樣本的狀態,類似“物以類聚,人以群分”。核心思想是,為了預測測試樣本的類別,可以尋找所有訓練樣本中與該測試樣本“距離”最近的前K個樣本,這K個樣本大部分屬于哪一類,那么就認為這個測試樣本也屬于哪一類,即最相近的K個樣本投票來決定該測試樣本的類別。5.k最近鄰算法(KNN)算法簡介5.k最近鄰算法(KNN)算法簡介當K=3時,圖中第一個圈包含了三個圖形,其中三角形2個,正方形一個,該圓的則分類結果為三角形。當K=5時,第二個圈中包含了5個圖形,三角形2個,正方形3個,則以3:2的投票結果預測圓為正方形類標。總之,設置不同的K值,可能預測得到不同的結果。支持向量機(SVM)算法是一類按監督學習方式對數據進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面,可以將問題化為一個求解凸二次規劃的問題。6.支持向量機(SVM)算法簡介模型創建2Part模型創建1.XGB算法實現n_estimators,使用多少棵樹來擬合,即多少次迭代。本案例中分別取950、1000、1100max_depth,每一棵樹最大深度,本案例中默認取3max_features,尋找最佳分割時要考慮的特征數量。random_state,隨機數種子,設定值表示保證每次構建的模型是相同的n_jobs設定工作的core數量模型創建2.GBDT算法實現n_estimators分別取500、400、500;max_features設置為“sqrt”;max_depth設置為3模型創建3.RF算法實現模型創建4.LightGBM算法實現模型創建5.KNN算法實現n_neighbors,默認值5,表示選擇n個鄰居,本案例中使用值7,8,6。p,默認值2,控制Minkowski度量方法的值整型,p=1為曼哈頓距離,p=2為歐式距離。本案例中值為1,2,1模型創建6.SVM算法實現C:懲罰系數,即對誤差的寬容度。C越高,說明越不能容忍出現誤差,容易過擬合。C越小,容易欠擬合。C過大或過小,泛化能力變差。本案例中參數使用100。gamma隱含地決定了數據映射到新的特征空間后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。本案例中參數使用0.01。epsilon指定了epsilon-tube,其中訓練損失函數中沒有懲罰與在實際值的距離epsilon內預測的點。本案例中使用參數0.01。感謝您的觀看!以上是
本節全部內容模型調優人工智能應用素養01目錄CONTENTS模型調優方法02模型調優實現模型調優方法1Part1.選擇最佳算法對于開發者們來說,如何提高性能是非常重要的工作2.超參數調優
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度辦公用房租賃合同范本(含租賃地點條款)
- 房產轉讓合同樣本:房地產買賣協議
- 建設項目設備供貨及安裝合同范例
- 2024海倫市職業技術教育中心學校工作人員招聘考試及答案
- 白內障手術相關知識
- 大型公共工程項目HSE履約合同
- 商業建筑維修施工合同模板
- 教育輔導中心合作合同協議書范本
- 電工勞務分包合同模板正式版
- 粉塵防爆知識培訓
- 拖拉機駕駛員用工合同
- 2024無孩無共同財產離婚協議書模板
- 膽囊息肉臨床路徑標準住院流程
- 起訴閑魚起訴書
- 2021修訂《城市規劃設計計費指導意見》
- 2023年油庫生產試運行方案
- 睪丸腫瘤的護理查房
- 《水電工程運行調度規程編制導則》(NB-T 10084-2018)
- 《光伏發電工程工程量清單計價規范》
- 三年級數學認識面積(全國一等獎)
- 2024年政工職稱考試題庫附含答案
評論
0/150
提交評論