文章詳情頁

Python集成學習之Blending算法詳解

瀏覽：4日期：2022-06-19 18:10:21

目錄一、前言二、Blending介紹三、Blending流程圖四、案例一、前言

普通機器學習：從訓練數據中學習一個假設。

集成方法：試圖構建一組假設并將它們組合起來，集成學習是一種機器學習范式，多個學習器被訓練來解決同一個問題。

集成方法分類為：

Bagging(并行訓練)：隨機森林

Boosting（串行訓練）：Adaboost; GBDT; XgBoost

Stacking:

Blending:

或者分類為串行集成方法和并行集成方法

1.串行模型：通過基礎模型之間的依賴，給錯誤分類樣本一個較大的權重來提升模型的性能。

2.并行模型的原理：利用基礎模型的獨立性，然后通過平均能夠較大地降低誤差

二、Blending介紹

訓練數據劃分為訓練和驗證集+新的訓練數據集和新的測試集

將訓練數據進行劃分，劃分之后的訓練數據一部分訓練基模型，一部分經模型預測后作為新的特征訓練元模型。測試數據同樣經過基模型預測，形成新的測試數據。最后，元模型對新的測試數據進行預測。Blending框架圖如下所示：注意：其是在stacking的基礎上加了劃分數據

三、Blending流程圖

Python集成學習之Blending算法詳解

第一步：將原始訓練數據劃分為訓練集和驗證集。第二步：使用訓練集對訓練T個不同的模型。第三步：使用T個基模型，對驗證集進行預測，結果作為新的訓練數據。第四步：使用新的訓練數據，訓練一個元模型。第五步：使用T個基模型，對測試數據進行預測，結果作為新的測試數據。第六步：使用元模型對新的測試數據進行預測，得到最終結果。

Python集成學習之Blending算法詳解

四、案例

相關工具包加載

import numpy as npimport pandas as pd import matplotlib.pyplot as pltplt.style.use('ggplot')%matplotlib inlineimport seaborn as sns

創建數據

from sklearn import datasets from sklearn.datasets import make_blobsfrom sklearn.model_selection import train_test_splitdata, target = make_blobs(n_samples=10000, centers=2, random_state=1, cluster_std=1.0 )## 創建訓練集和測試集X_train1,X_test,y_train1,y_test = train_test_split(data, target, test_size=0.2, random_state=1)## 創建訓練集和驗證集X_train,X_val,y_train,y_val = train_test_split(X_train1, y_train1, test_size=0.3, random_state=1)print('The shape of training X:',X_train.shape)print('The shape of training y:',y_train.shape)print('The shape of test X:',X_test.shape)print('The shape of test y:',y_test.shape)print('The shape of validation X:',X_val.shape)print('The shape of validation y:',y_val.shape)

設置第一層分類器

from sklearn.svm import SVCfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.neighbors import KNeighborsClassifier

clfs = [SVC(probability=True),RandomForestClassifier(n_estimators=5,n_jobs=-1,criterion=’gini’),KNeighborsClassifier()]

設置第二層分類器

from sklearn.linear_model import LinearRegressionlr = LinearRegression()

第一層

val_features = np.zeros((X_val.shape[0],len(clfs)))test_features = np.zeros((X_test.shape[0],len(clfs)))

for i,clf in enumerate(clfs): clf.fit(X_train,y_train) val_feature = clf.predict_proba(X_val)[:,1] test_feature = clf.predict_proba(X_test)[:,1] val_features[:,i] = val_feature test_features[:,i] = test_feature

第二層

lr.fit(val_features,y_val)

輸出預測的結果

lr.fit(val_features,y_val)from sklearn.model_selection import cross_val_scorecross_val_score(lr,test_features,y_test,cv=5)

到此這篇關于Python集成學習之Blending算法詳解的文章就介紹到這了,更多相關Python Blending算法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：一篇教程教你學會Python進制轉換(十進制轉二進制、八進制、十六進制)下一條：聊聊python中not 與 is None的區別

相關文章：

1. ASP常用日期格式化函數 FormatDate()2. .NET 中配置從xml轉向json方法示例詳解3. ASP中if語句、select 、while循環的使用方法4. HTML中的XML數據島記錄編輯與添加5. ASP.NET Core按用戶等級授權的方法6. 詳解瀏覽器的緩存機制7. phpstudy apache開啟ssi使用詳解8. ASP新手必備的基礎知識9. 推薦一個好看Table表格的css樣式代碼詳解10. 利用FastReport傳遞圖片參數在報表上展示簽名信息的實現方法

排行榜

					
					Python 圖片處理庫exifread詳解
Android Studio中一套代碼多渠道打包的實現方法
詳解瀏覽器的緩存機制
PHP 工程師面試的四個環節
springboot項目整合mybatis并配置mybatis中間件的實現
Java實現簡單LRU緩存機制的方法
JS實現炫酷輪播圖
Lore Article.PHP SQL注入漏洞
Python Opencv中用compareHist函數進行直方圖比較對比圖片
JavaScript forEach中return失效問題解決方案
使用python編寫一個語音朗讀鬧鐘功能的示例代碼