文章詳情頁(yè)

Python機(jī)器學(xué)習(xí)之AdaBoost算法

瀏覽：2日期：2022-06-19 13:49:49

目錄一、算法概述二、算法原理三、算法步驟四、算法實(shí)現(xiàn)五、算法優(yōu)化一、算法概述 AdaBoost 是英文 Adaptive Boosting（自適應(yīng)增強(qiáng)）的縮寫，由 Yoav Freund 和Robert Schapire 在1995年提出。 AdaBoost 的自適應(yīng)在于前一個(gè)基本分類器分類錯(cuò)誤的樣本的權(quán)重會(huì)得到加強(qiáng)，加強(qiáng)后的全體樣本再次被用來(lái)訓(xùn)練下一個(gè)基本分類器。同時(shí)，在每一輪訓(xùn)練中加入一個(gè)新的弱分類器，直到達(dá)到某個(gè)預(yù)定的足夠小的錯(cuò)誤率或達(dá)到預(yù)先指定的最大迭代次數(shù)時(shí)停止訓(xùn)練。 AdaBoost 算法是一種集成學(xué)習(xí)的算法，其核心思想就是對(duì)多個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行組合形成一個(gè)精度更高的模型，參與組合的模型稱為弱學(xué)習(xí)器。二、算法原理 AdaBoost 的核心思想是針對(duì)同一訓(xùn)練集訓(xùn)練不同的分類器（弱分類器），然后把這些弱分類器集合起來(lái)，構(gòu)成一個(gè)更強(qiáng)大的最終分類器（強(qiáng)分類器）。也就是通過(guò)一些手段獲得多個(gè)弱分類器，將它們集成起來(lái)構(gòu)成強(qiáng)分類器，綜合所有分類器的預(yù)測(cè)得出最終的結(jié)果。 AdaBoost 算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的，它根據(jù)每次訓(xùn)練集中每個(gè)樣本的分類是否正確，以及上次的總體分類的準(zhǔn)確率，來(lái)確定每個(gè)樣本的權(quán)值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練，最后將每次訓(xùn)練得到的分類器最后融合起來(lái)，作為最后的決策分類器。三、算法步驟

1.初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布，每一個(gè)訓(xùn)練樣本最開(kāi)始時(shí)都被賦予相同的權(quán)值 1/n

Python機(jī)器學(xué)習(xí)之AdaBoost算法

2.進(jìn)行多輪迭代，用 m = 1,2,…,k 表示迭代到第幾輪

3.使用具有權(quán)值分布 Gm 的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)，得到基本分類器

Python機(jī)器學(xué)習(xí)之AdaBoost算法

4.計(jì)算 Gm(x) 在訓(xùn)練數(shù)據(jù)集上的分類誤差率

Python機(jī)器學(xué)習(xí)之AdaBoost算法

5.計(jì)算 Gm(x) 的系數(shù)，am表示 Gm(x) 在最終分類器中的重要程度

Python機(jī)器學(xué)習(xí)之AdaBoost算法

6.更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布，得到樣本的新的權(quán)值分布，用于下一輪迭代

Python機(jī)器學(xué)習(xí)之AdaBoost算法

7.組合各個(gè)弱分類器

Python機(jī)器學(xué)習(xí)之AdaBoost算法

四、算法實(shí)現(xiàn)

from numpy import *import matplotlib.pyplot as plt# 加載數(shù)據(jù)集def loadDataSet(fileName): numFeat = len(open(fileName).readline().split(’t’)) dataMat = [] labelMat = [] fr = open(fileName) for line in fr.readlines():lineArr = []curLine = line.strip().split(’t’)for i in range(numFeat - 1): lineArr.append(float(curLine[i]))dataMat.append(lineArr)labelMat.append(float(curLine[-1])) return dataMat, labelMat# 返回分類預(yù)測(cè)結(jié)果根據(jù)閾值所以有兩種返回情況def stumpClassify(dataMatrix, dimen, threshVal, threshIneq): retArray = ones((shape(dataMatrix)[0], 1)) if threshIneq == ’lt’:retArray[dataMatrix[:, dimen] <= threshVal] = -1.0 else:retArray[dataMatrix[:, dimen] > threshVal] = -1.0 return retArray# 返回該弱分類器單層決策樹(shù)的信息更新D向量的錯(cuò)誤率更新D向量的預(yù)測(cè)目標(biāo)def buildStump(dataArr, classLabels, D): dataMatrix = mat(dataArr) labelMat = mat(classLabels).T m, n = shape(dataMatrix) numSteps = 10.0 bestStump = {} # 字典用于保存每個(gè)分類器信息 bestClasEst = mat(zeros((m, 1))) minError = inf # 初始化最小誤差最大 for i in range(n): # 特征循環(huán) （三層循環(huán)，遍歷所有的可能性）rangeMin = dataMatrix[:, i].min()rangeMax = dataMatrix[:, i].max()stepSize = (rangeMax - rangeMin) / numSteps # (大-小)/分割數(shù) 得到最小值到最大值需要的每一段距離for j in range(-1, int(numSteps) + 1): # 遍歷步長(zhǎng) 最小值到最大值的需要次數(shù) for inequal in [’lt’, ’gt’]: # 在大于和小于之間切換threshVal = (rangeMin + float(j) * stepSize) # 最小值+次數(shù)*步長(zhǎng) 每一次從最小值走的長(zhǎng)度predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal) # 最優(yōu)預(yù)測(cè)目標(biāo)值用于與目標(biāo)值比較得到誤差errArr = mat(ones((m, 1)))errArr[predictedVals == labelMat] = 0weightedError = D.T * errArrif weightedError < minError: # 選出最小錯(cuò)誤的那個(gè)特征 minError = weightedError # 最小誤差后面用來(lái)更新D權(quán)值的 bestClasEst = predictedVals.copy() # 最優(yōu)預(yù)測(cè)值 bestStump[’dim’] = i # 特征 bestStump[’thresh’] = threshVal # 到最小值的距離（得到最優(yōu)預(yù)測(cè)值的那個(gè)距離） bestStump[’ineq’] = inequal # 大于還是小于最優(yōu)距離為-1 return bestStump, minError, bestClasEst# 循環(huán)構(gòu)建numIt個(gè)弱分類器def adaBoostTrainDS(dataArr, classLabels, numIt=40): weakClassArr = [] # 保存弱分類器數(shù)組 m = shape(dataArr)[0] D = mat(ones((m, 1)) / m) # D向量每條樣本所對(duì)應(yīng)的一個(gè)權(quán)重 aggClassEst = mat(zeros((m, 1))) # 統(tǒng)計(jì)類別估計(jì)累積值 for i in range(numIt):bestStump, error, classEst = buildStump(dataArr, classLabels, D)alpha = float(0.5 * log((1.0 - error) / max(error, 1e-16)))bestStump[’alpha’] = alphaweakClassArr.append(bestStump) # 加入單層決策樹(shù)# 得到運(yùn)算公式中的向量+/-α，預(yù)測(cè)正確為-α，錯(cuò)誤則+α。每條樣本一個(gè)α# multiply對(duì)應(yīng)位置相乘這里很聰明，用-1*真實(shí)目標(biāo)值*預(yù)測(cè)值，實(shí)現(xiàn)了錯(cuò)誤分類則-，正確則+expon = multiply(-1 * alpha * mat(classLabels).T, classEst)D = multiply(D, exp(expon)) # 這三步為更新概率分布D向量拆分開(kāi)來(lái)了，每一步與公式相同D = D / D.sum()# 計(jì)算停止條件錯(cuò)誤率=0 以及計(jì)算每次的aggClassEst類別估計(jì)累計(jì)值aggClassEst += alpha * classEst# 很聰明的計(jì)算方法計(jì)算得到錯(cuò)誤的個(gè)數(shù)，向量中為1則錯(cuò)誤值aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T, ones((m, 1))) # sign返回?cái)?shù)值的正負(fù)符號(hào)，以1、-1表示errorRate = aggErrors.sum() / m # 錯(cuò)誤個(gè)數(shù)/總個(gè)數(shù)# print('錯(cuò)誤率：', errorRate)if errorRate == 0.0: break return weakClassArr, aggClassEst# 預(yù)測(cè) 累加多個(gè)弱分類器獲得預(yù)測(cè)值*該alpha 得到結(jié)果def adaClassify(datToClass, classifierArr): # classifierArr是元組，所以在取值時(shí)需要注意 dataMatrix = mat(datToClass) m = shape(dataMatrix)[0] aggClassEst = mat(zeros((m, 1))) # 循環(huán)所有弱分類器 for i in range(len(classifierArr[0])):# 獲得預(yù)測(cè)結(jié)果classEst = stumpClassify(dataMatrix, classifierArr[0][i][’dim’], classifierArr[0][i][’thresh’], classifierArr[0][i][’ineq’])# 該分類器α*預(yù)測(cè)結(jié)果用于累加得到最終的正負(fù)判斷條件aggClassEst += classifierArr[0][i][’alpha’] * classEst # 這里就是集合所有弱分類器的意見(jiàn)，得到最終的意見(jiàn) return sign(aggClassEst) # 提取數(shù)據(jù)符號(hào)# ROC曲線，類別累計(jì)值、目標(biāo)標(biāo)簽def plotROC(predStrengths, classLabels): cur = (1.0, 1.0) # 每次畫線的起點(diǎn)游標(biāo)點(diǎn) ySum = 0.0 # 用于計(jì)算AUC的值矩形面積的高度累計(jì)值 numPosClas = sum(array(classLabels) == 1.0) # 所有真實(shí)正例確定了在y坐標(biāo)軸上的步進(jìn)數(shù)目 yStep = 1 / float(numPosClas) # 1/所有真實(shí)正例 y軸上的步長(zhǎng) xStep = 1 / float(len(classLabels) - numPosClas) # 1/所有真實(shí)反例 x軸上的步長(zhǎng) sortedIndicies = predStrengths.argsort() # 獲得累計(jì)值向量從小到大排序的下表index [50,88,2,71...] fig = plt.figure() fig.clf() ax = plt.subplot(111) # 循環(huán)所有的累計(jì)值從小到大 for index in sortedIndicies.tolist()[0]:if classLabels[index] == 1.0: delX = 0 # 若為一個(gè)真正例，則沿y降一個(gè)步長(zhǎng)，即不斷降低真陽(yáng)率； delY = yStep # 若為一個(gè)非真正例，則沿x退一個(gè)步長(zhǎng)，尖笑陽(yáng)率else: delX = xStep delY = 0 ySum += cur[1] # 向下移動(dòng)一次，則累計(jì)一個(gè)高度。寬度不變，我們只計(jì)算高度ax.plot([cur[0], cur[0] - delX], [cur[1], cur[1] - delY], c=’b’) # 始終會(huì)有一個(gè)點(diǎn)是沒(méi)有改變的cur = (cur[0] - delX, cur[1] - delY) ax.plot([0, 1], [0, 1], ’b--’) plt.xlabel(’False positive rate’) plt.ylabel(’True positive rate’) plt.title(’ROC curve for AdaBoost horse colic detection system’) ax.axis([0, 1, 0, 1]) plt.show() print('the Area Under the Curve is: ', ySum * xStep) # AUC面積我們以高*低的矩形來(lái)計(jì)算# 測(cè)試正確率datArr, labelArr = loadDataSet(’horseColicTraining2.txt’)classifierArr = adaBoostTrainDS(datArr, labelArr, 15)testArr, testLabelArr = loadDataSet(’horseColicTest2.txt’)prediction10 = adaClassify(testArr, classifierArr)errArr = mat(ones((67, 1))) # 一共有67個(gè)樣本cnt = errArr[prediction10 != mat(testLabelArr).T].sum()print(cnt / 67)# 畫出ROC曲線datArr, labelArr = loadDataSet(’horseColicTraining2.txt’)classifierArray, aggClassEst = adaBoostTrainDS(datArr, labelArr, 10)plotROC(aggClassEst.T, labelArr)五、算法優(yōu)化權(quán)值更新方法的改進(jìn)

在實(shí)際訓(xùn)練過(guò)程中可能存在正負(fù)樣本失衡的問(wèn)題，分類器會(huì)過(guò)于關(guān)注大容量樣本，導(dǎo)致分類器不能較好地完成區(qū)分小樣本的目的。此時(shí)可以適度增大小樣本的權(quán)重使重心達(dá)到平衡。在實(shí)際訓(xùn)練中還會(huì)出現(xiàn)困難樣本權(quán)重過(guò)高而發(fā)生過(guò)擬合的問(wèn)題，因此有必要設(shè)置困難樣本分類的權(quán)值上限。

訓(xùn)練方法的改進(jìn)

AdaBoost算法由于其多次迭代訓(xùn)練分類器的原因，訓(xùn)練時(shí)間一般會(huì)比別的分類器長(zhǎng)。對(duì)此一般可以采用實(shí)現(xiàn)AdaBoost的并行計(jì)算或者訓(xùn)練過(guò)程中動(dòng)態(tài)剔除掉權(quán)重偏小的樣本以加速訓(xùn)練過(guò)程。

多算法結(jié)合的改進(jìn)

除了以上算法外，AdaBoost還可以考慮與其它算法結(jié)合產(chǎn)生新的算法，如在訓(xùn)練過(guò)程中使用SVM算法加速挑選簡(jiǎn)單分類器來(lái)替代原始AdaBoost中的窮舉法挑選簡(jiǎn)單的分類器。

到此這篇關(guān)于Python機(jī)器學(xué)習(xí)之AdaBoost算法的文章就介紹到這了,更多相關(guān)Python AdaBoost算法內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python實(shí)現(xiàn)emoji表情的簡(jiǎn)單方法下一條：Python NumPy中diag函數(shù)的使用說(shuō)明

相關(guān)文章：

1. Java Media Framework 基礎(chǔ)教程2. 解決vue頁(yè)面刷新，數(shù)據(jù)丟失的問(wèn)題3. Python 忽略文件名編碼的方法4. springboot項(xiàng)目整合druid數(shù)據(jù)庫(kù)連接池的實(shí)現(xiàn)5. JavaEE SpringMyBatis是什么? 它和Hibernate的區(qū)別及如何配置MyBatis6. python 讀txt文件,按‘,’分割每行數(shù)據(jù)操作7. android studio實(shí)現(xiàn)簡(jiǎn)單的計(jì)算器（無(wú)bug）8. 在Mac中配置Python虛擬環(huán)境過(guò)程解析9. Python趣味挑戰(zhàn)之用pygame實(shí)現(xiàn)簡(jiǎn)單的金幣旋轉(zhuǎn)效果10. Python中的min及返回最小值索引的操作

排行榜

					
					Java Media Framework 基礎(chǔ)教程
JavaEE SpringMyBatis是什么? 它和Hibernate的區(qū)別及如何配置MyBatis
Python 忽略文件名編碼的方法
python 讀txt文件,按‘,’分割每行數(shù)據(jù)操作
springboot項(xiàng)目整合druid數(shù)據(jù)庫(kù)連接池的實(shí)現(xiàn)
android studio實(shí)現(xiàn)簡(jiǎn)單的計(jì)算器（無(wú)bug）
解決vue頁(yè)面刷新，數(shù)據(jù)丟失的問(wèn)題
在Mac中配置Python虛擬環(huán)境過(guò)程解析
淺談如何循序漸進(jìn)的學(xué)好JS
解決spring boot啟動(dòng)掃描不到自定義注解的問(wèn)題
python繪制箱型圖