文章詳情頁(yè)

Python 數(shù)據(jù)化運(yùn)營(yíng)之KMeans聚類分析總結(jié)

瀏覽：45日期：2022-08-06 17:28:13

目錄Python 數(shù)據(jù)化運(yùn)營(yíng)1、內(nèi)容介紹2、一般應(yīng)用場(chǎng)景3、聚類的常見方法4、Keans聚類實(shí)現(xiàn)5、聚類的評(píng)估指標(biāo)6、聚類效果可視化7、數(shù)據(jù)預(yù)測(cè)Python 數(shù)據(jù)化運(yùn)營(yíng)1、內(nèi)容介紹

以 Python 使用 Keans 進(jìn)行聚類分析的簡(jiǎn)單舉例應(yīng)用介紹聚類分析。

聚類分析或聚類是對(duì)一組對(duì)象進(jìn)行分組的任務(wù)，使得同一組（稱為聚類）中的對(duì)象（在某種意義上）與其他組（聚類）中的對(duì)象更相似（在某種意義上）。它是探索性數(shù)據(jù)挖掘的主要任務(wù)，也是統(tǒng)計(jì)數(shù)據(jù)分析的常用技術(shù)，用于許多領(lǐng)域，包括機(jī)器學(xué)習(xí)，模式識(shí)別，圖像分析，信息檢索，生物信息學(xué)，數(shù)據(jù)壓縮和計(jì)算機(jī)圖形學(xué)。

2、一般應(yīng)用場(chǎng)景

（1）目標(biāo)用戶的群體分類：根據(jù)運(yùn)營(yíng)或商業(yè)目的挑選出來(lái)的變量，對(duì)目標(biāo)群體進(jìn)行聚類，將目標(biāo)群體分成幾個(gè)有明顯的特征區(qū)別的細(xì)分群體，在運(yùn)營(yíng)活動(dòng)中為這些細(xì)分群體采用精細(xì)化、個(gè)性化的運(yùn)營(yíng)和服務(wù)，提升運(yùn)營(yíng)的效率和商業(yè)效果。

（2）不同產(chǎn)品的價(jià)值組合：按特定的指標(biāo)變量對(duì)眾多產(chǎn)品種類進(jìn)行聚類。將產(chǎn)品體系細(xì)分成具有不同價(jià)值、不同目的、多維度產(chǎn)品組合，在此基礎(chǔ)上制定相應(yīng)的產(chǎn)品開發(fā)計(jì)劃、運(yùn)營(yíng)計(jì)劃和服務(wù)計(jì)劃。

（3）探索、發(fā)現(xiàn)孤立點(diǎn)及異常值：主要是風(fēng)控應(yīng)用。孤立點(diǎn)可能會(huì)存在欺詐的風(fēng)險(xiǎn)成分。

3、聚類的常見方法

分為基于劃分、層次、密度、網(wǎng)格、統(tǒng)計(jì)學(xué)、模型等類型的算法，典型算法包括K均值（經(jīng)典的聚類算法）、DBSCAN、兩步聚類、BIRCH、譜聚類等。

4、Keans聚類實(shí)現(xiàn)

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn import metricsimport random# 隨機(jī)生成100組包含3組特征的數(shù)據(jù)feature = [[random.random(),random.random(),random.random()] for i in range(100)]label = [int(random.randint(0,2)) for i in range(100)]# 轉(zhuǎn)換數(shù)據(jù)格式x_feature = np.array(feature)# 訓(xùn)練聚類模型n_clusters = 3 # 設(shè)置聚類數(shù)量model_kmeans = KMeans(n_clusters=n_clusters, random_state=0) # 建立聚類模型對(duì)象model_kmeans.fit(x_feature) # 訓(xùn)練聚類模型y_pre = model_kmeans.predict(x_feature) # 預(yù)測(cè)聚類模型y_pre

實(shí)現(xiàn)如圖：

Python 數(shù)據(jù)化運(yùn)營(yíng)之KMeans聚類分析總結(jié)

5、聚類的評(píng)估指標(biāo)

inertias 是K均值模型對(duì)象的屬性，表示樣本距離最近的聚類中心的總和，它是作為在沒有真實(shí)分類結(jié)果標(biāo)簽下的非監(jiān)督式評(píng)估指標(biāo)。該值越小越好，值越小證明樣本在類間的分布越集中，即類內(nèi)的距離越小。

# 樣本距離最近的聚類中心的總和inertias = model_kmeans.inertia_

adjusted_rand_s：調(diào)整后的蘭德指數(shù)（Adjusted Rand Index），蘭德指數(shù)通過(guò)考慮在預(yù)測(cè)和真實(shí)聚類中在相同或不同聚類中分配的所有樣本對(duì)和計(jì)數(shù)對(duì)來(lái)計(jì)算兩個(gè)聚類之間的相似性度量。調(diào)整后的蘭德指數(shù)通過(guò)對(duì)蘭德指數(shù)的調(diào)整得到獨(dú)立于樣本量和類別的接近于0的值，其取值范圍為[-1, 1]，負(fù)數(shù)代表結(jié)果不好，越接近于1越好意味著聚類結(jié)果與真實(shí)情況越吻合。

# 調(diào)整后的蘭德指數(shù)adjusted_rand_s = metrics.adjusted_rand_score(label, y_pre)

mutual_info_s：互信息（Mutual Information, MI），互信息是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量，在這里指的是相同數(shù)據(jù)的兩個(gè)標(biāo)簽之間的相似度的量度，結(jié)果是非負(fù)值。

# 互信息mutual_info_s = metrics.mutual_info_score(label, y_pre)

adjusted_mutual_info_s：調(diào)整后的互信息（Adjusted Mutual Information, AMI），調(diào)整后的互信息是對(duì)互信息評(píng)分的調(diào)整得分。它考慮到對(duì)于具有更大數(shù)量的聚類群，通常MI較高，而不管實(shí)際上是否有更多的信息共享，它通過(guò)調(diào)整聚類群的概率來(lái)糾正這種影響。當(dāng)兩個(gè)聚類集相同（即完全匹配）時(shí)，AMI返回值為1；隨機(jī)分區(qū)（獨(dú)立標(biāo)簽）平均預(yù)期AMI約為0，也可能為負(fù)數(shù)。

# 調(diào)整后的互信息adjusted_mutual_info_s = metrics.adjusted_mutual_info_score(label, y_pre)

homogeneity_s：同質(zhì)化得分（Homogeneity），如果所有的聚類都只包含屬于單個(gè)類的成員的數(shù)據(jù)點(diǎn)，則聚類結(jié)果將滿足同質(zhì)性。其取值范圍[0,1]值越大意味著聚類結(jié)果與真實(shí)情況越吻合。

# 同質(zhì)化得分homogeneity_s = metrics.homogeneity_score(label, y_pre)

completeness_s：完整性得分（Completeness），如果作為給定類的成員的所有數(shù)據(jù)點(diǎn)是相同集群的元素，則聚類結(jié)果滿足

完整性。其取值范圍[0,1]，值越大意味著聚類結(jié)果與真實(shí)情況越吻合。# 完整性得分completeness_s = metrics.completeness_score(label, y_pre)

v_measure_s：它是同質(zhì)化和完整性之間的諧波平均值，v = 2 （均勻性完整性）/（均勻性+完整性）。其取值范圍[0,1]，值越大意味著聚類結(jié)果與真實(shí)情況越吻合。

v_measure_s = metrics.v_measure_score(label, y_pre)

silhouette_s：輪廓系數(shù)（Silhouette），它用來(lái)計(jì)算所有樣本的平均輪廓系數(shù)，使用平均群內(nèi)距離和每個(gè)樣本的平均最近簇距離來(lái)計(jì)算，它是一種非監(jiān)督式評(píng)估指標(biāo)。其最高值為1，最差值為-1,0附近的值表示重疊的聚類，負(fù)值通常表示樣本已被分配到錯(cuò)誤的集群。

# 平均輪廓系數(shù)silhouette_s = metrics.silhouette_score(x_feature, y_pre, metric=’euclidean’)

calinski_harabaz_s：該分?jǐn)?shù)定義為群內(nèi)離散與簇間離散的比值，它是一種非監(jiān)督式評(píng)估指標(biāo)。

# Calinski和Harabaz得分calinski_harabaz_s = metrics.calinski_harabasz_score(x_feature, y_pre) 6、聚類效果可視化

# 模型效果可視化centers = model_kmeans.cluster_centers_ # 各類別中心colors = [’#4EACC5’, ’#FF9C34’, ’#4E9A06’] # 設(shè)置不同類別的顏色plt.figure() # 建立畫布for i in range(n_clusters): # 循環(huán)讀類別 index_sets = np.where(y_pre == i) # 找到相同類的索引集合 cluster = x_feature[index_sets] # 將相同類的數(shù)據(jù)劃分為一個(gè)聚類子集 plt.scatter(cluster[:, 0], cluster[:, 1], c=colors[i], marker=’.’) # 展示聚類子集內(nèi)的樣本點(diǎn) plt.plot(centers[i][0], centers[i][1], ’o’, markerfacecolor=colors[i], markeredgecolor=’k’, markersize=6) # 展示各聚類子集的中心plt.show() # 展示圖像

如圖：

Python 數(shù)據(jù)化運(yùn)營(yíng)之KMeans聚類分析總結(jié)

7、數(shù)據(jù)預(yù)測(cè)

# 模型應(yīng)用new_X = [1, 3.6,9.9]cluster_label = model_kmeans.predict(np.array(new_X).reshape(1,-1))print (’聚類預(yù)測(cè)結(jié)果為: %d’ % cluster_label)

到此這篇關(guān)于Python 數(shù)據(jù)化運(yùn)營(yíng)之KMeans聚類分析總結(jié)的文章就介紹到這了,更多相關(guān)Python 數(shù)據(jù)化運(yùn)營(yíng)內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：如何用Python寫一個(gè)簡(jiǎn)單的通訊錄下一條：Python 函數(shù)簡(jiǎn)單易理解版

相關(guān)文章：

1. Java發(fā)送http請(qǐng)求的示例(get與post方法請(qǐng)求)2. JS繪圖Flot如何實(shí)現(xiàn)動(dòng)態(tài)可刷新曲線圖3. springboot基于Redis發(fā)布訂閱集群下WebSocket的解決方案4. 關(guān)于探究python中sys.argv時(shí)遇到的問(wèn)題詳解5. 基于android studio的layout的xml文件的創(chuàng)建方式6. CSS自定義滾動(dòng)條樣式案例詳解7. 使用ProcessBuilder調(diào)用外部命令，并返回大量結(jié)果8. Intellij IDEA官方最完美編程字體Mono使用9. python使用requests庫(kù)爬取拉勾網(wǎng)招聘信息的實(shí)現(xiàn)10. IDEA項(xiàng)目的依賴(pom.xml文件)導(dǎo)入問(wèn)題及解決

排行榜

					
					使用ProcessBuilder調(diào)用外部命令，并返回大量結(jié)果
關(guān)于探究python中sys.argv時(shí)遇到的問(wèn)題詳解
Intellij IDEA官方最完美編程字體Mono使用
基于android studio的layout的xml文件的創(chuàng)建方式
CSS自定義滾動(dòng)條樣式案例詳解
python使用requests庫(kù)爬取拉勾網(wǎng)招聘信息的實(shí)現(xiàn)
springboot基于Redis發(fā)布訂閱集群下WebSocket的解決方案
JS繪圖Flot如何實(shí)現(xiàn)動(dòng)態(tài)可刷新曲線圖
IDEA項(xiàng)目的依賴(pom.xml文件)導(dǎo)入問(wèn)題及解決
Java發(fā)送http請(qǐng)求的示例(get與post方法請(qǐng)求)
python利用后綴表達(dá)式實(shí)現(xiàn)計(jì)算器功能