色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術(shù)文章
文章詳情頁

Python如何使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類

瀏覽:4日期:2022-06-27 10:37:02

深度學(xué)習(xí)無處不在。在本文中,我們將使用Keras進(jìn)行文本分類。

準(zhǔn)備數(shù)據(jù)集

出于演示目的,我們將使用 20個新聞組 數(shù)據(jù)集。數(shù)據(jù)分為20個類別,我們的工作是預(yù)測這些類別。如下所示:

Python如何使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類

通常,對于深度學(xué)習(xí),我們將劃分訓(xùn)練和測試數(shù)據(jù)。

導(dǎo)入所需的軟件包

Python

import pandas as pdimport numpy as npimport picklefrom keras.preprocessing.text import Tokenizerfrom keras.models import Sequentialfrom keras.layers import Activation, Dense, Dropoutfrom sklearn.preprocessing import LabelBinarizerimport sklearn.datasets as skdsfrom pathlib import Path將數(shù)據(jù)從文件加載到Python變量

Python

# 為了復(fù)現(xiàn)性np.random.seed(1237) label_index = files_train.targetlabel_names = files_train.target_nameslabelled_files = files_train.filenames data_tags = ['filename','category','news']data_list = [] # 讀取文件中的數(shù)據(jù)并將其添加到列表 data = pd.DataFrame.from_records(data_list, columns=data_tags)

我們的數(shù)據(jù)無法以CSV格式提供。我們有文本數(shù)據(jù)文件,文件存放的目錄是我們的標(biāo)簽或類別。

我們將使用scikit-learn load_files方法。這種方法可以提供原始數(shù)據(jù)以及標(biāo)簽和標(biāo)簽索引。

最后我們得到一個數(shù)據(jù)框,其中包含文件名,類別和實際數(shù)據(jù)。

拆分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練和測試

Python

# 讓我們以80%的數(shù)據(jù)作為訓(xùn)練,剩下的20%作為測試。train_size = int(len(data) * .8) train_posts = data[’news’][:train_size]train_tags = data[’category’][:train_size]train_files_names = data[’filename’][:train_size] test_posts = data[’news’][train_size:]test_tags = data[’category’][train_size:]test_files_names = data[’filename’][train_size:]標(biāo)記化并準(zhǔn)備詞匯

Python

# 20個新聞組num_labels = 20vocab_size = 15000batch_size = 100 # 用Vocab Size定義Tokenizertokenizer = Tokenizer(num_words=vocab_size)tokenizer.fit_on_texts(train_posts)

在對文本進(jìn)行分類時,我們首先使用Bag Of Words方法對文本進(jìn)行預(yù)處理。

預(yù)處理輸出標(biāo)簽/類

在將文本轉(zhuǎn)換為數(shù)字向量后,我們還需要確保標(biāo)簽以神經(jīng)網(wǎng)絡(luò)模型接受的數(shù)字格式表示。

建立Keras模型并擬合

PowerShell

model = Sequential()

它為輸入數(shù)據(jù)的維度以及構(gòu)成模型的圖層類型提供了簡單的配置。

這是擬合度和測試準(zhǔn)確性的代碼段

100/8145 [..............................] - ETA: 31s - loss: 1.0746e-04 - acc: 1.0000200/8145 [..............................] - ETA: 31s - loss: 0.0186 - acc: 0.9950 300/8145 [>.............................] - ETA: 35s - loss: 0.0125 - acc: 0.9967400/8145 [>.............................] - ETA: 32s - loss: 0.0094 - acc: 0.9975500/8145 [>.............................] - ETA: 30s - loss: 0.0153 - acc: 0.9960...7900/8145 [============================>.] - ETA: 0s - loss: 0.1256 - acc: 0.98548000/8145 [============================>.] - ETA: 0s - loss: 0.1261 - acc: 0.98558100/8145 [============================>.] - ETA: 0s - loss: 0.1285 - acc: 0.98548145/8145 [==============================] - 29s 4ms/step - loss: 0.1293 - acc: 0.9854 - val_loss: 1.0597 - val_acc: 0.8742 Test accuracy: 0.8767123321648251評估模型

Python

for i in range(10): prediction = model.predict(np.array([x_test[i]])) predicted_label = text_labels[np.argmax(prediction[0])] print(test_files_names.iloc[i]) print(’Actual label:’ + test_tags.iloc[i]) print('Predicted label: ' + predicted_label)

在Fit方法訓(xùn)練了我們的數(shù)據(jù)集之后,我們將如上所述評估模型。

混淆矩陣

混淆矩陣是可視化模型準(zhǔn)確性的最佳方法之一。

Python如何使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類

保存模型

通常,深度學(xué)習(xí)的用例就像在不同的會話中進(jìn)行數(shù)據(jù)訓(xùn)練,而使用訓(xùn)練后的模型進(jìn)行預(yù)測一樣。

# 創(chuàng)建一個HDF5文件’my_model.h5’model.model.save(’my_model.h5’) # 保存令牌生成器,即詞匯表with open(’tokenizer.pickle’, ’wb’) as handle: pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)

Keras沒有任何實用程序方法可將Tokenizer與模型一起保存。我們必須單獨序列化它。

加載Keras模型

Python

預(yù)測環(huán)境還需要注意標(biāo)簽。

encoder.classes_ #標(biāo)簽二值化預(yù)測

如前所述,我們已經(jīng)預(yù)留了一些文件進(jìn)行實際測試。

Python

labels = np.array([’alt.atheism’, ’comp.graphics’, ’comp.os.ms-windows.misc’,’comp.sys.ibm.pc.hardware’, ’comp.sys.mac.hardware’, ’comp.windows.x’,’misc.forsale’, ’rec.autos’, ’rec.motorcycles’, ’rec.sport.baseball’,’rec.sport.hockey’, ’sci.crypt’, ’sci.electronics’, ’sci.med’, ’sci.space’,’soc.religion.christian’, ’talk.politics.guns’, ’talk.politics.mideast’,’talk.politics.misc’, ’talk.religion.misc’]) ...for x_t in x_tokenized: prediction = model.predict(np.array([x_t])) predicted_label = labels[np.argmax(prediction[0])] print('File ->', test_files[i], 'Predicted label: ' + predicted_label) i += 1輸出

File -> C:DL20news-bydate20news-bydate-testcomp.graphics38758 Predicted label: comp.graphicsFile -> C:DL20news-bydate20news-bydate-testmisc.forsale76115 Predicted label: misc.forsaleFile -> C:DL20news-bydate20news-bydate-testsoc.religion.christian21329 Predicted label: soc.religion.christian

我們知道目錄名是文件的真實標(biāo)簽,因此上述預(yù)測是準(zhǔn)確的。

結(jié)論

在本文中,我們使用Keras python庫構(gòu)建了一個簡單而強(qiáng)大的神經(jīng)網(wǎng)絡(luò)。

以上就是Python如何使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類的詳細(xì)內(nèi)容,更多關(guān)于python 神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 日本在线视频不卡 | 精品三级国产一区二区三区四区 | 国产一区二区三区美女在线观看 | 黄色毛片在线 | 风流慈禧一级毛片在线播放 | 免费嗨片 | 中文字幕视频在线 | 国产成人亚洲精品 | 毛片大片免费看 | 成人国产精品一级毛片视频 | 国产无套视频在线观看香蕉 | 欧美大尺度xxxxx视频 | 日本特黄特色高清免费视频 | 欧美高清日本三级人妇 | 亚洲乱码一区二区三区国产精品 | 本道久久综合88全国最大色 | 一区二区三区久久精品 | 亚洲一区在线观看视频 | 午夜美女久久久久爽久久 | 久久精品高清 | 亚洲视频三区 | 亚洲成人h | 亚洲国产成人综合精品2020 | 泰国一级毛片aaa下面毛多 | 成人毛片国产a | 亚洲欧洲日韩综合色天使不卡 | 美女黄页网站 | 男人在线网址 | 国产美女白丝袜精品_a不卡 | 悟空影视大全免费高清 | 全国男人的天堂网站 | 性色午夜视频免费男人的天堂 | 国产看色免费 | 九九精品在线视频 | 草草在线观看视频 | 一级毛片在线不卡直接观看 | 性做爰片免费视频毛片中文i | 在线观看中文字幕亚洲 | 另类专区国产在线视频 | 国产一级真人毛爱做毛片 | 香蕉521av网站永久地址 |