文章詳情頁(yè)

Python jieba結(jié)巴分詞原理及用法解析

瀏覽：8日期：2022-07-06 11:58:45

1、簡(jiǎn)要說(shuō)明

結(jié)巴分詞支持三種分詞模式，支持繁體字，支持自定義詞典

2、三種分詞模式

全模式：把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非常快，但是不能解決歧義

精簡(jiǎn)模式：把句子最精確的分開，不會(huì)添加多余單詞，看起來(lái)就像是把句子分割一下

搜索引擎模式：在精簡(jiǎn)模式下，對(duì)長(zhǎng)詞再度切分

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’我去北京天安門廣場(chǎng)跳舞’ a = jieba.lcut(str1, cut_all=True) # 全模式 print(’全模式:{}’.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡(jiǎn)模式 print(’精簡(jiǎn)模式:{}’.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print(’搜索引擎模式:{}’.format(c))

運(yùn)行

Python jieba結(jié)巴分詞原理及用法解析

3、某個(gè)詞語(yǔ)不能被分開

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’桃花俠大戰(zhàn)菊花怪’ b = jieba.lcut(str1, cut_all=False) # 精簡(jiǎn)模式 print(’精簡(jiǎn)模式:{}’.format(b)) # 如果不把桃花俠分開 jieba.add_word(’桃花俠’) d = jieba.lcut(str1) # 默認(rèn)是精簡(jiǎn)模式 print(d)

運(yùn)行

Python jieba結(jié)巴分詞原理及用法解析

4、某個(gè)單詞必須被分開

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: # HMM參數(shù)，默認(rèn)為True ’’’HMM 模型，即隱馬爾可夫模型（Hidden Markov Model, HMM），是一種基于概率的統(tǒng)計(jì)分析模型，用來(lái)描述一個(gè)系統(tǒng)隱性狀態(tài)的轉(zhuǎn)移和隱性狀態(tài)的表現(xiàn)概率。在 jieba 中，對(duì)于未登錄到詞庫(kù)的詞，使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法，其大致原理是：采用四個(gè)隱含狀態(tài)，分別表示為單字成詞，詞組的開頭，詞組的中間，詞組的結(jié)尾。通過(guò)標(biāo)注好的分詞訓(xùn)練集，可以得到 HMM 的各個(gè)參數(shù)，然后使用 Viterbi 算法來(lái)解釋測(cè)試集，得到分詞結(jié)果。 ’’’ str1 = ’桃花俠大戰(zhàn)菊花怪’ b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡(jiǎn)模式，且不使用HMM模型 print(’精簡(jiǎn)模式:{}’.format(b)) # 分開大戰(zhàn)為大和戰(zhàn) jieba.suggest_freq((’大’, ’戰(zhàn)’), True) e = jieba.lcut(str1, HMM=False) # 不使用HMM模型 print(’分開:{}’.format(e))

運(yùn)行

Python jieba結(jié)巴分詞原理及用法解析

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：Python Pandas數(shù)據(jù)分析工具用法實(shí)例下一條：Python根據(jù)字符串調(diào)用函數(shù)過(guò)程解析

相關(guān)文章：

1. python爬蟲beautifulsoup解析html方法2. Python 如何將integer轉(zhuǎn)化為羅馬數(shù)(3999以內(nèi))3. python 實(shí)現(xiàn)aes256加密4. 詳解Python模塊化編程與裝飾器5. css進(jìn)階學(xué)習(xí) 選擇符6. Python性能測(cè)試工具Locust安裝及使用7. 以PHP代碼為實(shí)例詳解RabbitMQ消息隊(duì)列中間件的6種模式8. 使用Python解析Chrome瀏覽器書簽的示例9. html小技巧之td,div標(biāo)簽里內(nèi)容不換行10. python web框架的總結(jié)

排行榜

					
					如何在vue3.0+中使用tinymce及實(shí)現(xiàn)多圖上傳文件上傳公式編輯功能
關(guān)于Java下奇怪的Base64詳解
python 實(shí)現(xiàn)aes256加密
Python 如何將integer轉(zhuǎn)化為羅馬數(shù)(3999以內(nèi))
Python使用shutil模塊實(shí)現(xiàn)文件拷貝
Spring security 自定義過(guò)濾器實(shí)現(xiàn)Json參數(shù)傳遞并兼容表單參數(shù)(實(shí)例代碼)
SpringBoot Shiro 權(quán)限注解不起作用的解決方法
python+adb+monkey實(shí)現(xiàn)Rom穩(wěn)定性測(cè)試詳解
Effective java學(xué)習(xí)筆記4:避免創(chuàng)建重復(fù)對(duì)象
JavaScript實(shí)現(xiàn)前端倒計(jì)時(shí)效果
java 如何實(shí)現(xiàn)正確的刪除集合中的元素