python - 如何正則字符串中的所有漢字
問題描述
這樣算嗎?121238asdf<img src='https://imgsa.baidu.com/forum/w%3D580/sign=da0493cd90ef76c6d0d2fb23ad14fdf6/e483aa4bd11373f0bddb2e73a40f4bfbf9ed04b1.jpg' height='420'>
字符串如上,類型是’str’,要正則獲得漢字。我之前使用[u4e00-u9fa5]結(jié)果獲得的還是英文,符號(hào)跟數(shù)字的list。求教導(dǎo)正確姿勢(shì)。另外說說我哪里寫錯(cuò)了..
pattern = re.compile(r’[u4E00-u9FA5]’)print pattern.findall(x[1])
這是我寫的...但是返回結(jié)果就沒有漢字,反而是除漢字外的其他字符。
問題解答
回答1:我這里假設(shè)你需要匹配的文本為s:
pattern = re.compile(ur'[u4e00-u9fa5]')print pattern.findall(s.decode(’utf8’))
這里的decode(’utf8’)是怕s的值為類似x66x77x88這樣的Unicode散列。另外,需要注意compile()中ur修飾符,u為Unicode修飾符。
PS:我是從這篇文章得到的啟發(fā)。
Update剛才看了下樓下說的,確實(shí)用Python 3就不存在輸出為Unicode散列的情況了,以下摘自此處
Unicode 字符串在Python2中,普通字符串是以8位ASCII碼進(jìn)行存儲(chǔ)的,而Unicode字符串則存儲(chǔ)為16位unicode字符串,這樣能夠表示更多的字符集。使用的語法是在字符串前面加上前綴 u。
在Python3中,所有的字符串都是Unicode字符串。
回答2:你用的是python2,uxxxx是unicode字符,匹配后得到的是字節(jié)串,print出來是各個(gè)字節(jié)值。
換python3 就沒這個(gè)問題了
相關(guān)文章:
1. 數(shù)據(jù)庫 - Mysql的存儲(chǔ)過程真的是個(gè)坑!求助下面的存儲(chǔ)過程哪里錯(cuò)啦,實(shí)在是找不到哪里的問題了。2. php傳對(duì)應(yīng)的id值為什么傳不了啊有木有大神會(huì)的看我下方截圖3. 如何用筆記本上的apache做微信開發(fā)的服務(wù)器4. python - linux怎么在每天的凌晨2點(diǎn)執(zhí)行一次這個(gè)log.py文件5. 關(guān)于mysql聯(lián)合查詢一對(duì)多的顯示結(jié)果問題6. 冒昧問一下,我這php代碼哪里出錯(cuò)了???7. windows誤人子弟啊8. mysql優(yōu)化 - MySQL如何為配置表建立索引?9. MySQL主鍵沖突時(shí)的更新操作和替換操作在功能上有什么差別(如圖)10. 實(shí)現(xiàn)bing搜索工具urlAPI提交
