亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - 關(guān)于代碼的優(yōu)化問(wèn)題

瀏覽:155日期:2022-08-17 09:32:17

問(wèn)題描述

我新手寫的代碼,用來(lái)處理爬蟲(chóng)下來(lái)的htm文件內(nèi)容,雖然解決問(wèn)題,但是會(huì)有遺漏文件不處理。爬蟲(chóng)是爬一些文章的網(wǎng)站下來(lái)的,和網(wǎng)頁(yè)另存為沒(méi)什么區(qū)別。

想大神們幫我看看我的代碼,怎么優(yōu)化不會(huì)有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問(wèn)題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 日本一级毛片免费 | 日韩国产在线观看 | 一区二区三区在线看 | 好吊色37pao在线观看 | 成人欧美网站 | 亚洲欧美日韩成人一区在线 | 日本一区二区三区在线 视频 | 欧美国产亚洲一区 | 中文字幕免费视频 | 国产vs久久| 国产91免费在线 | 韩国精品视频在线观看 | 99久久99这里只有免费费精品 | 亚洲天堂一区二区在线观看 | 精品国产欧美另类一区 | 国产免费人成在线看视频 | 亚洲三级精品 | 亚洲一区二区三区国产精品 | 欧美日韩一区二区三区高清不卡 | 九九视频在线看精品 | 亚洲素人在线 | 久久精品国产国产精品四凭 | 成人精品一区二区激情 | 国产精品一在线观看 | 欧美视频在线观看 | 91亚洲精品国产第一区 | 盗摄偷拍a在线观看 | 在线播放免费一级毛片欧美 | 国产高清精品在线 | 欧美一级毛片免费看高清 | 欧美一级毛片一 | 国产韩国精品一区二区三区 | 国产成人高清亚洲一区久久 | 久久国产影院 | 麻豆19禁国产青草精品 | 日韩欧美久久一区二区 | 亚洲第一欧美 | 手机亚洲第1页 | 久久综合一本 | 一级视频免费观看 | 九九九精品视频 |