亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

網(wǎng)頁(yè)爬蟲(chóng) - Python爬蟲(chóng)如何正確判斷頁(yè)面是否可以爬取?

瀏覽:126日期:2022-09-03 13:50:21

問(wèn)題描述

用Python27些爬蟲(chóng),想要爬取一些網(wǎng)站,我需要判斷網(wǎng)頁(yè)是否可以爬取,第一反應(yīng)是通過(guò)狀態(tài)碼來(lái)判斷,但是寫(xiě)完運(yùn)行后發(fā)現(xiàn)有許多目標(biāo)網(wǎng)站訪(fǎng)問(wèn)它不存在的頁(yè)面時(shí)會(huì)返回一個(gè)404錯(cuò)誤頁(yè)面,可他的狀態(tài)碼卻是200,結(jié)果爬回來(lái)好多根本就不存在的頁(yè)面。這個(gè)本來(lái)是網(wǎng)站設(shè)置的問(wèn)題,但是現(xiàn)在也不能用狀態(tài)碼來(lái)判斷了,請(qǐng)問(wèn)還有什么方法可以正確判斷一個(gè)頁(yè)面是不是404該不該爬?

問(wèn)題解答

回答1:

首先, 200 狀態(tài)碼,是網(wǎng)絡(luò)連接狀態(tài), 所以你只判斷200并不能滿(mǎn)足所有網(wǎng)站。

其次, 寫(xiě)爬蟲(chóng)嘛, 你應(yīng)該實(shí)際去看看這些網(wǎng)站的規(guī)則是什么,可以先人工判斷下, 找找規(guī)律, 比如看看網(wǎng)頁(yè)返回內(nèi)容是不是有什么特點(diǎn)之類(lèi)的。

回答2:

做個(gè)網(wǎng)頁(yè)內(nèi)容的判斷,如果他網(wǎng)頁(yè)里面沒(méi)有內(nèi)容就直接返回。

回答3:

就算是頁(yè)面狀態(tài)碼200,返回的404頁(yè)面,應(yīng)該和正常能爬取的頁(yè)面html有不同的html元素吧,根據(jù)有沒(méi)有特定的html元素來(lái)判斷是不是404頁(yè)面也行的

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 免费观看日本视频 | 久久机热综合久久国产 | 国产三级在线视频播放线 | 精品国产三级v | 国产好片无限资源 | 亚洲精品国产一区二区三区在 | 在线欧美精品一区二区三区 | 国产性精品 | a级毛片免费 | 在线观看欧美亚洲日本专区 | 欧美成人精品免费播放 | 色婷婷激婷婷深爱五月老司机 | 狠狠se| 亚洲作爱视频 | 2021国产精品自在拍在线播放 | 亚洲男人天堂2017 | 一级片国产 | 日本xxxxx久色视频在线观看 | 国产成人香蕉在线视频网站 | 国产自产在线 | 在线视频一区二区日韩国产 | 男女乱淫真视频免费一级毛片 | 午夜免费毛片 | 国产精品手机在线亚洲 | 日本精品99 | 亚洲高清在线看 | 日本一区三区二区三区四区 | 最近手机中文在线视频 | 一级女性全黄生活片免费 | 免费播放国产性色生活片 | 美国毛片基地a级e片 | 国产成人yy精品1024在线 | 久久只有这才是精品99 | 亚洲午夜精品久久久久久抢 | 亚洲欧美v视色一区二区 | 九久久 | 国产精品美女免费视频大全 | 91精品视频在线播放 | 91看片淫黄大片欧美看国产片 | 美女黄网站色一级毛片 | 亚洲精品视频免费在线观看 |