色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

python - scrapy url去重

瀏覽:132日期:2022-08-24 16:35:16

問題描述

請問scrapy是url自動去重的嗎?比如下面這段代碼,為什么運行時start_urls里面的重復url會重復爬取了?

class TestSpider(scrapy.Spider): name = 'test' allowed_domains = ['baidu.com'] start_urls = [’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’,] def parse(self, response):for sel in response.xpath(’//p[@class='grid-list grid-list-spot']/ul/li’): item = TestspiderItem() item[’title’] = sel.xpath(’p[@class='list']/a/text()’)[0].extract() item[’link’] = sel.xpath(’p[@class='list']/a/@href’)[0].extract() yield item

問題解答

回答1:

建一個Url管理器,就不會重復抓取了

回答2:

知道了,改成這樣就可以了。

def start_requests(self):

yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 俄罗斯aa毛片极品 | 亚洲一区免费看 | 亚洲理论欧美理论在线观看 | 草视频在线观看 | 日本xxxxx久色视频在线观看 | 精品一区二区三区免费视频 | 亚洲国产精品激情在线观看 | 亚洲国产网站 | 她也啪在线视频精品网站 | 久久99久久精品国产99热 | 最新国产中文字幕 | 亚洲午夜18| 久久99国产亚洲精品观看 | 美女作爱网站 | 日本一级高清不卡视频在线 | 国产精品久久久 | 日本大黄网站 | 免费看操片 | 国产亚洲欧美ai在线看片 | 欧美精品片 | 一区二区伦理 | 国产精品亚洲成在人线 | 久操免费在线视频 | 永久精品免费影院在线观看网站 | 欧美午夜视频一区二区三区 | 日本爽快片100色毛片 | 一级做a爰片久久毛片唾 | 国产精品成aⅴ人片在线观看 | 日本最色视频 | 久久一级片 | 欧美国产一区二区三区 | 亚洲男同可播放videos | 久久精品国产一区二区三区不卡 | 精品国产午夜肉伦伦影院 | 久久精品二区 | 中文字幕1区 | 欧美日本在线视频 | 成人毛片高清视频观看 | 免费嗨片| 国产成人高清视频在线观看免费97 | 国产喷水女王在线播放 |