亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁技術文章
文章詳情頁

python多線程爬取西刺代理的示例代碼

瀏覽:98日期:2022-06-28 16:59:26

西刺代理是一個國內IP代理,由于代理倒閉了,所以我就把原來的代碼放出來供大家學習吧。

鏡像地址:https://www.blib.cn/url/xcdl.html

首先找到所有的tr標簽,與class='odd'的標簽,然后提取出來。

python多線程爬取西刺代理的示例代碼

然后再依次找到tr標簽里面的所有td標簽,然后只提取出里面的[1,2,5,9]這四個標簽的位置,其他的不提取。

python多線程爬取西刺代理的示例代碼

最后可以寫出提取單一頁面的代碼,提取后將其保存到文件中。

import sys,re,threadingimport requests,lxmlfrom queue import Queueimport argparsefrom bs4 import BeautifulSouphead = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}if __name__ == '__main__': ip_list=[] fp = open('SpiderAddr.json','a+',encoding='utf-8') url = 'https://www.blib.cn/url/xcdl.html' request = requests.get(url=url,headers=head) soup = BeautifulSoup(request.content,'lxml') data = soup.find_all(name='tr',attrs={'class': re.compile('|[^odd]')}) for item in data: soup_proxy = BeautifulSoup(str(item),'lxml') proxy_list = soup_proxy.find_all(name='td') for i in [1,2,5,9]: ip_list.append(proxy_list[i].string) print('[+] 爬行列表: {} 已轉存'.format(ip_list)) fp.write(str(ip_list) + ’n’) ip_list.clear()

爬取后會將文件保存為 SpiderAddr.json 格式。

python多線程爬取西刺代理的示例代碼

最后再使用另一段代碼,將其轉換為一個SSR代理工具直接能識別的格式,{’http’: ’http://119.101.112.31:9999’}

import sys,re,threadingimport requests,lxmlfrom queue import Queueimport argparsefrom bs4 import BeautifulSoupif __name__ == '__main__': result = [] fp = open('SpiderAddr.json','r') data = fp.readlines() for item in data: dic = {} read_line = eval(item.replace('n','')) Protocol = read_line[2].lower() if Protocol == 'http': dic[Protocol] = 'http://' + read_line[0] + ':' + read_line[1] else: dic[Protocol] = 'https://' + read_line[0] + ':' + read_line[1] result.append(dic) print(result)

python多線程爬取西刺代理的示例代碼

完整多線程版代碼如下所示。

import sys,re,threadingimport requests,lxmlfrom queue import Queueimport argparsefrom bs4 import BeautifulSouphead = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}class AgentSpider(threading.Thread): def __init__(self,queue): threading.Thread.__init__(self) self._queue = queue def run(self): ip_list=[] fp = open('SpiderAddr.json','a+',encoding='utf-8') while not self._queue.empty(): url = self._queue.get() try:request = requests.get(url=url,headers=head)soup = BeautifulSoup(request.content,'lxml')data = soup.find_all(name='tr',attrs={'class': re.compile('|[^odd]')})for item in data: soup_proxy = BeautifulSoup(str(item),'lxml') proxy_list = soup_proxy.find_all(name='td') for i in [1,2,5,9]: ip_list.append(proxy_list[i].string) print('[+] 爬行列表: {} 已轉存'.format(ip_list)) fp.write(str(ip_list) + ’n’) ip_list.clear() except Exception:passdef StartThread(count): queue = Queue() threads = [] for item in range(1,int(count)+1): url = 'https://www.xicidaili.com/nn/{}'.format(item) queue.put(url) print('[+] 生成爬行鏈接 {}'.format(url)) for item in range(count): threads.append(AgentSpider(queue)) for t in threads: t.start() for t in threads: t.join()# 轉換函數def ConversionAgentIP(FileName): result = [] fp = open(FileName,'r') data = fp.readlines() for item in data: dic = {} read_line = eval(item.replace('n','')) Protocol = read_line[2].lower() if Protocol == 'http': dic[Protocol] = 'http://' + read_line[0] + ':' + read_line[1] else: dic[Protocol] = 'https://' + read_line[0] + ':' + read_line[1] result.append(dic) return resultif __name__ == '__main__': parser = argparse.ArgumentParser() parser.add_argument('-p','--page',dest='page',help='指定爬行多少頁') parser.add_argument('-f','--file',dest='file',help='將爬取到的結果轉化為代理格式 SpiderAddr.json') args = parser.parse_args() if args.page: StartThread(int(args.page)) elif args.file: dic = ConversionAgentIP(args.file) for item in dic: print(item) else: parser.print_help()

以上就是python多線程爬取西刺代理的示例代碼的詳細內容,更多關于python多線程爬取代理的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 日本特黄特色大片免费看 | 国产高清免费不卡观看 | 农村寡妇偷毛片一级 | 国产精品区在线12p 国产精品人成 | 久久久99精品免费观看精品 | 亚洲国产成人精品激情 | 成人看片黄a毛片 | 免费高清特级毛片 | 999国产精品亚洲77777 | 色偷偷88欧美精品久久久 | 日本人一级毛片视频 | 国产不卡视频在线观看 | 一级免费看片 | 不卡一级毛片免费高清 | 久爱综合| 69欧美另类xxxxx高清 | 国产成人精品久久一区二区三区 | 99久久精品无码一区二区毛片 | 国产在线视频网址 | 欧美精品免费线视频观看视频 | 国产毛片一区 | 毛片手机在线观看 | 精品久久久久久久 | 欧美午夜三级我不卡在线观看 | 成人a视频在线观看 | 91精品免费国产高清在线 | 久久亚洲欧洲日产国码 | 精品玖玖玖视频在线观看 | 美女视频网站永久免费观看软件 | 国产午夜精品理论片影院 | 久久精品国产99久久6动漫欧 | 欧美成人看片一区二区三区尤物 | 久久久久久久国产高清 | 亚洲免费观看 | 国产精品区在线12p 国产精品人成 | 亚洲精品欧洲一区二区三区 | 亚洲精品久久精品h成人 | 毛片免费全部免费播放 | 女子张开腿让男人桶视频 | 日本一级特黄在线播放 | 日韩a级片|