文章詳情頁

Python 爬蟲性能相關總結

瀏覽：5日期：2022-07-15 11:55:47

這里我們通過請求網頁例子來一步步理解爬蟲性能

當我們有一個列表存放了一些url需要我們獲取相關數據，我們首先想到的是循環(huán)

簡單的循環(huán)串行

這一種方法相對來說是最慢的，因為一個一個循環(huán)，耗時是最長的，是所有的時間總和代碼如下：

import requestsurl_list = [ ’http://www.baidu.com’, ’http://www.pythonsite.com’, ’http://www.cnblogs.com/’]for url in url_list: result = requests.get(url) print(result.text)

通過線程池

通過線程池的方式訪問，這樣整體的耗時是所有連接里耗時最久的那個，相對循環(huán)來說快了很多

import requestsfrom concurrent.futures import ThreadPoolExecutordef fetch_request(url): result = requests.get(url) print(result.text)url_list = [ ’http://www.baidu.com’, ’http://www.bing.com’, ’http://www.cnblogs.com/’]pool = ThreadPoolExecutor(10)for url in url_list: #去線程池中獲取一個線程，線程去執(zhí)行fetch_request方法 pool.submit(fetch_request,url)pool.shutdown(True)

線程池+回調函數

這里定義了一個回調函數callback

from concurrent.futures import ThreadPoolExecutorimport requestsdef fetch_async(url): response = requests.get(url) return responsedef callback(future): print(future.result().text)url_list = [ ’http://www.baidu.com’, ’http://www.bing.com’, ’http://www.cnblogs.com/’]pool = ThreadPoolExecutor(5)for url in url_list: v = pool.submit(fetch_async,url) #這里調用回調函數 v.add_done_callback(callback)pool.shutdown()

通過進程池

通過進程池的方式訪問，同樣的也是取決于耗時最長的，但是相對于線程來說，進程需要耗費更多的資源，同時這里是訪問url時IO操作，所以這里線程池比進程池更好

import requestsfrom concurrent.futures import ProcessPoolExecutordef fetch_request(url): result = requests.get(url) print(result.text)url_list = [ ’http://www.baidu.com’, ’http://www.bing.com’, ’http://www.cnblogs.com/’]pool = ProcessPoolExecutor(10)for url in url_list: #去進程池中獲取一個線程，子進程程去執(zhí)行fetch_request方法 pool.submit(fetch_request,url)pool.shutdown(True)

進程池+回調函數

這種方式和線程+回調函數的效果是一樣的，相對來說開進程比開線程浪費資源

from concurrent.futures import ProcessPoolExecutorimport requestsdef fetch_async(url): response = requests.get(url) return responsedef callback(future): print(future.result().text)url_list = [ ’http://www.baidu.com’, ’http://www.bing.com’, ’http://www.cnblogs.com/’]pool = ProcessPoolExecutor(5)for url in url_list: v = pool.submit(fetch_async, url) # 這里調用回調函數 v.add_done_callback(callback)pool.shutdown()

主流的單線程實現并發(fā)的幾種方式

asyncio gevent Twisted Tornado

下面分別是這四種代碼的實現例子：

asyncio例子1：

import [email protected] #通過這個裝飾器裝飾def func1(): print(’before...func1......’) # 這里必須用yield from，并且這里必須是asyncio.sleep不能是time.sleep yield from asyncio.sleep(2) print(’end...func1......’)tasks = [func1(), func1()]loop = asyncio.get_event_loop()loop.run_until_complete(asyncio.gather(*tasks))loop.close()

上述的效果是同時會打印兩個before的內容，然后等待2秒打印end內容這里asyncio并沒有提供我們發(fā)送http請求的方法，但是我們可以在yield from這里構造http請求的方法。

asyncio例子2：

import [email protected] fetch_async(host, url=’/’): print('----',host, url) reader, writer = yield from asyncio.open_connection(host, 80) #構造請求頭內容 request_header_content = '''GET %s HTTP/1.0rnHost: %srnrn''' % (url, host,) request_header_content = bytes(request_header_content, encoding=’utf-8’) #發(fā)送請求 writer.write(request_header_content) yield from writer.drain() text = yield from reader.read() print(host, url, text) writer.close()tasks = [ fetch_async(’www.cnblogs.com’, ’/zhaof/’), fetch_async(’dig.chouti.com’, ’/pic/show?nid=4073644713430508&lid=10273091’)]loop = asyncio.get_event_loop()results = loop.run_until_complete(asyncio.gather(*tasks))loop.close()

asyncio + aiohttp 代碼例子：

import aiohttpimport [email protected] fetch_async(url): print(url) response = yield from aiohttp.request(’GET’, url) print(url, response) response.close()tasks = [fetch_async(’http://baidu.com/’), fetch_async(’http://www.chouti.com/’)]event_loop = asyncio.get_event_loop()results = event_loop.run_until_complete(asyncio.gather(*tasks))event_loop.close()

asyncio+requests代碼例子

import asyncioimport [email protected] fetch_async(func, *args): loop = asyncio.get_event_loop() future = loop.run_in_executor(None, func, *args) response = yield from future print(response.url, response.content)tasks = [ fetch_async(requests.get, ’http://www.cnblogs.com/wupeiqi/’), fetch_async(requests.get, ’http://dig.chouti.com/pic/show?nid=4073644713430508&lid=10273091’)]loop = asyncio.get_event_loop()results = loop.run_until_complete(asyncio.gather(*tasks))loop.close()

gevent+requests代碼例子

import geventimport requestsfrom gevent import monkeymonkey.patch_all()def fetch_async(method, url, req_kwargs): print(method, url, req_kwargs) response = requests.request(method=method, url=url, **req_kwargs) print(response.url, response.content)# ##### 發(fā)送請求 #####gevent.joinall([ gevent.spawn(fetch_async, method=’get’, url=’https://www.python.org/’, req_kwargs={}), gevent.spawn(fetch_async, method=’get’, url=’https://www.yahoo.com/’, req_kwargs={}), gevent.spawn(fetch_async, method=’get’, url=’https://github.com/’, req_kwargs={}),])# ##### 發(fā)送請求（協(xié)程池控制最大協(xié)程數量） ###### from gevent.pool import Pool# pool = Pool(None)# gevent.joinall([# pool.spawn(fetch_async, method=’get’, url=’https://www.python.org/’, req_kwargs={}),# pool.spawn(fetch_async, method=’get’, url=’https://www.yahoo.com/’, req_kwargs={}),# pool.spawn(fetch_async, method=’get’, url=’https://www.github.com/’, req_kwargs={}),# ])

grequests代碼例子這個是講requests+gevent進行了封裝

import grequestsrequest_list = [ grequests.get(’http://httpbin.org/delay/1’, timeout=0.001), grequests.get(’http://fakedomain/’), grequests.get(’http://httpbin.org/status/500’)]# ##### 執(zhí)行并獲取響應列表 ###### response_list = grequests.map(request_list)# print(response_list)# ##### 執(zhí)行并獲取響應列表（處理異常） ###### def exception_handler(request, exception):# print(request,exception)# print('Request failed')# response_list = grequests.map(request_list, exception_handler=exception_handler)# print(response_list)

twisted代碼例子

#getPage相當于requets模塊，defer特殊的返回值，rector是做事件循環(huán)from twisted.web.client import getPage, deferfrom twisted.internet import reactordef all_done(arg): reactor.stop()def callback(contents): print(contents)deferred_list = []url_list = [’http://www.bing.com’, ’http://www.baidu.com’, ]for url in url_list: deferred = getPage(bytes(url, encoding=’utf8’)) deferred.addCallback(callback) deferred_list.append(deferred)#這里就是進就行一種檢測，判斷所有的請求知否執(zhí)行完畢dlist = defer.DeferredList(deferred_list)dlist.addBoth(all_done)reactor.run()

tornado代碼例子

from tornado.httpclient import AsyncHTTPClientfrom tornado.httpclient import HTTPRequestfrom tornado import ioloopdef handle_response(response): ''' 處理返回值內容（需要維護計數器，來停止IO循環(huán)），調用 ioloop.IOLoop.current().stop() :param response: :return: ''' if response.error: print('Error:', response.error) else: print(response.body)def func(): url_list = [ ’http://www.baidu.com’, ’http://www.bing.com’, ] for url in url_list: print(url) http_client = AsyncHTTPClient() http_client.fetch(HTTPRequest(url), handle_response)ioloop.IOLoop.current().add_callback(func)ioloop.IOLoop.current().start()

以上就是Python 爬蟲性能相關總結的詳細內容，更多關于Python 爬蟲性能的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：Python 數據的累加與統(tǒng)計的示例代碼下一條：Python 利用OpenCV給照片換底色的示例代碼

相關文章：

1. Ajax提交post請求案例分析2. python 批量下載bilibili視頻的gui程序3. 使用css實現全兼容tooltip提示框4. python numpy庫np.percentile用法說明5. 一篇文章弄清楚Ajax請求的五個步驟6. PHP 面向對象程序設計之類屬性與類常量實現方法分析7. python中HTMLParser模塊知識點總結8. Java Spring WEB應用實例化如何實現9. CSS自定義滾動條樣式案例詳解10. JSP實現客戶信息管理系統(tǒng)

排行榜

					
					python 批量下載bilibili視頻的gui程序
PHP 面向對象程序設計之類屬性與類常量實現方法分析
使用ProcessBuilder調用外部命令，并返回大量結果
Ajax提交post請求案例分析
一篇文章弄清楚Ajax請求的五個步驟
Java Spring WEB應用實例化如何實現
使用css實現全兼容tooltip提示框
python numpy庫np.percentile用法說明
CSS自定義滾動條樣式案例詳解
IntelliJ IDEA設置默認瀏覽器的方法
IntelliJ IDEA 2020.2正式發(fā)布,兩點多多總能助你提效