文章詳情頁

記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題

瀏覽：72日期：2022-07-04 14:54:39

為了分析深圳市所有長租、短租公寓的信息，爬取了某租房公寓網站上深圳區域所有在租公寓信息，以下記錄了爬取過程以及爬取過程中遇到的問題：

爬取代碼：

import requestsfrom requests.exceptions import RequestExceptionfrom pyquery import PyQuery as pqfrom bs4 import BeautifulSoupimport pymongofrom config import *from multiprocessing import Poolclient = pymongo.MongoClient(MONGO_URL) # 申明連接對象db = client[MONGO_DB] # 申明數據庫def get_one_page_html(url): # 獲取網站每一頁的html headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/85.0.4183.121 Safari/537.36' } try: response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: return None except RequestException: return Nonedef get_room_url(html): # 獲取當前頁面上所有room_info的url doc = pq(html) room_urls = doc(’.r_lbx .r_lbx_cen .r_lbx_cena a’).items() return room_urlsdef parser_room_page(room_html): soup = BeautifulSoup(room_html, ’lxml’) title = soup.h1.text price = soup.find(’div’, {’class’: ’room-price-sale’}).text[:-3] x = soup.find_all(’div’, {’class’: ’room-list’}) area = x[0].text[7:-11] # 面積 bianhao = x[1].text[4:] house_type = x[2].text.strip()[3:7] # 戶型 floor = x[5].text[4:-2] # 樓層 location1 = x[6].find_all(’a’)[0].text # 分區 location2 = x[6].find_all(’a’)[1].text location3 = x[6].find_all(’a’)[2].text subway = x[7].text[4:] addition = soup.find_all(’div’, {’class’: ’room-title’})[0].text yield { ’title’: title, ’price’: price, ’area’: area, ’bianhao’: bianhao, ’house_type’: house_type, ’floor’: floor, ’location1’: location1, ’location2’: location2, ’location3’: location3, ’subway’: subway, ’addition’: addition }def save_to_mongo(result): if db[MONGO_TABLE].insert_one(result): print(’存儲到mongodb成功’, result) return True return Falsedef main(page): url = ’http://www.xxxxx.com/room/sz?page=’ + str(page) # url就不粘啦，嘻嘻 html = get_one_page_html(url) room_urls = get_room_url(html) for room_url in room_urls: room_url_href = room_url.attr(’href’) room_html = get_one_page_html(room_url_href) if room_html is None: # 非常重要，否則room_html為None時會報錯 pass else: results = parser_room_page(room_html) for result in results:save_to_mongo(result)if __name__ == ’__main__’: pool = Pool() # 使用多進程提高爬取效率 pool.map(main, [i for i in range(1, 258)])

在寫爬取代碼過程中遇到了兩個問題：

（一）在get_room_url(html)函數中，開始是想直接return每個租房信息的room_url，但是return不同于print，函數運行到return時就會結束該函數，這樣就只能返回每頁第一個租房room_url。解決辦法是：return 包含每頁所有room_url的generator生成器，在main函數中用for循環遍歷，再從每個room_url中獲取href，傳入到get_one_page_html(room_url_href)中進行解析。

（二）沒有寫第76行的if語句，我默認get_one_page_html(room_url_href)返回的room_html不為空，因此出現multiprocessing.pool.RemoteTraceback報錯：

記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題

上圖中顯示markup為None情況下報錯，點擊藍色'F:ProgramFilesanaconda3libsite-packagesbs4__init__.py'發現markup為room_html，即部分room_html出現None情況。要解決這個問題，必須讓代碼跳過room_html is None的情況，因此添加 if 語句解決了這個問題。

最終成功爬取某租房公寓深圳市258頁共4755條租房信息，為下一步進行數據分析做準備。

記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題

其中單條信息：

記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題

以上就是記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題的詳細內容，更多關于python 爬蟲的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：Python調用Redis的示例代碼下一條：python opencv角點檢測連線功能的實現代碼

相關文章：

1. python 寫一個文件分發小程序2. Python本地及虛擬解釋器配置過程解析3. Python importlib模塊重載使用方法詳解4. Vue3中使用this的詳細教程5. Python 利用flask搭建一個共享服務器的步驟6. Python中Anaconda3 安裝gdal庫的方法7. 用python對oracle進行簡單性能測試8. Python自動化之定位方法大殺器xpath9. Python類綁定方法及非綁定方法實例解析10. Python Selenium破解滑塊驗證碼最新版(GEETEST95%以上通過率)

排行榜

					
					Java中lombok的@Builder注解的解析與簡單使用詳解
PHP如何將session保存到memcached中？如何分布式保存PHP session
用python對oracle進行簡單性能測試
Spring Data JPA 關鍵字Exists的用法說明
Spring @Bean注解配置及使用方法解析
Vue3中使用this的詳細教程
vue render函數動態加載img的src路徑操作
Spring Boot console log 格式自定義方式
Python內存泄漏和內存溢出的解決方案
Vue中this.$router和this.$route的區別及push()方法
python用zip壓縮與解壓縮