文章詳情頁

python - 如何爬取跳轉(zhuǎn)網(wǎng)站的數(shù)據(jù)

瀏覽：100日期：2022-06-30 14:37:44

問題描述

目前在學習一些爬蟲的知識，對于一些復(fù)雜的網(wǎng)站使用selenium進行爬取。碰到一個問題，我需要爬取的工單網(wǎng)站（不知道密碼）需要先通過登錄一個鑒權(quán)系統(tǒng)，然后鑒權(quán)系統(tǒng)頁面點擊其中的工單系統(tǒng)連接，就會自動免登錄跳轉(zhuǎn)到工單系統(tǒng)網(wǎng)站，這種系統(tǒng)的數(shù)據(jù)我該如何使用爬蟲進行抓取？以下是鑒權(quán)系統(tǒng)selenium拿到關(guān)于工單系統(tǒng)的html

問題解答

回答1：

用firefox的擴展selenium ide錄制一遍操作。然后導(dǎo)出為python文件。改改運行就可以了。

建議你去讀讀蟲師寫的書。

回答2：

例如使用requests庫作為爬蟲的話，先創(chuàng)建session()，A登錄，B是跳轉(zhuǎn)的頁面即可。

T=requests.session()A=T.post(url=url,data=data)B=T.get(url=url)

創(chuàng)建的T就代表存儲的cookie，會一直保留

Python 編程

上一條：python如何獲得一個url地址對應(yīng)的跳轉(zhuǎn)后的最終網(wǎng)址下一條：python - Django如何在View中發(fā)送異步HTTP請求？

相關(guān)文章：

1. python 利用subprocess庫調(diào)用mplayer時發(fā)生錯誤2. javascript - 有適合開發(fā)手機端Html5網(wǎng)頁小游戲的前端框架嗎？3. 安全性測試 - nodejs中如何防m(xù)ySQL注入4. python文檔怎么查看？5. python - Pycharm的Debug用不了6. javascript - 關(guān)于apply（）與call（）的問題7. python - pycharm 自動刪除行尾空格8. 請問PHPstudy中的數(shù)據(jù)庫如何創(chuàng)建索引9. datetime - Python如何獲取當前時間10. html - eclipse 標簽錯誤

排行榜

					
					python - pycharm 自動刪除行尾空格
python 利用subprocess庫調(diào)用mplayer時發(fā)生錯誤
java - spring boot 如何打包成asp.net core 那種獨立應(yīng)用?
docker - 各位電腦上有多少個容器啊？容器一多，自己都搞混了，咋辦呢？
docker start -a dockername 老是卡住，什么情況？
docker網(wǎng)絡(luò)端口映射，沒有方便點的操作方法么？
docker綁定了nginx端口 外部訪問不到
angular.js - angular.ui：dropdown的下拉菜單關(guān)閉的偶爾失常問題
javascript - nginx反向代理靜態(tài)資源403錯誤?
html - eclipse 標簽錯誤
請問PHPstudy中的數(shù)據(jù)庫如何創(chuàng)建索引
				

熱門標簽

亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

python - 如何爬取跳轉(zhuǎn)網(wǎng)站的數(shù)據(jù)