python - 如何爬取跳轉(zhuǎn)網(wǎng)站的數(shù)據(jù)
問題描述
目前在學習一些爬蟲的知識,對于一些復(fù)雜的網(wǎng)站使用selenium進行爬取。碰到一個問題,我需要爬取的工單網(wǎng)站(不知道密碼)需要先通過登錄一個鑒權(quán)系統(tǒng),然后鑒權(quán)系統(tǒng)頁面點擊其中的工單系統(tǒng)連接,就會自動免登錄跳轉(zhuǎn)到工單系統(tǒng)網(wǎng)站,這種系統(tǒng)的數(shù)據(jù)我該如何使用爬蟲進行抓取?以下是鑒權(quán)系統(tǒng)selenium拿到關(guān)于工單系統(tǒng)的html
<a href='http://m.lshqa.cn/link-test001' target='_blank' rel='link-test001' data='1' datasrc='工單系統(tǒng)|||/files/link/test001.gif|||new|||/link-test001'> <img src='http://m.lshqa.cn/files/link/test001.gif' alt='工單系統(tǒng)' align='absmiddle'><span>工單系統(tǒng)</span></a>
問題解答
回答1:用firefox的擴展selenium ide錄制一遍操作。然后導(dǎo)出為python文件。改改運行就可以了。
建議你去讀讀蟲師寫的書。
回答2:例如使用requests庫作為爬蟲的話,先創(chuàng)建session(),A登錄,B是跳轉(zhuǎn)的頁面即可。
T=requests.session()A=T.post(url=url,data=data)B=T.get(url=url)
創(chuàng)建的T就代表存儲的cookie,會一直保留
相關(guān)文章:
1. python 利用subprocess庫調(diào)用mplayer時發(fā)生錯誤2. javascript - 有適合開發(fā)手機端Html5網(wǎng)頁小游戲的前端框架嗎?3. 安全性測試 - nodejs中如何防m(xù)ySQL注入4. python文檔怎么查看?5. python - Pycharm的Debug用不了6. javascript - 關(guān)于apply()與call()的問題7. python - pycharm 自動刪除行尾空格8. 請問PHPstudy中的數(shù)據(jù)庫如何創(chuàng)建索引9. datetime - Python如何獲取當前時間10. html - eclipse 標簽錯誤
