文章詳情頁

Python如何利用Selenium或者PhantomJS爬取動態網頁內容

瀏覽：102日期：2022-06-30 17:58:04

問題描述

想用python做股票量化交易，第一步就是獲取股票的歷史數據。訪問http://data.eastmoney.com/sto...網頁，將網頁源碼打開后看不見表格中的數據，據說是利用ajax技術加載的。在網上看見可以利用selenium和phantomJS來獲取這些動態網頁內容，但是不知道如何獲取完整源碼。請高手指點迷津

問題解答

回答1：

事實上，我剛才試了一下，頁面不是用xhr加載的，在頁面的源代碼中已經有了，然后調用了一個類把數據加載為一個table。比如，首頁的數據：

Python如何利用Selenium或者PhantomJS爬取動態網頁內容

然后，提取就直接使用re提取就可以了，得到文本以后json解析就好了。先寫到這里。+++++++++++++++++++++++++++++++++++++++++

然后，就是這個網站不使用xhr加載數據而是使用的js來加載json數據，動態解析來顯示。具體分析需要用到js的知識，如果你了解也可以自己嘗試解析。

我嘗試了一下。

from urllib.parse import quoteimport timeimport requestsurl = 'http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=TSTC&st={sortType}&sr={sortRule}&p={page}&ps={pageSize}&js=var {jsname}=(x){param}'params = { 'sortType': 1, 'sortRule': 1, 'page': 2, 'pageSize': 50, 'jsname': 'Aafdafgq', # 這里使用的是隨機字符串，8位 'param': '&mkt=0&rt='}params['param'] += str(int(time.time()/30)) # 當前時間url = url.format(**params)url = quote(url, safe=':=/?&()')req = requests.get(url)req.text

Python如何利用Selenium或者PhantomJS爬取動態網頁內容

回答2：

用這個組合好處是簡單暴力，壞處是效率較低。相當于打開一個你看不到的瀏覽器加載頁面，再把運算好的結果讀取。新人學爬蟲的話推薦 python網絡數據采集這本動物書。你需要的說明在采集動態頁面那章。這書很薄很實用。

回答3：

我對js和json都不太了解，剛剛爬蟲入門。經過你的提示，我再查看了一下源碼，發現在defjson里面有這些數據，不明白是怎樣把json里的數據顯示到tbody里面的。我用pandas的read_html可以抓到這些數據，但是最后兩列會丟失。看來我得先去看看js和json

Python 編程

上一條：python - Scrapy模擬登陸遇到404問題下一條：python2.7 urllib2 獲取網頁顯示不全

相關文章：

1. python - oslo_config2. 關于mysql聯合查詢一對多的顯示結果問題3. 實現bing搜索工具urlAPI提交4. MySQL主鍵沖突時的更新操作和替換操作在功能上有什么差別(如圖)5. 數據庫 - Mysql的存儲過程真的是個坑！求助下面的存儲過程哪里錯啦，實在是找不到哪里的問題了。6. windows誤人子弟啊7. 冒昧問一下，我這php代碼哪里出錯了？？？8. 如何用筆記本上的apache做微信開發的服務器9. 我在網址中輸入localhost/abc.php顯示的是not found是為什么呢？10. mysql優化 - MySQL如何為配置表建立索引？

排行榜

					
					javascript - 用on方法,綁定ui,下面的li 事件,ui,li是由ajax生成的,新手求教
javascript - ajax請求nodejs后臺，開啟服務器后，localhost:3000/index.html頁面既沒有報錯，也沒有文字。。。
windows誤人子弟啊
html5和Flash對抗是什么情況？
android - 哪位大神知道java后臺的api接口的對象傳到前端后輸入日期報錯，是什么情況？求大神指點
android-studio - android studio 結巴了，有什么辦法可以治好它嗎？
javascript - Java selenium 中使用click()方法點擊超鏈接無效  用window.open() 也打不開頁面
冒昧問一下，我這php代碼哪里出錯了？？？
android - 安卓使用webview播放騰訊、優酷視頻的方法
javascript - jquery  ajax 用jsonp的方式跨域訪問，為什么報錯
angular.js - angular.ui：dropdown的下拉菜單關閉的偶爾失常問題
				

熱門標簽

色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

Python如何利用Selenium或者PhantomJS爬取動態網頁內容