亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁技術文章
文章詳情頁

python - 爬蟲獲取所有數據的思路是什么

瀏覽:156日期:2022-09-20 09:30:05

問題描述

比如一個網站有下一頁,我要怎么能把所有下一頁爬完呢,用遞歸嗎,遞歸深度不會有限制嗎,初學,希望得到指點

問題解答

回答1:

遞歸,消息隊列,儲存已經爬取的頁面(redis, 數據庫)

回答2:

如果你指的所有數據是一個小域名下的所有數據,并且你并不想細究原理,那就去學scrapy。

如果你指的所有數據是全網數據,并且想搞明白爬取時是廣度優先還是深度優先等等原理,那首先你得有10000+服務器。

回答3:

如果是同一個網站,用遞歸爬去呀,同一個網站怎么會爬不完

回答4:

如果網站的結構是簡單重復的,可以先分析頁碼url的規律,然后直接從第一頁拿到總頁數,然后手動構造出其他頁的url。

回答5:

首先大致說下爬取的思路,如果頁面鏈接很簡單,類似 www.xxx.com/post/1.html這種有規律可循的頁面,可以寫遞歸或者循環去爬取

如果頁面鏈接是未知的,可以獲取爬取的頁面去解析標簽的鏈接,然后繼續爬取,在這一過程中,你需要將已經爬取過的鏈接存下來,爬新鏈接的時候去尋找一下是否之前爬取過,然后也是通過遞歸去爬取

爬取思路 通過url爬取->解析爬取內容中新的url->通過url爬取->....->當爬取到一定數量或者很長一段時間沒有新鏈接的時候跳出遞歸

最后在python界有一個很厲害的爬蟲框架scrapy,基本上把爬蟲常用套路全部都封裝好了,稍微學習下就會了傳送門

回答6:

import java.io.File;import java.io.IOException;import java.io.InputStream;import java.net.URL;import java.net.URLConnection;import org.apache.commons.io.FileUtils;public class SpiderDemo { public static void main(String[] args) throws IOException {//URL url = new URL('http://www.zhongguoxinyongheimingdan.com');//URLConnection connection = url.openConnection();//InputStream in = connection.getInputStream();//File file = new File('F://a.txt');//FileUtils.copyInputStreamToFile(in, file);File srcDir = new File('F://a.txt');String str = FileUtils.readFileToString(srcDir, 'UTF-8');String[] str1 = str.split('href='http://m.lshqa.cn/wenda/);for (int i = 3; i < str1.length-1; i++) { URL url = new URL('http://www.zhongguoxinyongheimingdan.com'+str1[i].substring(1, 27)); File f = new File('F://abc//'+str1[i].substring(2, 22)); if(!f.exists()){ f.mkdir();File desc1 = new File(f,str1[i].substring(1, 22)+'.txt'); URLConnection connection = url.openConnection(); InputStream in = connection.getInputStream(); FileUtils.copyInputStreamToFile(in, desc1); String str2 = FileUtils.readFileToString(desc1, 'UTF-8'); String[] str3 = str2.split('' src='http://m.lshqa.cn/wenda/10676.html'); for(int j = 1;j<str3.length-2;j++){URL url1 = new URL(str3[j].substring(0, 81));URLConnection connection1 = url1.openConnection();connection1.setDoInput(true);InputStream in1 = connection1.getInputStream();File desc2 = new File(f,str3[j].substring(44,76)+'.jpg');FileUtils.copyInputStreamToFile(in1, desc2); } } }} }

簡單的代碼 把中國信用黑名單網站的所有照片保存到 本地 網站本身簡單!不過當場這個網站奔潰了 也是醉了!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 美一级片 | 国产成人精品视频 | 国产精品黄页网站在线播放免费 | 韩国在线精品福利视频在线观看 | 国产成人理在线观看视频 | 中国黄色网址大全 | 99久久综合国产精品免费 | 尤物tv已满18点击进入 | 国产高清无专砖区2021 | 精品一区二区三区18 | 日本一区二区免费在线观看 | a毛片免费 | 久久福利资源国产精品999 | www.夜夜骑.com | 手机午夜看片 | 亚洲免费小视频 | 免费看成人www的网站软件 | 中文字幕日韩欧美一区二区三区 | 国产操操 | 久久精品亚洲 | 国产普通话一二三道 | 狠狠综合久久 | 韩国免费网站成人 | 欧美一级免费在线观看 | 经典国产乱子伦精品视频 | 亚洲精品综合久久中文字幕 | 国产欧美一区二区三区视频在线观看 | 久热中文字幕在线精品免费 | 欧美在线观看www | 精品videosex性欧美 | 国产三级在线观看视频 | 中文字幕在线观看一区 | 一区二区三区免费 | 久久在线免费视频 | 欧美一区二区三区gg高清影视 | 日韩理论视频 | 亚洲综合成人网在线观看 | 国产在线极品 | 亚洲国产精品综合欧美 | 日韩一区二区三区在线视频 | 成人网在线免费观看 |