亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁技術文章
文章詳情頁

使用Python爬取小姐姐圖片(beautifulsoup法)

瀏覽:7日期:2022-06-28 08:01:17

Python有許多強大的庫用于爬蟲,如beautifulsoup、requests等,本文將以網站https://www.xiurenji.cc/XiuRen/為例(慎點!!),講解網絡爬取圖片的一般步驟。為什么選擇這個網站?其實與網站的內容無關。主要有兩項技術層面的原因:①該網站的頁面構造較有規律,適合新手對爬蟲的技巧加強認識。②該網站沒有反爬蟲機制,可以放心使用爬蟲。

第三方庫需求

beautifulsoup requests 步驟

打開網站,點擊不同的頁面:發現其首頁是https://www.xiurenji.cc/XiuRen/,而第二頁是https://www.xiurenji.cc/XiuRen/index2.html,第三頁第四頁以此類推。為了爬蟲代碼的普適性,我們不妨從第二頁以后進行構造url。

使用Python爬取小姐姐圖片(beautifulsoup法)

選中封面圖片,點擊檢查:

使用Python爬取小姐姐圖片(beautifulsoup法)

可以發現,圖片的信息,都在’div’,class_=’dan’里,而鏈接又在a標簽下的href里。據此我們可以寫一段代碼提取出每一個封面圖片的url:

def getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網站每一個首頁的網址 res=requests.get(url)#發送請求 res.encoding='gbk'#設置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲存每一個封面圖片的標簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個封面對應的網址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個元素,達到擴充列表的目的,注意要把網址擴充完整 return urls#返回該主頁每一個封面對應的網址

點擊封面圖片,打開不同的頁面,可以發現,首頁的網址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二頁的網址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四頁同理。同樣為了普適性,我們從第二頁開始爬取。

使用Python爬取小姐姐圖片(beautifulsoup法)

右鍵,點擊“檢查”:

使用Python爬取小姐姐圖片(beautifulsoup法)

可以發現所有的圖片信息都儲存在’div’,class_=’img’中,鏈接、標題分別在img標簽中的src和alt中,我們同樣也可以將它們提取出來。

def getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網站每一個首頁的網址 res=requests.get(url)#發送請求 res.encoding='gbk'#設置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲存每一個封面圖片的標簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個封面對應的網址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個元素,達到擴充列表的目的,注意要把網址擴充完整 return urls#返回該主頁每一個封面對應的網址

完整代碼

import requestsfrom bs4 import BeautifulSoupdef getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網站每一個首頁的網址 res=requests.get(url)#發送請求 res.encoding='gbk'#設置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲存每一個封面圖片的標簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個封面對應的網址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個元素,達到擴充列表的目的,注意要把網址擴充完整 return urls#返回該主頁每一個封面對應的網址def download(urls): for url1 in urls: print('prepare to download pictures in '+url1) getEveryPage(url1)#下載頁面內的圖片 print('all pictures in '+url1+'are downloaded') def getEveryPage(url1): total=0#total的作用:對屬于每一個封面內的圖片一次編號 for n in range (1,11):#每一個封面對應下載10張圖,可自行調整 temp=url1.replace(’.html’,’’) url2=temp+’_’+str(n)+’.html’#獲得每一內部頁面的網址 res=requests.get(url2) res.encoding='gbk' html=res.text soup=BeautifulSoup(html,features=’lxml’) lists1=soup.find_all(’div’,class_=’img’)#儲存圖片的路徑 for item in lists1: url=item.find(’img’).get(’src’) title=item.find(’img’).get(’alt’)#獲取圖片及其標題 picurl=’https://www.xiurenji.cc’+url#獲取完整的圖片標題 picture=requests.get(picurl).content#下載圖片 address=’D:pythonimages’+’’#自定義保存圖片的路徑 with open(address+title+str(total)+’.jpg’,’wb’) as file:#保存圖片 print('downloading'+title+str(total)) total=total+1 file.write(picture) if __name__ == '__main__': page=int(input(’input the page you want:’)) urls=getFirstPage(page) download(urls)

本文僅供學習參考,切勿用作其他用途!

到此這篇關于Python爬取小姐姐圖片(beautifulsoup法)的文章就介紹到這了,更多相關Python爬取小姐姐圖片內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 成在线人视频免费视频 | 中文字幕 亚洲 一区二区三区 | 99热久久国产精品免费观看 | 欧美日韩国产在线人成dvd | 欧美精品首页 | 国产综合精品久久亚洲 | 美国三级毛片 | 欧洲免费无线码一二区 | 又www又黄又爽啪啪网站 | 国产欧美日本亚洲精品五区 | 久久在线观看免费视频 | 日韩成人免费在线视频 | 日韩欧美一区二区不卡看片 | 中日韩精品视频在线观看 | 国内精品免费一区二区观看 | 亚洲gogo人体大胆西西安徽 | 欧美人成片免费看视频不卡 | 美女张开双腿让男人桶 | 国产成人精品午夜 | 国产一区二区三区亚洲欧美 | 日韩精品一级毛片 | 国产精品久久久久久一区二区 | 性刺激久久久久久久久 | 欧美视频xxxxx | 免费观看欧美成人h | 日本视频在线观看不卡高清免费 | 自拍第1页| 免费看国产精品久久久久 | 欧美一区不卡二区不卡三区 | 拍拍拍又黄又爽无挡视频免费 | 国产欧美久久久另类精品 | 日韩精品中文字幕在线观看 | 亚洲国产精品欧美日韩一区二区 | 亚洲天堂视频一区 | 三级黄色片网站 | 99久久精品国产一区二区三区 | 91精品国产高清久久久久久91 | 一区二区三区在线 | 日本 | 91精品自在拍精选久久 | 在线视频一区二区三区 | 久久视频在线免费观看 |