亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁技術文章
文章詳情頁

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

瀏覽:127日期:2022-07-15 16:32:54

問題描述

我想把房屋概況分別抓出來并分別作為獨立的列存儲進字典里,但是行內元素沒有辦法直接用for循環摳出來。這是我的代碼:

soup.select(’.house-info li’)[1].text.strip()

這是網頁html代碼:

<li><span class='info-tit'>房屋概況:</span>住宅<span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>

問題解答

回答1:

其實還是很有簡單的,你看這個還是有規律的,規律在于有分隔符|,我寫了個DEMO

something = ’’’<li><span class='info-tit'>房屋概況:</span>住宅 <span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>’’’;soup = BeautifulSoup(something, ’lxml’)plaintext = soup.select(’li’)[0].get_text().strip()

通過get_text()得到內在所有內容,然后去除空格。后面你就用split進行分割吧,后面的不寫了。如果有問題再交流。

回答2:我感覺這個html代碼寫錯了呢,標簽的內容文本在標簽外面

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

正確的標簽內容就兩個:

房屋概況:

46m2

回答3:

innerText

回答4:

你這種情況,我覺得用 for 循環加上正則表達式是最方便的,如果所有模版都是這樣固定的話

回答5:

用pyquery吧

from pyquery import PyQuery as Q

Q(text).find(’.house-info li’).text()

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产亚洲精品成人一区看片 | 亚洲综合成人网在线观看 | 秀人网私拍福利视频在线 | 欧美一区二区三区免费高 | 91精品国产免费久久国语蜜臀 | 黑人一级黄色片 | 在线另类 | 国产精品久久久久a影院 | 欧美成人精品大片免费流量 | 免费看成人播放毛片 | 18视频免费网址在线观看 | 日韩毛片在线免费观看 | 中文国产成人精品久久一区 | 亚洲免费天堂 | 亚洲在线视频观看 | 老人久久www免费人成看片 | 一及黄色毛片 | 黑人黄色毛片 | 亚洲成a人v | 午夜一级毛片不卡 | 亚洲成av人影片在线观看 | 特黄日韩免费一区二区三区 | 青青操网站| 国产草草影院 | 91情侣在线偷精品国产 | 久久福利青草精品资源站免费 | 国内精品免费一区二区三区 | 亚洲丝袜另类 | 日本不卡在线一区二区三区视频 | 亚洲欧美日韩在线精品一区二区 | 欧美一线高本道高清在线 | 欧美亚洲国产精品久久高清 | 国产短视频精品一区二区三区 | 成人欧美一区二区三区在线 | 热久久91| 精品欧美一区二区精品久久 | 午夜爱爱毛片xxxx视频免费看 | 国产美女自拍视频 | 国产精品高清全国免费观看 | 久操视频免费在线观看 | 99re久久精品国产首页2020 |