文章詳情頁
python - 請教如何爬取簡書某一時(shí)間段發(fā)帖。
瀏覽:127日期:2022-07-11 10:45:01
問題描述
我想爬取簡書在某一時(shí)間段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的思路如下:
百度
利用百度的 site 語法
限定日期
觀察大約有 70 個(gè)帖子
google 的 site 語法
限定日期
觀察大約有 120 個(gè)帖子
實(shí)現(xiàn):用 Python 直接請求搜索的結(jié)果,然后把得到的網(wǎng)址重定向一下得到真正的簡書網(wǎng)址,然后對真正的網(wǎng)址進(jìn)行請求
問題
用這種方法得到的結(jié)果是否靠譜?請問有更靠譜的方法嗎?
用 Google 還是用百度呢?
問題解答
回答1:為了全面,你可以把主流的搜索引擎接口都拿來用,不一定要限制在某個(gè)搜索引擎接口上。我們有隊(duì)友搜索某些話題就是這么干的,因?yàn)橛械木W(wǎng)站站內(nèi)沒提供滿足需求的搜索方式,這個(gè)時(shí)候也只有借助搜索引擎了。不過通過搜索引擎搜索的方式信息可能不全面,robots協(xié)議規(guī)定了不能搜索的,搜索引擎不會收錄
相關(guān)文章:
1. mysql - 10g數(shù)據(jù)庫如何遷移2. php - 有關(guān)sql語句反向LIKE的處理3. 在視圖里面寫php原生標(biāo)簽不是要迫不得已的情況才寫嗎4. 獲取上次登錄ip的原理是啥?5. node.js - session怎么存到cookie,然后服務(wù)器重啟后還能獲取。數(shù)據(jù)庫不用mongodb或redis,數(shù)據(jù)庫是mysql6. 求救一下,用新版的phpstudy,數(shù)據(jù)庫過段時(shí)間會消失是什么情況?7. 為什么說非對象調(diào)用成員函數(shù)fetch()8. fetch_field_direct()報(bào)錯(cuò)9. 為什么點(diǎn)擊登陸沒反應(yīng)10. mysql多表聯(lián)合查詢優(yōu)化的問題
排行榜

熱門標(biāo)簽