文章詳情頁(yè)
python - scrapy 處理 文章 分頁(yè)的內(nèi)容
瀏覽:74日期:2022-08-03 16:15:10
問題描述
如一篇文章有2-3頁(yè),然后想把這些內(nèi)容頁(yè)爬下來(lái),拼接成一頁(yè),然后再放入數(shù)據(jù)庫(kù)。文章url如:article_1.html,article_2.htmlitem有:item[’title’],item[’content’]而item[’content’]就是拼接成一頁(yè)的內(nèi)容。大概怎么寫呢?
問題解答
回答1:找到分頁(yè)接口url
回答2:找到那個(gè)下一頁(yè)的鏈接,加入到爬取url列表中
回答3:可以在rules里面寫正則自動(dòng)掃描符合的url
相關(guān)文章:
1. angular.js - angularjs 使用鼠標(biāo)懸停時(shí),標(biāo)簽一直閃2. angular.js - angularjs的自定義過濾器如何給文字加顏色?3. 一個(gè)走錯(cuò)路的23歲傻小子的提問4. 在mac下出現(xiàn)了兩個(gè)docker環(huán)境5. c++ - win764位環(huán)境下,我用GCC為什么指針占8個(gè)字節(jié),而long是4個(gè)字節(jié)?6. java - Hibernate查詢的數(shù)據(jù)是存放在session中嗎?7. 我在centos容器里安裝docker,也就是在容器里安裝容器,報(bào)錯(cuò)了?8. android - 離線地圖的這種列表該怎么實(shí)現(xiàn)?9. android spinner改變下拉彈出的位置10. python - django 里自定義的 login 方法,如何使用 login_required()
排行榜

熱門標(biāo)簽