文章詳情頁

網頁爬蟲 - python爬蟲用BeautifulSoup爬取<s>元素并寫入字典，但某些div下沒有這一元素，導致自動寫入下一條，如何解決？

瀏覽：105日期：2022-08-03 08:34:07

問題描述

新手寫二手車網站爬蟲，爬賣價和原價，原價以<s>刪除線形式放在下。但是遇到沒有標記原價，也就是并沒有<s>標簽的情況下，會自動把下一個<s>內的信息寫入上一條占位。試了用if len()判斷，但是毫無效果。。請問這種情況應當如何解決，把沒有<s>標簽的情況正確提取出來，用“”或“nodata”顯示？

網頁源代碼如下，同時包含原價與賣價的：

急售 超值 8.40萬 <s>17.36萬</s>

沒有原價標簽的：

3.70萬

代碼如下，

import requestsfrom bs4 import BeautifulSoup

def GetInfo(url):

res=requests.get(url).textsoup=BeautifulSoup(res,’html.parser’)names=soup.select(’p.list > ul > li > p > p.infoBox > a’)years=soup.select(’p.list > ul > li > p > p.fc-gray’)prices0=soup.select(’p.list > ul > li > p > p.priType-s > s’)prices1=soup.select(’p.list > ul > li > p > p.priType-s > span > i’)for name,year,price0,price1 in zip(names,years,prices0,prices1): data={’name’:name.get_text(),’year’:year.get_text().strip().replace(’|’,’’).replace(’ ’,’’),’price0’:price0.get_text(),’price1’:price1.get_text().strip() }print(data)return(data)

def Pages():

pageurl=’https://www.guazi.com/sh/buy/o{}/’urls=[pageurl.format(str(i)) for i in range(1,11,1)]for url in urls: GetInfo(url)

Pages()

問題解答

回答1：

大體思路就是多加選擇器，讓它為空，然后你做判斷

回答2：

prices0=soup.select(’p.list > ul > li > p > p.priType-s > span> i’)prices1=soup.select(’p.list > ul > li > p > p.priType-s > span + s’)

試試看。如果再不行就把整段給你拿下來用 regex 來提取

回答3：

試試這個思路：1.每一個二手車會有一個塊來顯示，..之類的2.在每一個塊當中，再來進行原價，現價的抓取這樣就不會因一個二手車沒有原價而把下一個價位填充到上一個車的原價上

Python 編程

上一條：python可以在excel打開的情況下操作嗎下一條：python - UTC格式轉換成本地時間

排行榜

					
					docker-compose中volumes的問題
android - 添加multidex后在部分機型上產生anr的問題，該如何解決
vim - docker中新的ubuntu12.04鏡像,運行vi提示,找不到命名.
angular.js - node.js中下載的angulae無法引入
python 多進程 或者 多線程下如何高效的同步數據?
php - 想要遠程推送emjio ios端怎么搞 需要怎么配合
java - Hibernate查詢的數據是存放在session中嗎？
JavaScript 在一個文本框中輸入人名，如何通過JavaScript獲取人名，并將這些人名按每組3人進行隨機分組
node.js - 問個問題 Uncaught (in promise)
python爬蟲字符編碼錯誤問題
angular.js - angular內容過長展開收起效果
				

熱門標簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

網頁爬蟲 - python爬蟲用BeautifulSoup爬取<s>元素并寫入字典，但某些div下沒有這一元素，導致自動寫入下一條，如何解決？