文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽：90日期：2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時(shí)，利用itemloader這個(gè)類，使用selector取出的值為空時(shí)，進(jìn)入scrapy.Field()里調(diào)用filter()，selector取值不為空的確返回'有值'，如果selector取出[]或'',那么value進(jìn)入filter()之后，并不會(huì)返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡寫了，熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值，經(jīng)過filyer()之后變成'無值'

問題解答

回答1：

謝邀~不太了解Scrapy，所以題主這個(gè)我不太好說我用PHP自己寫的爬蟲大體思路是：1.先是根據(jù)正則和一些循環(huán)，把要收集的頁面放到隊(duì)列里，按類別分類，例如分頁的列表頁一個(gè)隊(duì)列，列表里的數(shù)據(jù)內(nèi)容頁一個(gè)隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù)，爬取的過程中對(duì)一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù)，按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣，我絕對(duì)大部分爬蟲框架也大概都是這種思路吧，無非是在此基礎(chǔ)上增加了，反爬機(jī)制，多線程，多進(jìn)程，增量爬取等等功能。所以，題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

Python 編程

上一條：python - 面對(duì)一串含有亂碼的字符串，如何取下需要的信息下一條：python - 編碼問題求助

相關(guān)文章：

1. python - 獲取到的數(shù)據(jù)生成新的mysql表2. javascript - js 對(duì)中文進(jìn)行MD5加密和python結(jié)果不一樣。3. mysql里的大表用mycat做水平拆分，是不是要先手動(dòng)分好，再配置mycat4. window下mysql中文亂碼怎么解決？？5. sass - gem install compass 使用淘寶 Ruby 安裝失敗，出現(xiàn) 4046. python - （初學(xué)者）代碼運(yùn)行不起來，求指導(dǎo)，謝謝！7. 為啥不用HBuilder?8. python - flask sqlalchemy signals 無法觸發(fā)9. python的文件讀寫問題？10. 為什么python中實(shí)例檢查推薦使用isinstance而不是type？

排行榜

					
					java - 關(guān)于 controller層與service層如何傳值？
為什么python中實(shí)例檢查推薦使用isinstance而不是type？
html5 - H5 SSE的本質(zhì)是什么？
算法 - 如何不用遞歸 列出 樹（多叉） 中根節(jié)點(diǎn)到葉節(jié)點(diǎn)的所有路徑（Java）
怎么用css截取字符？
java - 異步上傳圖片無法即時(shí)回顯
你們是如何避免transform:scale屬性影響字體的？
前端 - 請(qǐng)問display: -webkit-flex;是什么意思？
視頻 - html5 video的autoplay 在智能手機(jī)上不運(yùn)作？
javascript - js 對(duì)中文進(jìn)行MD5加密和python結(jié)果不一樣。
sass - gem install compass 使用淘寶 Ruby 安裝失敗，出現(xiàn) 404
				

熱門標(biāo)簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問