亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術(shù)文章
文章詳情頁

python - Scrapy ItemLoader數(shù)據(jù)清洗疑問

瀏覽:90日期:2022-06-30 08:28:51

問題描述

在使用scrapy抓取數(shù)據(jù)時(shí),利用itemloader這個(gè)類,使用selector取出的值為空時(shí),進(jìn)入scrapy.Field()里調(diào)用filter(),selector取值不為空的確返回'有值',如果selector取出[]或'',那么value進(jìn)入filter()之后,并不會(huì)返回'無值'

def filter(value): if value:return '有值' else:return '無值' # 下面就簡寫了,熟悉的應(yīng)該能看的懂 scrapy.Field(filter())

有什么辦法將抓取為空的值,經(jīng)過filyer()之后變成'無值'

問題解答

回答1:

謝邀~不太了解Scrapy,所以題主這個(gè)我不太好說我用PHP自己寫的爬蟲大體思路是:1.先是根據(jù)正則和一些循環(huán),把要收集的頁面放到隊(duì)列里,按類別分類,例如分頁的列表頁一個(gè)隊(duì)列,列表里的數(shù)據(jù)內(nèi)容頁一個(gè)隊(duì)列。2.然后利用xpath來爬取相關(guān)內(nèi)容頁的數(shù)據(jù),爬取的過程中對(duì)一些爬取到的數(shù)據(jù)進(jìn)行如題主所需的那樣進(jìn)行處理。3.組裝數(shù)據(jù),按照自己所需的標(biāo)準(zhǔn)保存數(shù)據(jù)。

大體就是這樣,我絕對(duì)大部分爬蟲框架也大概都是這種思路吧,無非是在此基礎(chǔ)上增加了,反爬機(jī)制,多線程,多進(jìn)程,增量爬取等等功能。所以,題主找到你這個(gè)框架的爬取數(shù)據(jù)那里進(jìn)行處理或組裝數(shù)據(jù)的地方進(jìn)行處理都行。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 中文字幕欧美一区 | 久久国产精品久久国产精品 | 免费大片在线观看www | 国产精品久久久久久久久电影网 | 澳门麻豆传媒精东影业 | 欧美第一页草草影院 | 2048国产精品原创综合在线 | 免费看成人毛片日本久久 | 久操香蕉 | 麻豆传媒入口直接进入免费 | 久久精品中文 | 欧美国产亚洲精品高清不卡 | 亚洲 欧美 激情 另类 自拍 | 国产色婷婷免费视频 | 色涩网站在线观看 | 亚洲成人免费在线观看 | 999精品免费视频 | 亚洲欧洲精品国产区 | 亚欧成人毛片一区二区三区四区 | 午夜视频网站在线观看 | 色婷婷在线观看视频 | 在线免费国产视频 | 加勒比一本大道在线 | 高h喷水荡肉爽文1v1 | 亚洲无av码一区二区三区 | 1000部禁片黄的免费看 | 免费一级毛片正在播放 | 欧美综合亚洲图片综合区 | 久久精品视频国产 | 999久久久免费精品国产牛牛 | 欧美日韩久久中文字幕 | 欧美激情二区三区 | 精品一区精品二区 | 中文字幕亚洲欧美日韩不卡 | 那种视频在线观看 | 久久精品2019www中文 | 日韩在线观看一区 | 丁香婷婷久久大综合 | 亚洲精品一区vv国产 | 亚洲不卡在线观看 | 美国一级片免费 |