亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

Python Scrapy圖片爬取原理及代碼實例

瀏覽:82日期:2022-07-21 14:47:08

1.在爬蟲文件中只需要解析提取出圖片地址,然后將地址提交給管道

在管道文件對圖片進行下載和持久化存儲

class ImgSpider(scrapy.Spider): name = ’img’ # allowed_domains = [’www.xxx.com’] start_urls = [’http://www.521609.com/daxuemeinv/’] url = ’http://www.521609.com/daxuemeinv/list8%d.html’ pageNum = 1 def parse(self, response): li_list = response.xpath(’//*[@id='content']/div[2]/div[2]/ul/li’) for li in li_list: img_src = ’http://www.521609.com’+li.xpath(’./a[1]/img/@src’).extract_first() item = ImgproItem() item[’src’] = img_src yield item

2.配置文件修改

配置文件要增加IMAGES_STORE = ’./imgsLib’表明圖片存放的路徑

3.管道類的修改

原本管道類繼承的object,處理item對象使用時process_item方法,該方法不能發送請求,要想對圖片地址發送請求,需要繼承ImagesPipeline類,然后重寫該類中的三個方法:get_media_requests,file_path,item_completed

from scrapy.pipelines.images import ImagesPipelineimport scrapyclass ImgproPipeline(ImagesPipeline): #對某一個媒體資源進行請求發送 #item就是接收到的spider提交過來的item def get_media_requests(self, item, info): yield scrapy.Request(item[’src’]) #制定媒體數據存儲的名稱 def file_path(self, request, response=None, info=None): name = request.url.split(’/’)[-1] print(’正在下載:’,name) return name #將item傳遞給下一個即將給執行的管道類 def item_completed(self, results, item, info): return item

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 日本一本色道免费视频 | 女人18毛片久久鬼色 | 亚洲欧美视频二区 | 午夜欧美成人久久久久久 | 亚洲精品国产成人专区 | 九九香蕉视频 | 一级毛片黄 | 国产精品亚洲片在线花蝴蝶 | 国产精品麻豆综合在线 | 手机视频在线观看 | 97福利在线| 久久精品国产精品亚洲精品 | 亚洲国产精品一区二区九九 | 午夜日b视频 | 国产农村一级毛片精品 | 屁屁网站在线观看www | 成 人 黄 色 大 片 | 久久成年视频 | 91尤物国产尤物福利 | 欧美日韩视频在线观看高清免费网站 | 99久久国产免费中文无字幕 | 中文字幕在线一区二区三区 | 福利视频网页 | 亚洲一级黄色 | 尤物免费视频 | 亚洲v日本v欧美v综合v | 免费看的一级片 | 欧美破处视频在线 | 青草色视频 | 真实做爰对白录音 | 一木道一二三区精品 | 国产美女激情视频 | 国产婷婷色综合成人精品 | 黄色aⅴ| 亚洲精品久久久久影 | 国产精品4p露脸在线播放 | 亚洲一区二区三区日本久久九 | 欧洲女人性开放视频在线观看 | 欧美大片a一级毛片视频 | 久久99精品久久久久久野外 | 国产小视频在线观看免费 |