文章詳情頁

Python使用xpath實現圖片爬取

更多 QQ空间微信 QQ好友腾讯朋友复制链接

【字号：大中小】作者：豬豬瀏覽：3日期：2022-07-11 09:53:11

高性能異步爬蟲

目的：在爬蟲中使用異步實現高性能的數據爬取操作

異步爬蟲的方式：

- 多線程、多進程（不建議）：

好處：可以為相關阻塞的操作單獨開啟多線程或進程，阻塞操作就可以異步執行;

弊端：無法無限制的開啟多線程或多進程。

- 線程池、進程池（適當的使用）：

好處：我們可以降低系統對進程或線程創建和銷毀的一個頻率，從而很好的降低系統的開銷；

弊端：池中線程或進程的數據是有上限的。

代碼如下

# _*_ coding:utf-8 _*_'''@FileName :6.4k圖片解析爬取（異步高性能測試）.py@CreateTime :2020/8/14 0014 10:01@Author : Lurker Zhang@E-mail : 289735192@qq.com@Desc. :'''import requestsfrom lxml import etreefrom setting.config import *import jsonimport osimport timefrom multiprocessing.dummy import Pooldef main(): # 圖片采集源地址 # source_url = ’http://pic.netbian.com/4kmeinv/’ # temp_url = ’http://pic.netbian.com/4kmeinv/index_{}.html’ # source_url = ’http://pic.netbian.com/4kdongman/’ # temp_url = ’http://pic.netbian.com/4kdongman/index_{}.html’ source_url = ’http://pic.netbian.com/4kmingxing/’ temp_url = ’http://pic.netbian.com/4kmingxing/index_{}.html’ # 本此采集前多少頁,大于1的整數 page_sum = 136 all_pic_list_url = [] if page_sum == 1: pic_list_url = source_url print(’開始下載:’ + pic_list_url) all_pic_list_url.append(pic_list_url) else: # 先采集第一頁 pic_list_url = source_url # 調用采集單頁圖片鏈接的函數 all_pic_list_url.append(pic_list_url) # 再采集第二頁開始后面的頁數 for page_num in range(2, page_sum + 1): pic_list_url = temp_url.format(page_num) all_pic_list_url.append(pic_list_url) # 單頁圖片多線程解析 pool1 = Pool(10) pool1.map(down_pic, all_pic_list_url) print(’采集完成，本地成功下載{0}張圖片,失敗{1}張圖片。’.format(total_success, total_fail)) # 存儲已下載文件名列表： with open('../depository/mingxing/pic_name_list.json', ’w’, encoding=’utf-8’) as fp: json.dump(pic_name_list, fp)def down_pic(pic_list_url): print('準備解析圖片列表頁：',pic_list_url) # 獲取圖片列表頁的網頁數據 pic_list_page_text = requests.get(url=pic_list_url, headers=headers).text tree_1 = etree.HTML(pic_list_page_text) # 獲取圖片地址列表 pic_show_url_list = tree_1.xpath(’//div[@class='slist']/ul//a/@href’) pic_url_list = [get_pic_url(’http://pic.netbian.com’ + pic_show_url) for pic_show_url in pic_show_url_list] # 開始下載并保存圖片(多線程) pool2 = Pool(5) pool2.map(save_pic, pic_url_list)def save_pic(pic_url): print('準備下載圖片：',pic_url) global total_success, total_fail, pic_name_list,path picname = get_pic_name(pic_url) if not picname in pic_name_list: # 獲取日期作為保存位置文件夾 pic = requests.get(url=pic_url, headers=headers).content try: with open(path + picname, ’wb’) as fp:fp.write(pic) except IOError: print(picname + '保存失敗') total_fail += 1 else: pic_name_list.append(picname) total_success += 1 print('成功保存圖片:{0},共成功采集{1}張。'.format(picname, total_success)) else: print('跳過，已下載過圖片：' + picname) total_fail += 1def get_pic_name(pic_url): return pic_url.split(’/’)[-1]def get_pic_url(pic_show_url): tree = etree.HTML(requests.get(url=pic_show_url, headers=headers).text) return ’http://pic.netbian.com/’ + tree.xpath(’//div[@class='photo-pic']/a/img/@src’)[0]if __name__ == ’__main__’: # 讀入已采集圖片的名稱庫，名稱存在重復的表示已經采集過將跳過不采集 if not os.path.exists(’../depository/mingxing/pic_name_list.json’): with open('../depository/mingxing/pic_name_list.json', ’w’, encoding='utf-8') as fp: json.dump([], fp) with open('../depository/mingxing/pic_name_list.json', 'r', encoding='utf-8') as fp: pic_name_list = json.load(fp) path = ’../depository/mingxing/’ + time.strftime(’%Y%m%d’, time.localtime()) + ’/’ if not os.path.exists(path): os.mkdir(path) # 記錄本次采集圖片的數量 total_success = 0 total_fail = 0 main()

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：通過代碼實例了解Python異常本質下一條：Python自動創建Excel并獲取內容

相關文章：

1. idea修改背景顏色樣式的方法2. idea給項目打war包的方法步驟3. idea配置jdk的操作方法4. django 鏈接多個數據庫并使用原生sql實現5. IDEA插件EasyCode及MyBatis最優配置步驟詳解6. XML入門的常見問題(一)7. Python多線程操作之互斥鎖、遞歸鎖、信號量、事件實例詳解8. IntelliJ IDEA設置自動提示功能快捷鍵的方法9. Python常用GUI框架原理解析匯總10. Django程序的優化技巧

排行榜

					
					idea給項目打war包的方法步驟
Python常用GUI框架原理解析匯總
django 鏈接多個數據庫 并使用原生sql實現
IntelliJ IDEA設置自動提示功能快捷鍵的方法
Django程序的優化技巧
idea修改背景顏色樣式的方法
IDEA插件EasyCode及MyBatis最優配置步驟詳解
idea配置jdk的操作方法
XML入門的常見問題(一)
Docker容器如何更新打包并上傳到阿里云
Python多線程操作之互斥鎖、遞歸鎖、信號量、事件實例詳解