文章詳情頁

基于Python下載網絡圖片方法匯總代碼實例

瀏覽：12日期：2022-07-19 15:28:25

本文介紹下載python下載網絡圖片的方法，包括通過圖片url直接下載、通過re/beautifulSoup解析html下載以及對動態網頁的處理等。

通過pic_url單個/批量下載

已知圖片url，例如http://xyz.com/series-*(1,2..N).jpg，共N張圖片，其鏈接形式較為固定，這樣經簡單循環，直接通過`f.write(requests.get(url).content)’即可以二進制形式將圖片寫入。

import osimport requestsdef download(file_path, picture_url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE',}r = requests.get(picture_url, headers=headers)with open(file_path, ’wb’) as f:f.write(r.content)def main():os.makedirs(’./pic/’, exist_ok=True) # 輸出目錄prefix_url = ’http://xyz.com/series-’ # 同一類目下的圖片url前綴n = 6 # 該類目下的圖片總數tmp = prefix_url.split(’/’)[-1]for i in range(1, n + 1):file_path = ’./pic/’ + tmp + str(i) + ’.jpg’picture_url = prefix_url + str(i) + ’.jpg’download(file_path, picture_url)if __name__ == ’__main__’:main()

正則re解析html獲取pic_url后下載

在實際操作中，圖片url按序排列情況較少，多數情況下用戶僅知道網頁url，需要對當前網頁htnl內容進行解析，獲取源碼中包含的圖片url，常用方法有正則表達式匹配或BeautifulSoup等庫解析的方法。

正則re解析的思路是：首先通過 requests.get(url).text 獲得當前頁面html源碼；然后通過正則表達式匹配圖片url，如 re.compile(r’[a-zA-z]+://[^s]*.jpg’) 正則式一般會得到.jpg結尾的url，但其他網站圖片url可能會以.png或.webp等結尾，甚至需要其他的正則匹配，為此，讀者需要對正則表達式有所了解，強烈推薦正則表達式30分鐘入門教程；將前一步得到的圖片url加入列表，進行下載。

import osimport reimport requestsdef get_html(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 ', } html = requests.get(url, headers=headers).text return htmldef parse_html(html_text): picre = re.compile(r’[a-zA-z]+://[^s]*.jpg’) # 本正則式得到.jpg結尾的url pic_list = re.findall(picre, html_text) return pic_listdef download(file_path, pic_url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 ', } r = requests.get(pic_url, headers=headers) with open(file_path, ’wb’) as f: f.write(r.content)def main(): # 使用時修改url即可 url = ’http://xyz.com/series’ html_text = get_html(url) pic_list = parse_html(html_text) os.makedirs(’./pic/’, exist_ok=True) # 輸出目錄 for pic_url in pic_list: file_name = pic_url.split(’/’)[-1] file_path = ’./pic/’ + file_name download(file_path, pic_url)if __name__ == ’__main__’: main()

通過bs4獲取pic_url

與正則匹配思路類似，只不過通過Beautiful Soup解析html獲得圖片url列表，然后依次下載圖片。由于各網站html結構有差異，用戶需要自行進行適當修改。以下代碼是對豆瓣圖片的下載。

import osimport timeimport requestsfrom bs4 import BeautifulSoupdef get_html(url): headers = { ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36’, } html = requests.get(url, headers=headers).text return htmldef parse_html(html_text): soup = BeautifulSoup(html_text, ’html.parser’) li = soup.find_all(’div’, attrs={’class’:’cover’}) pic_list = [] for link in li: pic_url = link.find(’img’).get(’src’) pic_url = pic_url.replace(’/m/’, ’/l/’) pic_list.append(pic_url) return pic_listdef download(file_path, pic_url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36 ', } r = requests.get(pic_url, headers=headers) with open(file_path, ’wb’) as f: f.write(r.content)def main(): ’從豆瓣下載石原里美圖片，觀察發現每頁包含30張圖片，其url按30遞增，如下所示’ pic_list = [] for i in range(10): url = ’https://movie.douban.com/celebrity/1016930/photos/?type=C&start=’ + str(30*i) + ’&sortby=like&size=a&subtype=a’ html_text = get_html(url) pic_list += parse_html(html_text) os.makedirs(’./pic/’, exist_ok=True) # 輸出目錄 for i, pic_url in enumerate(pic_list): if i%30 == 0: print(’正在下載第%s頁’%(i/30+1)) file_name = pic_url.split(’/’)[-1].split(’.’)[0] + ’.jpg’ file_path = ’./pic/’ + file_name download(file_path, pic_url)if __name__ == ’__main__’: main()

在下載圖片時，發現可以直接訪問圖片的縮略圖url進行下載，但由于豆瓣的反爬策略，直接訪問原圖url會被服務器拒絕，見下圖。解決方法見下一部分。

基于Python下載網絡圖片方法匯總代碼實例

可能遇到的問題

網站反爬蟲機制

User-Agent：模擬瀏覽器訪問，添加后，服務器會認為是瀏覽器正常的請求。一般與網頁操作相關訪問都予以添加。 Referer：瀏覽器以此來判斷你從哪一個網頁跳轉過來。例如在上述豆瓣圖片的下載示例中，直接輸入網址會被拒絕，但你在網站一步步點擊卻會在同一地址中得到內容，這就是因為你在一步步訪問時是有一個前序跳轉地址的，這個地址可以通過“F12”在header中得到，如果找不到的話試一試根目錄地址“ movie.douban.com/”，或是前幾步的地址”… GitHub倉庫’adv_bs4_url.py‘文件。 ip偽裝：構建ip池。 Cookie偽裝：cookie是服務器用來辨別你此時的狀態的，每一次向服務器請求cookie都會隨之更新。常用正則式匹配

網頁的數據采用異步加載，如js渲染的頁面或ajax加載的數據通過get不到完整頁面源碼。

一種方案是常說的動態爬蟲，即采用一些第三方的工具，模擬瀏覽器的行為加載數據，如Selenium、PhantomJs等。網絡上有較多介紹文章，有點麻煩就沒有自己寫了，后續有需求的話在做吧，不過其他方法已經夠用了。

另外可以通過分析頁面，找到請求借口，加載頁面。其核心就是跟蹤頁面的交互行為 JS 觸發調度，分析出有價值、有意義的核心調用（一般都是通過 JS 發起一個 HTTP 請求），然后我們使用 Python 直接訪問逆向到的鏈接獲取價值數據。通過'F12”進行分析，例如對于花瓣網，可以獲得其鏈接為' huaban.com/search/?q=石… request.urlopen(url).read() 讀取網頁。

基于Python下載網絡圖片方法匯總代碼實例

Pyautogui，鼠標模擬點擊的“傻瓜式”流程

本方法僅適用于重復性的工作，而且效率較低，但完全沒有被反爬蟲策略屏蔽的風險。其核心思想與word中的“宏”類似，就是你告訴計算機一次循環中鼠標分別如何操作，然后讓其自動循環。代碼簡單明了。

import pyautoguiimport timepyautogui.FAILSAFE = Truedef get_mouse_positon(): time.sleep(3) # 此間將鼠標移動到初始位置 x1, y1 = pyautogui.position() print(x1, y1) pyautogui.click(x=x1, y=y1, button=’right’) # 模擬鼠標右鍵點擊，呼出菜單 time.sleep(5) # 此間將鼠標移動到“save image as...”選項中央 x2, y2 = pyautogui.position() print(x2, y2) pyautogui.click(x=x2, y=y2) # 模擬鼠標左鍵點擊，點中“save image as...” time.sleep(10) # 此間彈出保存文件彈窗，自行選擇保存位置，并將鼠標移至“保存(S)”按鈕中央 x3, y3 = pyautogui.position() pyautogui.click(x=x3, y=y3) print(x3, y3)def click_download(N): for i in range(N): # 擬下載圖片數量 pyautogui.click(x=517, y=557, duration=0.25, button=’right’) # 呼出菜單，自行將x/y設置為x1/y1 time.sleep(1) pyautogui.click(x=664, y=773, duration=0.25) # 下載，x/y為x2/y2 time.sleep(1) pyautogui.click(x=745, y=559, duration=0.25) # 保存，x/y為x3/y3 time.sleep(1) pyautogui.click(x=517, y=557, duration=0.25) # 進入下一張圖片 time.sleep(2) # 取決于網絡加載速度，自行設置 if __name__ == '__main__': # get_mouse_positon() # 一開始只運行此命令，獲取屏幕坐標，后續注釋掉該句 click_download(10)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：OpenCV+python實現實時目標檢測功能下一條：Python 分布式緩存之Reids數據類型操作詳解

相關文章：

1. ASP常用日期格式化函數 FormatDate()2. html中的form不提交（排除）某些input 原創3. bootstrap select2 動態從后臺Ajax動態獲取數據的代碼4. 網頁中img圖片使用css實現等比例自動縮放不變形（代碼已測試）5. CSS3中Transition屬性詳解以及示例分享6. python 如何在 Matplotlib 中繪制垂直線7. vue使用moment如何將時間戳轉為標準日期時間格式8. js select支持手動輸入功能實現代碼9. jsp文件下載功能實現代碼10. 開發效率翻倍的Web API使用技巧

排行榜

					
					如何在PHP中讀寫文件
Python數據相關系數矩陣和熱力圖輕松實現教程
vue-drag-chart 拖動/縮放圖表組件的實例代碼
PHP正則表達式函數preg_replace用法實例分析
如何使用repr調試python程序
關于Spring自定義XML schema 擴展的問題(Spring面試高頻題)
Java xml數據格式返回實現操作
php redis setnx分布式鎖簡單原理解析
Spring @Primary和@Qualifier注解原理解析
Spring Boot 功能整合的實現
一個 2 年 Android 開發者的 18 條忠告