python 下載文件的幾種方法匯總
使用腳本進行下載的需求很常見,可以是常規文件、web頁面、Amazon S3和其他資源。Python 提供了很多模塊從 web 下載文件。下面介紹
一、使用 requestsrequests 模塊是模仿網頁請求的形式從一個URL下載文件
示例代碼:
import requestsurl = ’xxxxxxxx’ # 目標下載鏈接r = requests.get(url) # 發送請求# 保存with open (’r.txt’, ’rb’) as f: f.write(r.content) f.close
爬蟲請求庫——requests的使用
二、使用 wget安裝 wget 庫
pip install wget
示例代碼
import wgeturl = ’https://pic.cnblogs.com/avatar/1197773/20170712160655.png’ # 目標路由,下載的資源是圖片path = ’D:/x.png’ # 保存的路徑wget.download(url, path) # 下載三、下載重定向資源
有些 URL 會被重定向到另一個 URL,后者是真正的下載鏈接。很多軟件的下載其實都是這樣的形式。URL看起來如下
https://readthedocs.org/projects/python-guide/downloads/pdf/latest
重定向的 URL 也可以用 requests 庫進行下載,只需加一個參數就可以
import requestsurl = ’https://readthedocs.org/projects/python-guide/downloads/pdf/latest’# allow_redirect參數True表示允許重定向r = requests.get(url, allow_redirect=True)with open(’r.txt’, ’wb’) as f: f.write(r) f.close()四、大文件分塊下載
有些文件非常的大,如果我們直接下載,可能會因為事件原因或者網絡原因造成下載失敗,這時候我可以使用分塊下載的形式進行下載。
requests 支持分塊下載,只需要將 stream 設為True 即可
import requestsurl = ’https://readthedocs.org/projects/python-guide/downloads/pdf/latest’# stream參數True表示分塊下載r = requests.get(url, stream=True)with open(’r.txt’, ’wb’) as f: for ch in r: f.write(r) f.close()五、并行下載
多線程、多進程并發下載,大大提高下載速度
import requestsfrom multiprocessing.poll import Pool# 定義下載函數def url_response(url): path, url = url r = requests.get(url, stream=True) with open(path, ’wb’) as f: for ch in r: f.write(ch) f.close()urls = [’aaa’, ’bbb’, ’ccc’] # 假設有好多個下載鏈接# 排隊下載的方式for x in urls: url_response(x)# 并行下載的方式ThreadPool(3).imap_unordered(url_response, urls)六、下載中加入進度條
使用進度條更直觀的查看下載進度,這里使用 clint 模塊實現進度條功能
pip install clint
下載
import requestsfrom clint.textui import progessurl = ’xxxxxxxxxxx’r = requests.get(url, stream=True)with open(’x.txt’, ’wb’) as f total_length = int(r.headers.get(’content-length’)) for ch in progress.bar(r.iter_content(chunk_size=2391975, expected)size=(total_length/1024)+1)): if ch: f.write(ch) f.close()
其他使用進度條的案例:Python 實現進度條的六種方式
七、使用 urllib 模塊下載urllib庫是Python的標準庫,因此不需要安裝它。
下載代碼
urllib.request.urlretrieve(URL, PATH)八、通過代理下載
因為一些眾所周知的原因我們下載國外的資源會非常的慢,這時候可以使用代理的方式進行下載
requests 模塊使用代理import requests# 定義代理,假設本機上有個梯子的服務,代理端口是2258proxy = {’http’: ’http://127.0.0.1:2258’} url = ’xxxxxx’r = requests.get(url, proxies=proxy ).......urllib 模塊使用代理
import urllib.requesturl = ’xxxxxxxxxx’proxy = urllib.request.ProxyHandler({’http’: ’127.0.0.1’})open_proxy = urllib.request.build_opener(proxy ) # 打開代理urllib.request.urlretrieve(url)九、使用 urllib3
urllib3 是 urllib 模塊的改進版本。使用pip下載并安裝
pip install urllib3
以上就是python 下載文件的幾種方法匯總的詳細內容,更多關于python 下載文件的資料請關注好吧啦網其它相關文章!
相關文章: