淺析Python requests 模塊
Python requests 模塊
requests 模塊是我們使用的 python爬蟲 模塊 可以完成市場進80%的爬蟲需求。
安裝
pip install requests
使用
requests模塊代碼編寫的流程:
- 指定url - 發(fā)起請求 - 獲取響應對象中的數(shù)據(jù) - 持久化存儲-------------案例-------------------------import requests# 指定urlurl='https://www.sogou.com/'# 發(fā)起請求response = requests.get(url)# 獲取響應對象中的數(shù)據(jù)page_text = response.text# 持久化存儲with open(’./sogou.html’,’w’,encoding=’utf-8’) as fp: fp.write()-------------------------------------------
參數(shù)
# post 數(shù)據(jù)response = requests.post(url=url,data=data,headers=headers)# get 數(shù)據(jù)response = requests.get(url=url,data=data,headers=headers)# 返回二進制數(shù)據(jù)response.content # 返回字符串數(shù)據(jù) response.text # 返回json對象 response.json()
其他了解
1、該模塊實現(xiàn)爬取數(shù)據(jù)前需要查找需要爬取數(shù)據(jù)的指定URL,可通過瀏覽器自帶抓包功能。
# 瀏覽器抓取 Ajax 請求F12 --> Network --> XHR --> Name --> Response
2、上面的headers參數(shù)是進行UA偽裝為了反反爬
反爬機制:UA檢測 --> UA偽裝
3、下面是http我們爬包是常用的請求頭參數(shù)
- accept: 瀏覽器通過這個頭告訴服務器,他所支持的數(shù)據(jù)類型- Accept-Charset:瀏覽器通過這個頭告訴服務器,它支持那種字符集- Accept-Encoding:瀏覽器通過這個頭告訴服務器,支持的壓縮格式- Accept-Language:瀏覽器通過這個頭告訴服務器,他的語言環(huán)境- Host:瀏覽器同過這個頭告訴服務器,想訪問哪臺主機- If-ModifiedSince:瀏覽器通過這個頭告訴服務器,緩存數(shù)據(jù)的時間- Heferer:瀏覽器通過這個頭告訴服務器,客戶及時那個頁面來的,防盜鏈- Connection:瀏覽器通過這個頭告訴服務器,請求完后是斷開鏈接還是保持鏈接- X-Requested-With:XMLHttpRequest 代表通過ajax方式進行訪問- User-Agent:請求載體的身份標識
以上就是淺析Python requests 模塊的詳細內(nèi)容,更多關于Python requests 模塊的資料請關注好吧啦網(wǎng)其它相關文章!
相關文章:
1. CSS3中Transition屬性詳解以及示例分享2. ASP動態(tài)網(wǎng)頁制作技術經(jīng)驗分享3. asp.net core項目授權流程詳解4. ASP常用日期格式化函數(shù) FormatDate()5. html中的form不提交(排除)某些input 原創(chuàng)6. jsp文件下載功能實現(xiàn)代碼7. js select支持手動輸入功能實現(xiàn)代碼8. vue使用moment如何將時間戳轉為標準日期時間格式9. 開發(fā)效率翻倍的Web API使用技巧10. CSS3實現(xiàn)動態(tài)翻牌效果 仿百度貼吧3D翻牌一次動畫特效
