亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

python使用requests庫爬取拉勾網招聘信息的實現

瀏覽:5日期:2022-07-04 16:57:42

按F12打開開發者工具抓包,可以定位到招聘信息的接口

python使用requests庫爬取拉勾網招聘信息的實現

在請求中可以獲取到接口的url和formdata,表單中pn為請求的頁數,kd為關請求職位的關鍵字

python使用requests庫爬取拉勾網招聘信息的實現

python使用requests庫爬取拉勾網招聘信息的實現

使用python構建post請求

data = { ’first’: ’true’, ’pn’: ’1’, ’kd’: ’python’}headers = { ’referer’: ’https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=’, ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}res = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false', data=data,headers=headers)print(res.text)

發現沒有從接口獲取到數據

python使用requests庫爬取拉勾網招聘信息的實現

換了個網絡后接口還是會返回操作頻繁的錯誤信息,仔細檢查后發現這個接口需要一個動態的cookies不然會一值返回錯誤頻繁

data = { ’first’: ’true’, ’pn’: ’1’, ’kd’: ’python’}#頭部中必須有user-agent和referer不然不會返回cookiesheaders = { ’referer’: ’https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=’, ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}#通過訪問主頁獲取cookiesr1= requests.get('https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=’',headers=headers)#再post請求中傳入cookiesr2 = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false', data=data,headers=headers, cookies=r2.cookies)print(r2.text)

注意!每請求十次接口cookies也會刷新一次,下面貼上完整爬蟲代碼

import jsonimport loggingimport requests#獲取cookiedef getCookie(): res = requests.get('https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=',headers=headers) return res.cookies#獲取json數據def getPage(i, cookies, kw): data = { ’first’: ’true’, ’pn’: i, ’kd’: kw } res = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false', data=data, headers=headers, cookies=cookies) return json.loads(res.text)#合并列表def reduceList(l): text = '' for i in l: text += i + ' ' return text.strip()#提取字段并保存到文件中def saveInCsv(f, data): js = data['content']['positionResult']['result'] for node in js: # 對空值進行處理 district = node['district'] if district != None: district = '-' + district else: district = '' f.write( node['positionName'] + '·' + node['city'] + district + '·' + node['salary'] + '·' + node['workYear'] + '·' + node['education'] + '·' + reduceList(node['skillLables']) + '·' + node['companyShortName'] + '·' + node['companySize'] + '·' + node['positionAdvantage'] + 'n')if __name__ == ’__main__’: #定義頭部 headers = { ’referer’: ’https://www.lagou.com/jobs/list_python/p-city_0?&cl=false&fromSearch=true&labelWords=&suginput=’, ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’ } #初始化cookie cookies = getCookie() with open('file.csv', 'w', encoding='utf-8') as f: for i in range(1, 31): #每十個請求重新獲取cookie if (i % 10 == 0):cookies = getCookie() #解析字段并存儲 data = getPage(i, cookies, 'python') saveInCsv(f, data)

到此這篇關于python使用requests庫爬取拉勾網招聘信息的實現的文章就介紹到這了,更多相關python requests爬取拉勾網內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产91av在线 | 久久精品国产一区二区三区不卡 | 国产成人精品男人免费 | 欧美综合中文字幕久久 | 视频一区二区三区在线观看 | 黄色短片在线观看 | 99热er| 老司机51精品视频在线观看 | 日韩国产欧美一区二区三区在线 | 91欧美国产 | 亚洲区欧美中文字幕久久 | 日本一级特黄完整大片 | 欧美一区二区三区久久综 | 欧美成人h版影院在线播放 欧美成人h版整片合集 | 亚洲qingse中文久久网 | 成人精品国产亚洲欧洲 | 国产aⅴ自拍 | 免费级毛片 | 天天影视色香欲综合网天天录日日录 | 国产一级毛片亚洲久留木玲 | 亚洲欧美日韩高清一区二区一 | 国产成人网 | 一级aa毛片 | 亚洲成人黄色网 | 亚洲第一成年人网站 | 91久久国产青草亚洲 | 一级真人毛片 | 伊人网综合在线观看 | 亚洲欧美综合乱码精品成人网 | 亚洲精品福利 | 欧美 日韩 国产 成人 在线观看 | 国产草莓视频入口免费网站 | 国产亚洲一区二区在线观看 | 97国产福利 | 日韩一级特黄毛片在线看 | 午夜影院一区 | 日本一区二区三区在线观看视频 | 日韩专区在线播放 | 亚洲国产黄色 | 出a级黑粗大硬长爽猛视频 加勒比一道本综合 | 超清波多野结衣精品一区 |