亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

python爬蟲爬取網頁數據并解析數據

瀏覽:3日期:2022-07-10 17:19:58

1.網絡爬蟲的基本概念

網絡爬蟲(又稱網絡蜘蛛,機器人),就是模擬客戶端發送網絡請求,接收請求響應,一種按照一定的規則,自動地抓取互聯網信息的程序。只要瀏覽器能夠做的事情,原則上,爬蟲都能夠做到。

2.網絡爬蟲的功能

python爬蟲爬取網頁數據并解析數據

網絡爬蟲可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取網站上面的圖片,比如有些朋友將某些網站上的圖片全部爬取下來,集中進行瀏覽,同時,網絡爬蟲也可以用于金融投資領域,比如可以自動爬取一些金融信息,并進行投資分析等。

有時,我們比較喜歡的新聞網站可能有幾個,每次都要分別打開這些新聞網站進行瀏覽,比較麻煩。此時可以利用網絡爬蟲,將這多個新聞網站中的新聞信息爬取下來,集中進行閱讀。

有時,我們在瀏覽網頁上的信息的時候,會發現有很多廣告。此時同樣可以利用爬蟲將對應網頁上的信息爬取過來,這樣就可以自動的過濾掉這些廣告,方便對信息的閱讀與使用。

有時,我們需要進行營銷,那么如何找到目標客戶以及目標客戶的聯系方式是一個關鍵問題。我們可以手動地在互聯網中尋找,但是這樣的效率會很低。此時,我們利用爬蟲,可以設置對應的規則,自動地從互聯網中采集目標用戶的聯系方式等數據,供我們進行營銷使用。

有時,我們想對某個網站的用戶信息進行分析,比如分析該網站的用戶活躍度、發言數、熱門文章等信息,如果我們不是網站管理員,手工統計將是一個非常龐大的工程。此時,可以利用爬蟲輕松將這些數據采集到,以便進行進一步分析,而這一切爬取的操作,都是自動進行的,我們只需要編寫好對應的爬蟲,并設計好對應的規則即可。

除此之外,爬蟲還可以實現很多強大的功能。總之,爬蟲的出現,可以在一定程度上代替手工訪問網頁,從而,原先我們需要人工去訪問互聯網信息的操作,現在都可以用爬蟲自動化實現,這樣可以更高效率地利用好互聯網中的有效信息。

3.安裝第三方庫

在進行爬取數據和解析數據前,需要在Python運行環境中下載安裝第三方庫requests。

在Windows系統中,打開cmd(命令提示符)界面,在該界面輸入pip install requests,按回車鍵進行安裝。(注意連接網絡)如下圖

python爬蟲爬取網頁數據并解析數據

安裝完成,如圖

python爬蟲爬取網頁數據并解析數據

4.爬取淘寶首頁

# 請求庫import requests# 用于解決爬取的數據格式化import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=’utf-8’)# 爬取的網頁鏈接r= requests.get('https://www.taobao.com/')# 類型# print(type(r))print(r.status_code)# 中文顯示# r.encoding=’utf-8’r.encoding=Noneprint(r.encoding)print(r.text)result = r.text

運行結果,如圖

python爬蟲爬取網頁數據并解析數據

5.爬取和解析淘寶網首頁

# 請求庫import requests# 解析庫from bs4 import BeautifulSoup# 用于解決爬取的數據格式化import ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=’utf-8’)# 爬取的網頁鏈接r= requests.get('https://www.taobao.com/')# 類型# print(type(r))print(r.status_code)# 中文顯示# r.encoding=’utf-8’r.encoding=Noneprint(r.encoding)print(r.text)result = r.text# 再次封裝,獲取具體標簽內的內容bs = BeautifulSoup(result,’html.parser’)# 具體標簽print('解析后的數據')print(bs.span)a={}# 獲取已爬取內容中的script標簽內容data=bs.find_all(’script’)# 獲取已爬取內容中的td標簽內容data1=bs.find_all(’td’)# 循環打印輸出for i in data: a=i.text print(i.text,end=’’) for j in data1: print(j.text)

運行結果,如圖

python爬蟲爬取網頁數據并解析數據

6.小結

在對網頁代碼進行爬取操作時,不能頻繁操作,更不要將其設置成死循環模式(每一次爬取則為對網頁的訪問,頻繁操作會導致系統崩潰,會追究其法律責任)。

所以在獲取網頁數據后,將其保存為本地文本模式,再對其進行解析(不再需要訪問網頁)。

以上就是python爬蟲爬取網頁數據并解析數據的詳細內容,更多關于python爬取網頁數據并解析的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 午夜精品视频任你躁 | 永久福利盒子日韩日韩免费看 | 国产在线综合一区二区三区 | 91精品视频网站 | 国产色综合一区二区三区 | 国产大片喷水在线在线视频 | 日韩综合网 | 成人爱爱爱欧美日本视频 | 九九亚洲精品自拍 | 亚洲一级毛片在线播放 | 国产一区不卡 | 亚洲人交配视频 | 我要看黄色特级黄色录像 | 久久夜色精品国产尤物 | heyzo国产亚洲高清 | 高清在线一区二区三区亚洲综合 | 午夜性刺激片免费观看成人 | 95视频在线播放 | 亚洲成人一区 | 真人一级毛片 | 亚洲成在人天堂一区二区 | 日本乱理伦中文三区 | 日韩免费精品一级毛片 | 伊人久久中文字幕 | 国产91在线视频 | 99re最新地址获取精品 | 午夜大片免费完整在线看 | 老妇毛片| 国精产品一区一区三区 | 日本免费黄网站 | 日韩免费一级a毛片在线播放一级 | 全黄性色大片 | 国产成人综合一区精品 | 精品亚洲大全 | 欧美成人免费全部色播 | 国产精品99爱免费视频 | 色天天色综合 | 麻豆19禁国产青草精品 | 国产大片一区 | 在线观看精品一区 | 国产人成免费视频 |