文章詳情頁

python爬蟲基礎(chǔ)知識點(diǎn)整理

瀏覽：19日期：2022-07-23 15:03:29

首先爬蟲是什么？

網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機(jī)器人，在FOAF社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動的抓取萬維網(wǎng)信息的程序或者腳本。

根據(jù)我的經(jīng)驗(yàn)，要學(xué)習(xí)Python爬蟲，我們要學(xué)習(xí)的共有以下幾點(diǎn)：

Python基礎(chǔ)知識 Python中urllib和urllib2庫的用法 Python正則表達(dá)式 Python爬蟲框架Scrapy Python爬蟲更高級的功能

1.Python基礎(chǔ)學(xué)習(xí)

首先，我們要用Python寫爬蟲，肯定要了解Python的基礎(chǔ)吧，萬丈高樓平地起，不能忘啦那地基，哈哈，那么我就分享一下自己曾經(jīng)看過的一些Python教程，小伙伴們可以作為參考。

1) Python學(xué)習(xí)網(wǎng)

Python學(xué)習(xí)網(wǎng)上有大量免費(fèi)的Python入門教程，以便大家學(xué)習(xí)。不僅有視頻教程，還有相應(yīng)的問答版塊，幫你解決學(xué)習(xí)過程中的問題，效果還是蠻不錯的，內(nèi)容基本上都是最基礎(chǔ)的，入門開始的話，就這個吧

2) 廖雪峰Python教程

后來，我發(fā)現(xiàn)了廖老師的Python教程，講的那是非常通俗易懂哪，感覺也是非常不錯，大家如果想進(jìn)一步了解Python就看一下這個吧。

3) 簡明Python教程

還有一個我看過的，簡明Python教程，感覺講的也不錯

學(xué)習(xí)網(wǎng)址：簡明Python教程（https://woodpecker.org.cn/abyteofpython_cn/chinese/pr01.html#s01）

4) 汪海的實(shí)驗(yàn)室

這是我的本科實(shí)驗(yàn)室學(xué)長，入門的時候參考的他的文章，自己重新做了總結(jié)，后來這些系列文章又在他的基礎(chǔ)上增加了一些內(nèi)容。

學(xué)習(xí)網(wǎng)址：汪海的實(shí)驗(yàn)室（https://blog.csdn.net/wxg694175346/category_1418998_1.html）

2.Python urllib和urllib2 庫的用法

urllib和urllib2庫是學(xué)習(xí)Python爬蟲最基本的庫，利用這個庫我們可以得到網(wǎng)頁的內(nèi)容，并對內(nèi)容用正則表達(dá)式提取分析，得到我們想要的結(jié)果。這個在學(xué)習(xí)過程中我會和大家分享的。

3.Python 正則表達(dá)式

Python正則表達(dá)式是一種用來匹配字符串的強(qiáng)有力的武器。它的設(shè)計思想是用一種描述性的語言來給字符串定義一個規(guī)則，凡是符合規(guī)則的字符串，我們就認(rèn)為它“匹配”了，否則，該字符串就是不合法的。這個在后面的博文會分享的。

4.爬蟲框架Scrapy

如果你是一個Python高手，基本的爬蟲知識都已經(jīng)掌握了，那么就尋覓一下Python框架吧，我選擇的框架是Scrapy框架。這個框架有什么強(qiáng)大的功能呢？下面是它的官方介紹：

HTML, XML源數(shù)據(jù) 選擇及提取的內(nèi)置支持提供了一系列在spider之間共享的可復(fù)用的過濾器(即 Item Loaders)，對智能處理爬取數(shù)據(jù)提供了內(nèi)置支持。通過 feed導(dǎo)出提供了多格式(JSON、CSV、XML)，多存儲后端(FTP、S3、本地文件系統(tǒng))的內(nèi)置支持提供了media pipeline，可以自動下載爬取到的數(shù)據(jù)中的圖片(或者其他資源)。高擴(kuò)展性。您可以通過使用 signals ，設(shè)計好的API(中間件, extensions, pipelines)來定制實(shí)現(xiàn)您的功能。內(nèi)置的中間件及擴(kuò)展為下列功能提供了支持：cookies and session 處理HTTP 壓縮HTTP 認(rèn)證HTTP 緩存user-agent模擬robots.txt爬取深度限制針對非英語語系中不標(biāo)準(zhǔn)或者錯誤的編碼聲明, 提供了自動檢測以及健壯的編碼支持。支持根據(jù)模板生成爬蟲。在加速爬蟲創(chuàng)建的同時，保持在大型項(xiàng)目中的代碼更為一致。詳細(xì)內(nèi)容請參閱 genspider 命令。針對多爬蟲下性能評估、失敗檢測，提供了可擴(kuò)展的狀態(tài)收集工具。提供交互式shell終端 , 為您測試XPath表達(dá)式，編寫和調(diào)試爬蟲提供了極大的方便提供 System service, 簡化在生產(chǎn)環(huán)境的部署及運(yùn)行內(nèi)置 Web service, 使您可以監(jiān)視及控制您的機(jī)器內(nèi)置 Telnet終端，通過在Scrapy進(jìn)程中鉤入Python終端，使您可以查看并且調(diào)試爬蟲Logging 為您在爬取過程中捕捉錯誤提供了方便支持 Sitemaps 爬取具有緩存的DNS解析器

官方文檔：http://doc.scrapy.org/en/latest/

等我們掌握了基礎(chǔ)的知識，再用這個 Scrapy 框架吧！

扯了這么多，好像沒多少有用的東西額，那就不扯啦！

知識點(diǎn)擴(kuò)展：

爬蟲基本原理

爬蟲是模擬用戶在瀏覽器或者App應(yīng)用上的操作，把操作的過程、實(shí)現(xiàn)自動化的程序

當(dāng)我們在瀏覽器中輸入一個url后回車，后臺會發(fā)生什么？比如說你輸入https://www.baidu.com

簡單來說這段過程發(fā)生了以下四個步驟：

查找域名對應(yīng)的IP地址。瀏覽器首先訪問的是DNS(Domain Name System,域名系統(tǒng)),dns的主要工作就是把域名轉(zhuǎn)換成相應(yīng)的IP地址向IP對應(yīng)的服務(wù)器發(fā)送請求。服務(wù)器響應(yīng)請求，發(fā)回網(wǎng)頁內(nèi)容。瀏覽器顯示網(wǎng)頁內(nèi)容。

網(wǎng)絡(luò)爬蟲要做的，簡單來說，就是實(shí)現(xiàn)瀏覽器的功能。通過指定url，直接返回給用戶所需要的數(shù)據(jù)，而不需要一步步人工去操縱瀏覽器獲取。

到此這篇關(guān)于python爬蟲基礎(chǔ)知識點(diǎn)整理的文章就介紹到這了,更多相關(guān)Python2爬蟲入門內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python函數(shù)必須先定義,后調(diào)用說明(函數(shù)調(diào)用函數(shù)例外)下一條：

相關(guān)文章：

1. Kotlin + Flow 實(shí)現(xiàn)Android 應(yīng)用初始化任務(wù)啟動庫2. 每日六道java新手入門面試題,通往自由的道路--多線程3. ASP.NET泛型三之使用協(xié)變和逆變實(shí)現(xiàn)類型轉(zhuǎn)換4. AJAX實(shí)現(xiàn)省市縣三級聯(lián)動效果5. 快速解決ajax返回值給外部函數(shù)的問題6. ASP.NET MVC視圖頁使用jQuery傳遞異步數(shù)據(jù)的幾種方式詳解7. jsp文件下載功能實(shí)現(xiàn)代碼8. 每日六道java新手入門面試題,通往自由的道路9. 在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法10. SpringBoot+SpringCache實(shí)現(xiàn)兩級緩存(Redis+Caffeine)

排行榜

					
					每日六道java新手入門面試題,通往自由的道路
每日六道java新手入門面試題,通往自由的道路--多線程
AJAX實(shí)現(xiàn)省市縣三級聯(lián)動效果
SpringBoot+SpringCache實(shí)現(xiàn)兩級緩存(Redis+Caffeine)
在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法
jsp文件下載功能實(shí)現(xiàn)代碼
快速解決ajax返回值給外部函數(shù)的問題
Idea 2019.3 本應(yīng)該搜索到的插件卻搜索不到的解決方法
php讀取xml中某個元素的內(nèi)容(PHP5以上才支持)
ASP.NET泛型三之使用協(xié)變和逆變實(shí)現(xiàn)類型轉(zhuǎn)換
Kotlin + Flow 實(shí)現(xiàn)Android 應(yīng)用初始化任務(wù)啟動庫