文章詳情頁

Python如何使用正則表達式爬取京東商品信息

瀏覽：2日期：2022-07-23 16:07:53

京東（JD.com）是中國最大的自營式電商企業(yè)，2015年第一季度在中國自營式B2C電商市場的占有率為56.3%。如此龐大的一個電商網(wǎng)站，上面的商品信息是海量的，小編今天就帶小伙伴利用正則表達式，并且基于輸入的關鍵詞來實現(xiàn)主題爬蟲。

首先進去京東網(wǎng)，輸入自己想要查詢的商品，小編在這里以關鍵詞“狗糧”作為搜索對象，之后得到后面這一串網(wǎng)址：https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8，其實參數(shù)%E7%8B%97%E7%B2%AE解碼之后就是“狗糧”的意思。那么非常明顯，只要輸入keyword這個參數(shù)之后，將其進行編碼，就可以獲取到我們的目標網(wǎng)址了，請求網(wǎng)頁，得到響應，爾后利用選擇器便可以進行下一步的精準采集了。

在京東網(wǎng)上，狗糧信息在京東官網(wǎng)上的網(wǎng)頁源碼如下圖所示：

狗糧信息在京東官網(wǎng)上的網(wǎng)頁源碼

話不多說，直接擼代碼，如下圖所示。小編用的是py3，也建議大家以后多用py3版本。通常URL編碼的方式是把需要編碼的字符轉化為%xx的形式，一般來說URL的編碼是基于UTF-8的，當然也有的于瀏覽器平臺有關。在Python的urllib庫中提供了quote方法，可以實現(xiàn)對URL的字符串進行編碼，從而可以進入到對應的網(wǎng)頁中去。

正則表達式，又稱正規(guī)表示式、正規(guī)表示法、正規(guī)表達式、規(guī)則表達式、常規(guī)表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），是一種可以用于模式匹配和替換的強有力的工具。找到目標網(wǎng)頁之后，調用urllib中的urlopen函數(shù)打開網(wǎng)頁并獲取源碼，之后利用正則表達式實現(xiàn)對目標信息的精準采集。

Python如何使用正則表達式爬取京東商品信息

利用正則表達式實現(xiàn)對目標信息的精準采集

正則表達式寫在這個程序中確實蠻復雜的，也占據(jù)了多行，但是主要用到的正則表達式是[wW]+?和[sS]+?。

[sS]或者[wW]是完全通配的意思，s是指空白，包括空格、換行、tab縮進等所有的空白，而S剛好相反。這樣一正一反下來，就表示所有的字符，完全的，一字不漏的。另外，[]這個符號，表示在它里面包含的單個字符不限順序的出現(xiàn)，比如下面的正則：[ace]*，這表示，只要出現(xiàn)a/c/e這三個任意的字母，都會被匹配。

此外，[s]表示，只要出現(xiàn)空白就匹配；[S]表示，非空白就匹配。那么它們的組合，表示所有的都匹配，與它相對應的，有[wW]等，意義完全相同。其實，[sS] 和 [wW]這樣的用法，比'.'所匹配的還要多，因為'.'是不會匹配換行的，所有出現(xiàn)有換行匹配的時候，人們就習慣使用[sS]或者[wW]這樣的完全通配模式。

最后得到的輸出效果圖如下所示：

Python如何使用正則表達式爬取京東商品信息

輸出效果圖

這樣小伙伴們就可以獲取到狗糧的商品信息了，當然，小編在這里只是拋磚引玉，只匹配了四個信息，而且只是做了個單頁的獲取。需要更多數(shù)據(jù)的小伙伴們可以自行去更改正則表達式和設置多頁，達到你想要的效果。下篇文章小編將利用美麗的湯BeautifulSoup來進行匹配目標數(shù)據(jù)，實現(xiàn)目標信息的精準獲取。

最后給大家簡單介紹一下正則表達式。正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規(guī)則的字符串。在很多文本編輯器里，正則表達式通常被用來檢索、替換那些匹配某個模式的文本。

正則表達式對于初學者確實晦澀難懂，不過慢慢學習還是可以掌握的，并不一定要完全記下來，但是你要知道什么時候需要什么參數(shù)，能做到順利使用它就可以了。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網(wǎng)。

京東 Python

上一條：python中os包的用法下一條：Python網(wǎng)絡爬蟲四大選擇器用法原理總結

相關文章：

1. 在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法2. html清除浮動的6種方法示例3. Xml簡介_動力節(jié)點Java學院整理4. XML解析錯誤：未組織好的解決辦法5. ASP基礎入門第三篇(ASP腳本基礎)6. XHTML 1.0：標記新的開端7. 使用css實現(xiàn)全兼容tooltip提示框8. 三個不常見的 HTML5 實用新特性簡介9. CSS3使用過度動畫和緩動效果案例講解10. CSS3實例分享之多重背景的實現(xiàn)(Multiple backgrounds)

排行榜

					
					Django正則URL匹配實現(xiàn)流程解析
源碼解讀Spring-Integration執(zhí)行過程
idea設置代碼格式化的方法步驟
IntelliJ IDEA導出項目的方法
springboot+vue實現(xiàn)登錄功能
python 制作網(wǎng)站小說下載器
解決vue axios跨域 Request Method: OPTIONS問題(預檢請求)
Python實現(xiàn)圖片指定位置加圖片水印（附Pyinstaller打包exe)
XML解析錯誤：未組織好 的解決辦法
python小白切忌亂用表達式
Nginx+php配置文件及原理解析