Python 通過正則表達式快速獲取電影的下載地址
在爬取網(wǎng)頁信息時,如果在HTML代碼中通過獲取標簽的方式來提取電影的下載地址時,不僅要編寫比較多的代碼,還需要不斷的確認每一層的標簽是否正確,這樣的操作無疑是煩瑣的。如下圖所示。那么通過什么方式既可以減少代碼量,又可以很簡單的提取指定標簽的內(nèi)容呢?本文將實現(xiàn)通過正則表達式快速獲取電影的下載地址。如果對正則表達式不熟悉的讀者,點擊 此處 學習正則表達式。
在爬取網(wǎng)頁信息的任務中,可以使用正則表達式的方式快速的提取某個標簽內(nèi)的指定信息,以爬取電影的下載地址為例。本案例需要注意編碼格式的問題,單擊鼠標右鍵,如圖所示查看網(wǎng)頁編碼:
代碼如下:
import reimport requestsdef get_movies(url): # 構(gòu)造請求頭 headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/53' '7.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36' } response = requests.get(url, headers=headers) # 發(fā)送請求 response.encoding = 'gb2312' # 設(shè)置編碼方式 # 判斷請求是否成功 根據(jù)狀態(tài)碼是否等于200來判斷 if response.status_code == 200: # 獲取每個電影詳情頁地址,通過正則表達式提取電影詳情頁地址 # <a href='http://www.aoyou183.cn/html/gndy/dyzz/20200411/59903.html' rel='external nofollow' class='ulink'>2020年動作《絕地戰(zhàn)警:疾速追擊》BD中英雙字幕</a> movies_info = re.findall(r’<a href='http://www.aoyou183.cn/bcjs/(.*?)' rel='external nofollow' class='ulink'>’, response.text) # 返回符合表達式規(guī)則的數(shù)據(jù)列表 print(len(movies_info)) for url in movies_info: # 循環(huán)每個電影的詳情頁地址 info_url = 'https://www.ygdy8.net' + url # 拼接完整地址 # 對電影詳情頁發(fā)送請求 movies_info_response = requests.get(info_url, headers=headers) movies_info_response.encoding = 'gb2312' # 設(shè)置編碼方式 # 通過表達式匹配電影的下載地址 download_url = re.findall(r’<a href='http://www.aoyou183.cn/bcjs/.*?' rel='external nofollow' >(.*?)</a></td>’, movies_info_response.text) print(download_url)if __name__ == ’__main__’: get_movies('https://www.ygdy8.net/html/gndy/dyzz/index.html')
運行結(jié)果如下:
[’ftp://ygdy8:ygdy8@yg39.dydytt.net:8014/陽光電影www.ygdy8.com.名字之歌.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg90.dydytt.net:6015/陽光電影www.ygdy8.com.我仍然相信.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:8018/陽光電影www.ygdy8.com.阿肯色.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:4028/陽光電影www.ygdy8.com.驚天營救.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg90.dydytt.net:8067/陽光電影www.ygdy8.com.狩獵的時間.BD.1080p.韓語中字.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:7018/陽光電影www.ygdy8.com.7號房的禮物.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:8017/陽光電影www.ygdy8.com.格蕾特和韓塞爾.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:3028/陽光電影www.ygdy8.com.看不見的女人.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg90.dydytt.net:7067/陽光電影www.ygdy8.com.我們永不言棄.HD.1080p.國語中字.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:4026/陽光電影www.ygdy8.com.軍人的妻子.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg90.dydytt.net:6014/陽光電影www.ygdy8.com.匹諾曹.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:4025/陽光電影www.ygdy8.com.葉問4:完結(jié)篇.BD.1080p.國粵雙語中字.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:3024/陽光電影www.ygdy8.com.節(jié)奏組.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:8013/陽光電影www.ygdy8.com.江湖兒女.BD.1080p.國語中字.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:3026/陽光電影www.ygdy8.com.瓊斯先生.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:7013/陽光電影www.ygdy8.com.地球最后的夜晚.BD.1080p.國語中字.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:3023/陽光電影www.ygdy8.com.夢幻島.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:4023/陽光電影www.ygdy8.com.擰緊.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:4026/陽光電影www.ygdy8.com.悲慘世界.BD.1080p.法語中字.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:4022/陽光電影www.ygdy8.com.真人快打傳奇:蝎子的復仇.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg18.dydytt.net:7016/陽光電影www.ygdy8.com.我的間諜.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:3021/陽光電影www.ygdy8.com.從不,很少,有時,總是.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:4025/陽光電影www.ygdy8.com.絕地戰(zhàn)警:疾速追擊.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg39.dydytt.net:3020/陽光電影www.ygdy8.com.紳士們.BD.1080p.中英雙字幕.mkv’][’ftp://ygdy8:ygdy8@yg90.dydytt.net:8065/陽光電影www.ygdy8.com.二分之一的魔法.BD.1080p.中英雙字幕.mkv’]1
筆者在這里聲明,筆者寫文章只是為了 學習交流,以及讓更多學習Python基礎(chǔ)的讀者少走一些彎路,節(jié)省時間,并不用做其他用途,如有侵權(quán),聯(lián)系刪除即可。
到此這篇關(guān)于Python 通過正則表達式快速獲取電影的下載地址的文章就介紹到這了,更多相關(guān)Python 正則表達式下載地址內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. css代碼優(yōu)化的12個技巧2. .NET SkiaSharp 生成二維碼驗證碼及指定區(qū)域截取方法實現(xiàn)3. jsp網(wǎng)頁實現(xiàn)貪吃蛇小游戲4. CentOS郵件服務器搭建系列—— POP / IMAP 服務器的構(gòu)建( Dovecot )5. MyBatis JdbcType 與Oracle、MySql數(shù)據(jù)類型對應關(guān)系說明6. 在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法7. 存儲于xml中需要的HTML轉(zhuǎn)義代碼8. ASP中實現(xiàn)字符部位類似.NET里String對象的PadLeft和PadRight函數(shù)9. ASP中if語句、select 、while循環(huán)的使用方法10. ASP基礎(chǔ)入門第八篇(ASP內(nèi)建對象Application和Session)
