Python實(shí)現(xiàn)JS解密并爬取某音漫客網(wǎng)站
首先打開(kāi)網(wǎng)站
https://www.zymk.cn/1/37988.html
打開(kāi)開(kāi)發(fā)者工具
選擇XHR標(biāo)簽頁(yè),沒(méi)有找到什么
再查看一下這些圖片的URL值
http://mhpic.xiaomingtaiji.net/comic/D%2F%E6%96%97%E7%A0%B4%E8%8B%8D%E7%A9%B9%E6%8B%86%E5%88%86%E7%89%88%2F20%E8%AF%9D%2F1.jpg-zymk.middle.webp
嘗試搜索圖片元素
發(fā)現(xiàn)有一個(gè)js文件,打開(kāi)搜索
發(fā)現(xiàn)這里有一個(gè)疑點(diǎn),這不是html里面的字段嗎,那么 “i.getPicUrl(e)” 不就是那個(gè)圖片的URL的值了嗎
在這里下一個(gè)斷點(diǎn),走你
果然,這個(gè)就那個(gè)圖片URL生成的切入點(diǎn),現(xiàn)在就是看調(diào)用棧,找到這個(gè)函數(shù)的起點(diǎn),點(diǎn)擊右側(cè)的 ”e.init“,這里有一個(gè)setInitData函數(shù),從名字來(lái)看,應(yīng)該就是設(shè)置初始數(shù)據(jù)的地方,在這里下一個(gè)斷點(diǎn),進(jìn)去看看
這里有一個(gè)this.imgpath,這個(gè)應(yīng)該就是圖片的URL值了,點(diǎn)擊F10,再單步調(diào)式,來(lái)到了charcode函數(shù)
進(jìn)去看看,這里應(yīng)該就是加密函數(shù)了
這里一步步調(diào)式,不要著急,來(lái)到了這里
繼續(xù)單步調(diào)式,在第二次打開(kāi)這么VM文件的時(shí)候,”__cr.imgpath“這個(gè)看起來(lái)很熟悉呀
Plain Text'L-:N-M>-A>-A?-M?-I8-J<-M@-@J-@L-M?-IA-JA-M>-@J-@>-M=-@@-@>-M?-@A-@@-:N:8-M@-IN-AL-:N'
打開(kāi)頁(yè)面源代碼,就在這里啦,不僅僅有圖片的URL加密值,還有其他數(shù)據(jù),這些都是在后面圖片URL拼接需要使用到的
現(xiàn)在我們?cè)僦匦驴纯茨莻€(gè)加密函數(shù),它無(wú)非就是遍歷那個(gè)加密值的每個(gè)字符,獲取其Unicode值,再與__cr.chapter_id進(jìn)行相關(guān)運(yùn)算,然后再得到的Unicode數(shù)值返回字符
現(xiàn)在我們可以用python仿寫這個(gè)算法
接下就是平常get請(qǐng)求獲取必要的數(shù)據(jù)了,通過(guò)正則獲取元素,拼接,以下是源碼
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持好吧啦網(wǎng)。
相關(guān)文章:
1. 在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法2. MyBatis JdbcType 與Oracle、MySql數(shù)據(jù)類型對(duì)應(yīng)關(guān)系說(shuō)明3. 存儲(chǔ)于xml中需要的HTML轉(zhuǎn)義代碼4. jsp網(wǎng)頁(yè)實(shí)現(xiàn)貪吃蛇小游戲5. CentOS郵件服務(wù)器搭建系列—— POP / IMAP 服務(wù)器的構(gòu)建( Dovecot )6. django創(chuàng)建css文件夾的具體方法7. .NET SkiaSharp 生成二維碼驗(yàn)證碼及指定區(qū)域截取方法實(shí)現(xiàn)8. ASP中if語(yǔ)句、select 、while循環(huán)的使用方法9. ASP中實(shí)現(xiàn)字符部位類似.NET里String對(duì)象的PadLeft和PadRight函數(shù)10. 利用CSS制作3D動(dòng)畫(huà)
