亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

更多QQ空间微信QQ好友腾讯朋友复制链接
您的位置:首頁/技術文章
文章詳情頁

python - 請教這個頁面中的這兩個信息能否不用無頭瀏覽器爬取到?

【字号: 作者:豬豬瀏覽:81日期:2022-09-22 16:46:47

問題描述

在爬取'http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm'這個頁面的時候, 發現'擅長'和'執業經歷'這兩個信息通過beautifulsoup是取不到的, 我選取這兩個信息的代碼如下:

soup.select(’#full_DoctorSpecialize’).get_text(strip=True)soup.select(’#full’).get_text(strip=True)

查詢頁面發現這兩個信息好像是通過JS查詢的結果, 除了把網頁全部正則表達式匹配的方法, 請教各位: 1, 這兩個信息能否直接取到? 2, 除了類似'Selenium'這樣的工具, 是否還有其他方式能夠取到這兩個信息?3, 能否通過分析查詢接口的方式解決?

謝謝

問題解答

回答1:

可能這個頁面,你要抓的這個數據,是頁面加載后,使用js渲染出來的。也就是說,這個#full_DoctorSpecialize里面的數據是ajax,從服務器上拿回來的。具體要如何拿這樣的數據,你可以百度下 phantomjs ,你一定會 有收獲 的。

回答2:

這2個信息可以直接獲取,只是信息包含在JS塊中BigPipe.onPageletArrive({這個里面}) , 可以通過正則表達式獲取。這個里面是一段JSON格式的字符串。匹配之后轉換為json還是很容易處理的。想要通過查詢接口獲取的話,應該是可以的,不過得分析JS代碼,這個太麻煩,可以通過抓包工具來抓它的http請求。然后看看是那個請求返回的數據。相比較而言還是寫正則匹配比較快。

回答3:

這個就像樓上說的是js渲染的,內容在js代碼里面,可以正則匹配js代碼里面的元素,得到你想要的信息

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 欧美视频一区二区三区 | 国产大尺度吃奶无遮无挡 | 久久一区二区明星换脸 | 综合亚洲一区二区三区 | 欲色影视天天一区二区三区色香欲 | 免费在线观影网站 | 国产一区二区三区在线观看免费 | 欧美婷婷综合 | 亚洲一区二区三区高清 不卡 | 一级特黄aa大片一又好看 | 91国内精品久久久久怡红院 | 在线观看香蕉视频 | 亚洲一区亚洲二区 | 国产大陆亚洲精品国产 | 国产成人一区二区三区影院免费 | 性欧美巨大| 久久精品一区二区三区日韩 | 国产午夜视频 | 一级毛片无遮挡免费全部 | 毛片a区| 国产尤物视频 | 中文精品久久久久国产网站 | 亚洲精品国产一区二区 | 黑人在线播放 | 国产精品电影久久 | 黑人黑粗硬视频 | 国产护士恋夜各种姿势视频 | 亚洲淫| 毛片在线不卡 | 一级香蕉视频在线观看 | 久久一区不卡中文字幕 | 色中色综合 | 三级黄色片在线播放 | 久草青娱乐 | 日韩精品一区二区三区免费观看 | 国产精品99精品久久免费 | 伊人久久成人爱综合网 | a级黄色大片在线观看视频男男 | 国产真人毛片一级视频 | 亚洲六月丁香色婷婷综合久久 | 黑巨茎大战中国美女 |