網頁爬蟲 - python爬蟲,需要爬取的數據沒在網頁源代碼中,怎么處理?
問題描述
我想抓取直播吧賽事的比分:直播吧鏈接,可是我用Scrapy只能抓取到日期,主客隊等。我的問題是:比分是不是通過Script加載出來的?是不是在這個腳本中bf4.js中?這種Request Method:GET的情況如何準確獲取出比分如下圖?通過開發者工具查看出的網頁源代碼如下:<li label='足球,中甲,武漢卓爾' data-time='2017-06-24 15:00'>15:00 <b>中甲第15輪</b> 云南麗江 <img src='https://duihui.qiumibao.com/zuqiu/yunnanlijiang.png' > <span> - </span> <img src='https://duihui.qiumibao.com/zuqiu/wuhanzhuoer.png' > 武漢卓爾 <a href='http://www.aoyou183.cn/zhibo/zuqiu/2017/0624yunnanlijiangvswuhanzhuoer.htm' target='_blank'>武漢文體 廣州競賽 PPTV</a> <a target='_blank'>文字</a> <a target='_blank'>手機看直播</a> <a target='_blank'>比分</a> <a target='_blank'>歐冠足球新服</a> </li>
即<span> - </span>中比分沒顯示,如何才能抓取渲染完成出來的比分網頁呢?
問題解答
回答1:數據在https://bifen4pc.qiumibao.com/json/list.htm?74520
那就使用Selenium 來獲取吧,
鏈接描述
相關文章:
1. 網頁爬蟲 - python爬蟲爬圖,報錯<urlopen error no hsot given>.2. 網頁爬蟲 - python爬蟲翻頁問題,請問各位大神我這段代碼怎樣翻頁,還有價格要登陸后才能看到,應該怎么解決3. 網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?4. 網頁爬蟲 - Python爬蟲返回狀態碼與實際情況不符?5. 網頁爬蟲 - python爬蟲用BeautifulSoup爬取<s>元素并寫入字典,但某些div下沒有這一元素,導致自動寫入下一條,如何解決?6. 網頁爬蟲 - Python爬蟲入門知識7. 網頁爬蟲 - Python爬蟲運行內存占用過高導致電腦停止響應
