文章詳情頁

html - 為什么BeautifulSoup find_all 返回的list都不是按照網頁顯示順序排序的？

瀏覽：85日期：2023-10-13 17:52:01

問題描述

我想爬糗百的段子，顯示作者，和對應的段子，先只爬第一面

import requestsfrom bs4 import BeautifulSoup as bspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))soup = bs(r.content,'html.parser')names = []for n in soup.find_all('a',{'href':True,'target':True,'title':True}): names += [n.h2.get_text()]print(names)

print 結果：

[’威信紅包接龍關注’, ’ZBZBZBZ’, ’養賊專業戶’, ’柱流年’, ’大風起兮雪飛揚’, ’依然家的麥芽糖’, ’小小&妖精’, ’蒼南下山耍流氓，黑衣格哥買紅糖’, ’九妹妹～’, ’親愛de橄欖綠’, ’有點胖的妮妮’, ’污奇奇’, ’沒辦法就是這么帥’, ’亦龍’, ’哇噻～桃寶’, ’單名一個飯字’, ’ni敢拿命疼我嗎？’, ’許我三日暖’, ’半闕詞曲丶’, ’誰動了我的糧食？’]

html.fromstring xpath 也這樣

from lxml import htmlimport requestspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))tree = html.fromstring(r.content)print(tree.xpath(’//*[@class='article block untagged mb15']/p[1]/a[2]/h2/text()’))

print 結果：

[’威信紅包接龍關注’, ’ZBZBZBZ’, ’養賊專業戶’, ’大風起兮雪飛揚’, ’柱流年’, ’依然家的麥芽糖’, ’小小&妖精’, ’蒼南下山耍流氓，黑衣格哥買紅糖’, ’九妹妹～’, ’親愛de橄欖綠’, ’有點胖的妮妮’, ’污奇奇’, ’沒辦法就是這么帥’, ’亦龍’, ’單名一個飯字’, ’ni敢拿命疼我嗎？’, ’許我三日暖’, ’半闕詞曲丶’, ’根@兒’, ’我是你的絕無僅有’]

但網頁的實際顯示順序是:

[’威信紅包接龍關注’, ’養賊專業戶’, ’ZBZBZBZ’, ’柱流年’, ’有點胖的妮妮’, ’依然家的麥芽糖’, ’小小&妖精’, ’大風起兮雪飛揚’, ’蒼南下山耍流氓，黑衣格哥買紅糖’, ’九妹妹～’, ’亦龍’...]

如何讓返回的list的元素的順序和網頁顯示順序相同？

問題解答

回答1：

應該是因為它頁面的內容的排序是在變動的。他的排序是根據評論里面的個“好笑”數來排的，好笑數字接近的，順序變化正常，而且有時有新的段子加入這頁。你瀏覽器取得頁面的時間，和爬蟲爬取的時間不一樣，看到的段子順序不一樣很正常。

HTML

上一條：java - 正則表達式如何對字符串取反？下一條：java - 求算法. 在球面上取隨機N個均勻的點(或者間距不小于某距離的點)

相關文章：

1. javascript - js 對中文進行MD5加密和python結果不一樣。2. 為什么python中實例檢查推薦使用isinstance而不是type？3. python - （初學者）代碼運行不起來，求指導，謝謝！4. python - django orm 過濾日期為當天日期的數據5. nginx - pip install python庫報錯6. python - 如何判斷字符串為企業注冊名稱7. mysql里的大表用mycat做水平拆分，是不是要先手動分好，再配置mycat8. python的文件讀寫問題？9. window下mysql中文亂碼怎么解決？？10. mysql如何添加索引的時候指定索引方式

排行榜

					
					java - 各位前輩大神們給點學習源碼的方法或者學習心得吧。
node.js - node服務器配置？
為什么python中實例檢查推薦使用isinstance而不是type？
java - 關于 controller層與service層如何傳值？
javascript - elasticsearch.js&nodejs   scoll方法的問題
html5 - H5 SSE的本質是什么？
css3 background顯示圖片的一部分
怎么用css截取字符？
算法 - 如何不用遞歸 列出 樹（多叉） 中根節點到葉節點的所有路徑（Java）
python - django orm 過濾日期為當天日期的數據
java - 異步上傳圖片無法即時回顯
				

熱門標簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

html - 為什么BeautifulSoup find_all 返回的list都不是按照網頁顯示順序排序的？