亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

html - 為什么BeautifulSoup find_all 返回的list都不是按照網頁顯示順序排序的?

瀏覽:85日期:2023-10-13 17:52:01

問題描述

我想爬糗百的段子,顯示作者,和對應的段子,先只爬第一面

import requestsfrom bs4 import BeautifulSoup as bspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))soup = bs(r.content,'html.parser')names = []for n in soup.find_all('a',{'href':True,'target':True,'title':True}): names += [n.h2.get_text()]print(names)

print 結果:

[’威信紅包接龍關注’, ’ZBZBZBZ’, ’養賊專業戶’, ’柱流年’, ’大風起兮雪飛揚’, ’依然家的麥芽糖’, ’小小&妖精’, ’蒼南下山耍流氓,黑衣格哥買紅糖’, ’九妹妹~’, ’親愛de橄欖綠’, ’有點胖的妮妮’, ’污奇奇’, ’沒辦法就是這么帥’, ’亦龍’, ’哇噻~桃寶’, ’單名一個飯字’, ’ni敢拿命疼我嗎?’, ’許我三日暖’, ’半闕詞曲丶’, ’誰動了我的糧食?’]

html.fromstring xpath 也這樣

from lxml import htmlimport requestspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))tree = html.fromstring(r.content)print(tree.xpath(’//*[@class='article block untagged mb15']/p[1]/a[2]/h2/text()’))

print 結果:

[’威信紅包接龍關注’, ’ZBZBZBZ’, ’養賊專業戶’, ’大風起兮雪飛揚’, ’柱流年’, ’依然家的麥芽糖’, ’小小&妖精’, ’蒼南下山耍流氓,黑衣格哥買紅糖’, ’九妹妹~’, ’親愛de橄欖綠’, ’有點胖的妮妮’, ’污奇奇’, ’沒辦法就是這么帥’, ’亦龍’, ’單名一個飯字’, ’ni敢拿命疼我嗎?’, ’許我三日暖’, ’半闕詞曲丶’, ’根@兒’, ’我是你的絕無僅有’]

但網頁的實際顯示順序是:

[’威信紅包接龍關注’, ’養賊專業戶’, ’ZBZBZBZ’, ’柱流年’, ’有點胖的妮妮’, ’依然家的麥芽糖’, ’小小&妖精’, ’大風起兮雪飛揚’, ’蒼南下山耍流氓,黑衣格哥買紅糖’, ’九妹妹~’, ’亦龍’...]

如何讓返回的list的元素的順序和網頁顯示順序相同?

問題解答

回答1:

應該是因為它頁面的內容的排序是在變動的。他的排序是根據評論里面的個“好笑”數來排的,好笑 數字接近的,順序變化正常,而且有時有新的段子加入這頁。你瀏覽器取得頁面的時間,和爬蟲爬取的時間不一樣,看到的段子順序不一樣很正常。

標簽: HTML
相關文章:
主站蜘蛛池模板: 欧美一区二区三区四区在线观看 | 亚洲欧美日韩另类精品一区二区三区 | 黄色片视频在线观看 | 国产精品久久久久久福利漫画 | 国产免费一区二区三区香蕉精 | 黄色精品在线 | 欧美一级二级毛片视频 | 99久久精品国产麻豆 | 精品欧美激情在线看 | 成人免费观看国产高清 | 亚洲国产日韩欧美高清片a 亚洲国产日韩欧美一区二区三区 | 性网站视频 | 久久www免费人成_看片美女图 | 日日综合网 | 美国一级特黄 | 狠狠做久久深爱婷婷97动漫 | 91福利一区二区三区 | 成人在线观看不卡 | 日韩欧美三区 | 成人一级黄色大片 | 综合激情区视频一区视频二区 | 亚洲色图欧美激情 | 日韩成人高清 | 99久久综合狠狠综合久久一区 | 国产小视频免费看 | 一级片在线免费观看 | 91精品国产福利尤物免费 | 国产乱码一区二区三区四 | 日本亚洲精品成人 | 国产丝袜护土调教在线视频 | 一区视频免费观看 | 九九九国产在线 | 亚洲在线网址 | 男女晚上日日麻批视频不挡 | 九色精品高清在线播放 | 免费不卡毛片 | 国产成人精品免费视 | 久草视频资源站 | 在线免费视频一区二区 | 国产精品久久在线观看 | 久久亚洲国产成人影院 |