亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

更多QQ空间微信QQ好友腾讯朋友复制链接
您的位置:首頁/技術文章
文章詳情頁

python 爬蟲 解析效率如何提升?

【字号: 作者:豬豬瀏覽:94日期:2022-06-29 17:26:48

問題描述

現在采用的是在windows 環境下 采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執行程序的效率卡在計算密集的解析線程中,如果只是增加解析線程數量的話,反而增加線程切換開銷速度變慢。

請問下 有什么辦法可以較為明顯的提升解析效率?

根據兩位大腿的說明 準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1:

其實我覺得, 你在前面N個爬取線程 可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.1個解析線程 換成 進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2:

我的做法是多進程。多進程的好處是當單機性能不夠的時候,可以隨時切換為分布式爬蟲。

回答3:

可以網上找下tornade異步爬蟲吧,我正在用這個

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 又大又粗进出白浆直流动态图 | 91精品国产免费久久久久久 | 国产欧美日韩一区 | 久草在线视频网站 | 亚洲人体一区 | 欧美成人三级伦在线观看 | 亚洲国产成人久久综合区 | 亚洲 欧美 国产 日韩 制服 bt | 国产成人精品一区二三区2022 | 国产一级在线播放 | 免费国产精品视频 | 亚洲国产综合在线 | 一级a毛片 | 午夜精品一区二区三区在线视 | 一区二区三区视频在线观看 | 1717she精品国产真正免费 | 亚洲欧美国产一区二区三区 | 特级全黄一级毛片视频 | 特黄特色一级特色大片中文 | 女教师的一级毛片 | 久热青青青在线视频精品 | 伊人久久久久久久久久 | 在线观看视频一区二区三区 | 成年男女免费视频观看性 | 娇喘嗯嗯~轻点啊视频福利 | 超级碰碰碰视频在线观看 | 普通话对白国产情侣自啪 | 黄色录像一级大片 | 狠狠久久亚洲欧美专区 | 国产日韩欧美在线视频免费观看 | 亚洲影视自拍揄拍愉拍 | 日本国产精品 | 亚洲精品一区二区三区不卡 | 国产午夜毛片一区二区三区 | 午夜a视频 | 成人在线视频网 | 亚洲精品乱码国产精品乱码 | 国产亚洲一区二区手机在线观看 | a级一级片 | 欧美超长黑吊 | 国产va精品网站精品网站精品 |