文章詳情頁

python爬蟲 - mongodb 存入了pymongo傳入的多個數據之后怎么提取有用的數據

瀏覽：87日期：2022-10-14 15:09:10

問題描述

有多條這樣類似的數據

{ '_id' : ObjectId('56d06f01c3666e08d0f0c844'), 'http://tieba.baidu.com/p/4345287300' : '【關于更新】作者原話', 'http://tieba.baidu.com/p/4328978430' : '服務。', 'http://tieba.baidu.com/p/4372502982' : '『誅魂記』第331章：圣東王府', 'http://tieba.baidu.com/p/4355241530' : '『誅魂記』第322章：麒麟之威', 'http://tieba.baidu.com/p/4329505585' : '『誅魂記』第313章：泣血跪求', 'http://tieba.baidu.com/p/4343824178' : '新年快樂啦啦啦', 'http://tieba.baidu.com/p/4328603018' : '寫小說好看嗎', 'http://tieba.baidu.com/p/4333008061' : '來吧，你我君臣一場', 'http://tieba.baidu.com/p/4315565196' : '『誅魂記』第305章：臨危受命', 'http://tieba.baidu.com/p/4340906961' : '『誅魂記』第320章：擒賊擒王', 'http://tieba.baidu.com/p/4337476352' : '新年到了，是不是發紅包了' }

我想在上面的數據當中獲得能夠匹配：『誅魂記』的連接以及后面的文本數據，例如

'http://tieba.baidu.com/p/4329505585' : '『誅魂記』第313章：泣血跪求'

這樣，同時把得查詢到的結構存到另外一個表中，以及得到

'http://tieba.baidu.com/p/4329505585' : '『誅魂記』第313章：泣血跪求'

中的連接 http://tieba.baidu.com/p/4329505585

最近開始在接觸一些爬蟲相關的東西，想自己做個東西出來，實在是捉急了。

下面是python里面的代碼

def craw(self, root_urls):for new_url in root_urls: html_cont = self.downloader.download(new_url) new_chapter_urls, new_linkdatas = self.parser.parselink(root_chapter_url, html_cont) mid_data = zip(new_chapter_urls,new_linkdatas) mid_mid_datas = dict((new_chapter_urls,new_linkdatas) for new_chapter_urls,new_linkdatas in mid_data) c = pymongo.MongoClient(host=’127.0.0.1’, port=27017) db = c.spider db.chapter_datas.insert(mid_mid_datas, check_keys=False)

問題解答

回答1：

為什么不在抓取的時候直接根據data里面的內容是否包含“『誅魂記』”來過濾一下呢？

>>> s = '『誅魂記』第331章：圣東王府'>>> '『誅魂記』' in sTrue>>> s = '新年快樂啦啦啦'>>> '『誅魂記』' in sFalse

Python 編程

上一條：nosql - mongodb 多組數據不固定字段查詢問題 [百度黨請繞道]下一條：mongodb可以導出數據到excel嗎？

相關文章：

1. linux - 編譯安裝mysql 5.6.232. mysql - 在下剛入門sql 關于sql的語法詢問3. php - mysql連表統計查詢4. mysql事務日志的一些問題5. MySQL分表之后如何做排序的問題6. MySQL不知道錯哪里了？7. mysql - 測試不同sql語句的查詢效率8. mysql - 刪除數據庫中的數據，但是表結構保留9. phpstuty 修改完監聽端口，apache無法啟動10. 數據庫 - mysql boolean型無法插入true

排行榜

					
					java.library.path中的java.lang.UnsatisfiedLinkError否*****dll
win開啟之前要怎么弄
android - Windows系統下運行react-native App時，報下面的錯誤？
javascript - 微信小程序里怎么把頁面轉成圖片分享
python - 關于爬蟲爬取圖片的問題？
vim下怎么把一大段代python碼往前移動一個tab？
java - 什么叫構建?求解答 ^.^
mysql - SQL問個基礎例子,書上的,我怎么看都看不懂..誰幫我解釋一下第2個為什么和第1個一樣?
騰訊地圖小程序SDK，success返回的數據無法取出
MySQL不知道錯哪里了？
php mysql數據庫 產品分類與產品詳情應該怎么做？
				

熱門標簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

python爬蟲 - mongodb 存入了pymongo傳入的多個數據之后怎么提取有用的數據