文章詳情頁

網(wǎng)絡(luò)爬蟲 - python爬蟲爬取資料，是直接生成Excel文件還是存入Mysql有利于后期處理。

瀏覽：59日期：2022-09-17 13:17:15

問題描述

要處理的文件不多，就是幾萬條，都是些簡(jiǎn)單的處理，Excel暫時(shí)也夠用。大概思路兩條：

1、python抓到的數(shù)據(jù)通過Python DB API 儲(chǔ)存到mysql中再做處理。2、直接把爬取到的資料用Phthon XlsxWriter模塊生成Execl文件（.xlsx）。

不知道哪條路線對(duì)自動(dòng)生成文件和后期的處理比較方便。自己不太會(huì)用mysql,所以比較傾向用XlsxWriter模塊生成Execl文件，只是看了XlsxWriter模塊的一些文檔，也只是編寫數(shù)據(jù)內(nèi)容和格式，然后生成Execl文件，不知道有沒有爬取的數(shù)據(jù)自動(dòng)生成Execl文件比較簡(jiǎn)單的實(shí)現(xiàn)（有一些爬蟲的框架可以實(shí)現(xiàn)，但是暫時(shí)沒有學(xué)習(xí)框架，因?yàn)橹皇窍雽?shí)現(xiàn)一些簡(jiǎn)單的功能而已）。

問題解答

回答1：

我遇到過類似的問題, 最后選的是用 excel.這個(gè)完全看你的需求.哪個(gè)方便選哪個(gè). 先說下我的情況.

我當(dāng)時(shí)的需求每次只爬幾百條數(shù)據(jù), 而且每次都是用完就扔.所以用 excel 更方便些. 操作 excel 我用的 openpyxl. 只用來保存爬取的數(shù)據(jù), 不操作樣式, 用起來還是蠻簡(jiǎn)單的.

看你的數(shù)據(jù)有幾萬條, 如果考慮以后還會(huì)持續(xù)增加的話, 還是直接存數(shù)據(jù)庫以后操作比較方便.話又說回來, 如果覺得現(xiàn)在存 excel 也能滿足自己需求的, 而且更方便的話, 存 excel 也行.以后隨著數(shù)據(jù)增長(zhǎng), 覺得 excel 不能滿足需求了, 寫個(gè)腳本直接把 excel 里的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫里.

看題主還擔(dān)心不熟悉 MySQL, 這個(gè)完全不是問題, 學(xué)過其他數(shù)據(jù)庫的話, 學(xué) MySQL 也不是難事.

回答2：

數(shù)據(jù)庫

遲早要接觸的

數(shù)據(jù)少直接文本文件存儲(chǔ)都比 Excel 好...

回答3：

我覺得這個(gè)和用什么數(shù)據(jù)庫存儲(chǔ)沒關(guān)系，可以爬蟲爬取的數(shù)據(jù)存進(jìn)execl里面，后期再自己寫程序?qū)xecl數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫，這樣也能提高爬蟲處理的速度，如果在爬取過程中入庫就不太好了

回答4：

不懂mysql 就直接用 openpyxl

回答5：

存成csv文本文件, 照樣可以用Excel打開,也方便導(dǎo)入數(shù)據(jù)庫.

回答6：

SQLite

回答7：

數(shù)據(jù)少并發(fā)不高用Sqlite唄~不熟sql用ORM唄~例如peewee~

回答8：

后期處理肯定使用數(shù)據(jù)庫。

python

上一條：python3 正則表達(dá)式，在交互模式下和編程模式下運(yùn)行結(jié)果不同下一條：python中self _init_(self,param1,param2)問題

排行榜

					
					java.library.path中的java.lang.UnsatisfiedLinkError否*****dll
win開啟之前要怎么弄
javascript - 微信小程序里怎么把頁面轉(zhuǎn)成圖片分享
java - 什么叫構(gòu)建?求解答 ^.^
php mysql數(shù)據(jù)庫 產(chǎn)品分類與產(chǎn)品詳情應(yīng)該怎么做？
mysql - SQL問個(gè)基礎(chǔ)例子,書上的,我怎么看都看不懂..誰幫我解釋一下第2個(gè)為什么和第1個(gè)一樣?
linux - 編譯安裝mysql 5.6.23
java - 能否將 MongoDB 作為 Shiro 的 realm 實(shí)現(xiàn)？
browsersync檢測(cè)的靜態(tài)頁面只能用index.html命名，用demo.html就不能實(shí)時(shí)同步，檢測(cè)動(dòng)態(tài)頁面的時(shí)候，比如wamp環(huán)境下，用browsersync能打開頁面，但不能實(shí)現(xiàn)同步
html5 - 使用echarts中的圖表  一個(gè)頁面導(dǎo)入了好幾個(gè)js圖表  實(shí)現(xiàn)echarts圖表隨著瀏覽器窗口變化而變化時(shí)出現(xiàn)了問題
css3 讓圖片變成灰色(filter)，但針對(duì)IE11瀏覽器無效
				

熱門標(biāo)簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

網(wǎng)絡(luò)爬蟲 - python爬蟲爬取資料，是直接生成Excel文件還是存入Mysql有利于后期處理。