亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術文章
文章詳情頁

python - 關于代碼的優化問題

瀏覽:95日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網站下來的,和網頁另存為沒什么區別。

想大神們幫我看看我的代碼,怎么優化不會有遺漏。比較小白的代碼,麻煩了!??!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产成人久久精品一区二区三区 | 亚洲an天堂an在线观看 | 久久亚洲人成国产精品 | 99视频在线| 国产国产人免费人成免费视频 | 蕾丝视频www在线观看 | 午夜一区二区三区 | 成人永久福利免费观看 | 国产精品久久在线观看 | 国产精品成人第一区 | 精品黄色录像 | www.成人影院 | 91福利在线观看视频 | 亚洲欧洲日韩天堂无吗 | 成人免费播放视频777777 | 国产欧美日韩精品a在线观看 | 特黄一级 | 国模一区二区三区私啪啪 | 成人免费片 | 能看毛片的网址 | 国产精品久久精品牛牛影视 | 国产免费无遮挡精品视频 | 久久成人国产精品二三区 | 在线观看欧美国产 | 午夜精品一区二区三区在线观看 | 免费区欧美一级毛片 | 一国产一级淫片a免费播放口 | 韩国三级欧美三级国产三级 | 免费一区二区三区视频狠狠 | 草草视频在线免费观看 | 欧美一级大片免费看 | 日韩区在线观看 | 高h猛烈做哭bl壮汉受欧美 | 国产一二区视频 | 超级碰碰青草久热国产 | 99久久婷婷国产综合精品hsex | 日韩欧美a级高清毛片 | 亚洲日韩欧美视频 | 超级乱淫片67194免费看 | 国产大伊香蕉精品视频 | 国产一级毛片午夜 |