亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

您的位置:首頁技術(shù)文章
文章詳情頁

Python爬蟲如何爬取span和span中間的內(nèi)容并分別存入字典里?

瀏覽:82日期:2022-07-15 16:32:54

問題描述

我想把房屋概況分別抓出來并分別作為獨(dú)立的列存儲(chǔ)進(jìn)字典里,但是行內(nèi)元素沒有辦法直接用for循環(huán)摳出來。這是我的代碼:

soup.select(’.house-info li’)[1].text.strip()

這是網(wǎng)頁html代碼:

<li><span class='info-tit'>房屋概況:</span>住宅<span class='splitline'>|</span>1室1廳1衛(wèi)<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>

問題解答

回答1:

其實(shí)還是很有簡單的,你看這個(gè)還是有規(guī)律的,規(guī)律在于有分隔符|,我寫了個(gè)DEMO

something = ’’’<li><span class='info-tit'>房屋概況:</span>住宅 <span class='splitline'>|</span>1室1廳1衛(wèi)<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>’’’;soup = BeautifulSoup(something, ’lxml’)plaintext = soup.select(’li’)[0].get_text().strip()

通過get_text()得到內(nèi)在所有內(nèi)容,然后去除空格。后面你就用split進(jìn)行分割吧,后面的不寫了。如果有問題再交流。

回答2:我感覺這個(gè)html代碼寫錯(cuò)了呢,標(biāo)簽的內(nèi)容文本在標(biāo)簽外面

Python爬蟲如何爬取span和span中間的內(nèi)容并分別存入字典里?

正確的標(biāo)簽內(nèi)容就兩個(gè):

房屋概況:

46m2

回答3:

innerText

回答4:

你這種情況,我覺得用 for 循環(huán)加上正則表達(dá)式是最方便的,如果所有模版都是這樣固定的話

回答5:

用pyquery吧

from pyquery import PyQuery as Q

Q(text).find(’.house-info li’).text()

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 2019理论国产一级中字 | 国产成人黄色在线观看 | 看全色黄大色大片免费久黄久 | 亚洲 欧美 自拍 另类 欧美 | 日本xxx片免费高清在线 | 国产麻豆免费视频 | 成人性开放大片 | 看最刺激的欧美毛片 | 91精品欧美一区二区综合在线 | 午夜激情在线观看 | 日韩黄色中文字幕 | 亚洲三极 | 精品久久一区二区 | 亚洲一区二区在线播放 | 久久99爱视频 | 欧美一级高清毛片aaa | 狠狠婷婷| 一级黄色大片免费看 | 国产综合色精品一区二区三区 | 日本一本久道 | 97色涩| 日本不卡高清免费v日本 | 国产精品久久久久久小说 | 天天综合天天色 | 福利国产精品 | 午夜一区二区免费视频 | 国产在线每日更新 | 国产精品女主播自在线拍 | 久久亚洲欧美 | 和日本免费不卡在线v | 亚洲色图综合图片 | 国产群p视频| a级高清免费| 性网站在线 | 国产亚洲精品精品国产亚洲综合 | 一级毛片不卡免费看老司机 | 中国一级黄色影片 | 久久久精品成人免费看 | 国产v精品成人免费视频71sao | 日韩国产中文字幕 | 欧美一区二区三区在线 |