文章詳情頁

python BeautifulSoup庫的安裝與使用

【字号：大中小】作者：豬豬瀏覽：2日期：2022-07-01 18:52:05

1.BeautifulSoup簡介

BeautifulSoup4和 lxml 一樣，Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 數據。

BeautifulSoup支持Python標準庫中的HTML解析器,還支持一些第三方的解析器，如果我們不安裝它，則 Python 會使用 Python默認的解析器，lxml 解析器更加強大，速度更快，推薦使用lxml 解析器。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然后，你僅僅需要說明一下原始編碼方式就可以了。

2.BeautifulSoup的安裝

首先我們需要安裝一個BeautifulSoup庫。我安裝的版本是python3。所以就可以直接在cmd下用pip3命令進行安裝。

命令：

pip3 install beautifulsoup4

在安裝好BeautifulSoup后，我們可以通過導入該庫來判斷是否安裝成功。

命令：

>>> from bs4 import BeautifulSoup

回車后不報錯，這說明我們已經將其安裝成功。

3.BeautifulSoup常用功能

# beautiful soup 網頁中提取信息的python庫# BeautifulSoup 對象表示的是一個文檔的全部內容# prettify() 按照標準的縮進格式的結構輸出# get_text() 會將HTML文檔中的所有標簽清除,返回一個只包含文字的字符串from bs4 import BeautifulSouptext=’’’<?xml version='1.0' encoding='ISO-8859-1'?><bookstore><book> <title lang='eng'>Harry Potter</title> <price>29.99</price></book><book> <title lang='eng'>Learning XML</title> <price>39.95</price></book></bookstore>’’’# create 對象bf=BeautifulSoup(text)# 按照標準縮進格式輸出print(bf.prettify())# 會將HTML文檔中的所有標簽清除,返回一個只包含文字的字符串print(bf.get_text())# Tag對象 # 標簽表示HTML中的一個個標簽# name# attrstag=bf.title # 獲取title標簽print(tag)print(type(tag)) # tag類型print(tag.name) # 標簽名稱print(tag.attrs) #標簽屬性print(tag.attrs['lang']) #單獨獲取某個屬性方法1print(bf.title['lang']) #單獨獲取某個屬性方法2# NavigableString tag.string# 表示標簽中的文字print(tag.string)print(type(tag.string)) # 查看數據類型# Comment 注釋部分# 一個特殊類型的NavigableString對象# 輸出的內容不包括注釋符號string=’’’<p></p>’’’sp=BeautifulSoup(string)print(sp)print(sp.p.string) # 去獲取標簽中是文字

# 兩個常用函數 # find_all() 搜索當前tag的所有tag子節點,并判斷是否符合給定的條件# 返回結果是一個列,可以包含多個元素print(soup.find_all(’title’),end='n-------n')#find() 直接返回第一個元素print(soup.find('title'))print(soup.find_all('title',lang='eng')) # 查找title標簽屬性lang=engprint(soup.find_all('title',{'lang':'eng'})) # 結果同上print(soup.find_all(['title','price'])) #獲取多個標簽print(soup.find_all('title',lang='eng')[0].get_text()) # 獲取文本# 三大常見節點# 子節點一個Tag可能包含多個字符串或其他的tag，這些都是這個tag的子節點# 父節點配個tag或字符串都有父節點：被包含在某個tag中# 兄弟節點平級的節點end='n-------n'print(soup.book,end) # 獲取book節點信息print(soup.book.contents,end) # 獲取book下的所有子節點print(soup.book.contents[1],end) # 獲取book下的所有子節點中的第一個節點print(soup.book.children,end) # children 生成迭代器for child in soup.book.children: print('===',child) print(soup.title.parent,end)print(soup.book.parent,end)for parent in soup.title.parents: #注意parent和parents區別 print('===',parent.name) print(soup.title.next_sibling,end) # 獲取該節點的下一個兄弟節點print(soup.title.previous_sibling,end) # 獲取該節點的上一個兄弟節點print(soup.title.next_siblings,end) # 獲取該節點的全部兄弟節點for i in soup.title.next_siblings: print('===',i)

以上就是python BeautifulSoup庫的安裝與使用的詳細內容，更多關于python BeautifulSoup庫的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python 實現一個簡單的線性回歸案例下一條：python中翻譯功能translate模塊實現方法

相關文章：

1. ASP 信息提示函數并作返回或者轉向2. .NET SkiaSharp 生成二維碼驗證碼及指定區域截取方法實現3. jsp網頁實現貪吃蛇小游戲4. CentOS郵件服務器搭建系列—— POP / IMAP 服務器的構建（ Dovecot ）5. Java中equals()知識點總結6. css代碼優化的12個技巧7. ASP中if語句、select 、while循環的使用方法8. MyBatis JdbcType 與Oracle、MySql數據類型對應關系說明9. 小技巧處理div內容溢出10. 將properties文件的配置設置為整個Web應用的全局變量實現方法

排行榜

					
					django創建css文件夾的具體方法
MyBatis JdbcType 與Oracle、MySql數據類型對應關系說明
idea自定義快捷鍵的方法步驟
Java中equals()知識點總結
IntelliJ IDEA設置背景圖片的方法步驟
將properties文件的配置設置為整個Web應用的全局變量實現方法
ASP 信息提示函數并作返回或者轉向
css代碼優化的12個技巧
ASP中if語句、select 、while循環的使用方法
.NET SkiaSharp 生成二維碼驗證碼及指定區域截取方法實現
小技巧處理div內容溢出