文章詳情頁

Python爬蟲爬取微信朋友圈

瀏覽：67日期：2022-07-14 18:36:05

接下來，我們將實現微信朋友圈的爬取。如果直接用 Charles 或 mitmproxy 來監聽微信朋友圈的接口數據，這是無法實現爬取的，因為數據都是被加密的。而 Appium 不同，Appium 作為一個自動化測試工具可以直接模擬 App 的操作并可以獲取當前所見的內容。所以只要 App 顯示了內容，我們就可以用 Appium 抓取下來。

1. 本節目標

本節我們以 Android 平臺為例，實現抓取微信朋友圈的動態信息。動態信息包括好友昵稱、正文、發布日期。其中發布日期還需要進行轉換，如日期顯示為 1 小時前，則時間轉換為今天，最后動態信息保存到 MongoDB。

2. 準備工作

請確保 PC 已經安裝好 Appium、Android 開發環境和 Python 版本的 Appium API。Android 手機安裝好微信 App、PyMongo 庫，安裝 MongoDB 并運行其服務，安裝方法可以參考第 1 章。

3. 初始化

首先新建一個 Moments 類，進行一些初始化配置，如下所示：

PLATFORM = ’Android’DEVICE_NAME = ’MI_NOTE_Pro’APP_PACKAGE = ’com.tencent.mm’APP_ACTIVITY = ’.ui.LauncherUI’DRIVER_SERVER = ’http://localhost:4723/wd/hub’TIMEOUT = 300MONGO_URL = ’localhost’MONGO_DB = ’moments’MONGO_COLLECTION = ’moments’ class Moments(): def __init__(self): '''初始化''' # 驅動配置 self.desired_caps = { ’platformName’: PLATFORM, ’deviceName’: DEVICE_NAME, ’appPackage’: APP_PACKAGE, ’appActivity’: APP_ACTIVITY } self.driver = webdriver.Remote(DRIVER_SERVER, self.desired_caps) self.wait = WebDriverWait(self.driver, TIMEOUT) self.client = MongoClient(MONGO_URL) self.db = self.client[MONGO_DB] self.collection = self.db[MONGO_COLLECTION]

這里實現了一些初始化配置，如驅動的配置、延時等待配置、MongoDB 連接配置等。

4. 模擬登錄

接下來要做的就是登錄微信。點擊登錄按鈕，輸入用戶名、密碼，提交登錄即可。實現樣例如下所示：

def login(self): # 登錄按鈕 login = self.wait.until(EC.presence_of_element_located((By.ID, ’com.tencent.mm:id/cjk’))) login.click() # 手機輸入 phone = self.wait.until(EC.presence_of_element_located((By.ID, ’com.tencent.mm:id/h2’))) phone.set_text(USERNAME) # 下一步 next = self.wait.until(EC.element_to_be_clickable((By.ID, ’com.tencent.mm:id/adj’))) next.click() # 密碼 password = self.wait.until(EC.presence_of_element_located((By.XPATH, ’//*[@resource-id='com.tencent.mm:id/h2'][1]’))) password.set_text(PASSWORD) # 提交 submit = self.wait.until(EC.element_to_be_clickable((By.ID, ’com.tencent.mm:id/adj’))) submit.click()

這里依次實現了一些點擊和輸入操作，思路比較簡單。對于不同的平臺和版本來說，流程可能不太一致，這里僅作參考。

登錄完成之后，進入朋友圈的頁面。選中朋友圈所在的選項卡，點擊朋友圈按鈕，即可進入朋友圈，代碼實現如下所示：

def enter(self): # 選項卡 tab = self.wait.until(EC.presence_of_element_located((By.XPATH, ’//*[@resource-id='com.tencent.mm:id/bw3'][3]’))) tab.click() # 朋友圈 moments = self.wait.until(EC.presence_of_element_located((By.ID, ’com.tencent.mm:id/atz’))) moments.click()

抓取工作正式開始。

5. 抓取動態

我們知道朋友圈可以一直拖動、不斷刷新，所以這里需要模擬一個無限拖動的操作，如下所示：

# 滑動點FLICK_START_X = 300FLICK_START_Y = 300FLICK_DISTANCE = 700 def crawl(self): while True: # 上滑 self.driver.swipe(FLICK_START_X, FLICK_START_Y + FLICK_DISTANCE, FLICK_START_X, FLICK_START_Y)

我們利用 swipe() 方法，傳入起始和終止點實現拖動，加入無限循環實現無限拖動。

獲取當前顯示的朋友圈的每條狀態對應的區塊元素，遍歷每個區塊元素，再獲取內部顯示的用戶名、正文和發布時間，代碼實現如下所示：

# 當前頁面顯示的所有狀態items = self.wait.until( EC.presence_of_all_elements_located((By.XPATH, ’//*[@resource-id='com.tencent.mm:id/cve']//android.widget.FrameLayout’)))# 遍歷每條狀態for item in items: try: # 昵稱 nickname = item.find_element_by_id(’com.tencent.mm:id/aig’).get_attribute(’text’) # 正文 content = item.find_element_by_id(’com.tencent.mm:id/cwm’).get_attribute(’text’) # 日期 date = item.find_element_by_id(’com.tencent.mm:id/crh’).get_attribute(’text’) # 處理日期 date = self.processor.date(date) print(nickname, content, date) data = { ’nickname’: nickname, ’content’: content, ’date’: date, } except NoSuchElementException: pass

這里遍歷每條狀態，再調用 find_element_by_id() 方法獲取昵稱、正文、發布日期對應的元素，然后通過 get_attribute() 方法獲取內容。這樣我們就成功獲取到朋友圈的每條動態信息。

針對日期的處理，我們調用了一個 Processor 類的 date() 處理方法，該方法實現如下所示：

def date(self, datetime): ''' 處理時間 :param datetime: 原始時間 :return: 處理后時間 ''' if re.match(’d + 分鐘前 ’, datetime): minute = re.match(’(d+)’, datetime).group(1) datetime = time.strftime(’% Y-% m-% d’, time.localtime(time.time() - float(minute) * 60)) if re.match(’d + 小時前 ’, datetime): hour = re.match(’(d+)’, datetime).group(1) datetime = time.strftime(’% Y-% m-% d’, time.localtime(time.time() - float(hour) * 60 * 60)) if re.match(’ 昨天 ’, datetime): datetime = time.strftime(’% Y-% m-% d’, time.localtime(time.time() - 24 * 60 * 60)) if re.match(’d + 天前 ’, datetime): day = re.match(’(d+)’, datetime).group(1) datetime = time.strftime(’% Y-% m-% d’, time.localtime(time.time()) - float(day) * 24 * 60 * 60) return datetime

這個方法使用了正則匹配的方法來提取時間中的具體數值，再利用時間轉換函數實現時間的轉換。例如時間是 5 分鐘前，這個方法先將 5 提取出來，用當前時間戳減去 300 即可得到發布時間的時間戳，然后再轉化為標準時間即可。

最后調用 MongoDB 的 API 來實現爬取結果的存儲。為了去除重復，這里調用了 update() 方法，實現如下所示：

self.collection.update({’nickname’: nickname, ’content’: content}, {’$set’: data}, True)

首先根據昵稱和正文來查詢信息，如果信息不存在，則插入數據，否則更新數據。這個操作的關鍵點是第三個參數 True，此參數設置為 True，這可以實現存在即更新、不存在則插入的操作。

最后實現一個入口方法調用以上的幾個方法。調用此方法即可開始爬取，代碼實現如下所示：

def main(self): # 登錄 self.login() # 進入朋友圈 self.enter() # 爬取 self.crawl()

這樣我們就完成了整個朋友圈的爬蟲。代碼運行之后，手機微信便會啟動，并且可以成功進入到朋友圈然后一直不斷執行拖動過程。控制臺輸出相應的爬取結果，結果被成功保存到 MongoDB 數據庫中。

6. 結果查看

我們到 MongoDB 中查看爬取結果，如圖所示。

Python爬蟲爬取微信朋友圈

可以看到朋友圈的數據就成功保存到了數據庫。

7. 本節代碼

8. 結語

以上內容是利用 Appium 爬取微信朋友圈的過程。利用 Appium，我們可以做到 App 的可見即可爬，也可以實現自動化驅動和數據爬取。但是實際運行之后，Appium 的解析比較煩瑣，而且容易發生重復和中斷。如果我們可以用前文所說的 mitmdump 來監聽 App 數據實時處理，而 Appium 只負責自動化驅動，它們各負其責，那么整個爬取效率和解析效率就會高很多。

以上就是Python爬蟲爬取微信朋友圈的詳細內容，更多關于Python爬取微信朋友圈的資料請關注好吧啦網其它相關文章！

微信 Python

上一條：Python切片列表字符串如何實現切換下一條：Python變量及數據類型用法原理匯總

相關文章：

1. python共軛梯度法特征值迭代次數討論2. 利用FastReport傳遞圖片參數在報表上展示簽名信息的實現方法3. H5頁面使用audio標簽播放音頻4. ASP.NET MVC視圖頁使用jQuery傳遞異步數據的幾種方式詳解5. CSS3使用過度動畫和緩動效果案例講解6. ASP.NET MVC通過勾選checkbox更改select的內容7. react axios 跨域訪問一個或多個域名問題8. 詳解php如何合并身份證正反面圖片為一張圖片9. AJAX實現省市縣三級聯動效果10. XHTML 1.0：標記新的開端

排行榜

					
					java必懂的冷知識點之Base64加密與解密
Java GZip 基于內存實現壓縮和解壓的方法
ASP.NET MVC通過勾選checkbox更改select的內容
php設計模式之備忘模式分析【星際爭霸游戲案例】
Java基于redis和mysql實現簡單的秒殺(附demo)
php設計模式之模板模式實例分析【星際爭霸游戲案例】
Python內置函數及功能簡介匯總
5款實用的python 工具推薦
如何基于Python和Flask編寫Prometheus監控
AJAX實現省市縣三級聯動效果
SpringBoot+SpringCache實現兩級緩存(Redis+Caffeine)