文章詳情頁

python - 爬蟲獲取網站數據，出現亂碼怎么解決。

瀏覽：67日期：2022-08-04 09:36:09

問題描述

#!/usr/bin/python# -*- coding: utf-8 -*-import urllib2import reimport HTMLParserclass WALLSTREET: def __init__(self, baseUrl):self.url = baseUrl def get_html_content(self):url = self.urlresponse = urllib2.urlopen(url)str = response.read()print strbaseUrl='https://wallstreetcn.com/live/global' #華爾街見文urlws = WALLSTREET(baseUrl)ws.get_html_content()

以上是代碼，寫的很簡單，但是print出來的是亂碼嘗試了 print str.decode(“utf-8“”)但是報錯UnicodeDecodeError: ’utf8’ codec can’t decode byte 0x8b in position 1: invalid start byte

問題解答

回答1：

str = response.read()這句有兩個問題：1、str是內置關鍵字必須更改為其他變量名2、查看網頁源代碼的編碼方式，如果為utf-8在read()后加.decode(’utf-8’)，若為其他可以相應解碼

小建議這種小程序寫個函數會比用類來更加方便，無論是使用還是實現

回答2：

推測用的是sublime text？參考這個

回答3：

這兒應該是encode不是decode，而且你的變量名居然是跟內置關鍵字名字一樣

回答4：

應該是encode吧

Python 編程

上一條：python - 如何將大量excel表格模板導入mysql數據庫中？下一條：python - ImportError: cannot import name ScopedSession

排行榜

					
					java - Hibernate查詢的數據是存放在session中嗎？
angular.js - angularjs的自定義過濾器如何給文字加顏色？
在mac下出現了兩個docker環境
angular.js - angularjs 使用鼠標懸停時，標簽一直閃
c++ - win764位環境下，我用GCC為什么指針占8個字節，而long是4個字節？
我在centos容器里安裝docker，也就是在容器里安裝容器，報錯了？
一個走錯路的23歲傻小子的提問
android - 離線地圖的這種列表該怎么實現？
python - django 里自定義的  login 方法，如何使用 login_required()
javascript - SuperSlide.js火狐不兼容怎么回事呢
html5 - HTML代碼中的文字亂碼是怎么回事？
				

熱門標簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

python - 爬蟲獲取網站數據，出現亂碼怎么解決。

python - 爬蟲獲取網站數據，出現亂碼怎么解決。