python爬蟲 - Python:網(wǎng)頁爬取Ajax地址,結(jié)果與瀏覽器顯示的不一致?
問題描述
1.我用在火狐上獲取的Ajax地址來爬取統(tǒng)計局的信息:
獲取的地址如下;
http://data.stats.gov.cn/easy...{'wdcode':'zb','valuecode':'A0201'}]&dfwds=[{'wdcode':'sj','valuecode':'199807'}]
我的理解是地址中包含了兩個參數(shù):'A0201'和'199807'可以通過改變著兩個參數(shù)來獲取不同表中不同時間的信息我在瀏覽器中直接輸入地址參數(shù)為'199807'時顯示結(jié)果為:參數(shù)為'199907'時顯示結(jié)果為:
證明應(yīng)該是行得通的
但是當我用這個地址去爬蟲時爬下來的結(jié)果卻不是瀏覽器上看到的這些數(shù)據(jù),應(yīng)該是爬取到了別的表里的數(shù)據(jù),但是我的參數(shù)不是已經(jīng)設(shè)置好了嗎?在瀏覽器也證明參數(shù)是有效的,但是為什么就是爬不到這些數(shù)據(jù)?是不是網(wǎng)頁緩存方面出現(xiàn)了問題?應(yīng)該如何解決呢?勞煩大神指教
問題解答
回答1:server端可以驗證你的cookie從而將你拒之門外,或者返回其他錯誤數(shù)據(jù)給你也是可以的,你可以從瀏覽器復(fù)制出來里偽造cookie,放在請求頭里面。
