一、requests模塊的response.text與response.content有什么區(qū)別
1、返回的數(shù)據(jù)類型
response.text返回的是一個(gè) unicode 型的文本數(shù)據(jù),適用于文本數(shù)據(jù)的爬??;response.content返回的是 bytes 型的二進(jìn)制數(shù)據(jù),適用于圖片、文件的爬取。
2、數(shù)據(jù)編碼
response.text默認(rèn)”iso-8859-1”編碼,服務(wù)器不指定的話是根據(jù)網(wǎng)頁的響應(yīng)來猜測編碼;response.content 返回的是二進(jìn)制響應(yīng)內(nèi)容。
3、數(shù)據(jù)內(nèi)容
response.text返回的是Unicode型的文本數(shù)據(jù),即服務(wù)器響應(yīng)解碼后得到的字符串;而response.content返回的是bytes類型的二進(jìn)制數(shù)據(jù)。
二、Requests簡介
1、requests庫簡介
Urllib 和 Requests 模塊是發(fā)起 http 請(qǐng)求最常見的模塊。雖然 Python 的標(biāo)準(zhǔn)庫中 urllib 模塊已經(jīng)包含了平常我們使用的大多數(shù)功能,但是它的 API 使用起來讓人感覺不太好,而 Requests 自稱“http for Humans”,說明使用更簡潔方便。Requests繼承了urllib的所有特性。Requests支持http連接保持和連接池,支持使用cookie 保持會(huì)話,支持文件上傳,支持自動(dòng)確定響應(yīng)內(nèi)容的編碼,支持國際化的 URL 和 POST 數(shù) 據(jù)自動(dòng)編碼。
**requests 的底層實(shí)現(xiàn)其實(shí)就是 urllib3(urllib2 的升級(jí)版—python2 支持) **Requests 的文檔非常完備,中文文檔也相當(dāng)不錯(cuò)。Requests 能完全滿足當(dāng)前網(wǎng)絡(luò)的需求, 支持 Python 2.6—3.6。
開源地址:http://github.com/kennethreitz/requests
中文文檔 API:http://2.python-requests.org/zh_CN/latest/
2、安裝方式
利用 pip 安裝或者利用 easy_install 都可以完成安裝:
$ pip install requests
三、Requests的簡單使用
1、Get 請(qǐng)求
發(fā)送無參數(shù)的get請(qǐng)求,嘗試獲取某個(gè)網(wǎng)頁。
r = requests.get('http://www.baidu.com')
發(fā)送無參數(shù)的get請(qǐng)求 設(shè)置超時(shí)時(shí)間 timeout 單位秒。
r = requests.get('http://www.baidu.com', timeout=1)
你也許經(jīng)常想為 URL 的查詢字符串(query string) 傳遞某種數(shù)據(jù)。如果你是手工構(gòu)建 URL,那么數(shù)據(jù)會(huì)以鍵/值對(duì)的形式置于 URL 中,跟在一個(gè)問號(hào)的后面。例如, www.baidu.com/?key=val。 Requests 允許你使用 params 關(guān)鍵字參數(shù),以一個(gè)字符串字典來提供這些參數(shù)。舉例來說,如果你想傳遞 key1=value1 和 key2=value2 到 www.baidu.com/ ,那么你可以使用如下代碼:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("https://www.baidu.com/", params=payload)
print(r.url)
https://www.baidu.com/?key2=value2&key1=value1
你還可以將一個(gè)列表作為值傳入。
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
r = requests.get('http://www.baidu.com/', params=payload)
print(r.url)
http://www.baidu.com/?key2=value2&key2=value3&key1=value1
定制請(qǐng)求頭:如果你想為請(qǐng)求添加 HTTP 頭部,只要簡單地傳遞一個(gè) dict 給 headers 參數(shù)就可以了。
url = 'https://www.baidu.com/s?wd=python'
headers = {
'Content-Type': 'text/html;charset=utf-8',
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}
r = requests.get(url,headers=headers)
Response對(duì)象使用:
r.url #打印輸出該 URLr.headers #以字典對(duì)象存儲(chǔ)服務(wù)器響應(yīng)頭,但是這個(gè)字典比較特殊,字典鍵不區(qū)分大小寫,若鍵不存在則返回Noner.status_code #返回連接狀態(tài),200正常。r.text #默認(rèn)以u(píng)nicode形式返回網(wǎng)頁內(nèi)容,也就是網(wǎng)頁源碼的字符串。r.content #以字節(jié)形式(二進(jìn)制)返回。字節(jié)方式的響應(yīng)體,會(huì)自動(dòng)為你解碼 gzip 和 deflate 壓縮。r.json() #把網(wǎng)頁中的json數(shù)據(jù)轉(zhuǎn)成字典并將其返回。r.encoding #獲取當(dāng)前的編碼r.encoding = 'ISO-8859-1' #指定編碼,r.text返回的數(shù)據(jù)類型,寫在r.text之前。
2、POST 請(qǐng)求
HTTP 協(xié)議規(guī)定 POST 提交的數(shù)據(jù)必須放在消息主體(entity-body)中,但協(xié)議并沒有規(guī)定數(shù)據(jù)必須使用什么編碼方式,服務(wù)端通過是根據(jù)請(qǐng)求頭中的Content-Type字段來獲知請(qǐng)求中的消息主體是用何種方式進(jìn)行編碼,再對(duì)消息主體進(jìn)行解析。具體的編碼方式包括:
最常見post提交數(shù)據(jù)的方式,以form表單形式提交數(shù)據(jù)。以json串提交數(shù)據(jù)。一般使用來上傳文件實(shí)例如下:
以form形式發(fā)送post請(qǐng)求,Reqeusts支持以form表單形式發(fā)送post請(qǐng)求,只需要將請(qǐng)求的參數(shù)構(gòu)造成一個(gè)字典,然后傳給requests.post()的data參數(shù)即可。
payload = {'key1': 'value1','key2': 'value2'}r = requests.post("http://httpbin.org/post", data=payload)print(r.text)…"form": {"key1": "value1","key2": "value2"},
以json形式發(fā)送post請(qǐng)求,可以將一 json串傳給requests.post()的data參數(shù)。
url = 'http://httpbin.org/post'payload = {'key1': 'value1', 'key2': 'value2'}r = requests.post(url, data=json.dumps(payload))print(r.text)print(r.headers.get('Content-Type'))application/json
以multipart形式發(fā)送post請(qǐng)求,Requests也支持以multipart形式發(fā)送post請(qǐng)求,只需將一文件傳給requests.post()的files參數(shù)即可,文本文件report.txt的內(nèi)容只有一行:Hello world!,從請(qǐng)求的響應(yīng)結(jié)果可以看到數(shù)據(jù)已上傳到服務(wù)端中。
url = 'http://httpbin.org/post'files = {'file': open('report.txt', 'rb')}r = requests.post(url, files=files)print(r.text){…"files": {"file": "hello world"},"form": {},"headers": {"Content-Type": "multipart/form-data; boundary=6db46af64e694661985109da21c8fe9b",},"json": null,"origin": "223.72.217.138","url": "http://httpbin.org/post"…}
延伸閱讀1:Python簡介
Python由荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究學(xué)會(huì)的吉多·范羅蘇姆于1990年代初設(shè)計(jì),作為一門叫做ABC語言的替代品。Python提供了高效的高級(jí)數(shù)據(jù)結(jié)構(gòu),還能簡單有效地面向?qū)ο缶幊?。Python語法和動(dòng)態(tài)類型,以及解釋型語言的本質(zhì),使它成為多數(shù)平臺(tái)上寫腳本和快速開發(fā)應(yīng)用的編程語言,隨著版本的不斷更新和語言新功能的添加,逐漸被用于獨(dú)立的、大型項(xiàng)目的開發(fā)。