网络爬虫：入门之优雅的HTTP库requests-娜娜百科网

作者：刘志军，6年+使用经验，高级开发工程师，Web系统构架工作

上一篇入门请参考：网络爬虫：入门之快速理解HTTP协议

概述

提供了很多模块来支持 HTTP 协议的网络编程，、、、、，都是和 HTTP 相关的模块，看名字觉得很反人类，更糟糕的是这些模块在与中有很大的差异，如果业务代码要同时兼容 2 和 3，写起来会让人崩溃。

幸运地是，繁荣的社区给开发者带来了一个非常惊艳的 HTTP 库，一个真正给人用的HTTP库。它是关注数最多的项目之一，的作者是 Reitz 大神。

实现了 HTTP 协议中绝大部分功能，它提供的功能包括 Keep-Alive、连接池、持久化、内容自动解压、HTTP代理、SSL认证、连接超时、等很多特性，最重要的是它同时兼容和。

快速入门

的安装可以直接使用 pip 方法：pip

>>> import requests
# GET 请求
>>> response = requests.get("https://foofish.net")

请求返回对象，对象是对 HTTP 协议中服务端返回给浏览器的响应数据的封装，响应的中的主要元素包括：状态码、原因短语、响应首部、响应体等等，这些属性都封装在对象中。

# 状态码
>>> response.status_code
200
# 原因短语
>>> response.reason
'OK'
# 响应首部
>>> for name,value in response.headers.items():
... print("%s:%s" % (name, value))
...
Content-Encoding:gzip
Server:nginx/1.10.2
Date:Thu, 06 Apr 2017 16:28:01 GMT
# 响应内容
>>> response.content
'此处省略一万字...

除了支持 GET 请求外，还支持 HTTP 规范中的其它所有方法，包括 POST、PUT、、HEADT、方法。

>>> r = requests.post('http://httpbin.org/post', data = {'key':'value'})
>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')

构建请求查询参数

很多URL都带有很长一串参数，我们称这些参数为URL的查询参数，用”?”附加在URL链接后面，多个参数之间用”&”隔开，比如：，现在你可以用字典来构建查询参数：

>>> args = {"p": 4, "s": 20}
>>> response = requests.get("http://fav.foofish.net", params = args)
>>> response.url
'http://fav.foofish.net/?p=4&s=2'

构建请求首部

可以很简单地指定请求首部字段，比如有时要指定 User-Agent 伪装成浏览器发送请求，以此来蒙骗服务器。直接传递一个字典对象给参数即可。

>>> r = requests.get(url, headers={'user-agent': 'Mozilla/5.0'})

构建 POST 请求数据

可以非常灵活地构建 POST 请求需要的数据，如果服务器要求发送的数据是表单数据，则可以指定关键字参数 data，如果要求传递 json 格式字符串参数，则可以使用json关键字参数，参数的值都可以字典的形式传过去。

作为表单数据传输给服务器

>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.post("http://httpbin.org/post", data=payload)

作为 json 格式的字符串格式传输给服务器

>>> import json
>>> url = 'http://httpbin.org/post'
>>> payload = {'some': 'data'}
>>> r = requests.post(url, json=payload)

中的响应体

HTTP返回的响应消息中很重要的一部分内容是响应体，响应体在中处理非常灵活，与响应体相关的属性有：、text、json()。

是 byte 类型，适合直接将内容保存到文件系统或者传输到网络中

>>> r = requests.get("https://pic1.zhimg.com/v2-2e92ebadb4a967829dcd7d05908ccab0_b.jpg")
>>> type(r.content)

# 另存为 test.jpg
>>> with open("test.jpg", "wb") as f:
... f.write(r.content)

text 是 str 类型，比如一个普通的 HTML 页面，需要对文本进一步分析时，使用 text。

>>> r = requests.get("https://foofish.net/understand-http.html")
>>> type(r.text)

>>> re.compile('xxx').findall(r.text)

如果使用第三方开放平台或者API接口爬取数据时，返回的内容是json格式的数据时，那么可以直接使用json()方法返回一个经过json.loads()处理后的对象。

>>> r = requests.get('https://www.v2ex.com/api/topics/hot.json')
>>> r.json()
[{'id': 352833, 'title': '在长沙，父母同住...

代理设置

当爬虫频繁地对服务器进行抓取内容时，很容易被服务器屏蔽掉，因此要想继续顺利的进行爬取数据，使用代理是明智的选择。如果你想爬取墙外的数据，同样设置代理可以解决问题，完美支持代理。

import requests
proxies = {
 'http': 'http://10.10.1.10:3128',
 'https': 'http://10.10.1.10:1080',
}
requests.get('http://example.org', proxies=proxies)

娜娜项目网每日更新创业和副业项目

网址：nanaxm.cn 点击前往娜娜项目网

站长微信： nanadh666

超时设置

发送请求时，默认请求下线程一直阻塞tplogincn登录首页管理员密码,0,3,3,4 4 9 3 3 3 3,1080,1.36,tplogincn管理员登录密码tplogin.cn管理页面-路由网,https：//www.luyo，直到有响应返回才处理后面的逻辑。如果遇到服务器没有响应的情况时，问题就变得很严重了，它将导致整个应用程序一直处于阻塞状态而没法处理其他请求。

>>> import requests
>>> r = requests.get("http://www.google.coma")
...一直阻塞中

正确的方式的是给每个请求显示地指定一个超时时间。

>>> r = requests.get("http://www.google.coma", timeout=5)
5秒后报错
Traceback (most recent call last):
socket.timeout: timed out

在爬虫入门系列（一）：快速理解HTTP协议中介绍过HTTP协议是一中无状态的协议tplogincn登录首页管理员密码,0,3,3,4 4 9 3 3 3 3,1080,1.36,tplogincn管理员登录密码tplogin.cn管理页面-路由网,https：//www.luyo，为了维持客户端与服务器之间的通信状态，使用技术使之保持双方的通信状态。

有些网页是需要登录才能进行爬虫操作的，而登录的原理就是浏览器首次通过用户名密码登录之后，服务器给客户端发送一个随机的，下次浏览器请求其它页面时，就把刚才的随着请求一起发送给服务器，这样服务器就知道该用户已经是登录用户。

import requests
# 构建会话
session = requests.Session()
#　登录url
session.post(login_url, data={username, password})
#　登录后才能访问的url
r = session.get(home_url)
session.close()

构建一个会话之后，客户端第一次发起请求登录账户，服务器自动把信息保存在对象中，发起第二次请求时自动把中的信息发送给服务器，使之保持通信状态。

项目实战

最后是一个实战项目，如何用实现知乎自动登录并给用户发私信，我会在下一篇文章中进行讲解。

延伸阅读：实现知乎自动登录：文档：如何阅读源码：

娜娜项目网每日更新创业和副业项目

网址：nanaxm.cn 点击前往娜娜项目网

站长微信： nanadh666

声明： 本站内容转载于网络，版权归原作者所有，仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任，若侵犯到你的版权利益，请联系我们，会尽快删除处理！

网络爬虫：入门之优雅的HTTP库requests

排行榜展示

权力的游戏第六季第七集龙母裸戏流出 HBO大怒龙母坦荡没用替身

TP-LINK TL-WR886N路由器调试，设置轻松搞定

157cm的她，凭什么会坐上铁王座？

傻眼了，才知道喜马拉雅、京东、腾讯会员这样买最便宜……

《阿弥陀经》全文

抖音一个游轮价格抖音一个游轮多少钱

最新推荐

上海公务员报考条件|多地启动2024年省考报名应届生迎来利好

扎兰屯职业技术学院|校友会2024河北省大学排名，燕山大学、河北传媒学院、唐山工业职业技术学院第一

西安财经学院是几本|西安财经大学王牌专业是什么

什么的月亮什么的月亮|罕见！本世纪仅两次！错过要等到2086年

迷失安狄结局到底什么意思|《南来北往》大结局出人意料！姚玉玲竟成全剧最惨！

世界最高音|中国女高音陈钰唱响韩国首尔艺术殿堂引世界瞩目

网络爬虫：入门之优雅的HTTP库requests

相关文章

排行榜展示

最新推荐