python3爬虫学习笔记之urllib库的使用

基本使用

 

urlopen返回对象提供方法:

  • read(), readline(), readlines(), fileno(), close():对HTTPResponse类型数据进行操作
  • info():返回HTTPMessage对象,表示远程服务器返回的头信息
  • getcode():返回Http状态码。如果是http请求,200请求成功完成、404网址未找到等等
  • geturl():返回请求的url

请求的数据传送

GET数据

 

POST数据

 

使用Request && 设置Headers属性

很多网站对非浏览器的访问都做了限制,所以如果我们要完全模拟浏览器去访问网站的话,必须要先设置Headers的属性
使用chrome浏览器按F12,点击访问的链接,Headers -> Request Headers

User-Agent:Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87

如果服务器对页面访问来源做了限制,则需要设置Headers的Referer属性

 

Proxy(代理)的设置

如果网站限制了IP访问的次数,则需要更换代理服务器,以免被禁止访问

 

异常处理

 

Categories: 未分类

0 Comments

Leave a Reply

Avatar placeholder

Your email address will not be published. Required fields are marked *