python3爬虫学习笔记之urllib库的使用

python3爬虫学习笔记之urllib库的使用 基本使用

  urlopen返回对象提供方法: read(), readline(), readlines(), fileno(), close():对HTTPResponse类型数据进行操作 info():返回HTTPMessage对象,表示远程服务器返回的头信息 getcode():返回Http状态码。如果是http请求,200请求成功完成、404网址未找到等等 geturl():返回请求的url 请求的数据传送 GET数据

  POST数据

  使用Request && 设置Headers属性 很多网站对非浏览器的访问都做了限制,所以如果我们要完全模拟浏览器去访问网站的话,必须要先设置Headers的属性 使用chrome浏览器按F12,点击访问的链接,Headers -> Request Headers User-Agent:Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 如果服务器对页面访问来源做了限制,则需要设置Headers的Referer属性

  Proxy(代理)的设置 如果网站限制了IP访问的次数,则需要更换代理服务器,以免被禁止访问

  异常处理