课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
在学习java的技术的时候,你除了要写代码,还要学习微博爬虫“免登录”技术,那么什么是微博爬虫“免登录”呢?微博一定要登录才能抓取吗?关于这一系列的问题今天达内java培训老师就一一做个分享:
目前,对于微博的爬虫,大部分是基于模拟微博账号登录的方式实现的,这种方式如果真的运营起来,实际上是一件非常头疼痛苦的事,你可能每天都过得提心吊胆,生怕新浪爸爸把你的那些账号给封了,而且现在随着实名制的落地,获得账号的渠道估计也会变得越来越少。
但是日子还得继续,在如此艰难的条件下,为了生存爬虫们必须寻求进化。好在上帝关门的同时会随手开窗,微博在其他诸如头条,一点等这类新媒体平台的冲击之下,逐步放开了信息流的查看权限。现在的微博即便在不登录的状态下,依然可以看到很多微博信息流,而我们的落脚点就在这里。
作为前篇的重点内容,长沙java培训 老师对本文详细介绍如何获取相关的Cookie并重新封装Httpclient达到免登录的目的,以支持微博上的各项数据抓取任务。下面就从微博首页开始。
【准备工作】
准备工作很简单,一个现代浏览器(你知道我为什么会写”现代”两个字),以及httpclient(我用的版本是4.5.3)
跟登录爬虫一样,免登录爬虫也是需要装载Cookie。这里的Cookie是用来标明游客身份,利用这个Cookie就可以在微博平台中访问那些允许访问的内容了。
这里我们可以使用浏览器的network工具来看一下,请求微博首页之后服务器都返回哪些东西,当然事先清空一下浏览器的缓存
【抽丝剥茧】
第2个请求,各位可以把这个url复制出来,用httpclient单独访问一下这个url,可以看到返回的是一个html页面,里面有一大段Javascript脚本,另外头部还引用一个JS文件mini_original.js,也就是第3个请求。
学java编程、电脑编程、游戏开发就来长沙达内官网看java学习视频资料!
0元课程试听报名开始