|
阅读:9246回复:2
Java爬虫
闲着没事干,就想写个爬虫,爬爬现在访问的“bug搜集网站”,原因是太嫉妒杨老师的才华了!因为本人对php不熟,所以发现通过浏览器好像没法对该网站进行抓包,所以就只好用jsoup来解析a标签了
爬到的结果如下,(只爬了标题和详情链接...): 图片:TIM截图20171121120920.png
代码如下(只有几行...代码写的很难看,大牛看了不要笑话哦!): 图片:TIM截图20171121115951.png
图片:TIM截图20171121121132.png
上面说的只是爬取没有登录验证的链接,如果必须要有权限才可以访问的话,就要先模拟登录,再通过cookie来保存登录信息,然后在后续操作中携带cookie进行爬取了。还有变态的网站需要验证码才能登录的时候,一般思路就是先将验证码爬取到,然后下载到本地,然后在手输验证码或者调用打码平台的接口来对验证码进行识别后返回结果再模拟登录。 |
|
最新喜欢: |
|
沙发#
发布于:2017-11-21 14:56
还是拿老师的这个网站来说,只要爬到了分页的总页数:
图片:TIM截图20171121145254.png
然后知道分页链接: 图片:TIM截图20171121145237.png
那就循环这个链接,更换分页参数,进行爬,应该就是没问题了。但是我没有亲自实验,哈哈 |
|
|
板凳#
发布于:2017-11-21 13:07
哈哈,欢迎一起来研究爬虫哦。目前,还在研究抓取动态生成的数据,如:不同页数显示的数据。目前这个问题,还没有解决呢。一起研究哇
|
|
