sky丶斌
骑士
骑士
  • 最后登录2022-06-28
  • 发帖数29
阅读:9246回复:2

Java爬虫

楼主#
更多 发布于:2017-11-21 12:23
闲着没事干,就想写个爬虫,爬爬现在访问的“bug搜集网站”,原因是太嫉妒杨老师的才华了!因为本人对php不熟,所以发现通过浏览器好像没法对该网站进行抓包,所以就只好用jsoup来解析a标签了
爬到的结果如下,(只爬了标题和详情链接...):

图片:TIM截图20171121120920.png


代码如下(只有几行...代码写的很难看,大牛看了不要笑话哦!):

图片:TIM截图20171121115951.png




图片:TIM截图20171121121132.png







上面说的只是爬取没有登录验证的链接,如果必须要有权限才可以访问的话,就要先模拟登录,再通过cookie来保存登录信息,然后在后续操作中携带cookie进行爬取了。还有变态的网站需要验证码才能登录的时候,一般思路就是先将验证码爬取到,然后下载到本地,然后在手输验证码或者调用打码平台的接口来对验证码进行识别后返回结果再模拟登录。

最新喜欢:

sunshinesunshi...
sky丶斌
骑士
骑士
  • 最后登录2022-06-28
  • 发帖数29
沙发#
发布于:2017-11-21 14:56
还是拿老师的这个网站来说,只要爬到了分页的总页数:

图片:TIM截图20171121145254.png



然后知道分页链接:

图片:TIM截图20171121145237.png


那就循环这个链接,更换分页参数,进行爬,应该就是没问题了。但是我没有亲自实验,哈哈
sunshine
管理员
管理员
  • 最后登录2023-10-30
  • 发帖数170
  • 社区居民
板凳#
发布于:2017-11-21 13:07
哈哈,欢迎一起来研究爬虫哦。目前,还在研究抓取动态生成的数据,如:不同页数显示的数据。目前这个问题,还没有解决呢。一起研究哇
游客


返回顶部

公众号

公众号