专业的JAVA编程教程与资源

网站首页 > java教程 正文

java写爬虫的工具(java爬虫需要的基本知识)

temp10 2024-09-09 08:29:33 java教程 17 ℃ 0 评论

一般来说,使用Python写爬虫比较好,为什么呢。入门容易,资料齐全,框架多。目前Python势不可挡。

但是老本行是java怎么办,也要写一些简单的爬虫该使用什么技术呢。

java写爬虫的工具(java爬虫需要的基本知识)

如果你有几年工作经验了,你不会使用URL去加载流,然后一个字符串一个字符串去截取你想要的结果吧。一般想到的是,看看哪里有开源的jar包去使用。今天给大家推荐一个新的htmlparser和新的jsoup。

需要下载的可以去maven仓库下载。


下载完成之后,我们来简单的爬一些网站内容。

这里我推荐一个非常好爬的笑话网站,将这些笑话可以保存在你自己的数据库。

http://www.qiushibaike.net/index(2005).html


看看这个网站,真的是非常适合初学者爬。


我们只需要找到a标记,将里面的网站地址读取下来,然后再去爬内容就行。例如000001.html,我就去爬http://www.qiushibaike.net/000001.html。

首先我们使用htmlparser包。



输出的结果如下:


还不错,不过这个毕竟是比较老的包了,没有他的儿子辈们牛逼,对于java来说,子类一般还是比父类厉害点的。我相信jsoup也是站在巨人的肩膀上开发出来的吧。

我这里使用jsoup写了将笑话的内容也找出来的效果。


是不是简单多了


将找到的效果封装成对象


这样就可以将这个对象保存到数据库了。


作为入门工具来说还是非常简单的。

但是,爬虫技术是入门容易,精通难,可以说非常难。

大家简单的玩玩是可以的。想要深入的话,那要付出很多,并且还需要有一个聪明的大脑才行。智商要求很高。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表