网站首页 > java教程 正文
一般来说,使用Python写爬虫比较好,为什么呢。入门容易,资料齐全,框架多。目前Python势不可挡。
但是老本行是java怎么办,也要写一些简单的爬虫该使用什么技术呢。
如果你有几年工作经验了,你不会使用URL去加载流,然后一个字符串一个字符串去截取你想要的结果吧。一般想到的是,看看哪里有开源的jar包去使用。今天给大家推荐一个新的htmlparser和新的jsoup。
需要下载的可以去maven仓库下载。
下载完成之后,我们来简单的爬一些网站内容。
这里我推荐一个非常好爬的笑话网站,将这些笑话可以保存在你自己的数据库。
http://www.qiushibaike.net/index(2005).html
看看这个网站,真的是非常适合初学者爬。
我们只需要找到a标记,将里面的网站地址读取下来,然后再去爬内容就行。例如000001.html,我就去爬http://www.qiushibaike.net/000001.html。
首先我们使用htmlparser包。
输出的结果如下:
还不错,不过这个毕竟是比较老的包了,没有他的儿子辈们牛逼,对于java来说,子类一般还是比父类厉害点的。我相信jsoup也是站在巨人的肩膀上开发出来的吧。
我这里使用jsoup写了将笑话的内容也找出来的效果。
是不是简单多了
将找到的效果封装成对象
这样就可以将这个对象保存到数据库了。
作为入门工具来说还是非常简单的。
但是,爬虫技术是入门容易,精通难,可以说非常难。
大家简单的玩玩是可以的。想要深入的话,那要付出很多,并且还需要有一个聪明的大脑才行。智商要求很高。
猜你喜欢
- 2024-09-09 Java 爬虫遇上数据异步加载,试试这两种办法
- 2024-09-09 实战Java爬虫课程-猿天地(java爬虫入门教程)
- 2024-09-09 如何编写一个Python网络爬虫?点进来,我教你!
- 2024-09-09 Java编写爬虫抓取今日头条内容(java抓取今日头条数据)
- 2024-09-09 一款分布式爬虫管理平台,支持多种语言和框架
- 2024-09-09 编写Java网络爬虫(java 写爬虫)
- 2024-09-09 三个Python爬虫版本,带你轻松入门爬虫!
- 2024-09-09 App 爬虫必备技能:三步完成 Android 逆向
- 2024-09-09 Python 3 学习笔记:爬虫基础入门(python爬虫:入门+进阶)
- 2024-09-09 来来来!带你了解Python爬虫的方方面面!
你 发表评论:
欢迎- 最近发表
-
- Java常量定义防暴指南:从"杀马特"到"高富帅"的华丽转身
- Java接口设计原则与实践:优雅编程的艺术
- java 包管理、访问修饰符、static/final关键字
- Java工程师的代码规范与最佳实践:优雅代码的艺术
- 编写一个java程序(编写一个Java程序计算并输出1到n的阶乘)
- Mycat的搭建以及配置与启动(mycat部署)
- Weblogic 安装 -“不是有效的 JDK Java 主目录”解决办法
- SpringBoot打包部署解析:jar包的生成和结构
- 《Servlet》第05节:创建第一个Servlet程序(HelloSevlet)
- 你认为最简单的单例模式,东西还挺多
- 标签列表
-
- java反编译工具 (77)
- java反射 (57)
- java接口 (61)
- java随机数 (63)
- java7下载 (59)
- java数据结构 (61)
- java 三目运算符 (65)
- java对象转map (63)
- Java继承 (69)
- java字符串替换 (60)
- 快速排序java (59)
- java并发编程 (58)
- java api文档 (60)
- centos安装java (57)
- java调用webservice接口 (61)
- java深拷贝 (61)
- 工厂模式java (59)
- java代理模式 (59)
- java.lang (57)
- java连接mysql数据库 (67)
- java重载 (68)
- java 循环语句 (66)
- java反序列化 (58)
- java时间函数 (60)
- java是值传递还是引用传递 (62)
本文暂时没有评论,来添加一个吧(●'◡'●)