专业的JAVA编程教程与资源

网站首页 > java教程 正文

java简单爬虫----Jsoup(java写爬虫程序)

temp10 2024-09-09 08:29:20 java教程 14 ℃ 0 评论

Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。

Jsoup主要有以下功能:

java简单爬虫----Jsoup(java写爬虫程序)

1. 从一个URL,文件或字符串中解析HTML

2. 使用DOM或CSS选择器来查找、取出数据

3. 对HTML元素、属性、文本进行操作

基本步骤:

//下载网页String URL="输入网址";Document document=Jsoup.cnnect("URL");

//在下载的document里进行检索的语句elements test=document.select("#div_JK").select("div.item_list").select("div:nth-child(1)").select("div.dTit.tracking-ad").select("a");

//这样test标签就是我们最开始右键单击检查的标签String Str=test.toString();

//将标签转化成字符串String text=test.text();

//将标签里的文本提取出来

实例演练

Jsoup在解析html方面还有很多功能,这里就不一一列举了。Jsoup的中文api地址:http://www.open-open.com/jsoup/

Jsoup在做爬虫方面,有着非常大优势。后续会选择一些现有开源的爬虫框架进行分析,与大家共享。欢迎大家拍砖。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表