网站首页 > java教程 正文
一、基础介绍:爬虫-又名网页追逐者,广泛应用与数据采集和分析中,我们可以使用它来获取页面中的指定资源(比如:图片,标题,某些指定数据等)。
二、相关知识:使用爬虫,我们需要掌握的知识有:页面元素分析能力、http网络请求知识、正则表达式...(这些知识也会在以后的文章中一一进行详细讲述的。)
三、先把代码贴出来,如下:
public class Crawler { public static void main(String[] args) throws MalformedURLException, IOException { String url = "http://588ku.com/?h=bd&sem=1"; List arrL = new ArrayList(); URLConnection uc = new URL(url).openConnection(); uc.setConnectTimeout(10000); uc.setDoOutput(true); InputStream in = new BufferedInputStream(uc.getInputStream()); Reader rd = new InputStreamReader(in); int c = 0; StringBuffer temp = new StringBuffer(); while ((c = rd.read()) != -1) { temp.append((char) c); } in.close(); String strHtml = temp.toString(); // System.out.println(strHtml); Pattern p = Pattern.compile("<img\\b[^>]*\\bsrc\\b\\s*=\\s*('|\")?([^'\"\n\r\f>]+(\\.jpg|\\.bmp|\\.eps|\\.gif|\\.mif|\\.miff|\\.png|\\.tif|\\.tiff|\\.svg|\\.wmf|\\.jpe|\\.jpeg|\\.dib|\\.ico|\\.tga|\\.cut|\\.pic)\\b)[^>]*>", Pattern.CASE_INSENSITIVE); Matcher m = p.matcher(strHtml ); String quote,src = ""; while (m.find()) { quote = m.group(1); src = (quote == null || quote.trim().length() == 0) ? m.group(2).split("\\s+")[0] : m.group(2); arrL.add(src); } for (Object sstr : arrL) { System.out.println(sstr); } } }
四、代码解析部分
①首先我们设置了一个固定的url地址,然后使用URLConnection新建并打开该链接。②后面就是抓取到网页元素并筛选了。这里我们使用字节流读取页面元素到创建好的字符变量中(使用完后一定要记得关闭哦)。③后面就是正则表达式的一些操作了,这里是关于图片的适配规则(正则表达式是一个很重要的知识点的,一定不能忽视!)。④输出筛选过后的数据,这里是用了一个list集合来进行存放的,后面的for循环则是输出部分了。
五、运行结果如下:
PS:这里只是简单的一个示例,其实我们使用爬虫可以做很多操作的,后续也会对该部分代码进行改造,输出并保存为图片,请持续关注!
五、以上就是Java爬虫--爬取页面图片的内容,持续更新中欢迎订阅关注。纯手打,如有不当之处敬请斧正。也希望在对大家产生作用的同时多多关注交流!
猜你喜欢
- 2024-09-09 Java 爬虫遇上数据异步加载,试试这两种办法
- 2024-09-09 实战Java爬虫课程-猿天地(java爬虫入门教程)
- 2024-09-09 如何编写一个Python网络爬虫?点进来,我教你!
- 2024-09-09 Java编写爬虫抓取今日头条内容(java抓取今日头条数据)
- 2024-09-09 一款分布式爬虫管理平台,支持多种语言和框架
- 2024-09-09 编写Java网络爬虫(java 写爬虫)
- 2024-09-09 三个Python爬虫版本,带你轻松入门爬虫!
- 2024-09-09 App 爬虫必备技能:三步完成 Android 逆向
- 2024-09-09 Python 3 学习笔记:爬虫基础入门(python爬虫:入门+进阶)
- 2024-09-09 来来来!带你了解Python爬虫的方方面面!
你 发表评论:
欢迎- 最近发表
-
- Java常量定义防暴指南:从"杀马特"到"高富帅"的华丽转身
- Java接口设计原则与实践:优雅编程的艺术
- java 包管理、访问修饰符、static/final关键字
- Java工程师的代码规范与最佳实践:优雅代码的艺术
- 编写一个java程序(编写一个Java程序计算并输出1到n的阶乘)
- Mycat的搭建以及配置与启动(mycat部署)
- Weblogic 安装 -“不是有效的 JDK Java 主目录”解决办法
- SpringBoot打包部署解析:jar包的生成和结构
- 《Servlet》第05节:创建第一个Servlet程序(HelloSevlet)
- 你认为最简单的单例模式,东西还挺多
- 标签列表
-
- java反编译工具 (77)
- java反射 (57)
- java接口 (61)
- java随机数 (63)
- java7下载 (59)
- java数据结构 (61)
- java 三目运算符 (65)
- java对象转map (63)
- Java继承 (69)
- java字符串替换 (60)
- 快速排序java (59)
- java并发编程 (58)
- java api文档 (60)
- centos安装java (57)
- java调用webservice接口 (61)
- java深拷贝 (61)
- 工厂模式java (59)
- java代理模式 (59)
- java.lang (57)
- java连接mysql数据库 (67)
- java重载 (68)
- java 循环语句 (66)
- java反序列化 (58)
- java时间函数 (60)
- java是值传递还是引用传递 (62)
本文暂时没有评论,来添加一个吧(●'◡'●)