网站首页 > java教程正文

Java爬虫——爬取页面图片(持续更新中)

temp10 2024-09-09 08:29:50 java教程 13 ℃ 0 评论

一、基础介绍：爬虫-又名网页追逐者，广泛应用与数据采集和分析中，我们可以使用它来获取页面中的指定资源（比如：图片，标题，某些指定数据等）。

二、相关知识：使用爬虫，我们需要掌握的知识有：页面元素分析能力、http网络请求知识、正则表达式...（这些知识也会在以后的文章中一一进行详细讲述的。）

三、先把代码贴出来，如下：

public class Crawler {
	public static void main(String[] args) throws MalformedURLException, IOException {
		String url = "http://588ku.com/?h=bd&sem=1";	
		List arrL = new ArrayList();
		URLConnection uc = new URL(url).openConnection();
		uc.setConnectTimeout(10000);
		uc.setDoOutput(true);
		 
		InputStream in = new BufferedInputStream(uc.getInputStream());
		Reader rd = new InputStreamReader(in);
		int c = 0;
		StringBuffer temp = new StringBuffer();
		while ((c = rd.read()) != -1) {
		 temp.append((char) c);
		}
		in.close();	
		String strHtml = temp.toString();
//		System.out.println(strHtml);
		Pattern p = Pattern.compile("<img\\b[^>]*\\bsrc\\b\\s*=\\s*('|\")?([^'\"\n\r\f>]+(\\.jpg|\\.bmp|\\.eps|\\.gif|\\.mif|\\.miff|\\.png|\\.tif|\\.tiff|\\.svg|\\.wmf|\\.jpe|\\.jpeg|\\.dib|\\.ico|\\.tga|\\.cut|\\.pic)\\b)[^>]*>", Pattern.CASE_INSENSITIVE);
		Matcher m = p.matcher(strHtml );
		String quote,src = "";
		while (m.find()) {
			quote = m.group(1); 
			src = (quote == null || quote.trim().length() == 0) ? m.group(2).split("\\s+")[0] : m.group(2); 
			arrL.add(src);
		}
		for (Object sstr : arrL) {
			System.out.println(sstr);
		}
	}
}

四、代码解析部分

①首先我们设置了一个固定的url地址，然后使用URLConnection新建并打开该链接。②后面就是抓取到网页元素并筛选了。这里我们使用字节流读取页面元素到创建好的字符变量中（使用完后一定要记得关闭哦）。③后面就是正则表达式的一些操作了，这里是关于图片的适配规则（正则表达式是一个很重要的知识点的，一定不能忽视！）。④输出筛选过后的数据，这里是用了一个list集合来进行存放的，后面的for循环则是输出部分了。

五、运行结果如下：

PS：这里只是简单的一个示例，其实我们使用爬虫可以做很多操作的，后续也会对该部分代码进行改造，输出并保存为图片，请持续关注！

五、以上就是Java爬虫--爬取页面图片的内容，持续更新中欢迎订阅关注。纯手打，如有不当之处敬请斧正。也希望在对大家产生作用的同时多多关注交流！

上一篇： python爬虫入门，10分钟就够了，这可能是我见过最简单的基础教学
下一篇： Java 多线程爬虫框架 AiPa（多线程爬虫案例）

网站首页 > java教程正文

Java爬虫——爬取页面图片(持续更新中)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > java教程 正文

Java爬虫——爬取页面图片(持续更新中)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > java教程正文

取消回复欢迎你发表评论: