专业的JAVA编程教程与资源

网站首页 > java教程 正文

Java爬虫——爬取页面图片(持续更新中)

temp10 2024-09-09 08:29:50 java教程 13 ℃ 0 评论

一、基础介绍:爬虫-又名网页追逐者,广泛应用与数据采集和分析中,我们可以使用它来获取页面中的指定资源(比如:图片,标题,某些指定数据等)。

二、相关知识:使用爬虫,我们需要掌握的知识有:页面元素分析能力、http网络请求知识、正则表达式...(这些知识也会在以后的文章中一一进行详细讲述的。)

Java爬虫——爬取页面图片(持续更新中)

三、先把代码贴出来,如下:

public class Crawler {
	public static void main(String[] args) throws MalformedURLException, IOException {
		String url = "http://588ku.com/?h=bd&sem=1";	
		List arrL = new ArrayList();
		URLConnection uc = new URL(url).openConnection();
		uc.setConnectTimeout(10000);
		uc.setDoOutput(true);
		 
		InputStream in = new BufferedInputStream(uc.getInputStream());
		Reader rd = new InputStreamReader(in);
		int c = 0;
		StringBuffer temp = new StringBuffer();
		while ((c = rd.read()) != -1) {
		 temp.append((char) c);
		}
		in.close();	
		String strHtml = temp.toString();
//		System.out.println(strHtml);
		Pattern p = Pattern.compile("<img\\b[^>]*\\bsrc\\b\\s*=\\s*('|\")?([^'\"\n\r\f>]+(\\.jpg|\\.bmp|\\.eps|\\.gif|\\.mif|\\.miff|\\.png|\\.tif|\\.tiff|\\.svg|\\.wmf|\\.jpe|\\.jpeg|\\.dib|\\.ico|\\.tga|\\.cut|\\.pic)\\b)[^>]*>", Pattern.CASE_INSENSITIVE);
		Matcher m = p.matcher(strHtml );
		String quote,src = "";
		while (m.find()) {
			quote = m.group(1); 
			src = (quote == null || quote.trim().length() == 0) ? m.group(2).split("\\s+")[0] : m.group(2); 
			arrL.add(src);
		}
		for (Object sstr : arrL) {
			System.out.println(sstr);
		}
	}
}

四、代码解析部分

①首先我们设置了一个固定的url地址,然后使用URLConnection新建并打开该链接。②后面就是抓取到网页元素并筛选了。这里我们使用字节流读取页面元素到创建好的字符变量中(使用完后一定要记得关闭哦)。③后面就是正则表达式的一些操作了,这里是关于图片的适配规则(正则表达式是一个很重要的知识点的,一定不能忽视!)。④输出筛选过后的数据,这里是用了一个list集合来进行存放的,后面的for循环则是输出部分了。

五、运行结果如下:

PS:这里只是简单的一个示例,其实我们使用爬虫可以做很多操作的,后续也会对该部分代码进行改造,输出并保存为图片,请持续关注!

五、以上就是Java爬虫--爬取页面图片的内容,持续更新中欢迎订阅关注。纯手打,如有不当之处敬请斧正。也希望在对大家产生作用的同时多多关注交流!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表