专业的JAVA编程教程与资源

网站首页 > java教程 正文

Python 3 学习笔记:爬虫基础入门(python爬虫:入门+进阶)

temp10 2024-09-09 08:30:06 java教程 15 ℃ 0 评论

Http 基础

Http 协议

HTTP(Hyper Text Transfer Protocol),即超文本传输协议,是互联网中应用最广泛的一种网络协议,是一种基于 TCP/IP 在服务器和浏览器之间传输数据的协议。

Python 3 学习笔记:爬虫基础入门(python爬虫:入门+进阶)

HTTP 协议具有如下特点:

  1. 无连接的,每次连接只处理一个请求,返回响应并得到浏览器的应答之后即关闭连接
  2. 媒体独立,只要浏览器和服务器知道如何处理数据的内容,都可以通过 HTTP 协议发送
  3. 无状态的,对事物处理不记录,如果再次需要同样的请求,则必须重新传递数据

服务器

当我们在浏览器中输入一个网址(URL)想要浏览(访问)它的网页时,浏览器会先请求 DNS 服务器,获得该网址对应的 IP 地址,然后发送一个 HTTP Request(请求)给该 IP 地址的服务器,服务器会根据请求返回一个 HTTP Response(响应),经过浏览器对该响应渲染之后,就是我们日常看到的网页了。


请求方法

浏览器向服务器请求数据时,一般有如下几种方法:


状态码

浏览器向服务器发送请求之后,服务器返回的响应中首先会包括一个状态码,表示对该请求的处理状态:

  • 1xx,收到请求,继续处理
  • 2xx,请求被服务器成功的接收、理解和采纳
  • 3xx,重定向,为了完成请求,需要进一步的动作
  • 4xx,客户端错误,请求中包含语法错误或者该请求无法被实现
  • 5xx,服务器错误,服务器不能实现一个明显无效的请求

一般常用的几个状态码如下:

  • 200,请求成功
  • 301,资源(网页)被永久转移到其他 URL
  • 404,请求的资源不存在
  • 500,内部服务器错误

Url

URL 是 Uniform Resource Locator 的缩写,即统一资源定位符,通过 URL 可以从互联网上得到资源的位置和访问方法。互联网上的每一个文件都有一个唯一的 URL,其包含的信息指出该资源的位置以及浏览器应该怎么处理它。URL 已字符串的形式描述一个资源在互联网上的地址。

组成部分

基本 URL 包含模式(协议)、域名(或 IP 地址)、路径和文件。

  • 协议,告知浏览器如何处理该资源,如http、https、ftp等
  • 域名,如 www.baidu.com 就是一个域名,访问百度时会通过 DNS 服务器找到它的 IP 地址,也就定位到了这台服务器
  • 路径,文件在服务器中存储的目录
  • 文件,也就是要访问的具体的文件,可能是一个文本、视频、图片等

网页基础

简单来讲,一个网站就是有许多网页组成的,网页中就包含我们可能需要的资源(数据)。

Html 简介

HTML(Hyper Text Markup Language,超文本标记语言) 是一种网页描述语言,它不是编程语言,如 Python、C、C++ 和 Java 等,而是一种标记语言。

CSS 简介

CSS(Cascading Style Sheets,层叠样式表),也是一种标记语言,用来为 HTML 文档定义布局,如文字的样式、颜色,图片的大小、边距,网页的背景颜色等。

JavaScript 简介

JavaScript 是一种脚本语言,嵌套在 HTML 网页中,用于实现一些特殊功能,如弹窗、轮播图等功能。

爬虫基础

网络爬虫是一种按照指定规则,自动浏览、获取网络信息的自动化程序,还可以将获取的信息进行记录、存储。爬虫的基本工作流程如下:


  1. 从设置的初始 URL 开始获取数据,并获取新的 URL
  2. 将新的 URL 放入待爬取队列中
  3. 将爬取的数据进行加工转换,并存储起来
  4. 在待爬取的 URL 队列中取出新的 URL 进行爬取
  5. 判断是否满足结束条件,如满足则停止,否则持续进行第 2~4 步

◆ ◆ ◆ ◆ ◆◆ ◆ ◆ ◆ ◆◆ ◆ ◆ ◆ ◆◆ ◆ ◆ ◆ ◆◆ ◆ ◆ ◆ ◆◆ ◆ ◆ ◆ ◆◆ ◆ ◆ ◆ ◆◆ ◆ ◆ ◆ ◆◆ ◆ ◆ ◆ ◆◆

为了帮各位观众老爷们快速入门python,我在这里准备了一套“经典入门教程”,这些是入门付费教程哦,现在当做福利免费赠送给各位观众老爷们,私信我“python入门”就可以领取!

点击我的头像关注我进入主页,就能看到私信按钮了。私信我“python入门”,一个字不能多一个字不能少,即可快速领取!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表