使用 Python 编写网络爬虫：从入门到实战

💂 个人网站:【海拥】【神级代码资源网站】【办公神器】

🤟 基于Web端打造的：👉轻量化工具创作平台

💅 想寻找共同学习交流的小伙伴，请点击【全栈技术交流群】

网络爬虫是一种自动化获取网页信息的程序，通常用于数据采集、信息监控等领域。Python 是一种广泛应用于网络爬虫开发的编程语言，具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用 Python 编写网络爬虫，包括基本原理、常用库和实战案例。

一、原理介绍

网络爬虫是一种自动化程序，通过模拟浏览器的行为向网络服务器发送 HTTP 请求，获取网页内容并进一步提取所需信息的过程。网络爬虫主要用于数据采集、信息监控、搜索引擎等领域，为用户提供更便捷、全面的数据检索服务。

1.1 发送 HTTP 请求

在网络爬虫的工作流程中，首先需要发送 HTTP 请求获取网页内容。这个过程类似于用户在浏览器中输入网址并按下回车的操作。通过发送请求，服务器会返回相应的 HTML 内容，其中包含了网页的结构和信息。

1.2 解析网页内容

获取到网页内容后，网络爬虫需要解析 HTML 或其他标记语言，以便从中提取所需的信息。常用的解析库包括 Beautiful Soup、lxml 等，它们提供了方便的方法来遍历、搜索和操作 HTML 标签，从而提取文本、链接、图片等内容。

1.3 常用爬虫框架

requests：是一个简洁、易用的 HTTP 请求库，可以方便地发送 HTTP 请求并获取响应内容。
Beautiful Soup：是一个功能强大的解析库，可以帮助解析 HTML、XML 等标记语言，提供了方便的方法选择和提取数据。
Scrapy：是一个功能完善的网络爬虫框架，提供了高度可定制的爬虫流程、自动化处理和数据存储功能，适用于大规模爬取和数据处理。

1.4 工作原理总结

网络爬虫的基本工作原理可以总结为以下几个步骤：

发送 HTTP 请求：模拟浏览器向目标网站发送请求，获取网页内容。
解析网页内容：使用解析库解析 HTML 或其他标记语言，提取所需信息。
处理信息：对提取的信息进行处理、存储或进一步分析。
循环操作：根据需求循环执行上述步骤，实现自动化的数据采集和处理。

网络爬虫的设计和实现需要根据具体需求选择合适的库和框架，并理解 HTTP 协议、HTML 结构等基础知识。通过不断学习和实践，可以编写高效、稳定的网络爬虫程序，为数据分析和应用开发提供有力支持。

二、使用 requests 库发起 HTTP 请求

在网络爬虫开发中，使用 requests 库可以方便地向目标网站发送 HTTP 请求，并获取服务器返回的响应内容。下面将详细展开说明如何使用 requests 库发起 HTTP 请求并处理响应。

2.1 导入 requests 库

首先需要确保已经安装了 requests 库，如果没有安装，可以使用 pip 进行安装：

1	pip install requests

然后在 Python 脚本中导入 requests 库：

1	import requests

2.2 发起 GET 请求

通过 requests.get(url) 方法可以发起一个 GET 请求，并获取服务器返回的响应对象。示例代码如下：

1 2	url = 'https://www.example.com' response = requests.get(url)

在这段代码中，我们向 https://www.example.com 发送了一个 GET 请求，并将服务器返回的响应对象存储在 response 变量中。

2.3 处理响应对象

一旦获取了响应对象，我们可以通过不同的属性和方法来访问和处理响应内容。最常用的是 response.text 属性，它返回的是响应内容的文本形式。我们可以通过打印来查看网页的内容：

1	print(response.text)

这样就可以在控制台上看到从网页获取到的 HTML 内容，包括文本、标签、链接等信息。

2.4 响应对象的其他属性和方法

除了 response.text 外，响应对象还包含其他有用的属性和方法，比如：

response.status_code：返回响应的状态码，200 表示请求成功，404 表示页面未找到等。
response.headers：返回响应头信息，包含了服务器返回的 HTTP 头部信息。
response.json()：如果响应内容是 JSON 格式，可以使用该方法将其转换为 Python 对象。

通过有效地使用 requests 库，我们可以轻松地完成向网站发送请求并获取响应内容的操作，为网络爬虫的开发提供了便利。同时，合理处理响应内容，能够更好地提取和利用网页中的信息，实现数据的采集和分析。

三、使用 Beautiful Soup 解析网页内容

在网络爬虫开发中，Beautiful Soup 是一个流行的 Python 库，用于解析 HTML 或其他标记语言，并提供了方便的方法来选择和提取网页中的信息。下面将详细展开说明如何使用 Beautiful Soup 解析网页内容。

3.1 导入 Beautiful Soup 库

首先需要确保已经安装了 Beautiful Soup 库，如果没有安装，可以使用 pip 进行安装：

1	pip install beautifulsoup4

然后在 Python 脚本中导入 Beautiful Soup 库：

1	from bs4 import BeautifulSoup

3.2 使用 Beautiful Soup 解析 HTML 内容

在这段示例代码中，我们将之前通过 requests 库获取到的网页内容 response.text 存储在 html_content 变量中。然后使用 Beautiful Soup 解析这段 HTML 内容，并创建一个 BeautifulSoup 对象：

1 2	html_content = response.text soup = BeautifulSoup(html_content, 'html.parser')

在上面的代码中，我们使用了 html.parser 解析器来解析 HTML 内容，创建了一个 BeautifulSoup 对象 soup，可以通过它来操作和提取网页内容。

3.3 通过选择器提取信息

Beautiful Soup 提供了一种类似于 CSS 选择器的语法，可以方便地选择和提取特定的标签或内容。在下面的示例中，我们使用 soup.select('h2.title') 选择器来提取所有 <h2> 标签且 class 为 title 的内容，并将提取出的标题打印出来：

1
2
3

titles = soup.select('h2.title')
for title in titles:
    print(title.text)

通过这种方式，我们可以针对具体的 HTML 结构，利用选择器提取出所需的信息，比如标题、链接、图片等内容，从而实现对网页内容的精确提取和处理。

使用 Beautiful Soup 的强大解析功能，配合合适的选择器，能够帮助我们高效地从网页中提取所需信息，为数据分析、信息抓取等任务提供有力的支持。通过不断练习和应用，可以熟练运用 Beautiful Soup 解析网页内容，提高网络爬虫开发的效率和准确性。

四、实战案例：爬取网页标题和链接

在这个实战案例中，我们将结合使用 requests 库和 Beautiful Soup 来爬取网页中的标题和链接信息。通过解析网页内容，我们可以提取出页面中所有的链接以及链接对应的文本内容，从而构建一个简单的网页内容爬取程序。

4.1 发起 HTTP 请求并解析网页内容

首先，我们使用 requests 库发起一个 GET 请求，获取目标网页的内容，并将其存储在 response 变量中。然后，我们使用 Beautiful Soup 对响应内容进行解析，创建一个 BeautifulSoup 对象 soup：

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

现在，我们已经成功获取了页面内容并用 Beautiful Soup 解析了 HTML 结构。

4.2 提取标题和链接信息

接下来，我们通过 soup.find_all('a') 方法找到网页中所有的 <a> 标签，表示链接。然后遍历这些链接，分别获取链接的 href 属性和文本内容，并将其打印出来：

1 2	for link in soup.find_all('a'): print(link.get('href'), link.text)

通过这段代码，我们可以逐个输出每个链接的 URL 和链接文本内容，从而实现对网页中链接的抓取和处理。

4.3 结合实际需求扩展功能

在实际应用中，我们可以根据需要扩展这个爬取程序，比如筛选特定条件下的链接、保存链接信息到文件、进一步深入爬取链接指向的页面内容等。通过不断完善和扩展功能，可以实现更加强大和灵活的网络爬虫程序，用于各种数据采集和分析任务。

通过这个实战案例，我们可以更直观地了解如何结合使用 requests 库和 Beautiful Soup 进行网页内容的爬取和处理，为进一步开发复杂的网络爬虫程序提供了基础和参考。

五、高级应用：设置代理 IP

在网络爬虫开发中，有时需要使用代理 IP 来隐藏真实 IP 地址、绕过访问限制或实现其他特定需求。在 Python 中，可以通过设置代理 IP 来发送 HTTP 请求，让请求经过代理服务器转发到目标网站，从而实现匿名访问和反爬虫措施。

5.1 设置代理 IP

在上面的示例代码中，我们定义了一个代理 IP 字典 proxies，其中包括了 HTTP 和 HTTPS 协议的代理 IP 地址及端口号。通过将这个代理 IP 字典传递给 requests.get() 方法的 proxies 参数，可以让请求通过指定的代理 IP 发送出去：

proxies = {
    'http': 'http://your_proxy_ip:port',
    'https': 'https://your_proxy_ip:port'
}

response = requests.get('https://www.example.com', proxies=proxies)

这样设置代理 IP 后，网络请求将会经过代理服务器转发出去，目标网站会认为请求来自于代理 IP 而不是真实 IP 地址。