当前位置：首页> 技能课堂> 正文

爬虫python入门教程

康金世
技能课堂
2025-10-18 00:51:03
57

Python作为一门功能强大且易于学习的编程语言，在网络爬虫领域有着广泛的应用。网络爬虫可以自动从互联网上抓取数据，为数据分析、信息收集等工作提供了极大的便利。对于初学者来说，掌握Python爬虫技术不仅能够提升编程能力，还能让你在信息获取上更加高效。

要开始Python爬虫的学习之旅，首先需要了解一些基本概念。网络爬虫，简单来说，就是模拟浏览器的行为，向网站服务器发送请求，获取网页的HTML代码，然后从中提取所需的信息。Python有许多强大的库可以帮助我们实现这些功能，其中最常用的是`requests`库和`BeautifulSoup`库。

`requests`库是一个用于发送HTTP请求的库，它可以让我们方便地与网站服务器进行交互。使用`requests`库发送请求非常简单，只需要几行代码就可以完成。以下是一个简单的示例：

```python

import requests

# 发送GET请求

response = requests.get('https://www.example.com')

# 检查响应状态码

if response.status_code == 200:

# 获取网页内容

html_content = response.text

print(html_content)

else:

print(f'请求失败，状态码：{response.status_code}')

```

在这个示例中，我们使用`requests.get()`方法发送了一个GET请求，并将响应存储在`response`变量中。然后，我们检查了响应的状态码，如果状态码为200，表示请求成功，我们就可以通过`response.text`属性获取网页的HTML内容。

获取到网页的HTML内容后，我们需要从中提取所需的信息。这时候就需要用到`BeautifulSoup`库了。`BeautifulSoup`是一个用于解析HTML和XML文档的库，它可以让我们方便地从HTML代码中提取数据。以下是一个使用`BeautifulSoup`库提取网页标题的示例：

```python

import requests

from bs4 import BeautifulSoup

# 发送GET请求

response = requests.get('https://www.example.com')

if response.status_code == 200:

# 获取网页内容

html_content = response.text

# 创建BeautifulSoup对象

soup = BeautifulSoup(html_content, 'html.parser')

# 提取网页标题

title = soup.title.string

print(f'网页标题：{title}')

else:

print(f'请求失败，状态码：{response.status_code}')

```

在这个示例中，我们首先使用`requests`库发送了一个GET请求，获取了网页的HTML内容。然后，我们创建了一个`BeautifulSoup`对象，并指定了解析器为`html.parser`。我们使用`soup.title.string`属性提取了网页的标题。

除了提取网页标题，我们还可以使用`BeautifulSoup`库提取网页中的其他信息，如链接、图片、文本等。`BeautifulSoup`库提供了许多方法和属性，可以让我们方便地定位和提取所需的信息。例如，我们可以使用`soup.find_all()`方法查找所有符合条件的标签，然后遍历这些标签提取所需的信息。

在实际应用中，我们可能需要爬取多个网页，或者需要处理一些复杂的网页结构。这时候，我们可以使用循环和递归的方法来实现。以下是一个简单的示例，用于爬取一个网站的所有链接：

```python

import requests

from bs4 import BeautifulSoup

# 定义一个函数，用于爬取网页的所有链接

def get_all_links(url):

try:

# 发送GET请求

response = requests.get(url)

if response.status_code == 200:

# 获取网页内容

html_content = response.text