使用 Python 指定内容爬取百度引擎搜索结果 [复制链接]

上一主题下一主题查看指定楼层

离线李唐

管理员

只看楼主正序阅读 0楼发表于: 06-26

在本篇博客中，我将展示如何使用 Python 编写一个简单的百度搜索爬虫。这个爬虫可以自动化地从百度获取搜索结果，并提取每个结果的标题和链接。我们将使用 requests 库来发送 HTTP 请求，使用 BeautifulSoup 库来解析 HTML 内容。
需求分析
在实现爬虫之前，我们需要明确以下需求：
通过构建百度搜索的 URL 来发送搜索请求。解析百度搜索结果页面，提取每个结果的标题和链接。将搜索结果以列表形式返回，方便后续处理和展示。
使用库
我们需要安装两个 Python 库：
requests：用于发送 HTTP 请求。BeautifulSoup：用于解析 HTML 内容。安装这两个库可以使用以下命令：

复制代码

pip install requests beautifulsoup4

步骤和代码解析
1.导入库

复制代码

import requests
from bs4 import BeautifulSoup

我们首先导入了 requests 和 BeautifulSoup 库。

2.定义搜索函数

复制代码

def baidu_search(keyword):

定义一个名为 baidu_search 的函数，接受搜索关键字作为参数。
3.设置请求头

复制代码

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'
}

设置请求头信息，模拟浏览器访问，以防止被百度识别为爬虫。
4.构建搜索 URL 并发送请求

复制代码

search_url = f"https://www.baidu.com/s?wd={keyword}"
response = requests.get(search_url, headers=headers)

5.检查请求状态并解析响应内容

复制代码

if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')

检查请求是否成功，如果成功，使用 BeautifulSoup 解析响应内容。
6.查找并提取搜索结果

复制代码

search_results = soup.find_all('h3', class_='t')

查找所有包含搜索结果的 HTML 元素，并提取其中的标题和链接。
7.返回结果

复制代码

results = []
for result in search_results:
title = result.get_text()
link = result.a['href']
results.append({'title': title, 'link': link})
return results

将提取的标题和链接存储在字典列表中并返回。
8.测试爬虫

复制代码

keyword = "编程"
search_results = baidu_search(keyword)
if search_results:
print(f"关键字 '{keyword}' 的搜索结果：")
for idx, result in enumerate(search_results, 1):
print(f"{idx}. {result['title']}")
print(f" 链接: {result['link']}")
print()
else:
print("未能获取搜索结果。")

调用 baidu_search 函数进行测试，并打印搜索结果。
完整代码
以下是完整的代码实现：

复制代码

import requests
from bs4 import BeautifulSoup
def baidu_search(keyword):
# 设置请求头部信息，模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'
}
# 构建搜索URL
search_url = f"https://www.baidu.com/s?wd={keyword}"
# 发送GET请求
response = requests.get(search_url, headers=headers)
# 检查请求是否成功
if response.status_code == 200:
# 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找搜索结果的标题和链接
search_results = soup.find_all('h3', class_='t')
# 提取标题和链接
results = []
for result in search_results:
title = result.get_text()
link = result.a['href']
results.append({'title': title, 'link': link})
return results
else:
print("请求失败！")
return None
# 测试爬虫功能
keyword = "编程"
search_results = baidu_search(keyword)
if search_results:
print(f"关键字 '{keyword}' 的搜索结果：")
for idx, result in enumerate(search_results, 1):
print(f"{idx}. {result['title']}")
print(f" 链接: {result['link']}")
print()
else:
print("未能获取搜索结果。")

运行结果

说明
在本篇博客中，我们创建了一个简单的百度搜索爬虫，通过 Python 的 requests 库发送 HTTP 请求，使用 BeautifulSoup 库解析 HTML 内容，并提取搜索结果的标题和链接。该爬虫主要包含以下几个步骤：

导入库：导入 requests 和 BeautifulSoup 库。
定义搜索函数：创建 baidu_search 函数，用于构建搜索 URL 并发送请求。
设置请求头：模拟浏览器的请求头，以防被识别为爬虫。
构建搜索 URL 并发送请求：根据用户输入的关键字构建搜索 URL，并发送 GET 请求。
检查请求状态并解析响应内容：确认请求成功后，使用 BeautifulSoup 解析 HTML 内容。
查找并提取搜索结果：从解析后的 HTML 中提取标题和链接。
返回结果：将提取的数据以字典形式存储，并返回给调用者。
测试爬虫：通过实际的关键字测试爬虫功能，并输出结果。

相关类型推荐
如果你对网络爬虫和数据提取感兴趣，可以尝试以下项目：

微博爬虫：抓取微博上的热门话题和评论。
电商网站爬虫：抓取商品信息和价格，进行价格比较。
新闻网站爬虫：抓取最新新闻标题和链接，进行新闻聚合。

通过这些步骤，我们可以实现一个基本的搜索引擎爬虫，为学习网络爬虫和数据提取提供了一个实用的示例。
结论
通过本篇博客，读者能够掌握如何使用 Python 编写一个简单的百度搜索爬虫，并了解爬虫的基本流程。使用 requests 进行 HTTP 请求，利用 BeautifulSoup 解析网页内容，以及如何处理和提取有用的数据。这些技能是进行网页数据抓取和信息提取的基础，对进一步学习爬虫技术和数据分析有很大帮助。
总结
通过这篇博客，你可以掌握如何使用 Python 编写一个简单的百度搜索爬虫，并了解爬虫的基本流程。使用requests进行 HTTP 请求，利用BeautifulSoup解析网页内容，以及如何处理和提取有用的数据。这些技能是进行网页数据抓取和信息提取的基础，对进一步学习爬虫技术和数据分析有很大帮助。