在处理实际项目时,网页通常比示例页面复杂得多。我们需要应对分页、动态加载和模拟用户行为等问题。以下是一些常见的场景及其解决方案。
许多网站将内容分成多个页面,称为分页。要抓取这些数据,需要编写一个能够遍历所有分页的爬虫。
示例:抓取一个分页网站
假设我们要抓取一个分页网站,每页包含10条数据,分页链接的URL格式如下:
http://example.com/page/1
http://example.com/page/2
http://example.com/page/3
步骤1:编写分页爬虫代码
import requests from bs4 import BeautifulSoup # 基础URL base_url = "http://example.com/page/" # 最大页码 max_page = 5 for page in range(1, max_page + 1): url = f"{base_url}{page}" response = requests.get(url) if response.status_code == 200: soup = BeautifulSoup(response.content, 'html.parser') # 假设每条数据在class为'item'的div中 items = soup.find_all('div', class_='item') for item in items: title = item.find('h2').text description = item.find('p').text print(f"标题: {title}") print(f"描述: {description}") else: print(f"请求失败,状态码: {response.status_code}")
代码解释:
for
循环遍历所有分页,生成每个分页的URL。requests
发送请求,使用BeautifulSoup
解析页面。一些网站通过AJAX(异步JavaScript和XML)加载数据,导致页面初始加载时看不到所有内容。要抓取这些数据,我们需要分析AJAX请求并直接请求相应的API。
示例:处理AJAX请求
假设我们要抓取一个通过AJAX请求加载的数据,AJAX请求的URL如下:
http://example.com/api/data?page=1
http://example.com/api/data?page=2
步骤1:编写处理AJAX请求的爬虫代码
import requests import json # 基础URL api_url = "http://example.com/api/data" # 最大页码 max_page = 5 for page in range(1, max_page + 1): params = {'page': page} response = requests.get(api_url, params=params) if response.status_code == 200: data = response.json() for item in data['items']: title = item['title'] description = item['description'] print(f"标题: {title}") print(f"描述: {description}") else: print(f"请求失败,状态码: {response.status_code}")
代码解释:
for
循环遍历所有分页,生成每个分页的请求参数。requests
发送请求,解析JSON响应。有些网站通过JavaScript动态生成内容,无法通过直接请求获取数据。这时我们可以使用Selenium模拟用户行为,抓取动态内容。
示例:使用Selenium模拟用户行为
步骤1:安装Selenium和浏览器驱动
pip install selenium
步骤2:编写Selenium爬虫代码
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import time # 设置浏览器驱动 driver = webdriver.Chrome() # 目标URL url = "http://example.com" # 打开网页 driver.get(url) # 等待页面加载 time.sleep(5) # 查找元素并提取数据 items = driver.find_elements(By.CLASS_NAME, 'item') for item in items: title = item.find_element(By.TAG_NAME, 'h2').text description = item.find_element(By.TAG_NAME, 'p').text print(f"标题: {title}") print(f"描述: {description}") # 关闭浏览器 driver.quit()
代码解释:
driver.get
方法打开目标URL。time.sleep
等待页面加载完成。driver.find_elements
方法查找页面中的元素并提取数据。driver.quit
方法关闭浏览器。本文介绍了处理复杂网页的几种方法,包括处理分页、处理AJAX请求和模拟用户行为。这些技巧将帮助我们应对实际项目中的各种复杂场景。在下一篇文章中,我们将探讨更多高级的爬虫技术和优化方法。