探索Puppeteer的强大功能:抓取隐藏内容
创始人
2024-12-29 09:41:06
0

亿牛云爬虫代理.png

背景/引言

在现代网页设计中,动态内容和隐藏元素的使用越来越普遍,这些内容往往只有在特定的用户交互或条件下才会显示出来。为了有效地获取这些隐藏内容,传统的静态爬虫技术往往力不从心。Puppeteer,作为一个强大的无头浏览器工具,提供了丰富的功能来模拟用户行为,从而轻松抓取这些动态内容。本文将介绍如何使用Puppeteer抓取网页中的隐藏内容,并结合爬虫代理IP、useragent、cookie等设置,确保爬取过程的稳定性和高效性。

正文

Puppeteer介绍

Puppeteer是一个由Google维护的Node库,它提供了一个高层次的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以自动执行诸如表单提交、UI测试、键盘输入等操作。它特别适用于处理JavaScript渲染的动态网页和隐藏元素。

抓取隐藏内容的几种方式

在实际应用中,隐藏内容可能是通过点击按钮、滚动页面等操作后才会显示。Puppeteer允许我们模拟这些用户操作,从而获取隐藏的内容。下面将介绍几种常见的抓取隐藏内容的方法。

1. 模拟点击操作

有些隐藏内容需要通过点击按钮或链接来显示。例如,一个“显示更多”按钮可能会加载更多的内容。

await page.click('#showHiddenContentButton'); await page.waitForSelector('#hiddenContent', { visible: true }); const hiddenContent = await page.evaluate(() => document.querySelector('#hiddenContent').innerText); console.log('隐藏内容:', hiddenContent); 
2. 滚动页面加载内容

某些页面通过滚动加载更多内容,比如无限滚动的社交媒体页面。在这种情况下,我们可以模拟滚动操作。

await page.evaluate(async () => {     for (let i = 0; i < 10; i++) {         window.scrollBy(0, window.innerHeight);         await new Promise(resolve => setTimeout(resolve, 1000));     } }); const content = await page.content(); console.log('滚动加载的内容:', content); 
3. 表单提交

有些隐藏内容需要通过表单提交来触发。例如,输入搜索关键词并点击搜索按钮。

await page.type('#searchInput', 'Puppeteer'); await page.click('#searchButton'); await page.waitForSelector('#searchResults', { visible: true }); const searchResults = await page.evaluate(() => document.querySelector('#searchResults').innerText); console.log('搜索结果:', searchResults); 
4. 等待特定时间

有些内容可能需要等待一段时间后才会加载,这时可以使用延时等待的方法。

await page.waitForTimeout(5000); // 等待5秒钟 const delayedContent = await page.evaluate(() => document.querySelector('#delayedContent').innerText); console.log('延时加载的内容:', delayedContent); 

使用爬虫代理IP、User-Agent和Cookie设置

在爬取过程中,使用爬虫代理IP、User-Agent和Cookie可以有效避免被网站封禁,提高爬取的稳定性和效率。

实例代码

以下是一个综合实例代码,展示如何使用Puppeteer抓取隐藏内容,并结合亿牛云爬虫代理、User-Agent和Cookie设置。

const puppeteer = require('puppeteer');  (async () => {     // 使用爬虫代理IP的配置 亿牛云爬虫代理标准版     const proxy = {         host: 'www.16yun.cn', // 代理服务器地址         port: 12345, // 代理服务器端口         username: 'your_username', // 代理服务器用户名         password: 'your_password' // 代理服务器密码     };      // 启动浏览器,并配置代理和useragent     const browser = await puppeteer.launch({         args: [             `--proxy-server=${proxy.host}:${proxy.port}`         ]     });      const page = await browser.newPage();      // 设置User-Agent     await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36');      // 设置Cookie     await page.setCookie({         name: 'example_cookie',         value: 'example_value',         domain: 'example.com'     });      // 代理服务器身份验证     await page.authenticate({         username: proxy.username,         password: proxy.password     });      // 打开目标网页     await page.goto('https://example.com');      // 模拟点击操作以显示隐藏元素     await page.click('#showHiddenContentButton');      // 等待隐藏元素加载并显示     await page.waitForSelector('#hiddenContent', { visible: true });      // 获取隐藏元素的内容     const hiddenContent = await page.evaluate(() => document.querySelector('#hiddenContent').innerText);     console.log('隐藏内容:', hiddenContent);      // 模拟滚动操作以加载更多内容     await page.evaluate(async () => {         for (let i = 0; i < 10; i++) {             window.scrollBy(0, window.innerHeight);             await new Promise(resolve => setTimeout(resolve, 1000));         }     });      // 获取滚动加载的内容     const content = await page.content();     console.log('滚动加载的内容:', content);      // 模拟表单提交以获取隐藏内容     await page.type('#searchInput', 'Puppeteer');     await page.click('#searchButton');     await page.waitForSelector('#searchResults', { visible: true });     const searchResults = await page.evaluate(() => document.querySelector('#searchResults').innerText);     console.log('搜索结果:', searchResults);      // 等待特定时间后获取内容     await page.waitForTimeout(5000); // 等待5秒钟     const delayedContent = await page.evaluate(() => document.querySelector('#delayedContent').innerText);     console.log('延时加载的内容:', delayedContent);      await browser.close(); })(); 

代码解析

  1. 爬虫代理IP配置:通过puppeteer.launch方法中的args参数配置代理服务器地址和端口。使用page.authenticate方法进行代理服务器的身份验证。
  2. User-Agent设置:通过page.setUserAgent方法设置自定义的User-Agent字符串,模拟真实浏览器访问。
  3. Cookie设置:通过page.setCookie方法设置自定义的Cookie,模拟已登录状态或其他特定用户状态。
  4. 模拟用户操作:通过page.click方法模拟用户点击操作,显示隐藏内容。通过page.waitForSelector方法等待隐藏元素加载并显示。
  5. 滚动操作:通过page.evaluate方法模拟滚动操作,加载更多内容。
  6. 表单提交:通过page.typepage.click方法模拟表单输入和提交,获取隐藏内容。
  7. 延时等待:通过page.waitForTimeout方法等待特定时间后获取延时加载的内容。

结论

Puppeteer作为一个功能强大的无头浏览器工具,为我们提供了模拟用户行为、抓取动态内容的能力。结合代理IP、User-Agent和Cookie设置,可以有效提升爬取的稳定性和效率。通过上述示例代码,我们可以轻松抓取网页中的隐藏内容,为数据采集和分析提供有力支持。

相关内容

热门资讯

技术分享!吉祥麻将免输神器下载... 技术分享!吉祥麻将免输神器下载(辅助挂)外挂透视辅助神器(2022已更新)(哔哩哔哩)1、在吉祥麻将...
必备科技!博雅红河棋牌有没有挂... 必备科技!博雅红河棋牌有没有挂(辅助挂)都是存在有挂(2020已更新)(哔哩哔哩)1、很好的工具软件...
十分钟普及!哈局十三张,来玩德... 十分钟普及!哈局十三张,来玩德州好像真的有挂,2025新版总结(有挂攻略)1)哈局十三张辅助挂:进一...
必备教程!乐乐四川麻将助赢神器... 必备教程!乐乐四川麻将助赢神器购买(透视)外挂透明挂辅助工具(2022已更新)(哔哩哔哩);1、让任...
必备教程!乐清麻将花到底有没有... 必备教程!乐清麻将花到底有没有挂(透视)原来是有挂(2026已更新)(哔哩哔哩);1、不需要AI权限...
八分钟了解!吉安麻将73棋牌有... 八分钟了解!吉安麻将73棋牌有挂嘛,菠萝德州app好像是真的有挂,2025新版教程(有挂科普);1、...
推荐一款!!雀神小程序除了微信... 推荐一款!!雀神小程序除了微信哪有(透视辅助)外挂透明挂辅助脚本(2020已更新)(哔哩哔哩)推荐一...
一分钟了解!欢乐茶坊辅助器(辅... 一分钟了解!欢乐茶坊辅助器(辅助挂)确实有挂(2026已更新)(哔哩哔哩)在进入欢乐茶坊辅助器辅助挂...
两分钟攻略!喜扣跑胡子免费辅助... 两分钟攻略!喜扣跑胡子免费辅助器,智星德州扑克本来存在有挂,力荐教程(有挂透明);小薇(透视辅助)致...
必备科技!广西棋牌友玩十三张有... 必备科技!广西棋牌友玩十三张有挂吗(辅助挂)透视辅助神器(2020已更新)(哔哩哔哩)亲,关键说明,...