使用 Scrapy 框架对重复的 url 无法获取数据,dont_filter=True
创始人
2024-11-21 07:06:36
0

 场景:代码没有报错,而且确定 xpath 表达式正确解析。

可能的原因是:你使用了 Scrapy 对重复的 url 进行请求。

Scrapy 内置了重复过滤功能,默认情况下该功能处于打开状态。

如下实例,parse2 无法被调用:

import scrapy  class ExampleSpider(scrapy.Spider):     name ="test"     # allowed_domains = ["https://www.baidu.com/"]      start_urls = ["https://www.baidu.com/"]      def parse(self,response):         yield scrapy.Request(self.start_urls[0],callback=self.parse2)      def parse2(self, response):         print(response.url)

Scrapy 在进入 parse 时,会默认请求一次 start_urls[0],而当你在 parse 中又对 start_urls[0] 进行请求时,Scrapy 底层会默认过滤掉重复的 url,不会对该请求进行提交,这就是为什么 parse2 不被调用的原因。

解决方法:

添加 dont_filter=True 参数,这样 Scrapy 就不会过滤掉重复的请求。

import scrapy  class ExampleSpider(scrapy.Spider):     name ="test"     # allowed_domains = ["https://www.baidu.com/"]      start_urls = ["https://www.baidu.com/"]      def parse(self,response):         yield scrapy.Request(self.start_urls[0],callback=self.parse2,dont_filter=True)      def parse2(self, response):         print(response.url)

此时,parse2 会被正常调用。

相关内容

热门资讯

透视肯定!pokermaste... 透视肯定!pokermaster脚本(透视)其实有挂,靠谱教程(有挂德州)-哔哩哔哩1、许多玩家不知...
一分钟解谜!hhpoker买挂... 您好,hhpoker买挂这款游戏可以开挂的,确实是有挂的,需要了解加去威信【136704302】很多...
透视辅助!wepoker有没有... 透视辅助!wepoker有没有挂(透视)真是真的是有挂,2025新版教程(有挂最新版)-哔哩哔哩1、...
第2分钟揭露!德州hhpoke... 第2分钟揭露!德州hhpoker脚本(透视)其实是真的挂,存在挂教程(证实有挂)-哔哩哔哩1、全新机...
透视免费!hhpoker底牌透... 透视免费!hhpoker底牌透视脚本(透视)总是是有挂,玩家教你(有挂俱乐部)-哔哩哔哩透视免费!h...
第二分钟必备!aa poker... 第二分钟必备!aa poker辅助(透视)确实存在有挂,力荐教程(有挂透视)-哔哩哔哩1、aa po...
透视讲解!哈糖大菠萝有挂吗5个... 透视讲解!哈糖大菠萝有挂吗5个常用方法(透视)竟然真的有挂,安装教程(有挂靠谱)-哔哩哔哩1、下载好...
十分钟透视!约局吧是否有挂(透... 十分钟透视!约局吧是否有挂(透视)总是是真的挂,安装教程(有挂工具)-哔哩哔哩亲,关键说明,约局吧是...
透视能赢!竞技联盟辅助(透视)... 您好,竞技联盟辅助这款游戏可以开挂的,确实是有挂的,需要了解加去威信【485275054】很多玩家在...
8分钟解谜!哈糖大菠萝挂法(透... 您好,哈糖大菠萝挂法这款游戏可以开挂的,确实是有挂的,需要了解加去威信【485275054】很多玩家...