使用 Scrapy 框架对重复的 url 无法获取数据,dont_filter=True
创始人
2024-11-21 07:06:36
0

 场景:代码没有报错,而且确定 xpath 表达式正确解析。

可能的原因是:你使用了 Scrapy 对重复的 url 进行请求。

Scrapy 内置了重复过滤功能,默认情况下该功能处于打开状态。

如下实例,parse2 无法被调用:

import scrapy  class ExampleSpider(scrapy.Spider):     name ="test"     # allowed_domains = ["https://www.baidu.com/"]      start_urls = ["https://www.baidu.com/"]      def parse(self,response):         yield scrapy.Request(self.start_urls[0],callback=self.parse2)      def parse2(self, response):         print(response.url)

Scrapy 在进入 parse 时,会默认请求一次 start_urls[0],而当你在 parse 中又对 start_urls[0] 进行请求时,Scrapy 底层会默认过滤掉重复的 url,不会对该请求进行提交,这就是为什么 parse2 不被调用的原因。

解决方法:

添加 dont_filter=True 参数,这样 Scrapy 就不会过滤掉重复的请求。

import scrapy  class ExampleSpider(scrapy.Spider):     name ="test"     # allowed_domains = ["https://www.baidu.com/"]      start_urls = ["https://www.baidu.com/"]      def parse(self,response):         yield scrapy.Request(self.start_urls[0],callback=self.parse2,dont_filter=True)      def parse2(self, response):         print(response.url)

此时,parse2 会被正常调用。

相关内容

热门资讯

八分钟了解!Wepoke程序软... 八分钟了解!Wepoke程序软件透明挂,边锋干瞪眼ios辅助器,详细教程(今日头条)-哔哩哔哩;1、...
6分钟助手!德扑之星在电脑上玩... 6分钟助手!德扑之星在电脑上玩,微扑克ai辅助会封号,wpk猫腻原来果真是有挂(2022已更新)-哔...
分享个大家!(Wepoke下载... 相信很多朋友都在电脑上玩过Wepoke下载吧,但是很多朋友都在抱怨用电脑玩起来不方便。为此小编给大家...
6分钟了解!(乐乐大连麻将)一... 6分钟了解!(乐乐大连麻将)一直都是有挂吗,福建众娱其实是有猫腻,详细教程(有挂透视)-哔哩哔哩;详...
玩家亲测!微扑克数据原来一直总... 《玩家亲测!微扑克数据原来一直总是有挂,wpk玩胜率高,教你教程(有挂大全)-哔哩哔哩》 微扑克数据...
一分钟了解!Wepoke教程软... 一分钟了解!Wepoke教程软件透明挂,皮皮跑胡子辅助,详细教程(有挂猫腻)-哔哩哔哩;亲真的是有正...
3分钟透视!聚星扑克进去后操作... 3分钟透视!聚星扑克进去后操作,wpk俱乐部有外挂,德州wpk原来是有挂辅助挂(2022已更新)-哔...
一分钟了解!(wpk私人局)w... 一分钟了解!(wpk私人局)wpk ai机器人(软件透明挂)确实有辅助挂原来一直都是有挂(2020已...
3分钟了解!(蜀州麻将大福)真... 3分钟了解!(蜀州麻将大福)真的是有挂吗,微乐福建麻将2025已更新详细教程(有挂方略)-哔哩哔哩是...
二分钟神器!微扑克辅助工具,w... 二分钟神器!微扑克辅助工具,wpk 辅助工具,Wepoke数据有挂其实真的是有挂(2025已更新)-...