使用 Scrapy 框架对重复的 url 无法获取数据，dont_filter=True_开发测试

使用 Scrapy 框架对重复的 url 无法获取数据，dont_filter=True

创始人

2024-11-21 07:06:36

0次

场景：代码没有报错，而且确定 xpath 表达式正确解析。

可能的原因是：你使用了 Scrapy 对重复的 url 进行请求。

Scrapy 内置了重复过滤功能，默认情况下该功能处于打开状态。

如下实例，parse2 无法被调用：

import scrapy  class ExampleSpider(scrapy.Spider):     name ="test"     # allowed_domains = ["https://www.baidu.com/"]      start_urls = ["https://www.baidu.com/"]      def parse(self,response):         yield scrapy.Request(self.start_urls[0],callback=self.parse2)      def parse2(self, response):         print(response.url)

Scrapy 在进入 parse 时，会默认请求一次 start_urls[0]，而当你在 parse 中又对 start_urls[0] 进行请求时，Scrapy 底层会默认过滤掉重复的 url，不会对该请求进行提交，这就是为什么 parse2 不被调用的原因。

解决方法：

添加 dont_filter=True 参数，这样 Scrapy 就不会过滤掉重复的请求。

import scrapy  class ExampleSpider(scrapy.Spider):     name ="test"     # allowed_domains = ["https://www.baidu.com/"]      start_urls = ["https://www.baidu.com/"]      def parse(self,response):         yield scrapy.Request(self.start_urls[0],callback=self.parse2,dont_filter=True)      def parse2(self, response):         print(response.url)

此时，parse2 会被正常调用。

上一篇：python爬虫工程师，如何从零开始部署Scrapyd+Feapder+Gerapy？

下一篇：Scrapy 爬取m3u8视频

热门资讯

9分钟了解!赣牌圈有挂(辅助挂... 9分钟了解!赣牌圈有挂(辅助挂)详细透视开挂辅助详细教程(竟然是有挂)-哔哩哔哩是一款可以让一直输的...

第3分钟了解!新天道辅助(辅助... 您好：新天道辅助这款游戏可以开挂的，确实是有挂的，很多玩家在这款游戏中打牌都会发现很多用户的牌特别好...

第7分钟了解!越乡游义乌辅助器... 第7分钟了解!越乡游义乌辅助器(辅助挂)详细透视开挂辅助科技教程(一直存在有挂)-哔哩哔哩；第7分钟...

第九分钟了解!杭州都莱大菠萝辅... 第九分钟了解!杭州都莱大菠萝辅助器(辅助挂)详细透视开挂辅助细节方法(一直是有挂)-哔哩哔哩是一款可...

第八分钟了解!手游字牌辅助脚本... 第八分钟了解!手游字牌辅助脚本工具(辅助挂)详细透视开挂辅助必赢方法(真是真的是有挂)-哔哩哔哩；手...

1分钟了解!闲逸透视免费版官方... 1分钟了解!闲逸透视免费版官方入口在哪里(辅助挂)详细透视开挂辅助wpk教程(一贯是有挂)-哔哩哔哩...

1分钟了解!杭州都莱辅助软件(... 1分钟了解!杭州都莱辅助软件(辅助挂)详细透视开挂辅助2025新版教程(原来是有挂)-哔哩哔哩；杭州...

3分钟了解!四川辅助软件(辅助... 3分钟了解!四川辅助软件(辅助挂)详细透视开挂辅助可靠教程(确实真的是有挂)-哔哩哔哩；《3分钟了解...

九分钟了解!边锋老友荣成辅助(... 您好：边锋老友荣成辅助这款游戏可以开挂的，确实是有挂的，很多玩家在这款游戏中打牌都会发现很多用户的牌...

7分钟了解!欢乐达人正版脚本(... 您好：欢乐达人正版脚本这款游戏可以开挂的，确实是有挂的，很多玩家在这款游戏中打牌都会发现很多用户的牌...

使用 Scrapy 框架对重复的 url 无法获取数据，dont_filter=True

相关内容

热门资讯