使用 Scrapy 框架对重复的 url 无法获取数据,dont_filter=True
创始人
2024-11-21 07:06:36
0

 场景:代码没有报错,而且确定 xpath 表达式正确解析。

可能的原因是:你使用了 Scrapy 对重复的 url 进行请求。

Scrapy 内置了重复过滤功能,默认情况下该功能处于打开状态。

如下实例,parse2 无法被调用:

import scrapy  class ExampleSpider(scrapy.Spider):     name ="test"     # allowed_domains = ["https://www.baidu.com/"]      start_urls = ["https://www.baidu.com/"]      def parse(self,response):         yield scrapy.Request(self.start_urls[0],callback=self.parse2)      def parse2(self, response):         print(response.url)

Scrapy 在进入 parse 时,会默认请求一次 start_urls[0],而当你在 parse 中又对 start_urls[0] 进行请求时,Scrapy 底层会默认过滤掉重复的 url,不会对该请求进行提交,这就是为什么 parse2 不被调用的原因。

解决方法:

添加 dont_filter=True 参数,这样 Scrapy 就不会过滤掉重复的请求。

import scrapy  class ExampleSpider(scrapy.Spider):     name ="test"     # allowed_domains = ["https://www.baidu.com/"]      start_urls = ["https://www.baidu.com/"]      def parse(self,response):         yield scrapy.Request(self.start_urls[0],callback=self.parse2,dont_filter=True)      def parse2(self, response):         print(response.url)

此时,parse2 会被正常调用。

相关内容

热门资讯

9分钟了解!赣牌圈有挂(辅助挂... 9分钟了解!赣牌圈有挂(辅助挂)详细透视开挂辅助详细教程(竟然是有挂)-哔哩哔哩是一款可以让一直输的...
第3分钟了解!新天道辅助(辅助... 您好:新天道辅助这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好...
第7分钟了解!越乡游义乌辅助器... 第7分钟了解!越乡游义乌辅助器(辅助挂)详细透视开挂辅助科技教程(一直存在有挂)-哔哩哔哩;第7分钟...
第九分钟了解!杭州都莱大菠萝辅... 第九分钟了解!杭州都莱大菠萝辅助器(辅助挂)详细透视开挂辅助细节方法(一直是有挂)-哔哩哔哩是一款可...
第八分钟了解!手游字牌辅助脚本... 第八分钟了解!手游字牌辅助脚本工具(辅助挂)详细透视开挂辅助必赢方法(真是真的是有挂)-哔哩哔哩;手...
1分钟了解!闲逸透视免费版官方... 1分钟了解!闲逸透视免费版官方入口在哪里(辅助挂)详细透视开挂辅助wpk教程(一贯是有挂)-哔哩哔哩...
1分钟了解!杭州都莱辅助软件(... 1分钟了解!杭州都莱辅助软件(辅助挂)详细透视开挂辅助2025新版教程(原来是有挂)-哔哩哔哩;杭州...
3分钟了解!四川辅助软件(辅助... 3分钟了解!四川辅助软件(辅助挂)详细透视开挂辅助可靠教程(确实真的是有挂)-哔哩哔哩;《3分钟了解...
九分钟了解!边锋老友荣成辅助(... 您好:边锋老友荣成辅助这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌...
7分钟了解!欢乐达人正版脚本(... 您好:欢乐达人正版脚本这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌...