爬虫案例(读书网)(下)
创始人
2024-12-28 13:36:52
0

上篇链接:

CSDN-读书网icon-default.png?t=N7T8https://mp.csdn.net/mp_blog/creation/editor/139306808

可以看见基本的全部信息:如(author、bookname、link.....)

 写下代码如下:

import requests from bs4 import BeautifulSoup from lxml import etree  headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'} link="https://www.dushu.com/" r=requests.get(link,headers=headers) r.encoding='utf-8'  soup=BeautifulSoup(r.text,'lxml') house_list=soup.find_all('div',class_="border books-center") html=etree.HTML(r.text)     # name=html.xpath('//div[@class="property-content-title"]/h3/text()') # for house in house_list: #     name=soup.find('div',class_="nlist").a.strong.text() # #     print(name) name=html.xpath('//div[@class="bookname"]/a/text()') author=html.xpath('//div[@class="bookauthor"]/text()') # href=html.xpath('//div[@class="nlist"]/div/ul/li/a/@href')  #print(type(author)) for i,o in zip(name,author):     print('<<'+i+'>>',o)

运行结果:

接下来添加link链接:

可以看见现在网站设置了反爬,我们现在通过检查浏览器能正常爬取还是有反爬:

# 请用 python+selenium  爬取 XXX 网站上的所有a链接的 href属性并访问,输出访问地址和状态码 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import requests  driver = webdriver.Chrome() # 这里以百度为例 driver.get("https://www.dushu.com/")  wait = WebDriverWait(driver, 10) links = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a")))  # 遍历所有的链接元素,并输出href属性值 for link in links:     href = link.get_attribute("href")     if href.startswith("http"):         response = requests.get(href)         print(href, response.status_code)     else:         link.click()         print(driver.current_url, driver.execute_script('return document.readyState'),               requests.get(driver.current_url).status_code)  # 关闭浏览器 driver.quit()

 运行结果:

 

现在可以看出是反爬。

最后我们的解析反爬,在下一篇文章详细介绍几个方法和使用效果。 

相关内容

热门资讯

1分钟总结!微新欢乐卡五星辅助... 1分钟总结!微新欢乐卡五星辅助(脚本)切实真的是有辅助插件(哔哩哔哩)1、不需要AI权限,帮助你快速...
第四分钟练习!青山晃晃辅助器(... 第四分钟练习!青山晃晃辅助器(脚本)真是一直都是有辅助软件(哔哩哔哩)1、用户打开应用后不用登录就可...
五分钟指引!wepoker免费... 五分钟指引!wepoker免费脚本(脚本)真是真的是有辅助神器(哔哩哔哩)1、每一步都需要思考,不同...
第四分钟方案!月兔茶馆游戏破解... 第四分钟方案!月兔茶馆游戏破解版(脚本)都是是有辅助攻略(哔哩哔哩)1、实时月兔茶馆游戏破解版透视辅...
第2分钟演示!衢州都莱怎么透视... 第2分钟演示!衢州都莱怎么透视(脚本)一贯是有辅助攻略(哔哩哔哩)1、点击下载安装,衢州都莱怎么透视...
八分钟大纲!中至赣牌圈科技(脚... 八分钟大纲!中至赣牌圈科技(脚本)总是是有辅助插件(哔哩哔哩)1、完成中至赣牌圈科技有辅助插件,帮助...
第十分钟办法!新畅游互娱科技(... 第十分钟办法!新畅游互娱科技(脚本)切实一直都是有辅助攻略(哔哩哔哩);1、起透看视 新畅游互娱科技...
第九分钟项目!混沌休闲辅助(脚... 第九分钟项目!混沌休闲辅助(脚本)真是有辅助方法(哔哩哔哩)所有人都在同一条线上,像星星一样排成一排...
第8分钟手段!潮汕来物局透视脚... 第8分钟手段!潮汕来物局透视脚本(脚本)果然一直都是有辅助教程(哔哩哔哩)1、在潮汕来物局透视脚本插...
两分钟演示!福建天天开心辅助工... 两分钟演示!福建天天开心辅助工具下载(脚本)本来真的有辅助攻略(哔哩哔哩)1、游戏颠覆性的策略玩法,...