浅学爬虫-HTML和CSS结构_开发测试

浅学爬虫-HTML和CSS结构

创始人

2024-11-14 18:04:25

0次

HTML结构

HTML（HyperText Markup Language）是构建网页的基础语言。它通过标签（Tags）来定义网页的结构和内容。HTML文档的基本结构如下：

                   Document           这是标题
     这是一个段落。
     这是一个链接

基本标签介绍:

: 声明文档类型，告诉浏览器这是一个HTML5文档。
: HTML文档的根元素，表示整个HTML文档。
: 包含页面的元数据，如编码、标题、样式等。
: 声明文档的字符编码为UTF-8。
</code>: 设置网页的标题，显示在浏览器标签页上。</li><li id="ub7ee8ef5"><code><body></code>: 包含网页的可见内容。</li><li id="u4caaa995"><code><h1></code>: 一级标题，用于定义重要的标题。</li><li id="u803bc724"><code><p></code>: 段落，用于定义文本段落。</li><li id="u86383727"><code><a></code>: 超链接，用于创建链接。</li></ul><p id="u80fe577e"><strong>其他常用标签</strong>:</p><ul><li id="u28578ce2"><code><h1></code> - <code><h6></code>: 标题标签，<code><h1></code>表示最高级别的标题，<code><h6></code>表示最低级别的标题。</li><li id="u33b92236"><code><div></code>: 区块元素，用于定义文档中的分区或节。</li><li id="u173508ce"><code><span></code>: 内联元素，用于对文档中的一部分文本进行分组。</li><li id="uf80636aa"><code><ul></code>: 无序列表，用于定义项目符号列表。</li><li id="u4276017f"><code><ol></code>: 有序列表，用于定义编号列表。</li><li id="u69f2c058"><code><li></code>: 列表项，用于定义列表中的项。</li><li id="u848908ba"><code><img></code>: 图像标签，用于嵌入图像。</li><li id="u1741ce37"><code><table></code>: 表格标签，用于创建表格结构。</li></ul><h5 id="LDO3r">CSS选择器</h5><p id="u045d4a81">CSS（Cascading Style Sheets）用于控制HTML文档的样式。选择器是CSS中用于选取元素的模式。常见的CSS选择器包括：</p><ul><li id="u6d0e89e8"><strong>标签选择器</strong>: 选取指定标签的所有元素。</li></ul> <pre id="bDBbt"><code class="language-css">p { color: blue; }</code></pre> <ul><li id="u4a0ae135"><strong>类选择器</strong>: 选取具有指定类属性的所有元素，类名以<code>.</code>开头。</li></ul> <pre id="SGmIR"><code class="language-css">.example { font-size: 16px; }</code></pre> <ul><li id="ucba9328d"><strong>ID选择器</strong>: 选取具有指定ID属性的元素，ID名以<code>#</code>开头。</li></ul> <pre id="My4OI"><code class="language-css">#header { background-color: gray; }</code></pre> <ul><li id="u962819fb"><strong>属性选择器</strong>: 选取具有指定属性的元素。</li></ul> <pre id="tgt13"><code class="language-css">[type="text"] { border: 1px solid black; }</code></pre> <ul><li id="u5649df9e"><strong>后代选择器</strong>: 选取某元素内的所有指定子元素。</li></ul> <pre id="zGYG5"><code class="language-css">div p { color: red; }</code></pre> <p id="ua35a0367"><strong>其他常用选择器</strong>:</p><ul><li id="u5a0c9c09"><strong>群组选择器</strong>: 选取所有符合选择器的元素。</li></ul> <pre id="SaE4b"><code class="language-css">h1, h2, h3 { font-family: Arial, sans-serif; }</code></pre> <ul><li id="u347e65f5"><strong>子元素选择器</strong>: 选取作为某元素直接子元素的所有指定元素。</li></ul> <pre id="SKIHZ"><code class="language-css">ul > li { list-style-type: square; }</code></pre> <ul><li id="u955bec56"><strong>伪类选择器</strong>: 选取处于特定状态的元素。</li></ul> <pre id="tQX4u"><code class="language-css">a:hover { color: green; }</code></pre> <ul><li id="u98f875ea"><strong>伪元素选择器</strong>: 选取元素的某部分内容。</li></ul> <pre id="DE2OK"><code class="language-css">p::first-line { font-weight: bold; }</code></pre> <h5 id="Tu1sZ">使用BeautifulSoup解析HTML</h5><p id="uddca70a0">BeautifulSoup是一个用于解析HTML和XML文档的Python库。我们可以使用BeautifulSoup轻松地从网页中提取数据。</p><p id="u18c07f1c"><strong>步骤1：安装BeautifulSoup</strong></p> <pre id="Eyr5F"><code class="language-bash">pip install beautifulsoup4</code></pre> <p id="ufc5b95cc"><strong>步骤2：编写解析HTML的代码</strong></p> <pre id="y12cD"><code class="language-python">from bs4 import BeautifulSoup # 示例HTML html_doc = """ <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>Example Page Example Header This is a description paragraph. Example Link """ # 创建BeautifulSoup对象 soup = BeautifulSoup(html_doc, 'html.parser') # 提取标题 title = soup.title.string print(f"页面标题: {title}") # 提取一级标题 header = soup.h1.string print(f"一级标题: {header}") # 提取段落内容 description = soup.find('p', class_='description').string print(f"段落描述: {description}") # 提取链接 link = soup.find('a', id='example-link')['href'] print(f"链接地址: {link}")
代码解释:
1. 创建BeautifulSoup对象: 使用BeautifulSoup解析HTML文档。
```
soup = BeautifulSoup(html_doc, 'html.parser')
```
1. 提取标题: 使用soup.title.string提取文档的标题。
```
title = soup.title.string print(f"页面标题: {title}")
```
1. 提取一级标题: 使用soup.h1.string提取一级标题内容。
```
header = soup.h1.string print(f"一级标题: {header}")
```
1. 提取段落内容: 使用soup.find方法结合标签名和类名提取段落内容。
```
description = soup.find('p', class_='description').string print(f"段落描述: {description}")
```
1. 提取链接: 使用soup.find方法结合标签名和ID提取链接地址。
```
link = soup.find('a', id='example-link')['href'] print(f"链接地址: {link}")
```
BeautifulSoup常用方法
- find(): 返回第一个符合条件的元素。
```
soup.find('a')
```
- find_all(): 返回所有符合条件的元素列表。
```
soup.find_all('a')
```
- select(): 使用CSS选择器选取元素。
```
soup.select('a[href]')
```
- get_text(): 获取元素的文本内容。
```
soup.get_text()
```
示例解析复杂HTML
假设我们有一个更复杂的HTML文档：
```
                   Sample Page                  Sample Header
       This is a sample description.
                Link 1         Link 2       
     
    
```
我们可以编写以下代码来解析这个文档：
```
from bs4 import BeautifulSoup  # 示例HTML html_doc = """                  Sample Page                Sample Header
         This is a sample description.
                      Link 1             Link 2         
     
   """  # 创建BeautifulSoup对象 soup = BeautifulSoup(html_doc, 'html.parser')  # 提取标题 title = soup.title.string print(f"页面标题: {title}")  # 提取一级标题 header = soup.find('h1').string print(f"一级标题: {header}")  # 提取段落内容 description = soup.find('p', class_='description').string print(f"段落描述: {description}")  # 提取所有链接 links = soup.find_all('a', class_='external') for link in links:     href = link['href']     text = link.string     print(f"链接文本: {text}, 链接地址: {href}")
```
代码解释:
1. 提取所有链接: 使用soup.find_all('a', class_='external')提取所有带有class="external"的链接。
2. 遍历链接: 遍历提取到的链接，获取链接文本和地址。
结论
本文详细介绍了HTML的基本结构和常见标签，解释了CSS选择器的作用和使用方法，并通过示例展示了如何使用BeautifulSoup解析HTML并提取数据。这些基础知识将帮助初学者理解和编写爬虫。在下一篇文章中，我们将进一步探讨处理复杂网页的方法。

上一篇：小熊电器“赌一把”

下一篇：Git分布式版本控制工具

浅学爬虫-HTML和CSS结构

HTML结构

这是标题

Example Header

BeautifulSoup常用方法

示例解析复杂HTML

Sample Header

Sample Header

结论

相关内容

热门资讯