正则表达式在Python中的高级应用:从HTML中提取数据
创始人
2024-12-28 02:11:39
0

正则表达式在Python中的高级应用:从HTML中提取数据

作为一名资深的Python程序员,我深知正则表达式在文本处理中的重要性。尤其是在处理HTML文档时,正则表达式可以成为我们提取数据的强大工具。在本文中,我将通过一个实际的例子,介绍如何使用正则表达式从HTML文件中提取电影排名、名称、导演和主演的信息。

引言

在Web开发和数据抓取中,经常需要从HTML文档中提取有用的信息。虽然有许多库(如BeautifulSoup)可以简化这一过程,但有时我们可能需要更灵活或更轻量级的解决方案。正则表达式提供了一种强大的方式来匹配和提取文本模式。

环境准备

首先,确保你的Python环境中已经安装了re模块。这是Python的标准库之一,用于处理正则表达式。

读取HTML文件

我们从一个名为top250.html的文件开始,假设这个文件包含了电影排名的HTML内容。

import re  f = open('top250.html', mode="r", encoding="utf-8") content = f.read() f.close() 

正则表达式的应用

编译正则表达式

为了提高效率,我们首先编译一个正则表达式,用于匹配

  • 标签内的所有内容。

    obj_li = re.compile(r"
  • (?P
  • .*?)
  • ", re.S)

    这里使用了re.S标志,它使得.匹配包括换行符在内的任何字符。

    分解提取每一项内容

    接下来,我们定义多个正则表达式,分别用于提取排名、名称、导演和主演的信息。

    obj_rank = re.compile(r'(?P.*?)') obj_title = re.compile(r'(?P.*?)</span>') obj_dao = re.compile(r'导演: (?P<dao>.*?) ') obj_zhu = re.compile(r'主演: (?P<zhu>.*?)<br>') obj_zhu_2 = re.compile(r'主演: (?P<zhu>.*?)<p>') </code></pre> <h4>迭代提取每一项数据</h4><p>我们使用<code>finditer</code>方法迭代匹配到的每个<code><li></code>标签,并使用定义好的正则表达式提取相关信息。</p> <pre><code class="prism language-python">li_iter = obj_li.finditer(content) for li in li_iter:     li_code = li.group("li")     rank = obj_rank.search(li_code).group("rank")     title = obj_title.search(li_code).group("title")     dao = obj_dao.search(li_code).group("dao")      zhu1 = obj_zhu.search(li_code)     if zhu1:         zhu = zhu1.group("zhu")     else:         zhu2 = obj_zhu_2.search(li_code)         if zhu2:             zhu = zhu2.group("zhu")         else:             zhu = ""      print(rank, title, zhu) </code></pre> <h3>处理特殊情况</h3><p>在实际应用中,HTML的结构可能会有所不同。为了应对这种情况,我们提供了多个正则表达式来匹配不同的格式。例如,主演信息可能在不同的标签中显示。</p><h3>总结</h3><p>通过使用正则表达式,我们可以灵活地从HTML文档中提取所需的数据。尽管这种方法在某些情况下可能不如使用专门的HTML解析库(如BeautifulSoup)直观,但它提供了一种快速、灵活且不依赖外部库的解决方案。</p><h3>进一步的思考</h3><p>虽然正则表达式在许多情况下非常有效,但它们也有一些局限性。例如,正则表达式不擅长处理嵌套的HTML标签。在这种情况下,使用HTML解析库可能是更好的选择。此外,正则表达式的性能也可能受到复杂度的影响,因此在处理大量数据时需要谨慎。</p><p>希望本文能够帮助你更好地理解和应用正则表达式在Python中的高级应用。如果你有任何问题或需要进一步的帮助,请随时与我联系。让我们一起探索Python编程的更多可能性!</p><link href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/markdown_views-f23dff6052.css" rel="stylesheet"><link href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/style-c216769e99.css" rel="stylesheet">                <!--end::Text-->
                </div>
                <!--end::Description-->
                <div class="mt-5">
                    <!--关键词搜索-->
                                </div>
                <div class="mt-5">
                    <p class="fc-show-prev-next">
                        <strong>上一篇:</strong><a href="/kaifa/616455.html">6分钟了解!(五喜休闲)外挂辅助器插件!(透视)详细教程(2022已更新)(哔哩哔哩)</a><br>
                    </p>
                    <p class="fc-show-prev-next">
                        <strong>下一篇:</strong><a href="/kaifa/616460.html">7分钟了解!wepoke软件透明挂辅助神器,微扑克真的有挂存在的(有挂存在)-哔哩哔哩</a>                </p>
                </div>
                <!--begin::Block-->
                <div class="d-flex flex-stack mb-2 mt-10">
                    <!--begin::Title-->
                    <h3 class="text-dark fs-5 fw-bold text-gray-800">相关内容</h3>
                    <!--end::Title-->
                </div>
                <div class="separator separator-dashed mb-9"></div>
                <!--end::Block-->
                <div class="row g-10">
                   
    
                </div>
    
    
            </div>
            <!--end::Table widget 14-->
        </div>
        <!--end::Col-->
    
        <!--begin::Col-->
        <div class="col-xl-4 mt-0">
            <!--begin::Chart Widget 35-->
            <div class="card card-flush h-md-100">
                <!--begin::Header-->
                <div class="card-header pt-5 ">
                    <!--begin::Title-->
                    <h3 class="card-title align-items-start flex-column">
                        <!--begin::Statistics-->
                        <div class="d-flex align-items-center mb-2">
                            <!--begin::Currency-->
                            <span class="fs-5 fw-bold text-gray-800 ">热门资讯</span>
                            <!--end::Currency-->
                        </div>
                        <!--end::Statistics-->
                    </h3>
                    <!--end::Title-->
                </div>
                <!--end::Header-->
                <!--begin::Body-->
                <div class="card-body pt-3">
    
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('https://img2.pic99.top/ypkjmy/202412/5e1c664c59fea44.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922866.html" class="text-dark fw-bold text-hover-primary fs-6">一分钟内幕!科乐吉林麻将系统发...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">一分钟内幕!科乐吉林麻将系统发牌规律,福建大玩家确实真的是有挂,技巧教程(有挂ai代打);所有人都在...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('/uploadfile/202509/64a05aecb374c63.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922865.html" class="text-dark fw-bold text-hover-primary fs-6">一分钟揭秘!微扑克辅助软件(透...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">一分钟揭秘!微扑克辅助软件(透视辅助)确实是有挂(2024已更新)(哔哩哔哩);1、用户打开应用后不...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('/uploadfile/202509/b9965a4355c5fe.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922857.html" class="text-dark fw-bold text-hover-primary fs-6">五分钟发现!广东雀神麻雀怎么赢...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">五分钟发现!广东雀神麻雀怎么赢,朋朋棋牌都是是真的有挂,高科技教程(有挂方法)1、广东雀神麻雀怎么赢...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('/uploadfile/202509/be76740ed241c5e.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922856.html" class="text-dark fw-bold text-hover-primary fs-6">每日必看!人皇大厅吗(透明挂)...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">每日必看!人皇大厅吗(透明挂)好像存在有挂(2026已更新)(哔哩哔哩);人皇大厅吗辅助器中分为三种...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('/uploadfile/202509/2a0332d81f59509.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922848.html" class="text-dark fw-bold text-hover-primary fs-6">重大科普!新华棋牌有挂吗(透视...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">重大科普!新华棋牌有挂吗(透视)一直是有挂(2021已更新)(哔哩哔哩)1、完成新华棋牌有挂吗的残局...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('/uploadfile/202509/5249f4ebc5cfe1f.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922846.html" class="text-dark fw-bold text-hover-primary fs-6">二分钟内幕!微信小程序途游辅助...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">二分钟内幕!微信小程序途游辅助器,掌中乐游戏中心其实存在有挂,微扑克教程(有挂规律)二分钟内幕!微信...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('https://img2.pic99.top/ypkjmy/202408/5cac5a6019e4a30.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922840.html" class="text-dark fw-bold text-hover-primary fs-6">科技揭秘!jj斗地主系统控牌吗...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">科技揭秘!jj斗地主系统控牌吗(透视)本来真的是有挂(2025已更新)(哔哩哔哩)1、科技揭秘!jj...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('https://img2.pic99.top/ypkjmy/202412/5e1c664c59fea44.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922836.html" class="text-dark fw-bold text-hover-primary fs-6">1分钟普及!哈灵麻将攻略小,微...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">1分钟普及!哈灵麻将攻略小,微信小程序十三张好像存在有挂,规律教程(有挂技巧)哈灵麻将攻略小是一种具...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('https://img2.pic99.top/ypkjmy/202408/71ea34de9a3c82f.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922829.html" class="text-dark fw-bold text-hover-primary fs-6">9分钟教程!科乐麻将有挂吗,传...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">9分钟教程!科乐麻将有挂吗,传送屋高防版辅助(总是存在有挂)1、完成传送屋高防版辅助透视辅助安装,帮...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                                    <!--begin::Item-->
                    <div class="d-flex flex-stack mb-7">
                        <!--begin::Symbol-->
                        <div class="symbol symbol-60px symbol-2by3 me-4">
                            <div class="symbol-label" style="background-image: url('https://img2.pic99.top/ypkjmy/202408/5cac5a6019e4a30.jpg')"></div>
                        </div>
                        <!--end::Symbol-->
                        <!--begin::Title-->
                        <div class="m-0">
                            <a href="/kaifa/1922827.html" class="text-dark fw-bold text-hover-primary fs-6">每日必看教程!兴动游戏辅助器下...</a>
                            <span class="text-gray-600 fw-semibold d-block pt-1 fs-7">每日必看教程!兴动游戏辅助器下载(辅助)真是真的有挂(2025已更新)(哔哩哔哩)1、打开软件启动之...</span>
                        </div>
                        <!--end::Title-->
                    </div>
                    
                </div>
                <!--end::Body-->
            </div>
            <!--end::Chart Widget 35-->
        </div>
        <!--end::Col-->
    </div>
    
    
    
    </div>
    <!--end::Content container-->
    </div>
    <!--end::Content-->
    </div>
    <!--end::Content wrapper-->
    <!--begin::Footer-->
    <div id="kt_app_footer" class="app-footer">
        <!--begin::Footer container-->
        <div class="app-container container-xxl d-flex flex-column flex-md-row flex-center flex-md-stack py-3">
            <!--begin::Copyright-->
            <div class="text-dark order-2 order-md-1">
                <span class="text-muted fw-semibold me-1">2025 ©</span>
                一品科技<a href="http://www.mj938.cn/">民间生活网</a><a href="http://code.shayuweb.com/">鲨鱼编程</a>        </div>
            <!--end::Copyright-->
            <!--begin::Menu-->
            <ul class="menu menu-gray-600 menu-hover-primary fw-semibold order-1">
                            <li class="menu-item">
                    <a href="/news/" target="_blank" class="menu-link px-2">科技资讯</a>
                </li>
                            <li class="menu-item">
                    <a href="/kaifa/" target="_blank" class="menu-link px-2">开发测试</a>
                </li>
                            <li class="menu-item">
                    <a href="/jishu/" target="_blank" class="menu-link px-2">技术分享</a>
                </li>
                            <li class="menu-item">
                    <a href="/zhishi/" target="_blank" class="menu-link px-2">知识问答</a>
                </li>
                        </ul>
            <!--end::Menu-->
        </div>
        <!--end::Footer container-->
    </div>
    <!--end::Footer-->
    </div>
    <!--end:::Main-->
    </div>
    <!--end::Wrapper-->
    </div>
    <!--end::Page-->
    </div>
    <!--end::App-->
    <div id="kt_scrolltop" class="scrolltop" data-kt-scrolltop="true">
        <!--begin::Svg Icon | path: icons/duotune/arrows/arr066.svg-->
        <span class="svg-icon">
            <svg width="24" height="24" viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg">
                <rect opacity="0.5" x="13" y="6" width="13" height="2" rx="1" transform="rotate(90 13 6)" fill="currentColor"></rect>
                <path d="M12.5657 8.56569L16.75 12.75C17.1642 13.1642 17.8358 13.1642 18.25 12.75C18.6642 12.3358 18.6642 11.6642 18.25 11.25L12.7071 5.70711C12.3166 5.31658 11.6834 5.31658 11.2929 5.70711L5.75 11.25C5.33579 11.6642 5.33579 12.3358 5.75 12.75C6.16421 13.1642 6.83579 13.1642 7.25 12.75L11.4343 8.56569C11.7467 8.25327 12.2533 8.25327 12.5657 8.56569Z" fill="currentColor"></path>
            </svg>
        </span>
        <!--end::Svg Icon-->
    </div>
    <!--begin::Javascript-->
    <script>var hostUrl = "/static/default/pc/";</script>
    <!--begin::Global Javascript Bundle(mandatory for all pages)-->
    <script src="/static/default/pc/plugins/global/plugins.bundle.js"></script>
    <script src="/static/default/pc/js/scripts.bundle.js"></script>
    <!--end::Global Javascript Bundle-->
    
    <!--end::Javascript-->
    </body>
    <!--end::Body-->
    </html>