Langchain 对pdf,word,txt等不同文件的加载解析
创始人
2024-12-27 01:35:45
0

项目中遇到各种数据资源想要加载近langchain构建本地知识ai系统,怎么加载对应的文件格式呢,一起研究下

引入Langchain

from langchain.document_loaders import UnstructuredWordDocumentLoader,PyPDFium2Loader,DirectoryLoader,PyPDFLoader,TextLoader import os

pdf文件加载

def load_pdf(directory_path):     data = []     for filename in os.listdir(directory_path):         if filename.endswith(".pdf"):             print(filename)             # print the file name             loader = PyPDFium2Loader(f'{directory_path}/{filename}')             print(loader)             data.append(loader.load())     return data

word文档加载如,doc或者docx格式

def load_word(directory_path):     data = []     for filename in os.listdir(directory_path):         # check if the file is a doc or docx file         # 检查所有doc以及docx后缀的文件         if filename.endswith(".doc") or filename.endswith(".docx"):             # langchain自带功能,加载word文档             loader = UnstructuredWordDocumentLoader(f'{directory_path}/{filename}')             data.append(loader.load())      return data

txt加载

def load_txt(directory_path):     data = []     for filename in os.listdir(directory_path):         if filename.endswith(".txt"):             print(filename)             loader = TextLoader(f'{directory_path}/{filename}')             print(loader)             data.append(loader.load())      return data

上述中常见的文档格式基本上都可以加载进去了,主要就是不同格式对应不同的加载方式,如果想简单也可以直接加载目录

def load_docs(directory):     loader = DirectoryLoader(directory)     documents = loader.load()     return documents

相关内容

热门资讯

透明肯定!wepoker有辅助... 透明肯定!wepoker有辅助功能吗,广东雀神胜率修改,可靠教程(有挂开挂辅助神器);无需打开直接搜...
四秒钟体悟!吉祥填大坑小程序脚... 四秒钟体悟!吉祥填大坑小程序脚本,川娱竞技血战辅助(有挂开挂辅助工具);无需打开直接搜索薇:1367...
带你了解!博雅西苑曲靖棋牌辅助... 带你了解!博雅西苑曲靖棋牌辅助,葫芦娃手游辅助脚本(有挂开挂辅助挂);无需打开直接搜索加(薇:136...
透视ai!pokemmo脚本辅... 透视ai!pokemmo脚本辅助器下载,哈糖大菠萝能开挂吗,wpk教程(有挂开挂辅助插件);无需打开...
2手段!微乐家乡辅助app免费... 2手段!微乐家乡辅助app免费,广东雀神智能插件智能价格(有挂开挂辅助挂);无需打开直接搜索加(薇:...
7阶段晓得!哈糖大菠萝免费辅助... 7阶段晓得!哈糖大菠萝免费辅助器,抚州麻将牌牌局修改器(有挂开挂辅助神器);无需打开直接搜索加薇13...
普及知识!链接大厅辅助插件有哪... 普及知识!链接大厅辅助插件有哪些,越乡游辅助工具(有挂开挂辅助工具);无需打开直接搜索打开薇:136...
透明安装!广东雀神智能插件计价... 透明安装!广东雀神智能插件计价格,红龙poker有辅助吗,技巧教程(有挂开挂辅助工具);无需打开直接...
第6积累!雀神广东插件智能解码... 第6积累!雀神广东插件智能解码,小程序财神十三脚本(有挂开挂辅助平台)1、下载安装好雀神广东插件智能...
第8秒钟掌握!宝宝游戏辅助,财... 您好:财神十三张辅助这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特...