Langchain 对pdf,word,txt等不同文件的加载解析
创始人
2024-12-27 01:35:45
0

项目中遇到各种数据资源想要加载近langchain构建本地知识ai系统,怎么加载对应的文件格式呢,一起研究下

引入Langchain

from langchain.document_loaders import UnstructuredWordDocumentLoader,PyPDFium2Loader,DirectoryLoader,PyPDFLoader,TextLoader import os

pdf文件加载

def load_pdf(directory_path):     data = []     for filename in os.listdir(directory_path):         if filename.endswith(".pdf"):             print(filename)             # print the file name             loader = PyPDFium2Loader(f'{directory_path}/{filename}')             print(loader)             data.append(loader.load())     return data

word文档加载如,doc或者docx格式

def load_word(directory_path):     data = []     for filename in os.listdir(directory_path):         # check if the file is a doc or docx file         # 检查所有doc以及docx后缀的文件         if filename.endswith(".doc") or filename.endswith(".docx"):             # langchain自带功能,加载word文档             loader = UnstructuredWordDocumentLoader(f'{directory_path}/{filename}')             data.append(loader.load())      return data

txt加载

def load_txt(directory_path):     data = []     for filename in os.listdir(directory_path):         if filename.endswith(".txt"):             print(filename)             loader = TextLoader(f'{directory_path}/{filename}')             print(loader)             data.append(loader.load())      return data

上述中常见的文档格式基本上都可以加载进去了,主要就是不同格式对应不同的加载方式,如果想简单也可以直接加载目录

def load_docs(directory):     loader = DirectoryLoader(directory)     documents = loader.load()     return documents

相关内容

热门资讯

科普透视!佛手在线有挂吗!好像... 科普透视!佛手在线有挂吗!好像有辅助技巧(有挂工具)-哔哩哔哩在进入佛手在线有挂吗软件靠谱后,参与本...
玩家必备攻略!阿拉斗牌作必弊视... 玩家必备攻略!阿拉斗牌作必弊视频,hhpoker可以开挂吗,机巧教程(有挂工具)-哔哩哔哩一、阿拉斗...
必备透视!约局吧是否有挂,微乐... 必备透视!约局吧是否有挂,微乐小程序修复系统有用吗,练习教程(新版有挂)-哔哩哔哩1、下载好约局吧是...
开挂透视!hhpoker俱乐部... 开挂透视!hhpoker俱乐部是干嘛的,哈糖大菠萝有挂吗5个常用方法,教程书教程(有挂分析)-哔哩哔...
详情透视!pokemmo辅助器... 详情透视!pokemmo辅助器!竟然是有辅助工具(存在有挂)-哔哩哔哩小薇(辅助器软件下载)致您一封...
免费测试版!传送屋app辅助,... 免费测试版!传送屋app辅助,拱趴大菠萝有什么挂,绝活教程(确实有挂)-哔哩哔哩;1.拱趴大菠萝有什...
总结透视!wepoker辅助器... 总结透视!wepoker辅助器,微信小程序微乐辅助器免费版,妙招教程(有挂讲解)-哔哩哔哩1、wep...
必备透视!黑侠破解wepoke... 必备透视!黑侠破解wepoker,xpoker辅助怎么用,积累教程(证实有挂)-哔哩哔哩1、每一步都...
必备透视!约局吧德州透视!都是... 必备透视!约局吧德州透视!都是真的有辅助工具(讲解有挂)-哔哩哔哩1、上手简单,内置详细流程视频教学...
一分钟教会你!微信开心十三张脚... 一分钟教会你!微信开心十三张脚本,aapoker透视脚本,法门教程(有挂教程)-哔哩哔哩微信开心十三...