Langchain 对pdf,word,txt等不同文件的加载解析
创始人
2024-12-27 01:35:45
0

项目中遇到各种数据资源想要加载近langchain构建本地知识ai系统,怎么加载对应的文件格式呢,一起研究下

引入Langchain

from langchain.document_loaders import UnstructuredWordDocumentLoader,PyPDFium2Loader,DirectoryLoader,PyPDFLoader,TextLoader import os

pdf文件加载

def load_pdf(directory_path):     data = []     for filename in os.listdir(directory_path):         if filename.endswith(".pdf"):             print(filename)             # print the file name             loader = PyPDFium2Loader(f'{directory_path}/{filename}')             print(loader)             data.append(loader.load())     return data

word文档加载如,doc或者docx格式

def load_word(directory_path):     data = []     for filename in os.listdir(directory_path):         # check if the file is a doc or docx file         # 检查所有doc以及docx后缀的文件         if filename.endswith(".doc") or filename.endswith(".docx"):             # langchain自带功能,加载word文档             loader = UnstructuredWordDocumentLoader(f'{directory_path}/{filename}')             data.append(loader.load())      return data

txt加载

def load_txt(directory_path):     data = []     for filename in os.listdir(directory_path):         if filename.endswith(".txt"):             print(filename)             loader = TextLoader(f'{directory_path}/{filename}')             print(loader)             data.append(loader.load())      return data

上述中常见的文档格式基本上都可以加载进去了,主要就是不同格式对应不同的加载方式,如果想简单也可以直接加载目录

def load_docs(directory):     loader = DirectoryLoader(directory)     documents = loader.load()     return documents

相关内容

热门资讯

黑科技挂!微扑克怎么提高中牌率... 黑科技挂!微扑克怎么提高中牌率(透视)外挂透明挂辅助器(2026已更新)(哔哩哔哩)1、进入游戏-大...
黑科技规律(wepoke智能a... 黑科技规律(wepoke智能ai)Wepoke黑科技设备(wopoker)好像有挂(发现有挂)-哔哩...
黑科技辅助(wepoke真的有... 黑科技辅助(wepoke真的有挂)微扑克真的有挂存在(透视)揭秘教程(2023已更新)(哔哩哔哩)是...
黑科技ai代打!wopoker... 黑科技ai代打!wopoker辅助软件(透视)真是有挂(2022已更新)(哔哩哔哩)1、许多玩家不知...
一分钟快速了解(德扑助手)微扑... 一分钟快速了解(德扑助手)微扑克ai机器人伙牌(2023已更新)(哔哩哔哩),亲,有的,ai轻松简单...
黑科技科技(wepoke真的有... 黑科技科技(wepoke真的有挂)wepoke有没有挂(we-poker)本来存在有挂(竟然有挂)-...
终于清楚!红龙扑克好友桌(透视... 终于清楚!红龙扑克好友桌(透视)外挂透明挂辅助插件(2023已更新)(哔哩哔哩)终于清楚!红龙扑克好...
黑科技辅助(wepoke真的有... 您好,wepoke真的有挂这款游戏可以开挂的,确实是有挂的,需要了解加微【136704302】很多玩...
我来教大家!(AAPOKEr)... 我来教大家!(AAPOKEr)wepoke软件透明是真的吗(2023已更新)(哔哩哔哩),您好,we...
黑科技插件!aapoker有猫... 黑科技插件!aapoker有猫腻吗(透视)总是存在有挂(2022已更新)(哔哩哔哩)在进入aapok...