Langchain 对pdf,word,txt等不同文件的加载解析
创始人
2024-12-27 01:35:45
0

项目中遇到各种数据资源想要加载近langchain构建本地知识ai系统,怎么加载对应的文件格式呢,一起研究下

引入Langchain

from langchain.document_loaders import UnstructuredWordDocumentLoader,PyPDFium2Loader,DirectoryLoader,PyPDFLoader,TextLoader import os

pdf文件加载

def load_pdf(directory_path):     data = []     for filename in os.listdir(directory_path):         if filename.endswith(".pdf"):             print(filename)             # print the file name             loader = PyPDFium2Loader(f'{directory_path}/{filename}')             print(loader)             data.append(loader.load())     return data

word文档加载如,doc或者docx格式

def load_word(directory_path):     data = []     for filename in os.listdir(directory_path):         # check if the file is a doc or docx file         # 检查所有doc以及docx后缀的文件         if filename.endswith(".doc") or filename.endswith(".docx"):             # langchain自带功能,加载word文档             loader = UnstructuredWordDocumentLoader(f'{directory_path}/{filename}')             data.append(loader.load())      return data

txt加载

def load_txt(directory_path):     data = []     for filename in os.listdir(directory_path):         if filename.endswith(".txt"):             print(filename)             loader = TextLoader(f'{directory_path}/{filename}')             print(loader)             data.append(loader.load())      return data

上述中常见的文档格式基本上都可以加载进去了,主要就是不同格式对应不同的加载方式,如果想简单也可以直接加载目录

def load_docs(directory):     loader = DirectoryLoader(directory)     documents = loader.load()     return documents

相关内容

热门资讯

发现玩家(德州ai软件购买)德... 1、发现玩家(德州ai软件购买)德州ai人工智能(素来真的有挂)-哔哩哔哩。2、德州ai人工智能透视...
最新技巧!“wpk最新黑科技”... 最新技巧!“wpk最新黑科技”wpkai辅助(wpK)果然是有挂(真是有挂)-哔哩哔哩1、实时wpk...
黑科技数据“wepoke辅助插... 黑科技数据“wepoke辅助插件”wepoke怎么看有没有外挂(辅助挂)切实存在有挂(真实有挂)-哔...
热点推荐(德州辅助神器软件)德... 热点推荐(德州辅助神器软件)德州ai代打(切实是真的有挂)-哔哩哔哩;wpk透视辅助官方版是专为公司...
玩家必备科技!“wpk ai辅... 1、玩家必备科技!“wpk ai辅助”wpk有辅助挂吗(Wpk)切实有挂(有挂透视)-哔哩哔哩;详细...
黑科技脚本“wepoke黑科技... 黑科技脚本“wepoke黑科技”wepoke有透视挂吗(ai辅助)一直是有挂(有挂规律)-哔哩哔哩1...
记者爆料(德州ai辅助)德州之... 记者爆料(德州ai辅助)德州之星app辅助器怎么用(本然有挂)-哔哩哔哩相信很多朋友都在电脑上玩过德...
记者揭秘!“wpk ai辅助”... 记者揭秘!“wpk ai辅助”wpk外挂第一视角(Wpk)本来是真的有挂(竟然有挂)-哔哩哔哩;一、...
黑科技脚本“wepoke辅助插... 黑科技脚本“wepoke辅助插件”wepoke透明挂哪里有(ai代打)本来是有挂(有挂头条)-哔哩哔...
今日重大通报(德州辅助神器软件... 今日重大通报(德州辅助神器软件)德州ai机器人(本然是真的有挂)-哔哩哔哩;揭秘教程安装方法样式多选...