简介

Pathway AI Pipelines 是一个强大的平台,旨在帮助开发者快速将AI应用投入生产,尤其是在构建需要高精度RAG(检索增强生成)和大规模AI企业搜索的场景。该平台利用数据源中最新的知识,确保搜索结果和生成内容的准确性。它提供了开箱即用的LLM(大型语言模型)应用模板,支持在本地机器上进行测试,并可部署到云端(如GCP、AWS、Azure、Render等)或本地环境。

Pathway AI Pipelines 的核心优势在于其无缝的数据集成与同步能力。它能够连接并实时同步来自各种数据源的数据,包括文件系统、Google Drive、Sharepoint、S3、Kafka、PostgreSQL以及实时数据API。这意味着数据的任何新增、删除或更新都会即时反映在AI应用中。此外,这些应用无需额外的基础设施设置,因为它们内置了数据索引功能,支持向量搜索、混合搜索和全文搜索,所有操作都在内存中完成,并配备了缓存机制,极大简化了部署和维护的复杂性。

应用模板

Pathway AI Pipelines 提供的应用模板具有出色的可扩展性,能够处理数百万页的文档。部分模板针对简单性进行了优化,而另一些则追求卓越的准确性,用户可以根据自身需求选择最合适的模板。这些模板既可以直接使用,也可以轻松定制。例如,若需添加新的数据源,或将向量索引改为混合索引,通常只需修改一行代码即可完成。

以下是Pathway AI Pipelines提供的一些核心应用模板:

  • 问答型RAG应用:一个端到端的基础RAG应用。它利用用户选择的GPT模型,根据实时连接的数据源(如文件、Google Drive、Sharepoint等)中的文档(PDF、DOCX等)回答查询。
  • 实时文档索引(向量存储/检索器):一个用于RAG的实时文档索引管道,可作为向量存储服务。它能对连接的数据源(文件、Google Drive、Sharepoint等)中的文档(PDF、DOCX等)进行实时索引。该服务可以与任何前端配合使用,也可作为LangchainLlamaindex应用的检索后端进行集成。
  • 基于GPT-4o的多模态RAG管道:利用GPT-4o在解析阶段处理PDF及其他文档,实现多模态RAG。它非常适合从文件夹中的非结构化财务文档(包括图表和表格)中提取信息,并随着文档的更改或新文档的到来实时更新结果。
  • 非结构化数据到SQL管道及SQL问答:一个RAG示例,连接到非结构化财务数据源(如财务报告PDF),将数据结构化为SQL,并加载到PostgreSQL表中。它还能通过LLM将自然语言用户查询翻译成SQL,并对PostgreSQL表执行查询,从而回答有关这些财务文档的问题。
  • 自适应RAG应用:一个采用Adaptive RAG技术的RAG应用,Pathway开发的这项技术能够在保持准确性的同时,将RAG的令牌成本降低多达4倍。
  • 基于Mistral和Ollama的私有RAG应用demo-question-answering RAG管道的完全私有(本地)版本,利用Pathway、Mistral和Ollama实现。
  • 演示文稿AI搜索应用:一个用于检索幻灯片的索引管道。它对PowerPoint和PDF进行多模态处理,并维护幻灯片的实时索引。

Pathway AI 管道的工作原理

Pathway AI Pipelines 应用可以作为Docker容器运行,并提供HTTP API接口以连接前端。为了方便快速测试和演示,一些应用模板还包含一个可选的Streamlit UI,它连接到这些API。

这些应用的核心是Pathway Live Data框架,该框架负责数据源同步和API请求服务(Pathway是一个独立的Python库,内置Rust引擎)。它为后端、嵌入、检索和LLM技术栈带来了简单而统一的应用逻辑。这意味着开发者无需集成和维护单独的模块来构建其生成式AI应用,避免了传统上需要结合向量数据库(如Pinecone/Weaviate/Qdrant)、缓存(如Redis)和API框架(如Fast API)的复杂性。Pathway默认内置的向量索引基于闪电般快速的usearch库,而混合全文索引则利用Tantivy库。所有这些都开箱即用,极大地简化了开发流程。

如何开始

本仓库中的每个应用模板都包含一个README.md文件,提供了详细的运行说明。

您还可以在Pathway网站上找到更多即用型代码模板

视觉亮点概览

Pathway AI Pipelines 提供了直观的功能展示,例如:

  • 多模态RAG:能够实时轻松地从PDF、文档等中提取和组织表格及图表数据。这种能力使得处理非结构化信息变得前所未有的高效。
  • 自动化实时知识挖掘和警报:通过自动化的流程,系统能够实时从连接的数据源中挖掘知识,并在关键信息发生变化时提供警报。

资源与社区

  • 操作视频

    • 一段关于使用Pathway构建LLM应用的入门介绍视频。
    • 一个在11分钟内构建真实世界LLM应用的教程视频。
  • 故障排除

    • 如果您想提供反馈或报告错误,请在Pathway的问题追踪器上提交问题。
  • 贡献

    • 我们非常鼓励任何人对本项目做出贡献,无论是文档、功能、错误修复、代码清理、测试还是代码审查。如果您是首次参与GitHub项目,可以参考入门指南
    • 如果您希望进行更复杂的贡献,可以在Pathway Discord服务器的#get-help频道中提出您的计划。
  • 支持与维护

    • 本项目由Pathway团队提供支持和维护。Pathway还提供了一系列AI应用解决方案

查看更多详情