基于LLM的文档理解与语义检索框架,采用RAG范式实现深度文档分析和上下文感知问答功能。
一分钟了解#
WeKnora是一个大语言模型驱动的文档理解框架,专为处理复杂异构文档而设计。它结合多模态预处理、语义向量索引、智能检索和LLM推理,采用模块化架构,提供基于RAG的高质量上下文感知答案。适合企业知识管理、学术研究分析、产品技术支持等多种场景。
核心价值:通过RAG范式实现精准文档理解与检索,提供上下文感知的高质量问答服务。
快速上手#
安装难度:中 - 需要Docker环境,支持多种服务组合配置
# 克隆仓库
git clone https://github.com/Tencent/WeKnora.git
cd WeKnora
# 配置环境变量
cp .env.example .env
# 启动服务
docker-compose --profile full up -d
适合我的场景吗?
- ✅ 企业知识管理:内部文档检索、政策问答、操作手册查询
- ✅ 学术研究分析:论文检索、研究报告分析、学术资料整理
- ❌ 简单的静态网站内容:需要复杂语义理解和上下文对话
核心能力#
1. Agent模式 - 多轮对话与工具调用#
- 支持ReACT Agent模式,可调用内置工具、MCP工具和网络搜索
- 通过多轮迭代和反思提供全面总结报告 实际价值:突破单次问答限制,实现复杂问题分解和解决
2. 多类型知识库管理 - 灵活的知识组织#
- 支持FAQ和文档两种知识库类型
- 提供文件夹导入、URL导入、标签管理和在线录入功能 实际价值:满足不同场景的知识管理需求,提高知识发现效率
3. 精准理解 - 结构化内容提取#
- 从PDF、Word文档、图像等提取结构化内容
- 统一为语义视图进行处理 实际价值:打破文档格式壁垒,实现跨格式内容理解
4. 智能推理 - 上下文理解#
- 利用LLM理解文档上下文和用户意图
- 支持准确的问答和多轮对话 实际价值:提供更符合用户需求的回答,提高交互质量
5. 混合检索策略 - 高效信息查找#
- 结合关键词、向量和知识图检索策略
- 支持跨知识库检索 实际价值:提高检索准确率,减少漏检和误检情况
6. Web搜索扩展 - 外部知识接入#
- 支持可扩展的网页搜索引擎
- 内置DuckDuckGo搜索引擎 实际价值:突破内部知识库限制,获取最新外部信息
7. MCP工具集成 - 功能扩展#
- 通过MCP扩展Agent能力
- 支持uvx和npx启动器,多种传输方式 实际价值:无需修改核心代码即可扩展功能,增强灵活性
技术栈与集成#
开发语言:Go 主要依赖:Docker, Docker Compose, Ollama(可选) 集成方式:提供Web UI和RESTful API,支持MCP服务器
生态与扩展#
- 插件/扩展:通过MCP工具系统扩展功能,支持多种传输方式
- 集成能力:支持微信对话开放平台,实现零代码部署智能问答服务
维护状态#
- 开发活跃度:持续更新,最新版本为v0.2.0,添加了Agent模式等新功能
- 最近更新:近期增加了Agent模式、多类型知识库、Web搜索等特性
- 社区响应:提供详细的文档和API参考,支持快速开发模式
商用与许可#
许可证:MIT
- ✅ 商用:允许
- ✅ 修改:允许
- ⚠️ 限制:自v0.1.3起包含登录认证功能,建议在内部网络环境中部署
文档与学习资源#
- 文档质量:全面,包含架构图、功能矩阵、配置指南等
- 官方文档:https://weknora.weixin.qq.com
- 示例代码:提供完整的Docker配置和快速开发模式