InternTA

基于多 Agent 协作的自动化 AI 教学助理训练系统，从课程教材出发，通过数据构建、QLoRA 微调、RAG 增强全流水线生成课程专属 TA 模型，支持完全本地部署。

InternTA 是一个面向教学材料稀缺课程场景的多 Agent 自动化 AI 教学助理训练系统，当前在合成生物学教育领域完成验证。系统由三个核心 Agent 协作运行：

Dataset Agent：从 Excel 教材中提取习题、术语和概念，生成带显式推理路径的 OpenAI conversation 格式训练数据，对思考题采用引导式回答策略（而非直接给出答案），输出 training.json / validation.json。

Training Agent：以 DeepSeek-R1-Distill-Qwen-7B 为基础模型，通过 PEFT + QLoRA（4-bit 量化）进行高效微调，内置 LLM Judge 实现自动化训练计划生成与调参，支持基础 SFT（train.sh）和高级 Agent 驱动训练（traino.sh）两种模式。

RAG Agent：在推理阶段对教材内容进行结构化处理与语义检索，将相关知识片段融入生成过程，弥补微调后模型在细粒度知识点上的不足。

端到端数据流#

Excel 原始数据 → data/generate_data.py → training.json / validation.json
                                    ↓
                    train_agent.py 或 sft_internTA2.py (QLoRA 微调)
                                    ↓
                            merge.py (合并 LoRA 适配器)
                                    ↓
                    api.py (FastAPI) + app.py (Streamlit) → 用户访问

部署与集成#

全本地部署，8GB+ VRAM GPU 即可运行，避免数据外泄
提供 OpenAI 兼容的 /v1/chat/completions 端点，Bearer Token 认证
Streamlit Web 界面（默认端口 8080）+ FastAPI API 服务双入口
存在 Dockerfile.web 和 docker-compose.web.yml，具体使用说明待确认

快速启动#

git clone https://github.com/kongfoo-ai/internTA
cd internTA
pip install -r requirements.txt
sh run.sh

待确认信息#

关联论文：README 未直接引用，可能存在但未标注
在线体验地址：提及 "E. Copi (Education)" 但未提供具体 URL
模型权重/Checkpoint：仓库中未发布
量化评估结果：提及效果良好但未公开具体数值
RAG 实现细节：向量数据库/嵌入模型未明确说明
LLM Judge 具体实现：评判标准和依赖模型未详细说明

端到端数据流#

部署与集成#

快速启动#

待确认信息#

相关项目

Basic Memory

vfs (Virtual Function Signatures)

RexCLI

保持更新