发现 AI 代理的未来arrow_forward

AI Data Science Team

calendar_today收录于 2026年2月23日
category智能体与应用工具
code开源
Python工作流自动化多智能体系统LangGraphLangChainAI代理机器学习智能体框架StreamlitWeb应用智能体与应用工具其他自动化/工作流/RPA模型训练/推理数据分析/BI/可视化

一个基于 AI 多代理的数据科学团队库,通过专业化 Agent 协作自动化执行数据加载、清洗、特征工程、EDA、可视化与机器学习建模(H2O + MLflow),配备 Streamlit 可视化 Pipeline 工作台,将常见数据科学任务效率提升 10 倍。

项目概述#

AI Data Science Team 是一个 Python 库,旨在构建虚拟的 AI 数据科学团队。它利用大语言模型(LLM)驱动多个专业化 Agent,自动化完成从数据加载、清洗、整理、EDA 到机器学习建模的全流程工作。

核心能力#

数据处理#

  • 数据加载与检查:支持 CSV、Excel 等常见格式加载
  • 数据清洗:自动处理缺失值、异常值、重复值
  • 数据整理:格式转换、透视表、合并等操作

特征与分析#

  • 特征工程:自动生成/选择特征
  • EDA(探索性分析):自动生成统计摘要与图表
  • 可视化:基于代码生成的图表能力

数据源交互#

  • SQL 交互:自然语言转 SQL 查询,数据库交互

建模能力#

  • H2O AutoML:集成 H2O 进行自动化建模
  • MLflow 集成:实验跟踪与模型管理
  • 模型评估:自动化评估指标生成

Agent 模块体系#

基础代理(agents/)#

  • data_loader_tools_agent:数据加载
  • data_cleaning_agent:数据清洗
  • data_wrangling_agent:数据整理
  • data_visualization_agent:可视化
  • feature_engineering_agent:特征工程
  • sql_database_agent:SQL 数据库操作
  • workflow_planner_agent:工作流规划

数据科学代理(ds_agents/)#

  • eda_tools_agent:专注于 EDA 工具链

机器学习代理(ml_agents/)#

  • h2o_ml_agent:执行 H2O 机器学习任务
  • mlflow_tools_agent:管理 MLflow 工具
  • model_evaluation_agent:专注于模型评估

多代理系统(multiagents/)#

  • pandas_data_analyst:Pandas 数据分析专家
  • sql_data_analyst:SQL 数据分析专家
  • supervisor_ds_team:监督者 Agent,负责协调其他 Agent 协同工作

旗舰应用:AI Pipeline Studio#

基于 Streamlit 构建的交互式应用,作为项目的图形化前端:

  • Pipeline-first 工作区:集成可视化编辑器、表格查看器、图表生成器和代码查看器
  • 混合模式:支持手动步骤与 AI 自动步骤混合
  • 项目管理:支持保存项目(metadata-only 或 full-data),支持 rehydrate(从源数据重新加载)
  • 上下文记忆:支持短时记忆以维持多轮对话上下文
  • 调试能力:Verbose logs 模式,日志输出至 logs/ 目录

架构设计#

ai_data_science_team/
├── orchestration.py     # 编排逻辑(核心流程控制)
├── agents/              # 基础数据科学代理
├── ds_agents/           # 扩展 DS 代理
├── ml_agents/           # 扩展 ML 代理
├── multiagents/         # 多代理协作逻辑
├── parsers/             # 输出解析器
├── templates/           # Prompt 模板
├── tools/               # 底层工具函数
└── utils/               # 通用辅助函数

安装与快速开始#

环境要求#

  • Python 3.10+
  • OpenAI API Key(推荐)或本地运行的 Ollama 实例

安装方式#

# PyPI 安装
pip install ai-data-science-team

# 源码开发安装
git clone https://github.com/business-science/ai-data-science-team.git
cd ai-data-science-team
pip install -e .

运行 AI Pipeline Studio#

streamlit run apps/ai-pipeline-studio-app/app.py

LLM 配置#

OpenAI(云端)

from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model_name="gpt-4.1-mini")

Ollama(本地)

ollama serve
ollama pull llama3.1:8b
from langchain_ollama import ChatOllama
llm = ChatOllama(model="llama3.1:8b")

示例资源#

项目提供丰富的 Jupyter Notebook 示例:

  • data_cleaning_agent.ipynb
  • data_loader_tools_agent.ipynb
  • data_visualization_agent.ipynb
  • data_wrangling_agent.ipynb
  • feature_engineering_agent.ipynb
  • sql_database_agent.ipynb

以及高级主题目录:advanced_topics/ds_agents/ml_agents/multiagents/teams_of_agents/

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch