BigCodeBench:大型语言模型代码生成基准测试平台
🧠一个用于评估大型语言模型代码生成能力的基准测试平台,包含1140个软件工程导向的编程任务,分为完整和指令两种模式,可测试模型在复杂指令和多样化函数调用场景下的编程能力。
文档教程与资源PythonPyTorch
一个用于评估大型语言模型代码生成能力的基准测试平台,包含1140个软件工程导向的编程任务,分为完整和指令两种模式,可测试模型在复杂指令和多样化函数调用场景下的编程能力。
一个分步骤的工作坊,教你如何构建自己的AI编程助手,从基础聊天机器人开始,逐步添加文件读取、命令执行和代码搜索等强大功能。
一个开源的深度研究智能体,专门针对研究和预测任务优化,在GAIA基准测试中达到80.8%的Avg@8成绩,支持256K上下文窗口和高频工具调用。
一个教育项目,通过渐进式教程教你如何从零开始构建现代AI编程代理,包括5个版本,从简单的bash工具到完整的技能系统。
第 1 / 1 页 · 共 4 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。