BullshitBench

衡量 AI 模型是否会挑战无意义提示词而非自信回答的基准测试工具，包含 100 道覆盖 5 个领域的无意义问题，采用三级评判体系与多裁判面板机制。

BullshitBench 是一个专注于评估大语言模型"无意义检测"能力的开源基准测试。其核心思路是向模型发送精心构造的胡言乱语提示词——如引用不存在的框架、嵌套无意义概念、设置 specificity trap 等——然后评判模型是否能够识别并拒绝错误前提，而非自信地编造答案。

项目当前 v2 版本包含 100 道题，覆盖软件（40 题）、金融、法律、医学、物理各 15 题，运用了 13 种不同的无意义构造技巧。评判采用三级分类：明确拒绝、部分质疑、接受胡言乱语。评判环节由 3 个裁判模型组成面板——Claude Sonnet 4.6、GPT-5.2、Gemini 3.1 Pro Preview——采用均值聚合方式得出最终评分。

项目还支持推理强度扫描，可对同一模型以 low/medium/high/xhigh 四档 reasoning 参数进行对比测试，揭示"更深入的思考"是否能提升无意义辨别力。配套的交互式可视化查看器提供 6 种分析视图，包括模型检测率排行、领域景观、时间趋势、推理强度关联、模型规模散点图等，已覆盖 142 个模型/推理配置行。

整体流程为四阶段 Pipeline：collect → grade → grade-panel → publish，支持分阶段执行和断点续跑，原生集成 OpenRouter 与 OpenAI 两个 provider，具备高并发采集和自动限流重试能力。项目采用 MIT 许可证，由 Peter Gostev 直接维护。

相关项目

Zylos Core

verl

Kalshi AI Trading Bot

保持更新