衡量 AI 模型是否会挑战无意义提示词而非自信回答的基准测试工具,包含 100 道覆盖 5 个领域的无意义问题,采用三级评判体系与多裁判面板机制。
BullshitBench 是一个专注于评估大语言模型"无意义检测"能力的开源基准测试。其核心思路是向模型发送精心构造的胡言乱语提示词——如引用不存在的框架、嵌套无意义概念、设置 specificity trap 等——然后评判模型是否能够识别并拒绝错误前提,而非自信地编造答案。
项目当前 v2 版本包含 100 道题,覆盖软件(40 题)、金融、法律、医学、物理各 15 题,运用了 13 种不同的无意义构造技巧。评判采用三级分类:明确拒绝、部分质疑、接受胡言乱语。评判环节由 3 个裁判模型组成面板——Claude Sonnet 4.6、GPT-5.2、Gemini 3.1 Pro Preview——采用均值聚合方式得出最终评分。
项目还支持推理强度扫描,可对同一模型以 low/medium/high/xhigh 四档 reasoning 参数进行对比测试,揭示"更深入的思考"是否能提升无意义辨别力。配套的交互式可视化查看器提供 6 种分析视图,包括模型检测率排行、领域景观、时间趋势、推理强度关联、模型规模散点图等,已覆盖 142 个模型/推理配置行。
整体流程为四阶段 Pipeline:collect → grade → grade-panel → publish,支持分阶段执行和断点续跑,原生集成 OpenRouter 与 OpenAI 两个 provider,具备高并发采集和自动限流重试能力。项目采用 MIT 许可证,由 Peter Gostev 直接维护。