OpenAI发布高难度基准测试BrowseComp，AI上网搜索能力迎战新挑战-币视界

本站 4月11日消息，OpenAI已开源全新基准测试BrowseComp，用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目，设计初衷为模拟AI在复杂信息网络中的“在线寻宝”，强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域，难度显著高于现有如SimpleQA等测试。

据AIGC开放社区称，这个测试基准非常有难度，连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0，即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%。

OpenAI发布高难度基准测试BrowseComp，AI上网搜索能力迎战新挑战

推荐标签