CL-bench是什么
CL-bench是腾讯混元与复旦大学联合推出的Context学习能力评测基准,能衡量大语言模型从全新上下文信息中实时学习、应用知识的能力。CL-bench基准包含500个专家精心构建的复杂场景、1899个任务,涵盖领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四大类。测试显示,最强模型GPT-5.1解决率仅23.7%,揭示当前AI”不会现场学习”的核心瓶颈,为模型优化指明新方向。
CL-bench的主要功能
-
实时学习能力评测:支持评测大语言模型从全新上下文信息中实时学习、应用知识的能力。
-
大规模测试集构建:构建包含500个复杂场景、1899个任务和31607个验证标准的测试集,覆盖领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟四类真实世界场景。
-
无污染数据设计:采用无污染设计确保数据新颖性,通过虚构创作、现有内容修改和整合小众新兴内容,防止模型依靠记忆非学来解决问题。
-
序列依赖验证:验证模型在序列依赖任务中的多轮次推理能力,51.1%的任务需要基于前期交互结果进行后续推理。
-
多维度评估体系:提供多维度评估体系,平均每个任务包含16.6个评估标准,从多个角度全面检验模型对Context的理解和应用准确性。
CL-bench的技术原理
-
自包含Context环境:CL-bench的核心技术原理为构建完全自包含的Context环境,确保解决任务所需的全部信息都显式地提供在Context本身之中,不需要外部检索,不支持隐藏假设。强制模型必须从当前输入的新信息中汲取营养,非调用预训练阶段封存的内部知识,真实反映模型的Context学习能力非记忆能力。
-
三重无污染策略:为实现无污染评估,CL-bench采用三重技术策略:专家创作完全虚构的内容,如为虚构国家设计完整的法律体系或创建具有独特语法的新编程语言;对现实世界内容进行系统性修改以创建变体,包括更改历史事件、改变科学定义或修改技术文档;纳入在预训练数据集中代表性极低的小众或近期新兴内容,如前沿研究发现和新发布的产品手册。
-
复杂性与可验证性设计:在任务设计上,CL-bench强调高复杂性和序列依赖性,51.1%的任务设计多轮次交互机制,后续任务的解决方案依赖于前期交互结果,显著增加任务难度、模拟真实工作场景。同时,每个任务都设置完全可验证的评估标准,平均每个Context关联63.2个验证标准,通过多角度评估确保对模型性能的全面检验,避免单一指标带来的评估偏差。
CL-bench的项目地址
- 项目官网:https://www.clbench.com/
- GitHub仓库:https://github.com/Tencent-Hunyuan/CL-bench
- HuggingFace模型库:https://huggingface.co/datasets/tencent/CL-bench
CL-bench的应用场景
-
AI模型能力评估:为研究机构和企业提供标准化的Context学习能力评测工具,精准识别模型在真实场景应用中的能力短板,指导模型优化方向。
-
新模型研发验证:在大语言模型研发过程中作为核心测试环节,验证新版本模型是否真正具备从动态信息中学习的突破,非仅仅提升参数记忆能力。
-
行业解决方案选型:帮助企业用户评估不同商用模型在特定业务场景下的Context学习表现,为选择适合自身需求的AI解决方案提供客观依据。
-
教育培训领域:作为教学案例和实验平台,帮助AI从业者理解Context学习与参数学习的本质区别,培养针对真实应用场景的模型设计和调优能力。
-
学术研究基准:为学术界提供统一的Context学习研究基准,推动相关领域形成可对比、可复现的研究成果,加速Context学习理论和技术的整体进步。
© 版权声明
本站文章版权归 AI工具集 所有,未经允许禁止任何形式的转载。
相关文章
暂无评论...











川公网安备 51010702003349号