在当前评测生成式模型代码能力的浪潮中,传统依赖人工编写的算法基准测试集,正日益暴露出可扩展性不足与数据污染严重两大瓶颈。
为突破这一困局,北京大学与通用人工智能研究院联合提出全新 UniCode 框架。该研究由北京大学梁一韬助理教授指导,博士生郑欣悦为第一作者,林昊苇为共同一作,创新性地构建了一套能够自动生成高质量算法题目与抗污染测试用例的进化式评测系统。
UniCode 框架通过三大核心策略动态扩展题目,并采用基于「压力测试」的用例合成技术,成功构建出包含 492 道题目的全新评测基准。在对 19 个前沿大模型进行系统性测试后,表现最佳的 o4-mini 模型也仅达到 70.3% 的通过率,充分印证了 UniCode 在评测上的高挑战性与强判别力,为代码能力评估开辟了一条动态、可扩展的全新路径。
三种「进化式」题目生成策略
UniCode 将问题生成看作类似生物进化的变异与重组过程,设计了三类互补策略:
这三种策略既能沿用已有题目的结构性优势,又能通过单题变异和重组在题目分布上产生真正的新样本,从而抑制数据污染的影响并提高对模型算法泛化能力的考察力度。
压力驱动的测试用例合成
自动生成题目的难点在于:没有正确参考题解时,如何为题目构建高可信度的测试样例集合?UniCode 提出一个压力驱动的测试样例合成流程来解决这一核心问题:
3.LLM 仲裁(Adjudication):若没有严格多数产生共识,则把最票数最多的两种输出样例,再次输入给 LLMs 进行分析裁决;若裁决仍不明确,则该用例被舍弃以保持试题集的完整性和可靠性。通过这套流程,研究团队报告了测试用例正确率 94.5% 的水平,并在覆盖率上也优于多项基线方法。
该流程实现了 94.5% 的测试用例正确率,并在覆盖率上优于多项基线方法。输入生成采用三路并重策略:随机样本、对抗生成与 LLM 合成,并按固定比例(20 随机 + 20 对抗 + 10 LLM 合成)构建最终测试套,兼顾覆盖广度与挑战性。
评测与结论
借助 UniCode 框架,研究团队从 Codeforces 等竞赛平台筛选种子算法题,自动生成了一个包含 492 道高质量题目、覆盖 15 个核心算法标签的评测基准,并在此基础上对 19 个主流大语言模型 进行了系统评估。关键发现包括:
LLMs 在算法推理场景下的泛化表现
为考察 LLMs 在算法题上的泛化能力,研究团队构造了三类对照题集:SeedQS(原始种子题)、ShadowQS(保留逻辑但改写叙述的「影子」题)与 CodeGenQS(UniCode 生成的新题)。
实验显示:多数模型在 SeedQS 与 ShadowQS 上表现几乎一致,说明它们对表层叙述变换具有较强鲁棒性;但在 CodeGenQS(由 UniCode 生成、要求组合或迁移算法能力的题目)上,模型普遍出现显著下跌 —— 论文给出若干例证:claude-3.5-sonnet 从 0.70 跌至 0.21,gpt-4.1-mini 从 0.83 跌至 0.40,整体上模型在 UniCode 问题上的平均性能下降超过 30%,而在仅为叙述改写的 ShadowQS 上几乎无变化。
这一对照实验清晰区分了模型的「表层鲁棒性」与「算法迁移能力」,并验证了 UniCode 的「进化式」题目生成策略确实能够构造出新颖且具挑战性的任务,为理解和量化模型的真实泛化能力提供了帮助。
UniCode 题集与基准对齐
此外,研究团队通过与两项既有公开基准的对齐检验(LiveCodeBench 与 LiveCodeBenchPro)量化了 UniCode 的可信度:与 LiveCodeBench 的 Pass@1 分数呈高度正相关(Pearson r ≈ 0.986,p = 6.5e-06),而与 LiveCodeBenchPro(采用「排名越小越优」的打分方式)表现为强负相关(r ≈ −0.916),这主要是度量方向的约定所致 —— 若取绝对值,两者均显示 |r|>0.9。
论文特别指出:UniCode 与这些成熟基准间获得的相关性(以 |r| 衡量)超过了这些现有代码基准数据集之间的互相关,从而证明 UniCode 在评估尺度上与现有主流工具高度一致,且具备独立揭露模型弱点的能力。论文同时通过人工盲审验证了生成题目的可解性(在抽样的 50 道题中,解题率达 98.0%),增强了生成题目在可读性与语义明确性方面的可信度。
讨论:错误题会让评测失效吗?
从可靠性角度的再思考
在传统观念中,一个基准的所有题目都必须是完美无瑕的。然而,当基准规模大幅扩展(如从几百题增至数千题),尤其是通过自动生成方式构建时,完全避免错误题目成本极高,甚至不现实。UniCode 的研究通过数学论证指出:一个存在少量错误但题量巨大的基准,其整体评估结果可能比一个题量小但「完美」的基准更为可靠。
这背后的核心逻辑在于区分两种不同类型的误差:
因此,在评估模型,尤其是区分顶尖模型时,我们更害怕的是结果「晃动」,而不是一个微小且固定的「偏移」。UniCode 通过其大规模生成能力,正是用可接受且极小的系统偏差,换取了随机误差的显著降低,从而实现了比传统小规模基准更高、更可靠的判别力。论文在附录中通过严格的数学模型证明了这一点,确保了其基准报告的准确性是值得信赖的。
结语
UniCode 将「生成式评测」从理念推进到了可操作的工程化体系:通过三条进化式题目生成路径 + 一套压力驱动、分层验证的测试合成流水线,UniCode 在题目多样性、判题可靠性和对模型泛化能力的诊断上都取得了令人信服的结果。该框架不仅能缓解传统静态基准的污染与扩展问题,还为研究人员提供了一个可重复、可追溯的工具链,有望成为未来代码生成与算法泛化评估的重要基石。