用「进化+压力测试」自动生成的竞赛级编程题，各家大模型谁更hold住？_科技资讯

用「进化+压力测试」自动生成的竞赛级编程题，各家大模型谁更hold住？

创始人

2025-10-27 20:01:55

0次

在当前评测生成式模型代码能力的浪潮中，传统依赖人工编写的算法基准测试集，正日益暴露出可扩展性不足与数据污染严重两大瓶颈。

为突破这一困局，北京大学与通用人工智能研究院联合提出全新 UniCode 框架。该研究由北京大学梁一韬助理教授指导，博士生郑欣悦为第一作者，林昊苇为共同一作，创新性地构建了一套能够自动生成高质量算法题目与抗污染测试用例的进化式评测系统。

UniCode 框架通过三大核心策略动态扩展题目，并采用基于「压力测试」的用例合成技术，成功构建出包含 492 道题目的全新评测基准。在对 19 个前沿大模型进行系统性测试后，表现最佳的 o4-mini 模型也仅达到 70.3% 的通过率，充分印证了 UniCode 在评测上的高挑战性与强判别力，为代码能力评估开辟了一条动态、可扩展的全新路径。

论文标题：UniCode: A Framework for Generating High Quality Competitive Coding Problems
论文地址：http://arxiv.org/abs/2510.17868
代码开源：https://github.com/grandsmile/UniCode
数据集: https://huggingface.co/datasets/grandsmile/Generative_Coding_Dataset

三种「进化式」题目生成策略

UniCode 将问题生成看作类似生物进化的变异与重组过程，设计了三类互补策略：

单题扩展 (Single-problem extension)：在保持核心逻辑的前提下，对单题进行结构性修改（如收紧约束、增加条件、改变输入格式）。例如 Two Sum → Three Sum。该策略能保持问题范式一致，同时迫使模型在算法复杂度上做出新权衡。
同类融合 (Same-type fusion)：将同算法标签的两题融合。通过让 LLM 抽取共用的算法模式并重新实例化，生成语义新颖但逻辑相关的题目，从而避免「仅换叙述」的表层变化。
跨类融合 (Cross-type fusion)：跨算法类别组合题目，由 LLM 自动发现「桥接概念」，生成复合型挑战（如将求和与回文检测结合为 Palindrome Sum Pair）。这种策略显著提高了题目难度与诊断价值。

这三种策略既能沿用已有题目的结构性优势，又能通过单题变异和重组在题目分布上产生真正的新样本，从而抑制数据污染的影响并提高对模型算法泛化能力的考察力度。

压力驱动的测试用例合成

自动生成题目的难点在于：没有正确参考题解时，如何为题目构建高可信度的测试样例集合？UniCode 提出一个压力驱动的测试样例合成流程来解决这一核心问题：

小规模暴力求解（Brute-force）＋压力测试（Stress test）：对能在小输入下暴力枚举的题目，先由 LLM 生成一个以正确性为优先的「暴力算法」并在小规模输入上运行，得到被信任的输入 — 输出对，这些对用作「压力测试集」去筛选一组来自不同 LLM 的高效候选解。

3.LLM 仲裁（Adjudication）：若没有严格多数产生共识，则把最票数最多的两种输出样例，再次输入给 LLMs 进行分析裁决；若裁决仍不明确，则该用例被舍弃以保持试题集的完整性和可靠性。通过这套流程，研究团队报告了测试用例正确率 94.5% 的水平，并在覆盖率上也优于多项基线方法。

该流程实现了 94.5% 的测试用例正确率，并在覆盖率上优于多项基线方法。输入生成采用三路并重策略：随机样本、对抗生成与 LLM 合成，并按固定比例（20 随机 + 20 对抗 + 10 LLM 合成）构建最终测试套，兼顾覆盖广度与挑战性。

评测与结论

借助 UniCode 框架，研究团队从 Codeforces 等竞赛平台筛选种子算法题，自动生成了一个包含 492 道高质量题目、覆盖 15 个核心算法标签的评测基准，并在此基础上对 19 个主流大语言模型进行了系统评估。关键发现包括：

高挑战性：即便是排名第一的模型（o4-mini-high），总体 pass@1 也只有 70.3%；在较难题目上，大部分模型表现断崖式下降，说明 UniCode 框架能够生成具有高挑战性的算法题，暴露模型真实的算法能力差异。
模型鲁棒性仍待提升：模型在随机用例和对抗用例间平均存在约 11.2 个百分点的性能差，表明对边界条件与复杂输入的鲁棒性仍是薄弱环节。
开源模型进步明显：若干开源模型（如 DeepSeek-v3.1、Qwen3-235b）在整体性能上表现出竞争力，这对研究社区的可复现性和透明性具有积极意义。

LLMs 在算法推理场景下的泛化表现

为考察 LLMs 在算法题上的泛化能力，研究团队构造了三类对照题集：SeedQS（原始种子题）、ShadowQS（保留逻辑但改写叙述的「影子」题）与 CodeGenQS（UniCode 生成的新题）。

实验显示：多数模型在 SeedQS 与 ShadowQS 上表现几乎一致，说明它们对表层叙述变换具有较强鲁棒性；但在 CodeGenQS（由 UniCode 生成、要求组合或迁移算法能力的题目）上，模型普遍出现显著下跌 —— 论文给出若干例证：claude-3.5-sonnet 从 0.70 跌至 0.21，gpt-4.1-mini 从 0.83 跌至 0.40，整体上模型在 UniCode 问题上的平均性能下降超过 30%，而在仅为叙述改写的 ShadowQS 上几乎无变化。

这一对照实验清晰区分了模型的「表层鲁棒性」与「算法迁移能力」，并验证了 UniCode 的「进化式」题目生成策略确实能够构造出新颖且具挑战性的任务，为理解和量化模型的真实泛化能力提供了帮助。

UniCode 题集与基准对齐

此外，研究团队通过与两项既有公开基准的对齐检验（LiveCodeBench 与 LiveCodeBenchPro）量化了 UniCode 的可信度：与 LiveCodeBench 的 Pass@1 分数呈高度正相关（Pearson r ≈ 0.986，p = 6.5e-06），而与 LiveCodeBenchPro（采用「排名越小越优」的打分方式）表现为强负相关（r ≈ −0.916），这主要是度量方向的约定所致 —— 若取绝对值，两者均显示 |r|>0.9。

论文特别指出：UniCode 与这些成熟基准间获得的相关性（以 |r| 衡量）超过了这些现有代码基准数据集之间的互相关，从而证明 UniCode 在评估尺度上与现有主流工具高度一致，且具备独立揭露模型弱点的能力。论文同时通过人工盲审验证了生成题目的可解性（在抽样的 50 道题中，解题率达 98.0%），增强了生成题目在可读性与语义明确性方面的可信度。

讨论：错误题会让评测失效吗？

从可靠性角度的再思考

在传统观念中，一个基准的所有题目都必须是完美无瑕的。然而，当基准规模大幅扩展（如从几百题增至数千题），尤其是通过自动生成方式构建时，完全避免错误题目成本极高，甚至不现实。UniCode 的研究通过数学论证指出：一个存在少量错误但题量巨大的基准，其整体评估结果可能比一个题量小但「完美」的基准更为可靠。

这背后的核心逻辑在于区分两种不同类型的误差：

系统偏差：由于基准中的错误题目导致的误差。例如，一个错误题目可能永远无法被解对。这种误差是固定的，其大小大致等于「错误题目的比例」。在 UniCode 的设定中，即便有约 5.5% 的错误题目，其引入的系统偏差也相对较小且稳定。
随机误差：由于评测题目的抽样随机性导致的误差。样本量越小，结果的波动性就越大。一个仅有 200 道题的「完美」基准，很容易因为题目抽样的偶然性（例如，恰好抽到了某个模型擅长的题型）而无法稳定反映模型的真实能力。

因此，在评估模型，尤其是区分顶尖模型时，我们更害怕的是结果「晃动」，而不是一个微小且固定的「偏移」。UniCode 通过其大规模生成能力，正是用可接受且极小的系统偏差，换取了随机误差的显著降低，从而实现了比传统小规模基准更高、更可靠的判别力。论文在附录中通过严格的数学模型证明了这一点，确保了其基准报告的准确性是值得信赖的。

结语

UniCode 将「生成式评测」从理念推进到了可操作的工程化体系：通过三条进化式题目生成路径 + 一套压力驱动、分层验证的测试合成流水线，UniCode 在题目多样性、判题可靠性和对模型泛化能力的诊断上都取得了令人信服的结果。该框架不仅能缓解传统静态基准的污染与扩展问题，还为研究人员提供了一个可重复、可追溯的工具链，有望成为未来代码生成与算法泛化评估的重要基石。

上一篇：透视规律！aa poker辅助，aapoker怎么拿好牌，插件教程（有挂规律）

下一篇：中国电信为建设教育强国注入 “数智动力”

用「进化+压力测试」自动生成的竞赛级编程题，各家大模型谁更hold住？

相关内容

热门资讯