🏆 AI 模型基准测试对比

Qwen 3.6 Max (preview)

Qwen 3.6 plus

Qwen 3.5 plus

Claude 4.5 Opus

GLM 5.1

Graduate-Level Knowledge

Knowledge Reliability and Hallucination

Real-World Valuable Task

Chinese Real-World Knowledge

Real-World Agent

Agent Skills

Real-World Toolcall Following

Artifacts

Research Coding

Long-Horizon Coding

Agentic Terminal Coding

Agentic Coding

QwenChineseBench: 内部中文知识基准测试
ToolcallFormatIFBench: 内部基准测试，用于衡量跨多样化 scaffold 和工具集的真实世界工具调用遵循能力
QwenWebBench: 内部前端代码生成基准测试；双语 (EN/CN)，7 个类别（网页设计、网页应用、游戏、SVG、数据可视化、动画和 3D）；自动渲染 + 多模态评判（代码/视觉正确性）；BT/Elo 评分系统