AI 智能体评估

AI 编码智能体在代码生成任务上的性能结果，衡量成功率和执行时间。

在 GitHub 上查看

最后运行日期：April 3, 2026

代理性能结果

	模型	代理	评估总数	成功率
	Claude Opus 4.6	Claude Code	25	96%
	Claude Sonnet 4.6	Claude Code	25	92%
	Gemini 3.1 Pro Preview	Gemini CLI	25	88%
	GPT 5.3 Codex (xhigh)	Codex	25	88%
	Cursor Composer 1.5	Cursor	25	80%
	Cursor Composer 2.0	Cursor	25	80%
	Gemini 3 Pro Preview	Gemini CLI	25	76%
	GPT 5.4 (xhigh)	Codex	25	72%
	Claude Sonnet 4.5	Claude Code	25	60%
	Devstral 2	OpenCode	25	36%