Code Arena🏆Overall

View overall rankings across AI models on agentic coding tasks involving multi-step reasoning and tool use.

Mar 26, 2026

214,231 votes

57 models

	Rank Spread
1	12	claude-opus-4-6 Anthropic · Proprietary	1549+11/-11	4,264	$5 / $25	1M
2	12	claude-opus-4-6-thinking Anthropic · Proprietary	1545+12/-12	3,495	$5 / $25	1M
3	33	claude-sonnet-4-6 Anthropic · Proprietary	1523+9/-9	6,391	$3 / $15	1M
4	44	claude-opus-4-5-20251101-thinking-32k Anthropic · Proprietary	1491+7/-7	13,247	$5 / $25	200K
5	57	claude-opus-4-5-20251101 Anthropic · Proprietary	1465+7/-7	13,559	$5 / $25	200K
6	514	gpt-5.4-high (codex-harness) OpenAI · Proprietary	1457+17/-17	1,488	N/A	N/A
7	511	gemini-3.1-pro-preview Google · Proprietary	1455+10/-10	4,733	$2 / $12	1M
8	615	glm-5 Z.ai · MIT	1445+10/-10	4,265	$1 / $3.20	202.8K
9	615	glm-4.7 Z.ai · MIT	1439+10/-10	4,877	$0.39 / $1.75	202.8K
10	715	gemini-3-pro Google · Proprietary	1438+7/-7	17,152	$2 / $12	1M
11	615	mimo-v2-pro Xiaomi · Proprietary	1437+13/-13	2,209	$1 / $3	1M
12	715	gemini-3-flash Google · Proprietary	1437+7/-7	13,266	$0.50 / $3	1M
13	615	minimax-m2.7 MiniMax · Proprietary	1435+14/-14	2,133	$0.30 / $1.20	204.8K
14	815	kimi-k2.5-thinking Moonshot · Modified MIT	1430+8/-8	6,421	$0.60 / $3	N/A
15	718	gpt-5.4-medium (codex-harness) OpenAI · Proprietary	1428+16/-16	1,575	N/A	N/A
16	1523	kimi-k2.5-instant Moonshot · Modified MIT	1408+11/-11	3,609	$0.45 / $2.22	262.1K
17	1524	gpt-5.3-codex (codex-harness) OpenAI · Proprietary	1407+12/-12	2,973	$1.75 / $14	400K
18	1625	minimax-m2.5 MiniMax · Modified MIT	1403+9/-9	6,120	$0.20 / $1.17	196.6K
19	1528	gpt-5.2 OpenAI · Proprietary	1403+16/-16	1,460	$1.75 / $14	400K
20	1628	gpt-5-medium OpenAI · Proprietary	1392+13/-13	3,752	$1.25 / $10	400K
21	1628	minimax-m2.1-preview MiniMax · MIT	1392+8/-8	9,272	$0.27 / $0.95	196.6K
22	1628	gemini-3-flash (thinking-minimal) Google · Proprietary	1392+7/-7	11,486	$0.50 / $3	1M
23	1628	gpt-5.1-medium OpenAI · Proprietary	1390+9/-9	6,121	$1.25 / $10	400K
24	1828	claude-sonnet-4-5-20250929-thinking-32k Anthropic · Proprietary	1389+6/-6	15,905	$3 / $15	200K
25	1728	qwen3.5-397b-a17b Alibaba · Apache 2.0	1387+9/-9	4,912	$0.39 / $2.34	262.1K
26	1928	claude-sonnet-4-5-20250929 Anthropic · Proprietary	1386+6/-6	17,947	$3 / $15	200K
27	1929	claude-opus-4-1-20250805 Anthropic · Proprietary	1384+9/-9	8,568	$15 / $75	200K
28	1930	grok-4.20-beta-0309-reasoning xAI · Proprietary	1378+13/-13	2,379	$2 / $6	2M
29	2731	deepseek-v3.2-thinking DeepSeek · MIT	1369+8/-8	7,681	$0.26 / $0.38	163.8K
30	2832	qwen3.5-122b-a10b Alibaba · Apache 2.0	1364+10/-10	3,632	$0.26 / $2.08	262.1K
31	2934	glm-4.6 Z.ai · MIT	1353+9/-9	8,345	$0.39 / $1.90	204.8K
32	3036	qwen3.5-27b Alibaba · Apache 2.0	1346+11/-11	3,387	$0.20 / $1.56	262.1K
33	3138	gpt-5.1 OpenAI · Proprietary	1339+7/-7	12,865	$1.25 / $10	400K
34	3138	mimo-v2-flash (non-thinking) Xiaomi · MIT	1337+8/-8	6,731	$0.09 / $0.29	262.1K
35	3238	gpt-5.2-codex OpenAI · Proprietary	1336+8/-8	7,951	$1.75 / $14	400K
36	3338	kimi-k2-thinking-turbo Moonshot · Modified MIT	1328+6/-6	14,601	$1.15 / $8	262.1K
37	3238	gpt-5.1-codex OpenAI · Proprietary	1328+9/-9	6,221	$1.25 / $10	400K
38	3338	deepseek-v3.2 DeepSeek · MIT	1325+8/-8	9,111	$0.26 / $0.38	163.8K
39	3941	claude-haiku-4-5-20251001 Anthropic · Proprietary	1309+6/-6	15,957	$1 / $5	200K
40	3942	minimax-m2 MiniMax · Apache 2.0	1303+9/-9	8,396	$0.26 / $1	196.6K
41	3943	mimo-v2-flash (thinking) Xiaomi · MIT	1300+14/-14	2,095	$0.09 / $0.29	262.1K
42	4043	deepseek-v3.2-exp DeepSeek · MIT	1285+11/-11	4,868	$0.27 / $0.41	163.8K
43	4143	qwen3-coder-480b-a35b-instruct Alibaba · Apache 2.0	1280+6/-6	15,368	$0.40 / $1.60	262.1K
44	4449	KAT-Coder-Pro-V1 KwaiKAT · Proprietary	1257+15/-15	1,883	$0.21 / $0.83	256K
45	4450	qwen3.5-35b-a3b Alibaba · Apache 2.0	1248+16/-16	1,813	$0.16 / $1.30	262.1K
46	4450	gemini-3.1-flash-lite-preview Google · Proprietary	1242+10/-10	4,579	$0.25 / $1.50	1M
47	4451	gpt-5.1-codex-mini OpenAI · Proprietary	1238+17/-17	1,443	$0.25 / $2	400K
48	4451	qwen3.5-flash Alibaba · Proprietary	1237+17/-17	1,562	N/A	N/A
49	4451	grok-4-1-fast-reasoning xAI · Proprietary	1233+9/-9	6,916	$0.20 / $0.50	2M
50	4554	mistral-large-3 Mistral · Apache 2.0	1220+20/-20	1,031	$0.50 / $1.50	N/A
51	4754	grok-4.1-thinking xAI · Proprietary	1206+20/-20	1,209	$0.20 / $0.50	N/A
52	5054	gemini-2.5-pro Google · Proprietary	1202+13/-13	3,295	$1.25 / $10	1M
53	5054	devstral-2 Mistral · Modified MIT	1198+17/-17	1,579	N/A	N/A
54	5055	mercury-2 Inception AI · Proprietary	1183+21/-21	1,107	$0.25 / $0.75	128K
55	5456	grok-4-fast-reasoning xAI · Proprietary	1147+23/-23	933	$0.20 / $0.50	2M
56	5556	grok-code-fast-1 xAI · Proprietary	1138+22/-22	983	$0.20 / $1.50	256K
57	5757	devstral-medium-2507 Mistral · Proprietary	1090+23/-23	993	$0.40 / $2	128K

Code Arena🏆Overall

Remove Style Control Leaderboard Plots

Fraction of Model A Wins for All Non-tied A vs. B Battles

Confidence Intervals on Model Strength (via Bootstrapping)

Battle Count for Each Combination of Models (without Ties)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)