TAU2-bench leaderboard

Name: TAU2-bench Leaderboard
Creator: AI Flash Report
Published: 2026-05-09
License: https://creativecommons.org/licenses/by/4.0/

88 models ranked, highest score first.

TAU2-bench leaderboard — 88 models ranked by score
#	Model	Company	Released	Score
1	JT-35B-Flash	China Mobile	2026-05-14	99.1%
2	Claude Fable 5	Anthropic	2026-06-09	98.5%
3	Step 3.7 Flash	StepFun	2026-05-29	98.5%
4	GLM 5V Turbo	Z AI	2026-04-01	98.5%
5	GLM-5-Turbo	Z AI	2026-03-15	98.5%
6	Grok 4.3	xAI	2026-04-30	97.7%
7	GLM-5.1	Z AI	2026-04-07	97.7%
8	Qwen3.6 Plus	Alibaba	2026-04-02	97.7%
9	Grok 4.20 0309	xAI	2026-03-10	96.5%
10	DeepSeek V4 Pro	DeepSeek	2026-04-24	96.2%
11	Qwen3.6 Max Preview	Alibaba	2026-04-20	95.9%
12	Kimi K2.6	Kimi	2026-04-20	95.9%
13	Qwen3.6 35B A3B	Alibaba	2026-04-16	95.3%
14	DeepSeek V4 Flash	DeepSeek	2026-04-24	95.0%
15	MiMo-V2-Pro	Xiaomi	2026-03-18	95.0%
16	Qwen3.7 Max	Alibaba	2026-05-19	94.7%
17	Claude Opus 4.8	Anthropic	2026-05-28	94.4%
18	Mistral Medium 3.5	Mistral	2026-04-29	94.2%
19	Qwen3.6 27B	Alibaba	2026-04-22	94.2%
20	MiMo-V2.5-Pro	Xiaomi	2026-04-22	94.2%
21	GPT-5.5	OpenAI	2026-04-23	93.9%
22	Qwen3.5 27B	Alibaba	2026-02-24	93.9%
23	Qwen3.5 122B A10B	Alibaba	2026-02-24	93.6%
24	Qwen3.7 Plus	Alibaba	2026-06-01	93.0%
25	JT-MINI	China Mobile	2026-04-15	93.0%
26	Grok 4.20 0309 v2	xAI	2026-04-07	93.0%
27	Hy3-preview	Tencent	2026-04-23	92.7%
28	Ring-2.6-1T	InclusionAI	2026-05-08	92.4%
29	Qwen3.5 4B	Alibaba	2026-03-02	92.1%
30	Muse Spark	Meta	2026-04-08	91.5%
31	MiMo-V2-Omni	Xiaomi	2026-03-19	91.2%
32	MiMo-V2.5	Xiaomi	2026-04-22	90.6%
33	DeepSeek V3.2	DeepSeek	2026-02-12	90.6%
34	Trinity Large Thinking	Arcee AI	2026-04-01	90.1%
35	Ling-2.6-1T	InclusionAI	2026-04-23	89.8%
36	Claude Opus 4.5	Anthropic	2025-11-24	89.5%
37	Qwen3.5 35B A3B	Alibaba	2026-02-24	89.2%
38	MiniMax-M3	MiniMax	2026-06-01	88.9%
39	Claude Opus 4.7	Anthropic	2026-04-16	88.6%
40	Qwen3.5 Omni Plus	Alibaba	2026-03-30	88.3%
41	MiMo-V2-Omni-0327	Xiaomi	2026-03-27	88.0%
42	MiniCPM-V 4.6 1.3B	OpenBMB	2026-05-11	87.7%
43	Step 3.5 Flash 2603	StepFun	2026-04-02	87.4%
44	GPT-5.4	OpenAI	2026-03-05	87.1%
45	Qwen3.5 9B	Alibaba	2026-03-02	86.8%
46	Solar Pro 3	Upstage	2026-04-06	86.3%
47	Ling 2.6 Flash	InclusionAI	2026-04-21	86.0%
48	GPT-5.3 Codex	OpenAI	2026-02-05	86.0%
49	MiniMax-M2.7	MiniMax	2026-03-18	84.8%
50	GPT-5.2	OpenAI	2025-12-11	84.8%
51	Qwen3.5 Omni Flash	Alibaba	2026-03-30	84.5%
52	Nemotron 3 Ultra 550B A55B	NVIDIA	2026-06-04	83.3%
53	GPT-5.4 mini	OpenAI	2026-03-17	83.3%
54	GPT-5.1	OpenAI	2025-11-12	81.9%
55	MiniCPM5-1B	OpenBMB	2026-05-25	81.0%
56	Claude Sonnet 4.6	Anthropic	2026-02-17	78.9%
57	EXAONE 4.5 33B	LG AI Research	2026-04-09	78.1%
58	GPT-5.4 nano	OpenAI	2026-03-17	76.0%
59	Qwen3.5 2B	Alibaba	2026-03-02	69.0%
60	NVIDIA Nemotron 3 Super 120B A12B	NVIDIA	2026-03-11	67.8%
61	GPT-5	OpenAI	2025-08-15	67.0%
62	HyperNova 60B 2605	Multiverse Computing	2026-05-26	63.2%
63	Gemma 4 31B	Google	2026-04-02	59.9%
64	Gemini 3.5 Flash	Google	2026-05-19	58.8%
65	Nemotron Cascade 2 30B A3B	NVIDIA	2026-03-19	53.2%
66	GPT-5.5 Instant	OpenAI	2026-05-05	49.4%
67	Qwen3.5 0.8B	Alibaba	2026-03-02	47.7%
68	Sarvam 105B	Sarvam	2026-03-06	46.8%
69	Nemotron 3 Nano Omni 30B A3B Reasoning	NVIDIA	2026-04-29	45.3%
70	Gemma 4 26B A4B	Google	2026-04-02	43.6%
71	Granite 4.1 30B	IBM	2026-04-29	42.1%
72	Mistral Small 4	Mistral	2026-03-16	41.2%
73	North Mini Code	Cohere	2026-06-09	37.4%
74	Gemma 4 12B	Google	2026-06-03	36.3%
75	Sarvam 30B	Sarvam	2026-03-06	34.5%
76	Gemini 2.5 Flash	Google	2025-06-20	31.6%
77	Gemini 3.1 Flash-Lite Preview	Google	2026-03-03	31.3%
78	Gemini 2.0 Flash	Google	2024-12-11	29.5%
79	NVIDIA Nemotron 3 Nano 4B	NVIDIA	2026-03-16	28.1%
80	Granite 4.1 8B	IBM	2026-04-29	27.8%
81	Mistral Large 3	Mistral	2025-12-15	24.6%
82	DeepSeek-V3	DeepSeek	2024-12-26	22.8%
83	Claude 3 Haiku	Anthropic	2024-03-04	21.1%
84	Gemma 4 E4B	Google	2026-04-03	20.8%
85	Gemma 4 E2B	Google	2026-04-02	20.8%
86	Granite 4.1 3B	IBM	2026-04-29	19.6%
87	LFM2.5-8B-A1B	Liquid AI	2026-05-28	16.1%
88	LFM2 24B A2B	Liquid AI	2026-02-25	11.1%