GPQA Diamond leaderboard

Name: GPQA Diamond Leaderboard
Creator: AI Flash Report
Published: 2026-05-09
License: https://creativecommons.org/licenses/by/4.0/

GPQA Diamond is the hardest tier of the GPQA benchmark — graduate-level science questions designed to be Google-proof.

101 models ranked, highest score first.

GPQA Diamond leaderboard — 101 models ranked by score
#	Model	Company	Released	Score
1	GPT-5.5	OpenAI	2026-04-23	93.5%
2	MiniMax-M3	MiniMax	2026-06-01	92.9%
3	Claude Fable 5	Anthropic	2026-06-09	92.6%
4	Qwen3.7 Max	Alibaba	2026-05-19	92.3%
5	Claude Opus 4.8	Anthropic	2026-05-28	92.0%
6	GPT-5.4	OpenAI	2026-03-05	92.0%
7	GPT-5.3 Codex	OpenAI	2026-02-05	91.5%
8	Claude Opus 4.7	Anthropic	2026-04-16	91.4%
9	Kimi K2.6	Kimi	2026-04-20	91.1%
10	Grok 4.20 0309 v2	xAI	2026-04-07	91.1%
11	GPT-5.2	OpenAI	2025-12-11	90.3%
12	Grok 4.3	xAI	2026-04-30	90.1%
13	Qwen3.7 Plus	Alibaba	2026-06-01	90.0%
14	DeepSeek V4 Flash	DeepSeek	2026-04-24	89.4%
15	DeepSeek V4 Pro	DeepSeek	2026-04-24	88.8%
16	Qwen3.6 Max Preview	Alibaba	2026-04-20	88.8%
17	Grok 4.20 0309	xAI	2026-03-10	88.5%
18	Muse Spark	Meta	2026-04-08	88.4%
19	Qwen3.6 Plus	Alibaba	2026-04-02	88.2%
20	GPT-5.4 mini	OpenAI	2026-03-17	87.5%
21	MiniMax-M2.7	MiniMax	2026-03-18	87.4%
22	GPT-5.1	OpenAI	2025-11-12	87.3%
23	MiMo-V2-Pro	Xiaomi	2026-03-18	87.0%
24	GLM-5.1	Z AI	2026-04-07	86.8%
25	Nemotron 3 Ultra 550B A55B	NVIDIA	2026-06-04	86.7%
26	Hy3-preview	Tencent	2026-04-23	86.7%
27	MiMo-V2.5-Pro	Xiaomi	2026-04-22	86.6%
28	Claude Opus 4.5	Anthropic	2025-11-24	86.6%
29	Qwen3.5 27B	Alibaba	2026-02-24	85.8%
30	Ring-2.6-1T	InclusionAI	2026-05-08	85.7%
31	Gemma 4 31B	Google	2026-04-02	85.7%
32	Qwen3.5 122B A10B	Alibaba	2026-02-24	85.7%
33	MiMo-V2-Omni-0327	Xiaomi	2026-03-27	85.5%
34	MiMo-V2.5	Xiaomi	2026-04-22	84.9%
35	GLM-5-Turbo	Z AI	2026-03-15	84.7%
36	GPT-5.5 Instant	OpenAI	2026-05-05	84.6%
37	Qwen3.5 35B A3B	Alibaba	2026-02-24	84.5%
38	Qwen3.6 27B	Alibaba	2026-04-22	84.2%
39	Gemini 3.1 Pro	Google	2026-02-19	84.2%
40	Qwen3.6 35B A3B	Alibaba	2026-04-16	84.1%
41	DeepSeek V3.2	DeepSeek	2026-02-12	84.0%
42	JT-35B-Flash	China Mobile	2026-05-14	82.9%
43	Gemini 3.5 Flash	Google	2026-05-19	82.8%
44	MiMo-V2-Omni	Xiaomi	2026-03-19	82.8%
45	Step 3.5 Flash 2603	StepFun	2026-04-02	82.6%
46	Qwen3.5 Omni Plus	Alibaba	2026-03-30	82.6%
47	Gemini 3.1 Flash-Lite Preview	Google	2026-03-03	82.2%
48	GPT-5.4 nano	OpenAI	2026-03-17	81.7%
49	Step 3.7 Flash	StepFun	2026-05-29	80.9%
50	GLM 5V Turbo	Z AI	2026-04-01	80.9%
51	Qwen3.5 9B	Alibaba	2026-03-02	80.6%
52	NVIDIA Nemotron 3 Super 120B A12B	NVIDIA	2026-03-11	80.0%
53	Claude Sonnet 4.6	Anthropic	2026-02-17	79.7%
54	EXAONE 4.5 33B	LG AI Research	2026-04-09	79.4%
55	Gemma 4 26B A4B	Google	2026-04-02	79.2%
56	Claude Opus 4.1	Anthropic	2025-07-15	79.1%
57	Gemini 2.5 Flash	Google	2025-06-20	79.0%
58	Gemini 3 Pro	Google	2025-11-18	78.5%
59	Qwen3.5 4B	Alibaba	2026-03-02	77.1%
60	Mistral Small 4	Mistral	2026-03-16	76.9%
61	Nemotron Cascade 2 30B A3B	NVIDIA	2026-03-19	75.8%
62	North Mini Code	Cohere	2026-06-09	75.7%
63	Gemma 4 12B	Google	2026-06-03	75.3%
64	Ling-2.6-1T	InclusionAI	2026-04-23	75.2%
65	Trinity Large Thinking	Arcee AI	2026-04-01	75.2%
66	Mistral Medium 3.5	Mistral	2026-04-29	74.8%
67	Qwen3.5 Omni Flash	Alibaba	2026-03-30	74.2%
68	Kimi K2	Moonshot AI	2026-01-20	74.1%
69	Claude Sonnet 4	Anthropic	2025-05-22	74.0%
70	Sarvam 105B	Sarvam	2026-03-06	73.8%
71	HyperNova 60B 2605	Multiverse Computing	2026-05-26	73.3%
72	Solar Pro 3	Upstage	2026-04-06	72.4%
73	Claude Sonnet 3.7	Anthropic	2025-02-24	68.3%
74	Mistral Large 3	Mistral	2025-12-15	68.0%
75	JT-MINI	China Mobile	2026-04-15	67.6%
76	GPT-5	OpenAI	2025-08-15	67.3%
77	Gemini 2.0 Flash	Google	2024-12-11	63.6%
78	Sarvam 30B	Sarvam	2026-03-06	63.3%
79	Ling 2.6 Flash	InclusionAI	2026-04-21	59.3%
80	Gemma 4 E4B	Google	2026-04-03	57.6%
81	Claude 3.5 Sonnet	Anthropic	2024-06-20	56.0%
82	DeepSeek-V3	DeepSeek	2024-12-26	55.7%
83	LFM2.5-8B-A1B	Liquid AI	2026-05-28	51.3%
84	NVIDIA Nemotron 3 Nano 4B	NVIDIA	2026-03-16	51.3%
85	Grok-2	xAI	2024-08-13	51.0%
86	Claude 3 Opus	Anthropic	2024-03-04	48.9%
87	Granite 4.1 30B	IBM	2026-04-29	48.1%
88	LFM2 24B A2B	Liquid AI	2026-02-25	47.4%
89	Nemotron 3 Nano Omni 30B A3B Reasoning	NVIDIA	2026-04-29	46.9%
90	Qwen3.5 2B	Alibaba	2026-03-02	45.6%
91	Granite 4.1 8B	IBM	2026-04-29	43.3%
92	Gemma 4 E2B	Google	2026-04-02	43.3%
93	Claude 3 Sonnet	Anthropic	2024-03-04	40.0%
94	Claude 3 Haiku	Anthropic	2024-03-04	37.4%
95	Gemini 1.5 Pro	Google	2024-02-15	37.1%
96	Mistral Large	Mistral	2024-02-26	35.1%
97	Claude 2.1	Anthropic	2023-11-21	31.9%
98	Granite 4.1 3B	IBM	2026-04-29	31.4%
99	MiniCPM-V 4.6 1.3B	OpenBMB	2026-05-11	30.5%
100	MiniCPM5-1B	OpenBMB	2026-05-25	27.8%
101	Qwen3.5 0.8B	Alibaba	2026-03-02	11.1%