MMLU-Pro leaderboard

Name: MMLU-Pro Leaderboard
Creator: AI Flash Report
Published: 2026-05-09
License: https://creativecommons.org/licenses/by/4.0/

MMLU-Pro is a 12,000-question multitask benchmark covering 14 subject areas, designed to differentiate frontier models on harder reasoning.

33 models ranked, highest score first.

MMLU-Pro leaderboard — 33 models ranked by score
#	Model	Company	Released	Score
1	Gemini 3.1 Pro	Google	2026-02-19	93.8%
2	Claude Opus 4.5	Anthropic	2025-11-24	92.8%
3	Claude Sonnet 4.6	Anthropic	2026-02-17	92.1%
4	Kimi K2	Moonshot AI	2026-01-20	91.3%
5	Claude Opus 4.1	Anthropic	2025-07-15	91.2%
6	GPT-5.2	OpenAI	2025-12-11	90.8%
7	DeepSeek V3.2	DeepSeek	2026-02-12	90.1%
8	Gemini Ultra	Google	2023-12-06	90.0%
9	Mistral Large 3	Mistral	2025-12-15	89.4%
10	Gemini 3 Pro	Google	2025-11-18	89.4%
11	GPT-5.1	OpenAI	2025-11-12	89.2%
12	GLM-5	Zhipu AI	2026-02-11	88.7%
13	Claude Sonnet 4	Anthropic	2025-05-22	88.7%
14	Claude 3.5 Sonnet	Anthropic	2024-06-20	88.7%
15	DeepSeek-V3	DeepSeek	2024-12-26	88.5%
16	GPT-5	OpenAI	2025-08-15	87.5%
17	Claude 3 Opus	Anthropic	2024-03-04	86.8%
18	GPT-4	OpenAI	2023-03-14	86.4%
19	Claude Sonnet 3.7	Anthropic	2025-02-24	86.1%
20	Gemini 2.5 Flash	Google	2025-06-20	82.8%
21	Gemini 1.5 Pro	Google	2024-02-15	81.9%
22	Gemini Pro	Google	2023-12-06	79.1%
23	Claude 3 Sonnet	Anthropic	2024-03-04	79.0%
24	Claude 2	Anthropic	2023-07-11	78.5%
25	PaLM 2	Google	2023-05-10	78.3%
26	Gemini 2.0 Flash	Google	2024-12-11	76.4%
27	Claude 3 Haiku	Anthropic	2024-03-04	75.2%
28	Claude 1.3	Anthropic	2023-03-14	75.0%
29	Claude 2.1	Anthropic	2023-11-21	73.1%
30	ChatGPT (GPT-3.5 Turbo)	OpenAI	2022-11-30	70.0%
31	PaLM	Google	2022-04-04	69.3%
32	Llama 2 70B	Meta	2023-07-18	68.9%
33	GPT-3	OpenAI	2020-06-11	43.9%