HumanEval leaderboard

Name: HumanEval Leaderboard
Creator: AI Flash Report
Published: 2026-05-09
License: https://creativecommons.org/licenses/by/4.0/

HumanEval is OpenAI's 164-problem hand-written programming benchmark testing function-completion correctness.

20 models ranked, highest score first.

HumanEval leaderboard — 20 models ranked by score
#	Model	Company	Released	Score
1	GPT-5.3 Codex	OpenAI	2026-02-05	96.8%
2	Claude Sonnet 4.6	Anthropic	2026-02-17	95.2%
3	GPT-5.2 Codex	OpenAI	2025-12-18	95.1%
4	DeepSeek V3.2	DeepSeek	2026-02-12	92.5%
5	Claude 3.5 Sonnet	Anthropic	2024-06-20	92.0%
6	Mistral Large 3	Mistral	2025-12-15	91.2%
7	Claude 3 Opus	Anthropic	2024-03-04	84.9%
8	DeepSeek-V3	DeepSeek	2024-12-26	82.6%
9	Claude 3 Haiku	Anthropic	2024-03-04	75.9%
10	Gemini Ultra	Google	2023-12-06	74.4%
11	Claude 3 Sonnet	Anthropic	2024-03-04	73.0%
12	Gemini 1.5 Pro	Google	2024-02-15	71.9%
13	Claude 2	Anthropic	2023-07-11	71.2%
14	Claude 2.1	Anthropic	2023-11-21	70.0%
15	Gemini Pro	Google	2023-12-06	67.7%
16	GPT-4	OpenAI	2023-03-14	67.0%
17	Code Llama 34B	Meta	2023-08-24	48.8%
18	ChatGPT (GPT-3.5 Turbo)	OpenAI	2022-11-30	48.1%
19	Llama 2 70B	Meta	2023-07-18	29.9%
20	Codex	OpenAI	2021-08-10	28.8%