SWE-bench Verified leaderboard

Name: SWE-bench Verified Leaderboard
Creator: AI Flash Report
Published: 2026-05-09
License: https://creativecommons.org/licenses/by/4.0/

SWE-Bench Verified is a curated subset of real-world software engineering tasks from GitHub issues, where models must produce a working patch.

14 models ranked, highest score first.

SWE-bench Verified leaderboard — 14 models ranked by score
#	Model	Company	Released	Score
1	GPT-5.3 Codex	OpenAI	2026-02-05	82.4%
2	Claude Sonnet 4.6	Anthropic	2026-02-17	80.8%
3	Claude Opus 4.5	Anthropic	2025-11-24	78.9%
4	GPT-5.2 Codex	OpenAI	2025-12-18	78.2%
5	Claude Opus 4.1	Anthropic	2025-07-15	74.5%
6	GPT-5.2	OpenAI	2025-12-11	72.5%
7	Gemini 3.1 Pro	Google	2026-02-19	72.3%
8	Claude Sonnet 4	Anthropic	2025-05-22	72.3%
9	GPT-5.1	OpenAI	2025-11-12	70.1%
10	Gemini 3 Pro	Google	2025-11-18	68.2%
11	GPT-5	OpenAI	2025-08-15	67.4%
12	Kimi K2	Moonshot AI	2026-01-20	65.8%
13	Claude Sonnet 3.7	Anthropic	2025-02-24	62.3%
14	Claude 3.5 Sonnet	Anthropic	2024-06-20	49.0%