SWE-bench Verified

Coding

A curated subset of SWE-bench with human-verified task instances for evaluating AI systems on real-world software engineering tasks from GitHub issues.

Models Tested

Best Score

80.9%

Median Score

68.1%

Scoring: percentage

Introduced: 2024-08

Maintainer: OpenAI / Princeton NLP

Leaderboard (23 models)

#	Model	Developer	Score
🥇	Claude Opus 4.5	Anthropic	80.9%
🥈	Claude Opus 4.6	Anthropic	80.8%
🥉	Gemini	Google DeepMind	80.6
4	Claude Sonnet 4.6	Anthropic	79.6%
5	Claude Sonnet 4.5	Anthropic	77.2%
6	Claude Opus 4.1	Anthropic	74.5
7	Claude Haiku 4.5	Anthropic	73.3
8	Claude Sonnet 4	Anthropic	72.7%
9	Claude Opus 4	Anthropic	72.5%
10	Claude 3.7 Sonnet	Anthropic	70.3%
11	o3	OpenAI	69.1%
12	o4-mini	OpenAI	68.1%
13	Gemini 2.5 Pro	Google DeepMind	63.8%
14	Gemini 2.5 Flash	Google DeepMind	60.4%
15	GPT-4.1	OpenAI	54.6%
16	Grok-3	xAI	53.2%
17	o3-mini	OpenAI	49.3%
18	DeepSeek R1	DeepSeek	49.2%
19	Claude 3.5 Sonnet	Anthropic	49
20	Claude	Anthropic	49%
21	o1	OpenAI	48.9%
22	DeepSeek V3	DeepSeek	42%
23	Claude 3.5 Haiku	Anthropic	40.6%