MATH

Math

A dataset of 12,500 competition mathematics problems testing mathematical reasoning across difficulty levels 1-5.

Models Tested

Best Score

99.2%

Median Score

77%

Scoring: accuracy

Introduced: 2021-03

Maintainer: Dan Hendrycks et al.

Leaderboard (39 models)

#	Model	Developer	Score
🥇	o3	OpenAI	99.2%
🥈	o4-mini	OpenAI	98.5%
🥉	o3-mini	OpenAI	97.9%
4	DeepSeek R1	DeepSeek	97.3%
5	Gemini 2.5 Pro	Google DeepMind	97.3%
6	o1	OpenAI	96.4%
7	Grok-3	xAI	95%
8	o1-preview	OpenAI	94.8%
9	Gemini 2.5 Flash	Google DeepMind	93.4%
10	DeepSeek V3	DeepSeek	90.2%
11	o1-mini	OpenAI	90%
12	Gemini 2.0 Flash	Google DeepMind	83.9%
13	Claude Opus 4	Anthropic	83%
14	Claude Sonnet 4	Anthropic	81.4%
15	GPT-4.1	OpenAI	79.1%
16	Gemini	Google DeepMind	78.3
17	Claude	Anthropic	78.3%
18	Claude 3.7 Sonnet	Anthropic	78%
19	Gemini 1.5 Flash	Google DeepMind	77.9%
20	Llama 3.3	Meta AI (FAIR)	77%
21	GPT	OpenAI	76.6
22	GPT-4o	OpenAI	76.6%
23	Grok-2	xAI	76.1%
24	Llama	Meta AI (FAIR)	73.8
25	Llama 3.1	Meta AI (FAIR)	73.8%
26	Claude Opus 4.5	Anthropic	73.7
27	GPT-4 Turbo	OpenAI	73.4%
28	Claude 3.5 Sonnet	Anthropic	71.1%
29	GPT-4o mini	OpenAI	70.2%
30	Claude 3.5 Haiku	Anthropic	69.2%
31	Mistral Large 2	Mistral AI	69.1%
32	Gemini 1.5 Pro	Google DeepMind	67.7%
33	DeepSeek Models	DeepSeek	61.6
34	Claude 3 Opus	Anthropic	60.1%
35	Gemini 1.0 Ultra	Google DeepMind	53.2%
36	Llama 3	Meta AI (FAIR)	50.4%
37	Claude 3 Sonnet	Anthropic	43.1
38	GPT-4	OpenAI	42.5%
39	Claude 3 Haiku	Anthropic	38.9%