MMLU

Knowledge

Massive Multitask Language Understanding — a multiple-choice benchmark covering 57 academic subjects from STEM to humanities.

Models Tested

Best Score

92.7%

Median Score

87.95%

Scoring: accuracy

Introduced: 2021-01

Maintainer: Dan Hendrycks et al.

Leaderboard (48 models)

#	Model	Developer	Score
🥇	Grok-3	xAI	92.7%
🥈	Gemini	Google DeepMind	92.4
🥉	o1	OpenAI	92.3%
4	Llama 4 Maverick	Meta AI (FAIR)	92.2%
5	Claude Opus 4.6	Anthropic	92.1
6	o3	OpenAI	92%
7	DeepSeek R1	DeepSeek	90.8%
8	o1-preview	OpenAI	90.8%
9	Claude	Anthropic	90.5%
10	Gemini 1.0 Ultra	Google DeepMind	90%
11	Gemini 2.5 Pro	Google DeepMind	89.8%
12	Gemini 2.0 Flash	Google DeepMind	89.7%
13	o4-mini	OpenAI	89.7%
14	Llama 4 Scout	Meta AI (FAIR)	89.3%
15	GPT-4.1	OpenAI	89.3%
16	Claude Opus 4	Anthropic	89%
17	Claude Sonnet 4	Anthropic	88.9%
18	Claude 3.5 Sonnet	Anthropic	88.7%
19	GPT	OpenAI	88.7
20	GPT-4o	OpenAI	88.7%
21	Llama 3.1	Meta AI (FAIR)	88.6%
22	DeepSeek Models	DeepSeek	88.5
23	DeepSeek V3	DeepSeek	88.5%
24	Claude 3.7 Sonnet	Anthropic	88.4%
25	Grok-2	xAI	87.5%
26	Llama	Meta AI (FAIR)	87.3
27	o3-mini	OpenAI	86.9%
28	Claude 3 Opus	Anthropic	86.8%
29	GPT-4 Turbo	OpenAI	86.7%
30	Gemini 2.5 Flash	Google DeepMind	86.6%
31	GPT-4	OpenAI	86.4%
32	Llama 3.3	Meta AI (FAIR)	86%
33	Gemini 1.5 Pro	Google DeepMind	85.9%
34	o1-mini	OpenAI	85.2%
35	Mistral Large 2	Mistral AI	84%
36	Llama 3	Meta AI (FAIR)	82%
37	GPT-4o mini	OpenAI	82%
38	Claude 3.5 Haiku	Anthropic	80.9%
39	GPT-4.1 nano	OpenAI	80.1
40	GPT-4.1 mini	OpenAI	80.1
41	Gemini 1.5 Flash	Google DeepMind	78.9%
42	Claude 2	Anthropic	78.5%
43	Claude 3 Sonnet	Anthropic	78.3
44	Claude 3 Haiku	Anthropic	75.2%
45	Mixtral 8x7B	Mistral AI	70.6%
46	GPT-3.5 Turbo	OpenAI	70
47	Llama 2	Meta AI (FAIR)	68.9%
48	Mistral	Mistral AI	60.1