LegalBench (Reasoning)

This leaderboard focuses on a subset of LegalBench's more complex and reasoning-heavy tasks. Within LegalBench, these are referred to as 'rule-application' tasks, because they require models to apply some multi-step rule to a fact pattern. You can read more about LegalBench here. We have found that performance on these tasks generally correlates with underlying model reasoning capabilities.

Note: Only models that have been evaluated on all 11 tasks in this preset are included in the leaderboard.

Rank

Model

Wins

Average Rank

Raw Metric Avg

Details

grok-4-0709

1.64

0.9319

▶

claude-opus-4-1-20250805

1.91

0.9228

▶

gpt-5-2025-08-07

2.00

0.9239

▶

claude-opus-4-20250514

2.27

0.9249

▶

2.82

0.9192

▶

grok-3-mini

3.36

0.8901

▶

o4-mini

5.18

0.9059

▶

claude-sonnet-4-20250514

6.36

0.8952

▶

o3-mini

7.00

0.8566

▶

openai/gpt-oss-120b

8.45

0.8884

▶

claude-3-5-haiku-20241022

9.00

0.8803

▶

deepseek-ai/DeepSeek-V3

10.55

0.8384

▶

meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo

10.64

0.8457

▶

deepseek-ai/DeepSeek-R1

13.27

0.6825

▶

gpt-4o-mini

14.09

0.7972

▶

meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo

14.18

0.7707

▶

google/gemma-2-27b-it

14.64

0.7673

▶

claude-3-haiku-20240307

16.55

0.6789

▶

gpt-4.1-nano

17.82

0.5911

▶

LegalBench (Reasoning)

Task-by-Task Performance for grok-4-0709

Task-by-Task Performance for claude-opus-4-1-20250805

Task-by-Task Performance for gpt-5-2025-08-07

Task-by-Task Performance for claude-opus-4-20250514

Task-by-Task Performance for o3

Task-by-Task Performance for grok-3-mini

Task-by-Task Performance for o4-mini

Task-by-Task Performance for claude-sonnet-4-20250514

Task-by-Task Performance for o3-mini

Task-by-Task Performance for openai/gpt-oss-120b

Task-by-Task Performance for claude-3-5-haiku-20241022

Task-by-Task Performance for deepseek-ai/DeepSeek-V3

Task-by-Task Performance for meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo

Task-by-Task Performance for deepseek-ai/DeepSeek-R1

Task-by-Task Performance for gpt-4o-mini

Task-by-Task Performance for meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo

Task-by-Task Performance for google/gemma-2-27b-it

Task-by-Task Performance for claude-3-haiku-20240307

Task-by-Task Performance for gpt-4.1-nano

Tasks in This Benchmark