LegalBench (Full)

LegalBench is a comprehensive benchmark for evaluating legal reasoning in LLMs. This leaderboard aggregates performance across all 161 tasks in LegalBench, which span a diverse range of legal domains, task types, and difficulty levels. You can read more about LegalBench here.

Note: Only models that have been evaluated on all 161 tasks in this preset are included in the leaderboard.

Rank

Model

Wins

Average Rank

Raw Metric Avg

Details

meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo

2.30

0.7580

▶

claude-3-5-haiku-20241022

2.94

0.7249

▶

gpt-4o-mini

3.02

0.7085

▶

google/gemma-2-27b-it

3.36

0.6638

▶

claude-3-haiku-20240307

3.65

0.5738

▶

gpt-4.1-nano

4.83

0.5250

▶

Tasks in This Benchmark

abercrombie
canada_tax_court_outcomes
citation_prediction_classification
citation_prediction_open
consumer_contracts_qa
contract_nli_Notice on compelled disclosure
contract_nli_Permissible acquirement of similar information
contract_nli_confidentiality_of_agreement
contract_nli_explicit_identification
contract_nli_inclusion_of_verbally_conveyed_information
contract_nli_limited_use
contract_nli_no_licensing
contract_nli_permissible_copy
contract_nli_permissible_development_of_similar_information
contract_nli_permissible_post-agreement_possession
contract_nli_return_of_confidential_information
contract_nli_sharing_with_employees
contract_nli_sharing_with_third-parties
contract_nli_survival_of_obligations
contract_qa
corporate_lobbying
cuad_affiliate_license-licensee
cuad_affiliate_license-licensor
cuad_anti-assignment
cuad_audit_rights
cuad_cap_on_liability
cuad_change_of_control
cuad_competitive_restriction_exception
cuad_covenant_not_to_sue
cuad_effective_date
cuad_exclusivity
cuad_expiration_date
cuad_governing_law
cuad_insurance
cuad_ip_ownership_assignment
cuad_irrevocable_or_perpetual_license
cuad_joint_ip_ownership
cuad_license_grant
cuad_liquidated_damages
cuad_minimum_commitment
cuad_most_favored_nation
cuad_no-solicit_of_customers
cuad_no-solicit_of_employees
cuad_non-compete
cuad_non-disparagement
cuad_non-transferable_license
cuad_notice_period_to_terminate_renewal
cuad_post-termination_services
cuad_price_restrictions
cuad_renewal_term
cuad_revenue-profit_sharing
cuad_rofr-rofo-rofn
cuad_source_code_escrow
cuad_termination_for_convenience
cuad_third_party_beneficiary
cuad_uncapped_liability
cuad_unlimited-all-you-can-eat-license
cuad_volume_restriction
cuad_warranty_duration
definition_classification
definition_extraction
diversity_1
diversity_2
diversity_3
diversity_4
diversity_5
diversity_6
function_of_decision_section
hearsay
insurance_policy_interpretation
international_citizenship_questions
jcrew_blocker
learned_hands_benefits
learned_hands_business
learned_hands_consumer
learned_hands_courts
learned_hands_crime
learned_hands_divorce
learned_hands_domestic_violence
learned_hands_education
learned_hands_employment
learned_hands_estates
learned_hands_family
learned_hands_health
learned_hands_housing
learned_hands_immigration
learned_hands_torts
learned_hands_traffic
legal_reasoning_causality
maud_ability_to_consummate_concept_is_subject_to_mae_carveouts
maud_accuracy_of_fundamental_target_rws_bringdown_standard
maud_accuracy_of_target_"general"_r&w:_bringdown_timing_answer
maud_accuracy_of_target_capitalization_rw_(outstanding_shares)_bringdown_standard_answer
maud_additional_matching_rights_period_for_modifications_(cor)
maud_application_of_buyer_consent_requirement_(negative_interim_covenant)
maud_buyer_consent_requirement_(ordinary_course)
maud_change_in_law__subject_to_disproportionate_impact_modifier
maud_changes_in_gaap_or_other_accounting_principles__subject_to_disproportionate_impact_modifier
maud_cor_permitted_in_response_to_intervening_event
maud_cor_permitted_with_board_fiduciary_determination_only
maud_cor_standard_(intervening_event)
maud_cor_standard_(superior_offer)
maud_definition_contains_knowledge_requirement_-_answer
maud_definition_includes_asset_deals
maud_definition_includes_stock_deals
maud_fiduciary_exception:_board_determination_trigger_(no_shop)
maud_fiduciary_exception__board_determination_standard
maud_financial_point_of_view_is_the_sole_consideration
maud_fls_(mae)_standard
maud_general_economic_and_financial_conditions_subject_to_disproportionate_impact_modifier
maud_includes_consistent_with_past_practice
maud_initial_matching_rights_period_(cor)
maud_initial_matching_rights_period_(ftr)
maud_intervening_event_-_required_to_occur_after_signing_-_answer
maud_knowledge_definition
maud_liability_standard_for_no-shop_breach_by_target_non-d&o_representatives
maud_ordinary_course_efforts_standard
maud_pandemic_or_other_public_health_event__subject_to_"disproportionate_impact"_modifier
maud_pandemic_or_other_public_health_event_specific_reference_to_pandemic-related_governmental_responses_or_measures
maud_relational_language_(mae)_applies_to
maud_specific_performance
maud_tail_period_length
maud_type_of_consideration
nys_judicial_ethics
opp115_data_retention
opp115_data_security
opp115_do_not_track
opp115_first_party_collection_use
opp115_international_and_specific_audiences
opp115_policy_change
opp115_third_party_sharing_collection
opp115_user_access,_edit_and_deletion
opp115_user_choice_control
oral_argument_question_purpose
overruling
personal_jurisdiction
privacy_policy_entailment
privacy_policy_qa
proa
sara_entailment
scalr
ssla_company_defendants
ssla_individual_defendants
ssla_plaintiff
statutory_reasoning_assessment
successor_liability
supply_chain_disclosure_best_practice_accountability
supply_chain_disclosure_best_practice_audits
supply_chain_disclosure_best_practice_certification
supply_chain_disclosure_best_practice_training
supply_chain_disclosure_best_practice_verification
supply_chain_disclosure_disclosed_accountability
supply_chain_disclosure_disclosed_audits
supply_chain_disclosure_disclosed_certification
supply_chain_disclosure_disclosed_training
supply_chain_disclosure_disclosed_verification
telemarketing_sales_rule
textualism_tool_dictionaries
textualism_tool_plain
ucc_v_common_law
unfair_tos

LegalBench (Full)

Task-by-Task Performance for meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo

Task-by-Task Performance for claude-3-5-haiku-20241022

Task-by-Task Performance for gpt-4o-mini

Task-by-Task Performance for google/gemma-2-27b-it

Task-by-Task Performance for claude-3-haiku-20240307

Task-by-Task Performance for gpt-4.1-nano

Tasks in This Benchmark