Benchmark Hub

MMLU + Automatic Metrics Benchmark Papers

Updated from current HFEPX corpus (Feb 27, 2026). 16 papers are grouped in this benchmark page. Common evaluation modes: Automatic Metrics. Most common rater population: Domain Experts. Common annotation unit: Ranking. Frequent quality control: Calibration. Frequently cited benchmark: MMLU. Common metric signal: accuracy. Use this page to compare protocol setup, judge behavior, and labeling design decisions before running new eval experiments. Newest paper in this set is from Feb 25, 2026.

Papers: 16 Last published: Feb 25, 2026 Global RSS

Research Narrative

Grounded narrative Model: deterministic-grounded Source: persisted

Updated from current HFEPX corpus (Feb 27, 2026). This page tracks 16 papers for MMLU + Automatic Metrics Benchmark Papers. Dominant protocol signals include automatic metrics, with frequent benchmark focus on MMLU, MMLU-Pro and metric focus on accuracy, cost. Use the grounded sections below to prioritize reproducible protocol choices, benchmark-matched comparisons, and judge-vs-human evaluation checks.

Why This Matters For Eval Research

6.3% of papers report explicit human-feedback signals, led by pairwise preferences.

Evidence: Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale , Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads , Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models
automatic metrics appears in 100% of papers in this hub.

Evidence: Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads , Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models , Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration
MMLU is a recurring benchmark anchor for cross-paper comparisons in this page.

Evidence: Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads , Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models , Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration

Protocol Takeaways

Most common quality-control signal is rater calibration (25% of papers).

Evidence: Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration , KNIGHT: Knowledge Graph-Driven Multiple-Choice Question Generation with Adaptive Hardness Calibration , Annotation-Efficient Universal Honesty Alignment , Humanity's Last Exam
Rater context is mostly domain experts, and annotation is commonly ranking annotation; use this to scope replication staffing.

Evidence: Humanity's Last Exam , Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads , Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models
Stratify by benchmark (MMLU vs MMLU-Pro) before comparing methods.

Evidence: Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads , Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models , Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration

Benchmark Interpretation

MMLU appears in 100% of hub papers (16/16); use this cohort for benchmark-matched comparisons.
MMLU-Pro appears in 18.8% of hub papers (3/16); use this cohort for benchmark-matched comparisons.

Metric Interpretation

accuracy is reported in 31.3% of hub papers (5/16); compare with a secondary metric before ranking methods.
cost is reported in 18.8% of hub papers (3/16); compare with a secondary metric before ranking methods.

Researcher Checklist

Close gap on Papers with explicit human feedback. Coverage is a replication risk (6.3% vs 45% target).
Tighten coverage on Papers reporting quality controls. Coverage is usable but incomplete (25% vs 30% target).
Maintain strength on Papers naming benchmarks/datasets. Coverage is strong (100% vs 35% target).
Maintain strength on Papers naming evaluation metrics. Coverage is strong (56.3% vs 35% target).
Close gap on Papers with known rater population. Coverage is a replication risk (6.3% vs 35% target).
Tighten coverage on Papers with known annotation unit. Coverage is usable but incomplete (25% vs 35% target).

Papers with explicit human feedback

Coverage is a replication risk (6.3% vs 45% target).

Papers reporting quality controls

Coverage is usable but incomplete (25% vs 30% target).

Papers naming benchmarks/datasets

Coverage is strong (100% vs 35% target).

Papers naming evaluation metrics

Coverage is strong (56.3% vs 35% target).

Papers with known rater population

Coverage is a replication risk (6.3% vs 35% target).

Papers with known annotation unit

Coverage is usable but incomplete (25% vs 35% target).

Known Limitations

Rater population is under-specified (6.3% coverage).
Narrative synthesis is grounded in metadata and abstracts only; full-paper implementation details are not parsed.
Cross-page comparisons should be benchmark- and metric-matched to avoid protocol confounding.

Research Utility Links

Benchmark Slice: MMLU - Prioritizes benchmark-specific protocol comparisons.
Metric Slice: accuracy - Finds papers where reported metrics are directly comparable.
Recent High-Signal Papers - Keeps the hub connected to the latest HFEPX corpus updates.

Benchmark Brief

MMLU

Coverage: 16 papers (100%)

16 papers (100%) mention MMLU.

Examples: Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads , Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models

Benchmark Brief

MMLU-Pro

Coverage: 3 papers (18.8%)

3 papers (18.8%) mention MMLU-Pro.

Examples: D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models , Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale , Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation

Benchmark Brief

Retrieval

Coverage: 3 papers (18.8%)

3 papers (18.8%) mention Retrieval.

Examples: Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads , KNIGHT: Knowledge Graph-Driven Multiple-Choice Question Generation with Adaptive Hardness Calibration , Humanity's Last Exam

Metric Brief

accuracy

Coverage: 5 papers (31.3%)

5 papers (31.3%) mention accuracy.

Examples: Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models , Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration

Metric Brief

cost

Coverage: 3 papers (18.8%)

3 papers (18.8%) mention cost.

Examples: Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , KNIGHT: Knowledge Graph-Driven Multiple-Choice Question Generation with Adaptive Hardness Calibration , Diffusion Language Models Know the Answer Before Decoding

Metric Brief

calibration

Coverage: 2 papers (12.5%)

2 papers (12.5%) mention calibration.

Examples: KNIGHT: Knowledge Graph-Driven Multiple-Choice Question Generation with Adaptive Hardness Calibration , Humanity's Last Exam

Most Cited In This Hub

Fast path to methods with the strongest citation traction in this scope.

Papers: Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads , Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference , D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models

Most Recent

Fast path to latest protocol changes and newly published evaluation setups.

Best Protocol Detail

Papers with explicit rater/unit metadata and quality-control signals for reproducibility.

Top Papers On This Benchmark

Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads
Shaswat Patel, Vishvesh Trivedi, Yue Han, Yihuai Hong, Eunsol Choi · Feb 25, 2026

Automatic Metrics

Across four multilingual benchmarks (MMLU-ProX, MGSM, MLQA, and XQuaD) and two model families (Qwen-2.5 and Llama-3.1), we demonstrate that masking RTH induces bigger performance drop than masking Retrieval Heads (RH).
Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference
Bo-Wei Chen, Chung-Chi Chen, An-Zi Yen · Feb 25, 2026

Automatic Metrics Tool Use

Experiments on the Massive Multitask Language Understanding (MMLU) benchmark show that our approach achieves accuracy comparable to the largest model while reducing computational costs by 20\% to 40\%.
D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models
Shunsuke Ubukata · Feb 25, 2026

Automatic Metrics Long Horizon

Chain-of-Thought (CoT) distillation from Large Language Models (LLMs) often induces "overthinking" in Small Language Models (SLMs), leading to performance degradation and excessive token consumption.
Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration
Charafeddine Mouzouni · Feb 24, 2026

Automatic Metrics

We validate across five benchmarks, five models from three families, and both synthetic and real data.
ID-LoRA: Efficient Low-Rank Adaptation Inspired by Matrix Interpolative Decomposition
Xindian Ma, Rundong Kong, Peng Zhang, Ruoxiang Huang, Yongyu Jiang · Feb 24, 2026

Automatic Metrics

We evaluate ID-LoRA on five diverse benchmarks: Mathematical Reasoning, Code Generation, MMLU, CommonsenseQA, and Safety Alignment.
KNIGHT: Knowledge Graph-Driven Multiple-Choice Question Generation with Adaptive Hardness Calibration
Mohammad Amanlou, Erfan Shafiee Moghaddam, Yasaman Amou Jafari, Mahdi Noori, Farhan Farsi · Feb 23, 2026

Automatic Metrics

Results show that KNIGHT enables token- and cost-efficient generation from a reusable graph representation, achieves high quality across these criteria, and yields model rankings aligned with MMLU-style benchmarks, while supporting topic-sp
Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation
Bogdan Kostić, Conor Fallon, Julian Risch, Alexander Löser · Feb 19, 2026

Automatic Metrics

The rapid advancement of Large Language Models (LLMs) has established standardized evaluation benchmarks as the primary instrument for model comparison.
RoPE-LIME: RoPE-Space Locality + Sparse-K Sampling for Efficient LLM Attribution
Isaac Picov, Ritesh Goru · Feb 6, 2026

Automatic Metrics Tool Use

Explaining closed-source Large Language Model (LLM) outputs is challenging because API access prevents gradient-based attribution, while perturbation methods are costly and noisy when they depend on regenerated text.
Indic-TunedLens: Interpreting Multilingual Models in Indian Languages
Mihir Panchal, Deeksha Varshney, Mamta, Asif Ekbal · Jan 29, 2026

Automatic Metrics

We evaluate our framework on 10 Indian languages using the MMLU benchmark and find that it significantly improves over SOTA interpretability methods, especially for morphologically rich, low resource languages.
Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale
David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu · Nov 7, 2025

Automatic Metrics

We introduce a framework able to synthesize vision-centric problems spanning diverse levels of complexity, and the resulting dataset with over 1M high-quality problems including: reasoning traces, preference data, and instruction prompts su
Annotation-Efficient Universal Honesty Alignment
Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu · Oct 20, 2025

Automatic Metrics

To support a large-scale study, we release HonestyBench, a benchmark covering ten free-form QA datasets with 560k training and 70k evaluation instances annotated with correctness and self-consistency signals.
Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation
Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti · Sep 18, 2025

Automatic Metrics

Large language models (LLMs) are increasingly trained with reinforcement learning from verifiable rewards (RLVR), yet real-world deployment demands models that can self-improve without labels or external judges.
Diffusion Language Models Know the Answer Before Decoding
Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan · Aug 27, 2025

Automatic Metrics

Empirical evaluations of LLaDA-8B and Dream-7B across multiple tasks show that Prophet reduces the number of decoding steps by up to 3.4x while preserving high generation quality.
Tokens with Meaning: A Hybrid Tokenization Approach for Turkish
M. Ali Bayram, Ali Arda Fincan, Ahmet Semih Gümüş, Sercan Karakaş, Banu Diri · Aug 19, 2025

Automatic Metrics

We further validate practical utility with downstream sentence embedding benchmarks under a strict \emph{random initialization} control to isolate tokenizer inductive bias.
Enhancing Multilingual LLM Pretraining with Model-Based Data Selection
Bettina Messmer, Vinko Sabolčec, Martin Jaggi · Feb 14, 2025

Automatic Metrics

Training a 1B-parameter Llama model for 70B and 119B tokens, our approach can match the baseline MMLU score with as little as 15% of the training tokens, while also improving across other benchmarks and mitigating the curse of multilinguali
Humanity's Last Exam
Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu · Jan 24, 2025

Automatic Metrics

Benchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities.

Other Benchmark Hubs

MMLU + Automatic Metrics Benchmark Papers

Research Narrative

Why This Matters For Eval Research

Protocol Takeaways

Benchmark Interpretation

Metric Interpretation

Researcher Checklist

Suggested Reading Order

Known Limitations

Research Utility Links

Top Papers On This Benchmark

Other Benchmark Hubs