HFEPX Hub

CS.LG + Law Papers

Updated from current HFEPX corpus (Feb 27, 2026). 14 papers are grouped in this hub page. Common evaluation modes: Automatic Metrics, Simulation Env. Most common rater population: Domain Experts. Common annotation unit: Multi Dim Rubric. Frequently cited benchmark: MATH. Common metric signal: accuracy. Use this page to compare protocol setup, judge behavior, and labeling design decisions before running new eval experiments. Newest paper in this set is from Feb 24, 2026.

Papers: 14 Last published: Feb 24, 2026 Global RSS Tag RSS

Cs.LGLaw

Research Narrative

Grounded narrative Model: deterministic-grounded Source: persisted

Updated from current HFEPX corpus (Feb 27, 2026). This page tracks 14 papers for CS.LG + Law Papers. Dominant protocol signals include automatic metrics, simulation environments, with frequent benchmark focus on MATH, GSM8K and metric focus on accuracy, cost. Use the grounded sections below to prioritize reproducible protocol choices, benchmark-matched comparisons, and judge-vs-human evaluation checks.

Why This Matters For Eval Research

21.4% of papers report explicit human-feedback signals, led by expert verification.

Evidence: APEX-Agents , MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation , Agentic Adversarial QA for Improving Domain-Specific LLMs , Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
automatic metrics appears in 92.9% of papers in this hub.

Evidence: MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation , Agentic Adversarial QA for Improving Domain-Specific LLMs , Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents , Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
MATH is a recurring benchmark anchor for cross-paper comparisons in this page.

Evidence: Prescriptive Scaling Reveals the Evolution of Language Model Capabilities , Orthogonalized Policy Optimization:Policy Optimization as Orthogonal Projection in Hilbert Space , MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation , Agentic Adversarial QA for Improving Domain-Specific LLMs

Protocol Takeaways

Quality-control reporting is sparse in this slice; prioritize papers with explicit calibration or adjudication steps.

Evidence: MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation , Agentic Adversarial QA for Improving Domain-Specific LLMs , Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents , Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
Rater context is mostly domain experts, and annotation is commonly multi-dimensional rubrics; use this to scope replication staffing.

Evidence: Agentic Adversarial QA for Improving Domain-Specific LLMs , APEX-Agents , MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation , Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
Stratify by benchmark (MATH vs GSM8K) before comparing methods.

Evidence: MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation , Agentic Adversarial QA for Improving Domain-Specific LLMs , Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents , Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Benchmark Interpretation

MATH appears in 14.3% of hub papers (2/14); use this cohort for benchmark-matched comparisons.
GSM8K appears in 7.1% of hub papers (1/14); use this cohort for benchmark-matched comparisons.

Metric Interpretation

accuracy is reported in 28.6% of hub papers (4/14); compare with a secondary metric before ranking methods.
cost is reported in 7.1% of hub papers (1/14); compare with a secondary metric before ranking methods.

Researcher Checklist

Close gap on Papers with explicit human feedback. Coverage is a replication risk (21.4% vs 45% target).
Close gap on Papers reporting quality controls. Coverage is a replication risk (0% vs 30% target).
Tighten coverage on Papers naming benchmarks/datasets. Coverage is usable but incomplete (28.6% vs 35% target).
Maintain strength on Papers naming evaluation metrics. Coverage is strong (50% vs 35% target).
Close gap on Papers with known rater population. Coverage is a replication risk (14.3% vs 35% target).
Close gap on Papers with known annotation unit. Coverage is a replication risk (14.3% vs 35% target).

Papers with explicit human feedback

Coverage is a replication risk (21.4% vs 45% target).

Papers reporting quality controls

Coverage is a replication risk (0% vs 30% target).

Papers naming benchmarks/datasets

Coverage is usable but incomplete (28.6% vs 35% target).

Papers naming evaluation metrics

Coverage is strong (50% vs 35% target).

Papers with known rater population

Coverage is a replication risk (14.3% vs 35% target).

Papers with known annotation unit

Coverage is a replication risk (14.3% vs 35% target).

Known Limitations

Only 0% of papers report quality controls; prioritize calibration/adjudication evidence.
Rater population is under-specified (14.3% coverage).
Narrative synthesis is grounded in metadata and abstracts only; full-paper implementation details are not parsed.

Research Utility Links

Benchmark Slice: MATH - Prioritizes benchmark-specific protocol comparisons.
Metric Slice: accuracy - Finds papers where reported metrics are directly comparable.
Recent High-Signal Papers - Keeps the hub connected to the latest HFEPX corpus updates.

automatic_metrics vs simulation_env

both=0, left_only=13, right_only=1

0 papers use both Automatic Metrics and Simulation Env.

Benchmark Brief

MATH

Coverage: 2 papers (14.3%)

2 papers (14.3%) mention MATH.

Examples: Prescriptive Scaling Reveals the Evolution of Language Model Capabilities , Orthogonalized Policy Optimization:Policy Optimization as Orthogonal Projection in Hilbert Space

Benchmark Brief

GSM8K

Coverage: 1 papers (7.1%)

1 papers (7.1%) mention GSM8K.

Examples: Scaling Beyond Masked Diffusion Language Models

Benchmark Brief

Legalbench

Coverage: 1 papers (7.1%)

1 papers (7.1%) mention Legalbench.

Examples: Agentic Adversarial QA for Improving Domain-Specific LLMs

Metric Brief

accuracy

Coverage: 4 papers (28.6%)

4 papers (28.6%) mention accuracy.

Examples: Agentic Adversarial QA for Improving Domain-Specific LLMs , Prescriptive Scaling Reveals the Evolution of Language Model Capabilities , Conflict-Aware Fusion: Resolving Logic Inertia in Large Language Models via Structured Cognitive Priors

Metric Brief

cost

Coverage: 1 papers (7.1%)

1 papers (7.1%) mention cost.

Examples: Group Representational Position Encoding

Metric Brief

pass@1

Coverage: 1 papers (7.1%)

1 papers (7.1%) mention pass@1.

Examples: APEX-Agents

Most Cited In This Hub

Fast path to methods with the strongest citation traction in this scope.

Papers: MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation , Agentic Adversarial QA for Improving Domain-Specific LLMs , Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

Most Recent

Fast path to latest protocol changes and newly published evaluation setups.

Best Protocol Detail

Papers with explicit rater/unit metadata and quality-control signals for reproducibility.

Top Papers

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation
Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco · Feb 24, 2026 · Citations: 0

Automatic Metrics

We introduce MrBERT, a family of 150M-300M parameter encoders built on the ModernBERT architecture and pre-trained on 35 languages and code.
Agentic Adversarial QA for Improving Domain-Specific LLMs
Vincent Grari, Ciprian Tomoiaga, Sylvain Lamprier, Tatsunori Hashimoto, Marcin Detyniecki · Feb 20, 2026 · Citations: 0

Automatic Metrics

Evaluation on specialized subsets of the LegalBench corpus demonstrates that our method achieves greater accuracy with substantially fewer synthetic samples.
Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents
Nivya Talokar, Ayush K Tarun, Murari Mandal, Maksym Andriushchenko, Antoine Bosselut · Feb 18, 2026 · Citations: 0

Red Team Automatic Metrics

LLM-based agents execute real-world workflows via tools and memory.
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
Hanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade · Feb 17, 2026 · Citations: 0

Automatic Metrics

Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via
Scaling Beyond Masked Diffusion Language Models
Subham Sekhar Sahoo, Jean-Marie Lemercier, Zhihan Yang, Justin Deschenaux, Jingyu Liu · Feb 16, 2026 · Citations: 0

Automatic Metrics

Among discrete diffusion approaches, Masked diffusion currently dominates, largely driven by strong perplexity on language modeling benchmarks.
APEX-Agents
Bertie Vidgen, Austin Mann, Abby Fennelly, John Wright Stanly, Lucas Rothman · Jan 20, 2026 · Citations: 0

Rubric RatingExpert Verification Simulation Env Long Horizon

We introduce the AI Productivity Index for Agents (APEX-Agents), a benchmark for assessing whether AI agents can execute long-horizon, cross-application tasks created by investment banking analysts, management consultants, and corporate law
Orthogonalized Policy Optimization:Policy Optimization as Orthogonal Projection in Hilbert Space
Wang Zixian · Jan 18, 2026 · Citations: 0

Automatic Metrics Long Horizon

Experiments on MATH benchmarks show that the Hilbert projection formulation prevents gradient saturation typical of KL-constrained methods.
Group Representational Position Encoding
Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan · Dec 8, 2025 · Citations: 0

Automatic Metrics

We present GRAPE (Group Representational Position Encoding), a unified framework for positional encoding based on group actions.
Conflict-Aware Fusion: Resolving Logic Inertia in Large Language Models via Structured Cognitive Priors
Qiming Bao, Xiaoxuan Fu, Michael Witbrock · Dec 6, 2025 · Citations: 0

Automatic Metrics Long Horizon

We present a controlled evaluation framework consisting of four stress tests: (1) rule deletion (redundant vs.
ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality
Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, I-Hung Hsu, Isaac Caswell · Oct 24, 2025 · Citations: 0

Automatic Metrics

In this work, we undertake the largest multilingual scaling laws study to date, totaling 774 multilingual training experiments, spanning 10M-8B model parameters, 400+ training languages and 48 evaluation languages.
CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures
Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin · Aug 16, 2025 · Citations: 0

Pairwise Preference Automatic Metrics Multi Agent

Game-theoretic interactions between agents with Large Language Models (LLMs) have revealed many emergent capabilities, yet the linguistic diversity of these interactions has not been sufficiently quantified.
How much does context affect the accuracy of AI health advice?
Prashant Garg, Thiemo Fetzer · Apr 25, 2025 · Citations: 0

Automatic Metrics

English-language performance does not reliably generalise across contexts, underscoring the need for multilingual, domain-specific evaluation before deployment in public-health communication.
Using the Path of Least Resistance to Explain Deep Networks
Sina Salek, Joseph Enguehard · Feb 17, 2025 · Citations: 0

Automatic Metrics

Through experiments on both synthetic and real-world image classification data, we provide empirical evidence supporting our theoretical analysis and showing that GIG produces more faithful attributions than existing methods, including IG,
The Dark Side of ChatGPT: Legal and Ethical Challenges from Stochastic Parrots and Hallucination
Zihao Li · Apr 21, 2023 · Citations: 0

Automatic Metrics

With the launch of ChatGPT, Large Language Models (LLMs) are shaking up our whole society, rapidly altering the way we think, create and live.

CS.LG + Law Papers

Research Narrative

Why This Matters For Eval Research

Protocol Takeaways

Benchmark Interpretation

Metric Interpretation

Researcher Checklist

Suggested Reading Order

Known Limitations

Research Utility Links

Top Papers

Related Hubs