HFEPX Hub

Coding + Multi Agent Papers

Updated from current HFEPX corpus (Feb 27, 2026). 13 papers are grouped in this hub page. Common evaluation modes: Automatic Metrics, Simulation Env. Most common rater population: Domain Experts. Common annotation unit: Pairwise. Frequent quality control: Calibration. Frequently cited benchmark: LiveCodeBench. Common metric signal: accuracy. Use this page to compare protocol setup, judge behavior, and labeling design decisions before running new eval experiments. Newest paper in this set is from Feb 26, 2026.

Papers: 13 Last published: Feb 26, 2026 Global RSS Tag RSS

CodingMulti Agent

Research Narrative

Grounded narrative Model: deterministic-grounded Source: persisted

Updated from current HFEPX corpus (Feb 27, 2026). This page tracks 13 papers for Coding + Multi Agent Papers. Dominant protocol signals include automatic metrics, simulation environments, with frequent benchmark focus on LiveCodeBench, Retrieval and metric focus on accuracy, calibration. Use the grounded sections below to prioritize reproducible protocol choices, benchmark-matched comparisons, and judge-vs-human evaluation checks.

Why This Matters For Eval Research

38.5% of papers report explicit human-feedback signals, led by expert verification.

Evidence: SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery , Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling , AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning , A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives
automatic metrics appears in 84.6% of papers in this hub.

Evidence: AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning , A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives , SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery , Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination
LiveCodeBench is a recurring benchmark anchor for cross-paper comparisons in this page.

Evidence: Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling , AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning , A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives , SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery

Protocol Takeaways

Most common quality-control signal is rater calibration (7.7% of papers).

Evidence: Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling , AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning , A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives , SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery
Rater context is mostly domain experts, and annotation is commonly pairwise annotation; use this to scope replication staffing.

Evidence: SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery , Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling , AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning , A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives
Stratify by benchmark (LiveCodeBench vs Retrieval) before comparing methods.

Evidence: AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning , A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives , SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery , Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination

Benchmark Interpretation

LiveCodeBench appears in 7.7% of hub papers (1/13); use this cohort for benchmark-matched comparisons.
Retrieval appears in 7.7% of hub papers (1/13); use this cohort for benchmark-matched comparisons.

Metric Interpretation

accuracy is reported in 15.4% of hub papers (2/13); compare with a secondary metric before ranking methods.
calibration is reported in 7.7% of hub papers (1/13); compare with a secondary metric before ranking methods.

Researcher Checklist

Tighten coverage on Papers with explicit human feedback. Coverage is usable but incomplete (38.5% vs 45% target).
Close gap on Papers reporting quality controls. Coverage is a replication risk (7.7% vs 30% target).
Close gap on Papers naming benchmarks/datasets. Coverage is a replication risk (15.4% vs 35% target).
Maintain strength on Papers naming evaluation metrics. Coverage is strong (38.5% vs 35% target).
Close gap on Papers with known rater population. Coverage is a replication risk (15.4% vs 35% target).
Tighten coverage on Papers with known annotation unit. Coverage is usable but incomplete (30.8% vs 35% target).

Papers with explicit human feedback

Coverage is usable but incomplete (38.5% vs 45% target).

Papers reporting quality controls

Coverage is a replication risk (7.7% vs 30% target).

Papers naming benchmarks/datasets

Coverage is a replication risk (15.4% vs 35% target).

Papers naming evaluation metrics

Coverage is strong (38.5% vs 35% target).

Papers with known rater population

Coverage is a replication risk (15.4% vs 35% target).

Papers with known annotation unit

Coverage is usable but incomplete (30.8% vs 35% target).

Known Limitations

Only 7.7% of papers report quality controls; prioritize calibration/adjudication evidence.
Rater population is under-specified (15.4% coverage).
Narrative synthesis is grounded in metadata and abstracts only; full-paper implementation details are not parsed.

Research Utility Links

Benchmark Slice: LiveCodeBench - Prioritizes benchmark-specific protocol comparisons.
Metric Slice: accuracy - Finds papers where reported metrics are directly comparable.
Recent High-Signal Papers - Keeps the hub connected to the latest HFEPX corpus updates.

automatic_metrics vs simulation_env

both=0, left_only=11, right_only=2

0 papers use both Automatic Metrics and Simulation Env.

Benchmark Brief

LiveCodeBench

Coverage: 1 papers (7.7%)

1 papers (7.7%) mention LiveCodeBench.

Examples: Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling

Benchmark Brief

Retrieval

Coverage: 1 papers (7.7%)

1 papers (7.7%) mention Retrieval.

Examples: AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Metric Brief

accuracy

Coverage: 2 papers (15.4%)

2 papers (15.4%) mention accuracy.

Examples: AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning , Reshaping MOFs text mining with a dynamic multi-agents framework of large language model

Metric Brief

calibration

Coverage: 1 papers (7.7%)

1 papers (7.7%) mention calibration.

Examples: Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling

Metric Brief

cost

Coverage: 1 papers (7.7%)

1 papers (7.7%) mention cost.

Examples: SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery

Most Cited In This Hub

Fast path to methods with the strongest citation traction in this scope.

Papers: AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning , A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives , SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery

Most Recent

Fast path to latest protocol changes and newly published evaluation setups.

Best Protocol Detail

Papers with explicit rater/unit metadata and quality-control signals for reproducibility.

Top Papers

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning
Yutong Wang, Siyuan Xiong, Xuebo Liu, Wenkang Zhou, Liang Ding · Feb 26, 2026 · Citations: 0

Automatic Metrics Multi Agent

While Multi-Agent Systems (MAS) excel in complex reasoning, they suffer from the cascading impact of erroneous information generated by individual participants.
A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives
Dmitrii Pantiukhin, Ivan Kuznetsov, Boris Shapkin, Antonia Anna Jost, Thomas Jung · Feb 24, 2026 · Citations: 0

Automatic Metrics Long Horizon

Here we present PANGAEA-GPT, a hierarchical multi-agent framework designed for autonomous data discovery and analysis.
SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery
David Anugraha, Vishakh Padmakumar, Diyi Yang · Feb 24, 2026 · Citations: 0

Expert Verification Automatic Metrics Multi Agent

Based on this formulation, we introduce SparkMe, a multi-agent LLM interviewer that performs deliberative planning via simulated conversation rollouts to select questions with high expected utility.
Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination
Rakshit Trivedi, Kartik Sharma, David C Parkes · Feb 24, 2026 · Citations: 0

Demonstrations Automatic Metrics Multi Agent

Effective human-AI coordination requires artificial agents capable of exhibiting and responding to human-like behaviors while adapting to changing contexts.
Whisper: Courtside Edition Enhancing ASR Performance Through LLM-Driven Context Generation
Yonathan Ron, Shiri Gilboa, Tammuz Dubnov · Feb 21, 2026 · Citations: 0

Automatic Metrics Multi Agent

We introduce Whisper: Courtside Edition, a novel multi-agent large language model (LLM) pipeline that enhances Whisper transcriptions without retraining.
MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation
Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani, AmirHossein Jadidi, Saina Kashani · Feb 18, 2026 · Citations: 0

Simulation Env Multi Agent

MALLVI presents a Multi Agent Large Language and Vision framework that enables closed-loop feedback driven robotic manipulation.
Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling
Jeffrey T. H. Wong, Zixi Zhang, Junyi Liu, Yiren Zhao · Feb 18, 2026 · Citations: 0

Expert Verification Automatic Metrics Multi Agent

Existing Multi-Agent Systems (MAS) typically rely on static, homogeneous model configurations, limiting their ability to exploit the distinct strengths of differently post-trained models.
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems
Xiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He · Feb 17, 2026 · Citations: 0

Pairwise Preference Automatic Metrics Multi Agent

Multi-Agent Systems (MAS) powered by Large Language Models have unlocked advanced collaborative reasoning, yet they remain shackled by the inefficiency of discrete text communication, which imposes significant runtime overhead and informati
OR-Agent: Bridging Evolutionary Search and Structured Research for Automated Algorithm Discovery
Qi Liu, Ruochen Hao, Can Li, Wanjing Ma · Feb 14, 2026 · Citations: 0

Simulation Env Multi Agent

We present OR-Agent, a configurable multi-agent research framework designed for automated exploration in rich experimental environments.
VILLAIN at AVerImaTeC: Verifying Image-Text Claims via Multi-Agent Collaboration
Jaeyoon Jung, Yejun Yoon, Kunwoo Park · Feb 4, 2026 · Citations: 0

Automatic Metrics Multi Agent

This paper describes VILLAIN, a multimodal fact-checking system that verifies image-text claims through prompt-based multi-agent collaboration.
CORE: Measuring Multi-Agent LLM Interaction Quality under Game-Theoretic Pressures
Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin · Aug 16, 2025 · Citations: 0

Pairwise Preference Automatic Metrics Multi Agent

Game-theoretic interactions between agents with Large Language Models (LLMs) have revealed many emergent capabilities, yet the linguistic diversity of these interactions has not been sufficiently quantified.
GDGB: A Benchmark for Generative Dynamic Text-Attributed Graph Learning
Jie Peng, Jiarui Ji, Runlin Lei, Zhewei Wei, Yongchao Liu · Jul 4, 2025 · Citations: 0

Automatic Metrics Multi Agent

Additionally, prior work mainly focuses on discriminative tasks on DyTAGs, resulting in a lack of standardized task formulations and evaluation protocols tailored for DyTAG generation.
Reshaping MOFs text mining with a dynamic multi-agents framework of large language model
Zuhong Lin, Daoyuan Ren, Kai Ran, Jing Sun, Songlin Yu · Apr 26, 2025 · Citations: 0

Automatic Metrics Multi Agent

Accurately identifying the synthesis conditions of metal-organic frameworks (MOFs) is essential for guiding experimental design, yet remains challenging because relevant information in the literature is often scattered, inconsistent, and di

Coding + Multi Agent Papers

Research Narrative

Why This Matters For Eval Research

Protocol Takeaways

Benchmark Interpretation

Metric Interpretation

Researcher Checklist

Suggested Reading Order

Known Limitations

Research Utility Links

Top Papers

Related Hubs