HFEPX Archive Slice

HFEPX Daily Archive: 2025-06-04

Updated from current HFEPX corpus (Mar 8, 2026). 9 papers are grouped in this daily page.

Read Full Context

Updated from current HFEPX corpus (Mar 8, 2026). 9 papers are grouped in this daily page. Common evaluation modes: Automatic Metrics, Simulation Env. Most common rater population: Domain Experts. Common annotation unit: Trajectory. Frequently cited benchmark: Hssbench. Common metric signal: accuracy. Use this page to compare protocol setup, judge behavior, and labeling design decisions before running new eval experiments. Newest paper in this set is from Jun 4, 2025.

Papers: 9 Last published: Jun 4, 2025 Global RSS

Researcher Quick Triage

Use this archive page for time-slice monitoring (what changed in evaluation methods, metrics, and protocol quality this period). Quality band: Medium .

High-Signal Coverage

100.0%

9 / 9 papers are not low-signal flagged.

Benchmark Anchors

44.4%

Papers with benchmark/dataset mentions in extraction output.

Metric Anchors

66.7%

Papers with reported metric mentions in extraction output.

0 papers report explicit quality controls for this archive period.
Prioritize papers with both benchmark and metric anchors for reliable longitudinal comparisons.

Primary action: Use this slice as early signal only; benchmark/metric anchoring is limited for rigorous period-over-period claims.

Why This Time Slice Matters

11.1% of papers report explicit human-feedback signals, led by expert verification.
automatic metrics appears in 22.2% of papers in this hub.
Hssbench is a recurring benchmark anchor for cross-paper comparisons in this page.

Protocol Takeaways For This Period

Quality-control reporting is sparse in this slice; prioritize papers with explicit calibration or adjudication steps.
Rater context is mostly domain experts, and annotation is commonly trajectory-level annotation; use this to scope replication staffing.
Pair this hub with llm_as_judge pages to benchmark automated-vs-human evaluation tradeoffs.

Start Here (Highest-Signal Papers In This Slice)

Ranked by protocol completeness and evidence density for faster period-over-period review.

Go-Browse: Training Web Agents with Structured Exploration
Jun 4, 2025 · Citations: 0 · Score: 5.0

Eval: Simulation Env · Metrics: Success rate
CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling
Jun 4, 2025 · Citations: 0 · Score: 4.0

Eval: Not reported · Metrics: Cost
"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation
Jun 4, 2025 · Citations: 0 · Score: 3.5

Eval: Simulation Env · Metrics: Cost
High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning
Jun 4, 2025 · Citations: 0 · Score: 3.5

Eval: Automatic Metrics · Metrics: Accuracy, F1
HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models
Jun 4, 2025 · Citations: 0 · Score: 3.5

Eval: Not reported · Metrics: Not reported
EuroGEST: Investigating gender stereotypes in multilingual language models
Jun 4, 2025 · Citations: 0 · Score: 3.5

Eval: Human Eval, Automatic Metrics · Metrics: Accuracy

Protocol Matrix (Top 10)

Quickly compare method ingredients across this archive slice.

Paper	Eval Modes	Benchmarks	Metrics	Quality Controls
Go-Browse: Training Web Agents with Structured Exploration Jun 4, 2025	Simulation Env	WebArena	Success rate	Not reported
CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling Jun 4, 2025	Not reported	MATH 500, GPQA	Cost	Not reported
"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation Jun 4, 2025	Simulation Env	Not reported	Cost	Not reported
High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning Jun 4, 2025	Automatic Metrics	Not reported	Accuracy, F1	Not reported
HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models Jun 4, 2025	Not reported	Hssbench	Not reported	Not reported
EuroGEST: Investigating gender stereotypes in multilingual language models Jun 4, 2025	Human Eval, Automatic Metrics	Not reported	Accuracy	Not reported
Watermarking Degrades Alignment in Language Models: Analysis and Mitigation Jun 4, 2025	Not reported	Not reported	Perplexity, Helpfulness	Not reported
Beyond Memorization: A Rigorous Evaluation Framework for Medical Knowledge Editing Jun 4, 2025	Not reported	Mededitbench	Not reported	Not reported
Toward Beginner-Friendly LLMs for Language Learning: Controlling Difficulty in Conversation Jun 4, 2025	Not reported	Not reported	Not reported	Not reported

Researcher Workflow (Detailed)

Checklist

Gap: Papers with explicit human feedback

Coverage is a replication risk (11.1% vs 45% target).
Gap: Papers reporting quality controls

Coverage is a replication risk (0% vs 30% target).
Moderate: Papers naming benchmarks/datasets

Coverage is usable but incomplete (22.2% vs 35% target).
Moderate: Papers naming evaluation metrics

Coverage is usable but incomplete (33.3% vs 35% target).
Moderate: Papers with known rater population

Coverage is usable but incomplete (22.2% vs 35% target).
Gap: Papers with known annotation unit

Coverage is a replication risk (11.1% vs 35% target).

Strengths

Agentic evaluation appears in 33.3% of papers.

Known Gaps

Only 0% of papers report quality controls; prioritize calibration/adjudication evidence.
Rater population is under-specified (22.2% coverage).
Annotation unit is under-specified (11.1% coverage).

Suggested Next Analyses

Pair this hub with llm_as_judge pages to benchmark automated-vs-human evaluation tradeoffs.
Stratify by benchmark (Hssbench vs WebArena) before comparing methods.
Track metric sensitivity by reporting both accuracy and cost.

Recommended Queries

Human Eval Protocols Benchmark Slice: Hssbench Metric Slice: accuracy Recent High-Signal Papers

Known Limitations

Only 0% of papers report quality controls; prioritize calibration/adjudication evidence.
Rater population is under-specified (22.2% coverage).
Narrative synthesis is grounded in metadata and abstracts only; full-paper implementation details are not parsed.

Research Utility Snapshot (Detailed)

Evaluation Modes

Automatic Metrics (2)
Simulation Env (2)
Human Eval (1)

Top Metrics

Accuracy (1)
Cost (1)
Inference cost (1)
Success rate (1)

Top Benchmarks

Hssbench (1)
WebArena (1)

Quality Controls

Papers In This Archive Slice

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation
Amin Seffo, Aladin Djuhera, Masataro Asai, Holger Boche · Jun 4, 2025 · Citations: 0

Web Browsing

Recent advancements in large language models (LLMs) have spurred interest in robotic navigation that incorporates complex spatial, mathematical, and conditional constraints from natural language into the planning problem.
Watermarking Degrades Alignment in Language Models: Analysis and Mitigation
Apurv Verma, NhatHai Phan, Shubhendu Trivedi · Jun 4, 2025 · Citations: 0

In practice, sampling as few as two to four candidates largely restores unwatermarked alignment performance in truthfulness, safety, and helpfulness, without hurting watermark detection.
Toward Beginner-Friendly LLMs for Language Learning: Controlling Difficulty in Conversation
Meiqing Jin, Liam Dugan, Chris Callison-Burch · Jun 4, 2025 · Citations: 0

We further introduce a new token-level evaluation metric, Token Miss Rate (TMR), that quantifies the proportion of incomprehensible tokens per utterance and correlates strongly with human judgments.
High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning
Tim Franzmeyer, Archie Sravankumar, Lijuan Liu, Yuning Mao, Rui Hou · Jun 4, 2025 · Citations: 0

Abstract shows limited direct human-feedback or evaluation-protocol detail; use as adjacent methodological context.
HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models
Zhaolu Kang, Junhao Gong, Jiaxu Yan, Wanke Xia, Yian Wang · Jun 4, 2025 · Citations: 0

Expert Verification

However, current benchmarks for evaluating MLLMs primarily emphasize general knowledge and vertical step-by-step reasoning typical of STEM disciplines, while overlooking the distinct needs and potential of the Humanities and Social Sciences…
EuroGEST: Investigating gender stereotypes in multilingual language models
Jacqueline Rowe, Mateusz Klimaszewski, Liane Guillou, Shannon Vallor, Alexandra Birch · Jun 4, 2025 · Citations: 0

Large language models increasingly support multiple languages, yet most benchmarks for gender bias remain English-centric.
CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling
Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu · Jun 4, 2025 · Citations: 0

Long Horizon

Abstract shows limited direct human-feedback or evaluation-protocol detail; use as adjacent methodological context.
Go-Browse: Training Web Agents with Structured Exploration
Apurva Gandhi, Graham Neubig · Jun 4, 2025 · Citations: 0

Web Browsing

To address this, we propose Go-Browse, a method for automatically collecting diverse and realistic web agent data at scale through structured exploration of web environments.
Beyond Memorization: A Rigorous Evaluation Framework for Medical Knowledge Editing
Shigeng Chen, Linhao Luo, Zhangchi Qiu, Yanan Cao, Carl Yang · Jun 4, 2025 · Citations: 0

Despite the effectiveness in general-domain benchmarks, their applicability to complex medical domain remains largely unexplored.

Need human evaluators for your AI research? Scale annotation with expert AI Trainers.

Post a Job Get a Quote