HFEPX Archive Slice

HFEPX Daily Archive: 2026-01-29

Updated from current HFEPX corpus (Mar 8, 2026). 5 papers are grouped in this daily page.

Read Full Context

Updated from current HFEPX corpus (Mar 8, 2026). 5 papers are grouped in this daily page. Common evaluation modes: Automatic Metrics, Simulation Env. Common annotation unit: Freeform. Frequently cited benchmark: ALFWorld. Common metric signal: cost. Use this page to compare protocol setup, judge behavior, and labeling design decisions before running new eval experiments. Newest paper in this set is from Jan 29, 2026.

Papers: 5 Last published: Jan 29, 2026 Global RSS

Researcher Quick Triage

Use this archive page for time-slice monitoring (what changed in evaluation methods, metrics, and protocol quality this period). Quality band: Developing .

High-Signal Coverage

100.0%

5 / 5 papers are not low-signal flagged.

Benchmark Anchors

40.0%

Papers with benchmark/dataset mentions in extraction output.

Metric Anchors

40.0%

Papers with reported metric mentions in extraction output.

0 papers report explicit quality controls for this archive period.
Prioritize papers with both benchmark and metric anchors for reliable longitudinal comparisons.

Primary action: Use this slice as early signal only; benchmark/metric anchoring is limited for rigorous period-over-period claims.

Why This Time Slice Matters

automatic metrics appears in 20% of papers in this hub.
ALFWorld is a recurring benchmark anchor for cross-paper comparisons in this page.
long-horizon tasks appears in 20% of papers, indicating agentic evaluation demand.

Protocol Takeaways For This Period

Quality-control reporting is sparse in this slice; prioritize papers with explicit calibration or adjudication steps.
Rater context is mostly unspecified rater pools, and annotation is commonly Freeform; use this to scope replication staffing.
Track metric sensitivity by reporting both cost and accuracy.

Start Here (Highest-Signal Papers In This Slice)

Ranked by protocol completeness and evidence density for faster period-over-period review.

Embodied Task Planning via Graph-Informed Action Generation with Large Language Model
Jan 29, 2026 · Citations: 0 · Score: 6.0

Eval: Simulation Env · Metrics: Pass@1, Cost
EnsembleLink: Accurate Record Linkage Without Training Data
Jan 29, 2026 · Citations: 0 · Score: 4.5

Eval: Automatic Metrics · Metrics: Accuracy
Indic-TunedLens: Interpreting Multilingual Models in Indian Languages
Jan 29, 2026 · Citations: 0 · Score: 3.5

Eval: Not reported · Metrics: Not reported
Learn-to-Distance: Distance Learning for Detecting LLM-Generated Text
Jan 29, 2026 · Citations: 0 · Score: 2.0

Eval: Not reported · Metrics: Not reported
From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes
Jan 29, 2026 · Citations: 0 · Score: 0.0

Eval: Not reported · Metrics: Not reported

Protocol Matrix (Top 10)

Quickly compare method ingredients across this archive slice.

Paper	Eval Modes	Benchmarks	Metrics	Quality Controls
Embodied Task Planning via Graph-Informed Action Generation with Large Language Model Jan 29, 2026	Simulation Env	ALFWorld	Pass@1, Cost	Not reported
EnsembleLink: Accurate Record Linkage Without Training Data Jan 29, 2026	Automatic Metrics	Not reported	Accuracy	Not reported
Indic-TunedLens: Interpreting Multilingual Models in Indian Languages Jan 29, 2026	Not reported	MMLU	Not reported	Not reported
Learn-to-Distance: Distance Learning for Detecting LLM-Generated Text Jan 29, 2026	Not reported	Not reported	Not reported	Not reported
From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes Jan 29, 2026	Not reported	Not reported	Not reported	Not reported

Researcher Workflow (Detailed)

Checklist

Gap: Papers with explicit human feedback

Coverage is a replication risk (0% vs 45% target).
Gap: Papers reporting quality controls

Coverage is a replication risk (0% vs 30% target).
Gap: Papers naming benchmarks/datasets

Coverage is a replication risk (20% vs 35% target).
Strong: Papers naming evaluation metrics

Coverage is strong (60% vs 35% target).
Gap: Papers with known rater population

Coverage is a replication risk (0% vs 35% target).
Gap: Papers with known annotation unit

Coverage is a replication risk (20% vs 35% target).

Strengths

Agentic evaluation appears in 40% of papers.

Known Gaps

Only 0% of papers report quality controls; prioritize calibration/adjudication evidence.
Rater population is under-specified (0% coverage).
Annotation unit is under-specified (20% coverage).

Suggested Next Analyses

Track metric sensitivity by reporting both cost and accuracy.

Recommended Queries

Benchmark Slice: ALFWorld Metric Slice: cost Recent High-Signal Papers

Known Limitations

Only 0% of papers report quality controls; prioritize calibration/adjudication evidence.
Rater population is under-specified (0% coverage).
Narrative synthesis is grounded in metadata and abstracts only; full-paper implementation details are not parsed.

Research Utility Snapshot (Detailed)

Evaluation Modes

Automatic Metrics (1)
Simulation Env (1)

Top Metrics

Cost (2)
Accuracy (1)
Coherence (1)
Pass@1 (1)

Top Benchmarks

ALFWorld (1)

Quality Controls

Papers In This Archive Slice

From Generative Modeling to Clinical Classification: A GPT-Based Architecture for EHR Notes
Fariba Afrin Irany, Sampson Akwafuo · Jan 29, 2026 · Citations: 0
Learn-to-Distance: Distance Learning for Detecting LLM-Generated Text
Hongyi Zhou, Jin Zhu, Kai Ye, Ying Yang, Erhan Xu · Jan 29, 2026 · Citations: 0

Yet, their ability to produce highly human-like text raises serious concerns about misinformation and academic integrity, making it an urgent need for reliable algorithms to detect LLM-generated content.
Embodied Task Planning via Graph-Informed Action Generation with Large Language Model
Xiang Li, Ning Yan, Masood Mortazavi · Jan 29, 2026 · Citations: 0

Long Horizon

We propose GiG, a novel planning framework that structures embodied agents' memory using a Graph-in-Graph architecture.
Indic-TunedLens: Interpreting Multilingual Models in Indian Languages
Mihir Panchal, Deeksha Varshney, Mamta, Asif Ekbal · Jan 29, 2026 · Citations: 0

We evaluate our framework on 10 Indian languages using the MMLU benchmark and find that it significantly improves over SOTA interpretability methods, especially for morphologically rich, low resource languages.
EnsembleLink: Accurate Record Linkage Without Training Data
Noah Dasanaike · Jan 29, 2026 · Citations: 0

Tool Use

On benchmarks spanning city names, person names, organizations, multilingual political parties, and bibliographic records, EnsembleLink matches or exceeds methods requiring extensive labeling.

Need human evaluators for your AI research? Scale annotation with expert AI Trainers.

Post a Job Get a Quote