HFEPX Archive Slice

HFEPX Daily Papers for 2026-06-17

Daily archive slice for 2026-06-17 from the HFEPX corpus. Updated from current HFEPX corpus (2026-06-22); covers 60 papers from 2026-06-17.

Papers: 60 Last published: Jun 17, 2026 Global RSS

Researcher Quick Triage

Use this archive page for time-slice monitoring (what changed in evaluation methods, metrics, and protocol quality this period). Quality band: High .

High-Signal Coverage

100.0%

60 / 60 papers are not low-signal flagged.

Benchmark Anchors

11.7%

Papers with benchmark/dataset mentions in extraction output.

Metric Anchors

15.0%

Papers with reported metric mentions in extraction output.

3 papers report explicit quality controls for this archive period.
Prioritize papers with both benchmark and metric anchors for reliable longitudinal comparisons.

Primary action: Use this slice for trend comparison: review top papers first, then validate shifts in the protocol matrix.

Get this digest every Friday →

Why This Time Slice Matters

Use this archive slice to monitor protocol drift and shifts in evaluation methods over 2026-06-17.

Protocol Takeaways For This Period

Evaluation modes for this slice cluster around automatic_metrics, llm_as_judge.

Start Here (Highest-Signal Papers In This Slice)

Ranked by protocol completeness and evidence density for faster period-over-period review.

Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias
Jun 17, 2026 · Citations: 0 · Score: 8.5

Eval: Llm As Judge, Automatic Metrics · Metrics: Exact match, Kappa
Displacement Is Not Direction: Evaluating Fidelity Metrics for Quantized LLM Deployment
Jun 17, 2026 · Citations: 0 · Score: 7.5

Eval: Automatic Metrics · Metrics: Accuracy, Precision
SAGE-OPD: Selective Agent-Guided Intervention for Multi-Turn On-Policy Distillation
Jun 17, 2026 · Citations: 0 · Score: 6.5

Eval: Simulation Env · Metrics: Success rate
Uncertainty Decomposition for Clarification Seeking in LLM Agents
Jun 17, 2026 · Citations: 0 · Score: 6.5

Eval: Automatic Metrics, Simulation Env · Metrics: F1, Latency
From 50K to 8.2 Million in 24 Hours: Vozinha's Algorithmic Consecration and the Multilingual Making of World Cup Visibility
Jun 17, 2026 · Citations: 0 · Score: 6.0

Eval: Automatic Metrics · Metrics: Agreement
A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots
Jun 17, 2026 · Citations: 0 · Score: 5.0

Eval: Automatic Metrics · Metrics: Success rate, Latency

Protocol Matrix (Top 10)

Quickly compare method ingredients across this archive slice.

Paper	Eval Modes	Benchmarks	Metrics	Quality Controls
Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias Jun 17, 2026	Llm As Judge, Automatic Metrics	MT Bench, Judgebench	Exact match, Kappa	Inter Annotator Agreement Reported
Displacement Is Not Direction: Evaluating Fidelity Metrics for Quantized LLM Deployment Jun 17, 2026	Automatic Metrics	LiveCodeBench	Accuracy, Precision	Calibration
SAGE-OPD: Selective Agent-Guided Intervention for Multi-Turn On-Policy Distillation Jun 17, 2026	Simulation Env	ALFWorld	Success rate	Not reported
Uncertainty Decomposition for Clarification Seeking in LLM Agents Jun 17, 2026	Automatic Metrics, Simulation Env	ALFWorld, WebShop	F1, Latency	Not reported
From 50K to 8.2 Million in 24 Hours: Vozinha's Algorithmic Consecration and the Multilingual Making of World Cup Visibility Jun 17, 2026	Automatic Metrics	Not reported	Agreement	Calibration, Inter Annotator Agreement Reported
A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots Jun 17, 2026	Automatic Metrics	Not reported	Success rate, Latency	Not reported
MiqraBERT: Regression-Based Sentence-BERT Finetuning for Biblical Hebrew Parallel Detection Jun 17, 2026	Automatic Metrics	Not reported	Recall, Recall@10	Not reported
Toten: Knowledge-Based Ontological Tokenization Of Physical Quantities And Technical Notation In Brazilian Portuguese Jun 17, 2026	Automatic Metrics	Not reported	Recall, Spearman	Not reported
A BART-based approach with hierarchical strategy for Vietnamese abstractive multi-document summarization Jun 17, 2026	Automatic Metrics	Not reported	F1	Not reported
Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance Jun 17, 2026	Not reported	Physassistbench	Not reported	Not reported

Researcher Workflow (Detailed)

Checklist

Gap: Human feedback

Human feedback is present in 2 of 60 papers.
Gap: Quality controls

Quality controls is present in 3 of 60 papers.
Gap: Benchmarks

Benchmarks is present in 7 of 60 papers.
Gap: Metrics

Metrics is present in 9 of 60 papers.
Gap: Known rater population

Known rater population is present in 2 of 60 papers.
Gap: Known annotation unit

Known annotation unit is present in 5 of 60 papers.

Known Gaps

Human feedback is present in 2 of 60 papers.
Quality controls is present in 3 of 60 papers.
Benchmarks is present in 7 of 60 papers.

Suggested Next Analyses

Compare 2026-06-17 against neighboring archive slices to flag protocol drift.

Recommended Queries

Browse all HFEPX daily archives

Known Limitations

This synthetic archive page is generated on-demand from extraction data because no cached payload was available for 2026-06-17.

Research Utility Snapshot (Detailed)

Evaluation Modes

Automatic Metrics (8)
Llm As Judge (2)
Simulation Env (2)

Top Metrics

Agreement (2)
F1 (2)
Latency (2)
Recall (2)

Top Benchmarks

ALFWorld (2)
ARC Challenge (1)
Dlc Bench (1)
Judgebench (1)

Quality Controls

Calibration (2)
Inter Annotator Agreement Reported (2)

Papers In This Archive Slice

Are LLMs Ready to Assist Physicians? PhysAssistBench for Interactive Doctor-Patient-EHR Assistance
Tianming Du, Peijie Yu, Sihan Shang, Danli Shi, My Linh Nguyen · Jun 17, 2026 · Citations: 0

Tool Use

The most plausible near-term role of medical LLMs is to assist rather than replace physicians, yet current evaluations often test isolated capabilities: clinical knowledge, EHR system interaction, or patient communication.
ESBMC-GraphPLC: Formal Verification of Graphical PLCopen XML Ladder Diagram Programs Using SMT-Based Model Checking
Pierre Dantas, Lucas Cordeiro, Waldir Junior · Jun 17, 2026 · Citations: 0

The 11 textual LD benchmarks are fully preserved, with no regression.
A Layered Security Framework Against Prompt Injection in RAG-Based Chatbots
Gulshan Saleem, Nisar Ahmed, Muhammad Imran Zaman, Ali Hassan · Jun 17, 2026 · Citations: 0

Evaluation on 5,080 samples across GPT-4o, Llama 3, and Mistral 7B shows that the framework reduces Attack Success Rate (ASR) from 71.4\% to 11.3\%, outperforming the best single-layer baseline by 27.3 percentage points and a published…
SAGE-OPD: Selective Agent-Guided Intervention for Multi-Turn On-Policy Distillation
Yuhang Zhou, Lizhu Zhang, Yifan Wu, Mingyi Wang, Bo Peng · Jun 17, 2026 · Citations: 0

Long Horizon

On-policy distillation (OPD) improves student models by training them on trajectories induced by their own policy, making it a promising approach for mitigating exposure bias in agent training.
From 50K to 8.2 Million in 24 Hours: Vozinha's Algorithmic Consecration and the Multilingual Making of World Cup Visibility
Vinicius Covas · Jun 17, 2026 · Citations: 0

The study contributes a multilingual corpus in Portuguese, Spanish, English, and French; a nine-frame narrative taxonomy with cue-based frame annotation; a reproducible annotation pipeline combining LLM-assisted suggestion with human…
Creating Multilingual Mental Health Dialogue Datasets: Limits of Persona-Based Localization via Nationality and Language
Yunkai Xu, Saeed Abdullah · Jun 17, 2026 · Citations: 0

LLM judge models often exhibit inaccuracies in assessing depression severity in non-English texts, with performance varying across different models.
MiqraBERT: Regression-Based Sentence-BERT Finetuning for Biblical Hebrew Parallel Detection
David M. Smiley · Jun 17, 2026 · Citations: 0

Abstract shows limited direct human-feedback or evaluation-protocol detail; use as adjacent methodological context.
Before the Labels: How Dataset Construction Shapes Suicidality Detection in Clinical Text
Priyanshi Garg, Ishita Rao, Jieqiong Ding, Amandalynne Paullada · Jun 17, 2026 · Citations: 0

Expert Verification

We show how governance constraints, ICD-based cohort selection, single-annotator labeling, and hospital-stay-level aggregation produce labels that reflect clinician-documented judgments, treat suicidality as a bounded episode, and assume…
Toten: Knowledge-Based Ontological Tokenization Of Physical Quantities And Technical Notation In Brazilian Portuguese
Antonio de Sousa Leitão Filho; Allan Kardec Duailibe Barros Filho; Fabrício Saul Lima; Selby Mykael Lima dos Santos; Rejani Bandeira Vieira Sousa · Jun 17, 2026 · Citations: 0

Intrinsic evaluation covers four properties verifiable by construction -- ontological atomicity, dimensional equivalence, typographic robustness, and numerical reconstruction -- over an internal, physically validated benchmark (EngQuant,…
Where Does Social Reasoning Come From? Capability Provenance in Language Models
Glenn Matlin, Chandreyi Chakraborty, Saehee Eom, Mika Okamoto, Rayan Castilla · Jun 17, 2026 · Citations: 0

Training-data attribution measures how strongly each training document influences a model's predictions on a benchmark, but document-level scores are too noisy to identify which corpus regions support which capabilities, and prior work has…
A BART-based approach with hierarchical strategy for Vietnamese abstractive multi-document summarization
Vu Nguyen Nguyen Xuan, Huy Ngo Quang · Jun 17, 2026 · Citations: 0

Abstract shows limited direct human-feedback or evaluation-protocol detail; use as adjacent methodological context.
Uncertainty Decomposition for Clarification Seeking in LLM Agents
Gregory Matsnev · Jun 17, 2026 · Citations: 0

Recent position papers argue that the classical aleatoric/epistemic uncertainty framework is insufficient for interactive large language model (LLM) agents and call for underspecification-aware, decomposed, and communicable uncertainty…
Displacement Is Not Direction: Evaluating Fidelity Metrics for Quantized LLM Deployment
Miloš Nikolić, Ali Hadi Zadeh, Enrique Torres Sanchez, Andreas Moshovos · Jun 17, 2026 · Citations: 0

Fidelity metrics, such as per-token KL divergence (KLD) against a high-precision reference, are often used in practice as low-cost proxies for benchmark quality.
LaViSA: A Language and Vision Structural Ambiguity Benchmark
Lee Sangmyeong, Shun Inadumi, Koichiro Yoshino · Jun 17, 2026 · Citations: 0

We introduce Language and Vision Structural Ambiguity (LaViSA), a benchmark designed to evaluate the ability of VLMs to resolve structural ambiguity leveraging visual scenes.
Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias
Justin D. Norman, Michael U. Rivera, D. Alex Hughes · Jun 17, 2026 · Citations: 0

Pairwise PreferenceRubric Rating

We present the largest systematic evaluation of LLM-as-a-Judge to date: 21 judges from nine providers across MT-Bench, JudgeBench, and RewardBench, evaluated under three protocols (agreement, consistency, bias audit) over 118 runs and…
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models
Yueyi Sun, Yuhao Wang, Jason Li, Ye Tian, Tao Zhang · Jun 17, 2026 · Citations: 0

To systematically evaluate the parallelism property of visual perception capability for DLMs, we construct a new Parallel Detailed Localized Captioning Benchmark (ParaDLC-Bench) by scaling the DLC-Bench to include multiple region masks per…
DeXposure-Claw: An Agentic System for DeFi Risk Supervision
Aijie Shu, Bowei Chen, Wenbin Wu, Cathy Yi-Hsuan Chen, Fengxiang He · Jun 17, 2026 · Citations: 0
Diffusion Language Models: An Experimental Analysis
Thomas Bertolani, Davide Bucciarelli, Leonardo Zini, Marcella Cornia, Lorenzo Baraldi · Jun 17, 2026 · Citations: 0
Characterizing Narrative Content in Web-scale LLM Pretraining Data
Teagan Johnson, Elliott Ash, Andrew Piper, Maria Antoniak · Jun 17, 2026 · Citations: 0
Native Active Perception as Reasoning for Omni-Modal Understanding
Zhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma · Jun 17, 2026 · Citations: 0
Learning User Simulators with Turing Rewards
Yingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu, Zexue He, Pengyuan Li · Jun 17, 2026 · Citations: 0
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States
Denis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport · Jun 17, 2026 · Citations: 0
Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation
Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan, Rex Ying · Jun 17, 2026 · Citations: 0
Enhancing Decision-Making with Large Language Models through Multi-Agent Fictitious Play
Leyang Shen, Yang Zhang, Xiaoyan Zhao, Chun Kai Ling, Tat-Seng Chua · Jun 17, 2026 · Citations: 0
Trade-offs in Medical LLM Adaptation: An Empirical Study in French QA
Ikram Belmadani, Oumaima El Khettari, Carlos Ramisch, Frederic Bechet, Richard Dufour · Jun 17, 2026 · Citations: 0
Structured Inference with Large Language Gibbs
Sanghyeok Choi, Henry Gouk, Esmeralda S. Whitammer · Jun 17, 2026 · Citations: 0
DreamReasoner-8B: Block-Size Curriculum Learning for Diffusion Reasoning Models
Zirui Wu, Lin Zheng, Jiacheng Ye, Shansan Gong, Xueliang Zhao · Jun 17, 2026 · Citations: 0
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability
Haipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng · Jun 17, 2026 · Citations: 0
RECOM: A Validity Discrimination Tradeoff in Automatic Metrics for Open Ended Reddit Question Answering
Pushwitha Krishnappa, Amit Das, Vinija Jain, Aman Chadha, Tathagata Mukherjee · Jun 17, 2026 · Citations: 0
Language Models as Interfaces, Not Oracles: A Hybrid LLM-ML System for Pediatric Appendicitis
Soheyl Bateni, Maryam Abdolali · Jun 17, 2026 · Citations: 0
Dango: A Strictly L1-Only Large Language Model for Studying Second Language Acquisition
Shiho Matta, Yin Jou Huang, Fei Cheng, Takashi Kodama, Hirokazu Kiyomaru · Jun 17, 2026 · Citations: 0
IndicContextEval: A Benchmark for Evaluating Context Utilisation in Audio Large Language Models Across 8 Indic Languages
Sakshi Joshi, Dhruv Subhash Rathi, Sanskar Singh, Eldho Ittan George, R J Hari · Jun 17, 2026 · Citations: 0
Human-AI Coevolution Dynamics: A Formal Theory of Social Intelligence Emergence Through Long-Term Interaction
Jingyi Zhou, Senlin Luo, Haofan Chen · Jun 17, 2026 · Citations: 0
Urdu Katib Handwritten Dataset: A Historical Document Dataset for Offline Urdu Handwritten Text Recognition with CRNN-Based Baseline Evaluation
Ramza Basharat, Muhammad Usman Ali · Jun 17, 2026 · Citations: 0
Written by AI, Managed by AI: Semantic Space Control and Index Sickness Elimination Across 391 Consecutive Sessions
Hui Zhang, Shuren Song · Jun 17, 2026 · Citations: 0
Leadership as Coordination Control: Behavioral Signatures and the Recovery-Advantage Boundary in Multi-Agent LLM Teams
Haewoon Kwak · Jun 17, 2026 · Citations: 0
Which Sections of a Research Paper Best Reveal Its Research Methods? Evidence from Library and Information Science
Qiuyu Fang, Jiayi Hao, Chengzhi Zhang · Jun 17, 2026 · Citations: 0
Sumi: Open Uniform Diffusion Language Model from Scratch
Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi · Jun 17, 2026 · Citations: 0
Enhancing Multilingual Reasoning via Steerable Model Merging
Zhuoran Li, Rui Xu, Jian Yang, Junnan Liu, Zhijun Chen · Jun 17, 2026 · Citations: 0
G-IdiomAlign: A Gloss-Pivoted Benchmark for Cross-Lingual Idiom Alignment
Fengying Ye, Yanming Sun, Runzhe Zhan, Zheqi Zhang, Lidia S. Chao · Jun 17, 2026 · Citations: 0
Beyond Tokenization: Direct Timestep Embedding and Contrastive Alignment for Time-Series Question Answering
Yafeng Wu, Huu Hiep Nguyen, Thin Nguyen, Hung Le · Jun 17, 2026 · Citations: 0
Mitigating Scoring Errors and Compensating for Nonverbal Subtests in Speech-Based Dementia Assessment
Franziska Braun, Christopher Witzl, Andreas Erzigkeit, Hartmut Lehfeld, Thomas Hillemacher · Jun 17, 2026 · Citations: 0
Thermodynamic Signatures of Reasoning: Free-Energy and Spectral-Form-Factor Diagnostics for Hallucination Detection in Large Language Models
Salim Khazem · Jun 17, 2026 · Citations: 0
GraphPO: Graph-based Policy Optimization for Reasoning Models
Yuliang Zhan, Xinyu Tang, Jian Li, Dandan Zheng, Weilong Chai · Jun 17, 2026 · Citations: 0
Decoupling Search from Reasoning: A Vendor-Agnostic Grounding Architecture for LLM Agents
Emmanuel Aboah Boateng, Kyle MacDonald, Amardeep Kumar, Siddharth Kodwani, Sudeep Das · Jun 17, 2026 · Citations: 0
SenFlow: Inter-Sentence Flow Modeling for AI-Generated Text Detection in Hybrid Documents
Jingkun Luo, Yifan Sun, Da-Tian Peng, Guanxiong Pei · Jun 17, 2026 · Citations: 0
As Easy as Rocket Science: Assessing the Ability of Large Language Models to Interpret Negation in Figurative Language
Jasmine Owers, Edwin Simpson, Martha Lewis · Jun 17, 2026 · Citations: 0
REVES: REvision and VErification--Augmented Training for Test-Time Scaling
Yuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin · Jun 17, 2026 · Citations: 0
SAGE: Stochastic Prompt Optimization via Agent-Guided Exploration
Ziyi Zhu, Luka Smyth, Saki Shinoda, Jinghong Chen · Jun 17, 2026 · Citations: 0
Learning Robust Pair Confidence for Multimodal Emotion-Cause Pair Extraction
Zhuangzhuang Pan, Ning Dong, Yingna Su, Yan Xia · Jun 17, 2026 · Citations: 0
Improving Medical Communication using Rubric-Guided Counterfactual Recommendations
Adrian Cosma, Nicoleta-Nina Basoc, Andrei Niculae, Cosmin Dumitrache, Emilian Radoi · Jun 17, 2026 · Citations: 0
Efficient Financial Language Understanding via Distillation with Synthetic Data
Wen-Fong, Huang, Edwin Simpson · Jun 17, 2026 · Citations: 0
Approximate Structured Diffusion for Sequence Labelling
Nicolas Floquet, Joseph Le Roux, Nadi Tomeh · Jun 17, 2026 · Citations: 0
Aligning Implied Statements for Implicit Hate Speech Generalizability with Context-Bounded Semi-hard Negative Mining
Wicaksono Leksono Muhamad, Yunita Sari · Jun 17, 2026 · Citations: 0
ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement
Bohou Zhang, Xiaoyu Tao, Mingyue Cheng, Huijie Liu, Qi Liu · Jun 17, 2026 · Citations: 0
Beyond Reward Engineering: A Data Recipe for Long-Context Reinforcement Learning
Xiaoyue Xu, Sikui Zhang, Xiaorong Wang, Xu Han, Chaojun Xiao · Jun 17, 2026 · Citations: 0
GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agents
Zhe Ren, Yibo Yang, Yimeng Chen, Zijun Zhao, Benshuo Fu · Jun 17, 2026 · Citations: 0
Beyond Scalar Scores: Exploring LLM-based Metrics for Clinical Significance Evaluation in Radiology Reports
Qingyu Lu, Ruochen Li, Liang Ding, Yufei Xia, Youxiang Zhu · Jun 17, 2026 · Citations: 0
HandwritingAgent: Language-Driven Handwriting Synthesis in Scalable Vector Space
Jaward Sesay, Yue Yu, Börje F. Karlsson · Jun 17, 2026 · Citations: 0
RedactionBench
Sean Brynjólfsson, Shashvat Jayakrishnan, Esha Sali, Diptanshu Purwar, Madhav Aggarwal · Jun 17, 2026 · Citations: 0