HFEPX Hub

CS.LG + Medicine Papers

Updated from current HFEPX corpus (Feb 27, 2026). 23 papers are grouped in this hub page. Common evaluation modes: Automatic Metrics, Simulation Env. Most common rater population: Domain Experts. Common annotation unit: Ranking. Frequent quality control: Calibration. Frequently cited benchmark: Vbvr-Bench. Common metric signal: accuracy. Use this page to compare protocol setup, judge behavior, and labeling design decisions before running new eval experiments. Newest paper in this set is from Feb 26, 2026.

Papers: 23 Last published: Feb 26, 2026 Global RSS Tag RSS

Cs.LGMedicine

Research Narrative

Grounded narrative Model: deterministic-grounded Source: persisted

Updated from current HFEPX corpus (Feb 27, 2026). This page tracks 23 papers for CS.LG + Medicine Papers. Dominant protocol signals include automatic metrics, simulation environments, with frequent benchmark focus on Vbvr-Bench and metric focus on accuracy, f1. Use the grounded sections below to prioritize reproducible protocol choices, benchmark-matched comparisons, and judge-vs-human evaluation checks.

Why This Matters For Eval Research

17.4% of papers report explicit human-feedback signals, led by pairwise preferences.

Evidence: Multi-Objective Alignment of Language Models for Personalized Psychotherapy , Cold-Start Personalization via Training-Free Priors from Structured World Models , TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion , Dynamic Personality Adaptation in Large Language Models via State Machines
automatic metrics appears in 91.3% of papers in this hub.

Evidence: TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion , FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning , MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation , Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
Vbvr-Bench is a recurring benchmark anchor for cross-paper comparisons in this page.

Evidence: A Very Big Video Reasoning Suite , TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion , Dynamic Personality Adaptation in Large Language Models via State Machines , FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning

Protocol Takeaways

Most common quality-control signal is rater calibration (4.3% of papers).

Evidence: Building Safe and Deployable Clinical Natural Language Processing under Temporal Leakage Constraints , An artificial intelligence framework for end-to-end rare disease phenotyping from clinical notes using large language models , TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion , Dynamic Personality Adaptation in Large Language Models via State Machines
Rater context is mostly domain experts, and annotation is commonly ranking annotation; use this to scope replication staffing.

Evidence: An artificial intelligence framework for end-to-end rare disease phenotyping from clinical notes using large language models , Exploring Anti-Aging Literature via ConvexTopics and Large Language Models , OptiRepair: Closed-Loop Diagnosis and Repair of Supply Chain Optimization Models with LLM Agents , Multi-Objective Alignment of Language Models for Personalized Psychotherapy
Track metric sensitivity by reporting both accuracy and f1.

Evidence: TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion , Dynamic Personality Adaptation in Large Language Models via State Machines , FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning , MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Benchmark Interpretation

Vbvr-Bench appears in 4.3% of hub papers (1/23); use this cohort for benchmark-matched comparisons.

Metric Interpretation

accuracy is reported in 17.4% of hub papers (4/23); compare with a secondary metric before ranking methods.
f1 is reported in 13% of hub papers (3/23); compare with a secondary metric before ranking methods.

Researcher Checklist

Close gap on Papers with explicit human feedback. Coverage is a replication risk (17.4% vs 45% target).
Close gap on Papers reporting quality controls. Coverage is a replication risk (8.7% vs 30% target).
Close gap on Papers naming benchmarks/datasets. Coverage is a replication risk (4.3% vs 35% target).
Maintain strength on Papers naming evaluation metrics. Coverage is strong (39.1% vs 35% target).
Tighten coverage on Papers with known rater population. Coverage is usable but incomplete (30.4% vs 35% target).
Close gap on Papers with known annotation unit. Coverage is a replication risk (17.4% vs 35% target).

Papers with explicit human feedback

Coverage is a replication risk (17.4% vs 45% target).

Papers reporting quality controls

Coverage is a replication risk (8.7% vs 30% target).

Papers naming benchmarks/datasets

Coverage is a replication risk (4.3% vs 35% target).

Papers naming evaluation metrics

Coverage is strong (39.1% vs 35% target).

Papers with known rater population

Coverage is usable but incomplete (30.4% vs 35% target).

Papers with known annotation unit

Coverage is a replication risk (17.4% vs 35% target).

Known Limitations

Only 8.7% of papers report quality controls; prioritize calibration/adjudication evidence.
Annotation unit is under-specified (17.4% coverage).
Narrative synthesis is grounded in metadata and abstracts only; full-paper implementation details are not parsed.

Research Utility Links

Benchmark Slice: Vbvr-Bench - Prioritizes benchmark-specific protocol comparisons.
Metric Slice: accuracy - Finds papers where reported metrics are directly comparable.
Recent High-Signal Papers - Keeps the hub connected to the latest HFEPX corpus updates.

automatic_metrics vs simulation_env

both=0, left_only=21, right_only=2

0 papers use both Automatic Metrics and Simulation Env.

Benchmark Brief

Vbvr-Bench

Coverage: 1 papers (4.3%)

1 papers (4.3%) mention Vbvr-Bench.

Examples: A Very Big Video Reasoning Suite

Metric Brief

accuracy

Coverage: 4 papers (17.4%)

4 papers (17.4%) mention accuracy.

Examples: KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification , PeruMedQA: Benchmarking Large Language Models (LLMs) on Peruvian Medical Exams -- Dataset Construction and Evaluation , MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

Metric Brief

Coverage: 3 papers (13%)

3 papers (13%) mention f1.

Examples: Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages , An artificial intelligence framework for end-to-end rare disease phenotyping from clinical notes using large language models , Glycemic-Aware and Architecture-Agnostic Training Framework for Blood Glucose Forecasting in Type 1 Diabetes

Metric Brief

precision

Coverage: 3 papers (13%)

3 papers (13%) mention precision.

Examples: Dynamic Personality Adaptation in Large Language Models via State Machines , Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages , An artificial intelligence framework for end-to-end rare disease phenotyping from clinical notes using large language models

Most Cited In This Hub

Fast path to methods with the strongest citation traction in this scope.

Papers: TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion , Dynamic Personality Adaptation in Large Language Models via State Machines , FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning

Most Recent

Fast path to latest protocol changes and newly published evaluation setups.

Best Protocol Detail

Papers with explicit rater/unit metadata and quality-control signals for reproducibility.

Papers: An artificial intelligence framework for end-to-end rare disease phenotyping from clinical notes using large language models

Top Papers

TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion
Donghong Cai, Jiarui Feng, Yanbo Wang, Da Zheng, Yixin Chen · Feb 26, 2026 · Citations: 0

Automatic Metrics

Extensive experiments on diverse benchmarks demonstrate the effectiveness of TabDLM compared to strong diffusion- and LLM-based baselines.
Dynamic Personality Adaptation in Large Language Models via State Machines
Leon Pielage, Ole Hätscher, Mitja Back, Bernhard Marschall, Benjamin Risse · Feb 25, 2026 · Citations: 0

Simulation Env

This work demonstrates the feasibility of modular, personality-adaptive architectures for education, customer support, and broader human-computer interaction.
FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning
Alina Devkota, Jacob Thrasher, Donald Adjeroh, Binod Bhattarai, Prashnna K. Gyawali · Feb 24, 2026 · Citations: 0

Automatic Metrics

Extensive experiments on both natural and medical image benchmarking datasets, across diverse model architectures, demonstrate that FedVG consistently improves performance, particularly in highly heterogeneous settings.
MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation
Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco · Feb 24, 2026 · Citations: 0

Automatic Metrics

We introduce MrBERT, a family of 150M-300M parameter encoders built on the ModernBERT architecture and pre-trained on 35 languages and code.
Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages
Mohammadreza Ghaffarzadeh-Esfahani, Nahid Yousefian, Ebrahim Heidari-Farsani, Ali Akbar Omidvarian, Sepehr Ghahraei · Feb 24, 2026 · Citations: 0

Automatic Metrics

Extracting clinical information from medical transcripts in low-resource languages remains a significant challenge in healthcare natural language processing (NLP).
The Mean is the Mirage: Entropy-Adaptive Model Merging under Heterogeneous Domain Shifts in Medical Imaging
Sameer Ambekar, Reza Nasirigerdeh, Peter J. Schuffler, Lina Felsner, Daniel M. Lang · Feb 24, 2026 · Citations: 0

Automatic Metrics

We extensively evaluate our method with state-of-the-art baselines using two backbones across nine medical and natural-domain generalization image classification datasets, showing consistent gains across standard evaluation and challenging
MIP Candy: A Modular PyTorch Framework for Medical Image Processing
Tianhao Fu, Yucheng Chen · Feb 24, 2026 · Citations: 0

Automatic Metrics

MIPCandy provides a complete, modular pipeline spanning data loading, training, inference, and evaluation, allowing researchers to obtain a fully functional process workflow by implementing a single method, $\texttt{build_network}$, while r
An artificial intelligence framework for end-to-end rare disease phenotyping from clinical notes using large language models
Cathy Shyr, Yan Hu, Rory J. Tinker, Thomas A. Cassini, Kevin W. Byram · Feb 23, 2026 · Citations: 0

Expert Verification Automatic Metrics

Existing artificial intelligence approaches typically optimize individual components of phenotyping but do not operationalize the full clinical workflow of extracting features from clinical text, standardizing them to Human Phenotype Ontolo
A Very Big Video Reasoning Suite
Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer · Feb 23, 2026 · Citations: 0

Simulation Env

We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities.
Exploring Anti-Aging Literature via ConvexTopics and Large Language Models
Lana E. Yeganova, Won G. Kim, Shubo Tian, Natalie Xie, Donald C. Comeau · Feb 23, 2026 · Citations: 0

Automatic Metrics

Common clustering and topic modeling approaches such as K-means or LDA remain sensitive to initialization and prone to local optima, limiting reproducibility and evaluation.
MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning
Wall Kim, Chaeyoung Song, Hanul Kim · Feb 23, 2026 · Citations: 0

Automatic Metrics

Recently, TabPFN has gained attention as a foundation model for tabular data.
OptiRepair: Closed-Loop Diagnosis and Repair of Supply Chain Optimization Models with LLM Agents
Ruicheng Ao, David Simchi-Levi, Xinshang Wang · Feb 23, 2026 · Citations: 0

Automatic Metrics

Whether AI agents can perform this task remains untested.
CLAA: Cross-Layer Attention Aggregation for Accelerating LLM Prefill
Bradley McDanel, Steven Li, Harshit Khaitan · Feb 17, 2026 · Citations: 0

Automatic Metrics

This oracle reveals that existing heuristics exhibit high variance across layers: rankings can degrade sharply at specific layers, a failure mode invisible to end-to-end benchmarks.
Multi-Objective Alignment of Language Models for Personalized Psychotherapy
Mehrab Beikzadeh, Yasaman Asadollah Salmanpour, Ashima Suvarna, Sriram Sankararaman, Matteo Malgaroli · Feb 17, 2026 · Citations: 0

Pairwise PreferenceExpert Verification Automatic Metrics

While AI systems show therapeutic promise, current alignment approaches optimize objectives independently, failing to balance patient preferences with clinical safety.
Cold-Start Personalization via Training-Free Priors from Structured World Models
Avinandan Bose, Shuyue Stella Li, Faeze Brahman, Pang Wei Koh, Simon Shaolei Du · Feb 16, 2026 · Citations: 0

Pairwise Preference Automatic Metrics

Cold-start personalization requires inferring user preferences through interaction when no user-specific historical data is available.
Building Safe and Deployable Clinical Natural Language Processing under Temporal Leakage Constraints
Ha Na Cho, Sairam Sutari, Alexander Lopez, Hansen Bow, Kai Zheng · Jan 24, 2026 · Citations: 0

Automatic Metrics

Such behavior poses substantial risks for real-world deployment, where overconfident or temporally invalid predictions can disrupt clinical workflows and compromise patient safety.
KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification
Erfan Nourbakhsh, Nasrin Sanjari, Ali Nourbakhsh · Dec 9, 2025 · Citations: 0

Automatic Metrics

Age-related macular degeneration (AMD) and choroidal neovascularization (CNV)-related conditions are leading causes of vision loss worldwide, with optical coherence tomography (OCT) serving as a cornerstone for early detection and managemen
Stabilizing Off-Policy Training for Long-Horizon LLM Agent via Turn-Level Importance Sampling and Clipping-Triggered Normalization
Chenliang Li, Adel Elmahdy, Alex Boyd, Zhongruo Wang, Siliang Zeng · Nov 25, 2025 · Citations: 0

Automatic Metrics Long Horizon

Reinforcement learning (RL) algorithms such as PPO and GRPO are widely used to train large language models (LLMs) for multi-turn agentic tasks.
PeruMedQA: Benchmarking Large Language Models (LLMs) on Peruvian Medical Exams -- Dataset Construction and Evaluation
Rodrigo M. Carrillo-Larco, Jesus Lovón Melgarejo, Manuel Castillo-Cara, Gusseppe Bravo-Rocca · Sep 15, 2025 · Citations: 0

Automatic Metrics

BACKGROUND: Medical large language models (LLMs) have demonstrated remarkable performance in answering medical examinations.
MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification
Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn · Sep 9, 2025 · Citations: 0

Automatic Metrics

Deep neural networks excel in radiological image classification but frequently suffer from poor interpretability, limiting clinical acceptance.
Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications
Zhanliang Wang, Da Wu, Quan Nguyen, Zhuoran Xu, Kai Wang · May 9, 2025 · Citations: 0

Pairwise Preference Automatic Metrics

To address this challenge, we introduce MINT (Multimodal Integrated kNowledge Transfer), a framework that aligns unimodal large decoder models with domain-specific decision patterns from multimodal biomedical data through preference optimiz
Can Multimodal LLMs Perform Time Series Anomaly Detection?
Xiongxiao Xu, Haoran Wang, Yueqing Liang, Philip S. Yu, Yue Zhao · Feb 25, 2025 · Citations: 0

Automatic Metrics Multi Agent

One natural way for humans to detect time series anomalies is through visualization and textual description.
Glycemic-Aware and Architecture-Agnostic Training Framework for Blood Glucose Forecasting in Type 1 Diabetes
Saman Khamesian, Asiful Arefeen, Maria Adela Grando, Bithika M. Thompson, Hassan Ghasemzadeh · Feb 20, 2025 · Citations: 0

Automatic Metrics

Managing Type 1 Diabetes (T1D) demands constant vigilance as individuals strive to regulate their blood glucose levels and avoid dysglycemia, including hyperglycemia and hypoglycemia.

CS.LG + Medicine Papers

Research Narrative

Why This Matters For Eval Research

Protocol Takeaways

Benchmark Interpretation

Metric Interpretation

Researcher Checklist

Suggested Reading Order

Known Limitations

Research Utility Links

Top Papers

Related Hubs