HFEPX Hub

CS.CV + Simulation Env Papers

Updated from current HFEPX corpus (Feb 27, 2026). 12 papers are grouped in this hub page. Common evaluation modes: Simulation Env, Automatic Metrics. Most common rater population: Domain Experts. Common annotation unit: Trajectory. Frequently cited benchmark: APPS. Common metric signal: accuracy. Use this page to compare protocol setup, judge behavior, and labeling design decisions before running new eval experiments. Newest paper in this set is from Feb 25, 2026.

Papers: 12 Last published: Feb 25, 2026 Global RSS Tag RSS

Cs.CVSimulation Env

Research Narrative

Grounded narrative Model: deterministic-grounded Source: persisted

Updated from current HFEPX corpus (Feb 27, 2026). This page tracks 12 papers for CS.CV + Simulation Env Papers. Dominant protocol signals include simulation environments, automatic metrics, with frequent benchmark focus on APPS, Vbvr-Bench and metric focus on accuracy, success rate. Use the grounded sections below to prioritize reproducible protocol choices, benchmark-matched comparisons, and judge-vs-human evaluation checks.

Why This Matters For Eval Research

16.7% of papers report explicit human-feedback signals, led by pairwise preferences.

Evidence: Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning , BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning , Self-Correcting VLA: Online Action Refinement via Sparse World Imagination , LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies
simulation environments appears in 100% of papers in this hub.

Evidence: Self-Correcting VLA: Online Action Refinement via Sparse World Imagination , LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies , A Very Big Video Reasoning Suite , MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation
APPS is a recurring benchmark anchor for cross-paper comparisons in this page.

Evidence: UI-Venus-1.5 Technical Report , Self-Correcting VLA: Online Action Refinement via Sparse World Imagination , LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies , A Very Big Video Reasoning Suite

Protocol Takeaways

Quality-control reporting is sparse in this slice; prioritize papers with explicit calibration or adjudication steps.

Evidence: Self-Correcting VLA: Online Action Refinement via Sparse World Imagination , LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies , A Very Big Video Reasoning Suite , MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation
Rater context is mostly domain experts, and annotation is commonly trajectory-level annotation; use this to scope replication staffing.

Evidence: UI-Venus-1.5 Technical Report , Self-Correcting VLA: Online Action Refinement via Sparse World Imagination , LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies , A Very Big Video Reasoning Suite
Stratify by benchmark (APPS vs Vbvr-Bench) before comparing methods.

Evidence: Self-Correcting VLA: Online Action Refinement via Sparse World Imagination , LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies , A Very Big Video Reasoning Suite , MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation

Benchmark Interpretation

APPS appears in 8.3% of hub papers (1/12); use this cohort for benchmark-matched comparisons.
Vbvr-Bench appears in 8.3% of hub papers (1/12); use this cohort for benchmark-matched comparisons.

Metric Interpretation

accuracy is reported in 16.7% of hub papers (2/12); compare with a secondary metric before ranking methods.
success rate is reported in 16.7% of hub papers (2/12); compare with a secondary metric before ranking methods.

Researcher Checklist

Close gap on Papers with explicit human feedback. Coverage is a replication risk (16.7% vs 45% target).
Close gap on Papers reporting quality controls. Coverage is a replication risk (0% vs 30% target).
Close gap on Papers naming benchmarks/datasets. Coverage is a replication risk (16.7% vs 35% target).
Maintain strength on Papers naming evaluation metrics. Coverage is strong (58.3% vs 35% target).
Close gap on Papers with known rater population. Coverage is a replication risk (8.3% vs 35% target).
Tighten coverage on Papers with known annotation unit. Coverage is usable but incomplete (25% vs 35% target).

Papers with explicit human feedback

Coverage is a replication risk (16.7% vs 45% target).

Papers reporting quality controls

Coverage is a replication risk (0% vs 30% target).

Papers naming benchmarks/datasets

Coverage is a replication risk (16.7% vs 35% target).

Papers naming evaluation metrics

Coverage is strong (58.3% vs 35% target).

Papers with known rater population

Coverage is a replication risk (8.3% vs 35% target).

Papers with known annotation unit

Coverage is usable but incomplete (25% vs 35% target).

Known Limitations

Only 0% of papers report quality controls; prioritize calibration/adjudication evidence.
Rater population is under-specified (8.3% coverage).
Narrative synthesis is grounded in metadata and abstracts only; full-paper implementation details are not parsed.

Research Utility Links

Benchmark Slice: APPS - Prioritizes benchmark-specific protocol comparisons.
Metric Slice: accuracy - Finds papers where reported metrics are directly comparable.
Recent High-Signal Papers - Keeps the hub connected to the latest HFEPX corpus updates.

simulation_env vs automatic_metrics

both=3, left_only=9, right_only=0

3 papers use both Simulation Env and Automatic Metrics.

Benchmark Brief

APPS

Coverage: 1 papers (8.3%)

1 papers (8.3%) mention APPS.

Examples: UI-Venus-1.5 Technical Report

Benchmark Brief

Vbvr-Bench

Coverage: 1 papers (8.3%)

1 papers (8.3%) mention Vbvr-Bench.

Examples: A Very Big Video Reasoning Suite

Benchmark Brief

Venusbench

Coverage: 1 papers (8.3%)

1 papers (8.3%) mention Venusbench.

Examples: UI-Venus-1.5 Technical Report

Metric Brief

accuracy

Coverage: 2 papers (16.7%)

2 papers (16.7%) mention accuracy.

Examples: BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning , HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

Metric Brief

success rate

Coverage: 2 papers (16.7%)

2 papers (16.7%) mention success rate.

Examples: Self-Correcting VLA: Online Action Refinement via Sparse World Imagination , LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

Metric Brief

cost

Coverage: 1 papers (8.3%)

1 papers (8.3%) mention cost.

Examples: Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

Most Cited In This Hub

Fast path to methods with the strongest citation traction in this scope.

Papers: Self-Correcting VLA: Online Action Refinement via Sparse World Imagination , LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies , A Very Big Video Reasoning Suite

Most Recent

Fast path to latest protocol changes and newly published evaluation setups.

Best Protocol Detail

Papers with explicit rater/unit metadata and quality-control signals for reproducibility.

Top Papers

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination
Chenyv Liu, Wentao Tan, Lei Zhu, Fengling Li, Jingjing Li · Feb 25, 2026 · Citations: 0

Simulation Env Long Horizon

Reinforcement learning enhances physical grounding through exploration yet typically relies on external reward signals that remain isolated from the agent's internal states.
LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies
Yue Yang, Shuo Cheng, Yu Fang, Homanga Bharadhwaj, Mingyu Ding · Feb 25, 2026 · Citations: 0

Simulation Env Long Horizon

We introduce a 21-task simulation benchmark consisting of two challenging suites: LIBERO-Long++ and Ultra-Long.
A Very Big Video Reasoning Suite
Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer · Feb 23, 2026 · Citations: 0

Simulation Env

We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities.
MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation
Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani, AmirHossein Jadidi, Saina Kashani · Feb 18, 2026 · Citations: 0

Simulation Env Multi Agent

MALLVI presents a Multi Agent Large Language and Vision framework that enables closed-loop feedback driven robotic manipulation.
UI-Venus-1.5 Technical Report
Venus Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu · Feb 9, 2026 · Citations: 0

Simulation Env Long Horizon

GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz · Jan 14, 2026 · Citations: 0

Pairwise Preference Simulation Env Long Horizon

Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodie
Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning
Huilin Xu, Zhuoyang Liu, Yixiang Luomei, Feng Xu · Dec 9, 2025 · Citations: 0

Simulation Env Long Horizon

Extensive experiments on the AerialVLN and OpenFly benchmark validate the effectiveness of our method.
BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning
Qiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen · Oct 31, 2025 · Citations: 0

Pairwise Preference Automatic MetricsSimulation Env Long Horizon

Recent advances in Vision-Language Models (VLMs) have propelled embodied agents by enabling direct perception, reasoning, and planning task-oriented actions from visual inputs.
World Simulation with Video Foundation Models for Physical AI
NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala · Oct 28, 2025 · Citations: 0

Simulation Env Long Horizon

These capabilities enable more reliable synthetic data generation, policy evaluation, and closed-loop simulation for robotics and autonomous systems.
HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning
Chuhao Zhou, Jianfei Yang · May 23, 2025 · Citations: 0

Automatic MetricsSimulation Env

Embodied agents operating in smart homes must understand human behavior through diverse sensory inputs and communicate via natural language.
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
Chan Hee Song, Valts Blukis, Jonathan Tremblay, Stephen Tyree, Yu Su · Nov 25, 2024 · Citations: 0

Simulation Env

Spatial understanding is a crucial capability that enables robots to perceive their surroundings, reason about their environment, and interact with it meaningfully.
Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes
Rahul Garg, Trilok Padhi, Hemang Jain, Ugur Kursuncu, Ponnurangam Kumaraguru · Nov 19, 2024 · Citations: 0

Automatic MetricsSimulation Env

Experimental results from our study on two hate speech benchmark datasets demonstrate superior performance over the state-of-the-art baselines across AU-ROC, F1, and Recall with improvements of 1.1%, 7%, and 35%, respectively.

CS.CV + Simulation Env Papers

Research Narrative

Why This Matters For Eval Research

Protocol Takeaways

Benchmark Interpretation

Metric Interpretation

Researcher Checklist

Suggested Reading Order

Known Limitations

Research Utility Links

Top Papers

Related Hubs