Papers

New only

HF Daily Papers Jun 2

Policy and World Modeling Co-Training for Language Agents

HF Daily Papers Jun 2

RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

HF Daily Papers Jun 2

MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

HF Daily Papers Jun 2

OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

HF Daily Papers Jun 2

Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

HF Daily Papers Jun 2

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

HF Daily Papers Jun 2

LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

HF Daily Papers Jun 2

When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs

HF Daily Papers Jun 2

MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

HF Daily Papers Jun 2

LVSA: Training-Free Sparse Attention for Long Video Diffusion

HF Daily Papers Jun 2

Joint Agent Memory and Exploration Learning via Novelty Signals

HF Daily Papers Jun 2

Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism

HF Daily Papers Jun 2

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

HF Daily Papers Jun 2

Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding

HF Daily Papers Jun 2

A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

HF Daily Papers Jun 2

VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization

HF Daily Papers Jun 2

Brain-IT-VQA: From Brain Signals to Answers

HF Daily Papers Jun 2

StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

HF Daily Papers Jun 2

Speculative Pipeline Decoding: Higher-Accuracy and Zero-Bubble Speculation via Pipeline Parallelism

HF Daily Papers Jun 2

Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

HF Daily Papers Jun 2

ESPO: Early-Stopping Proximal Policy Optimization

HF Daily Papers Jun 2

NITP: Next Implicit Token Prediction for LLM Pre-training

HF Daily Papers Jun 2

X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

HF Daily Papers Jun 2

Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

HF Daily Papers Jun 2

Draft-OPD: On-Policy Distillation for Speculative Draft Models

HF Daily Papers Jun 2

SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

HF Daily Papers Jun 2

K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

HF Daily Papers Jun 2

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

HF Daily Papers Jun 2

Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

HF Daily Papers Jun 2

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

HF Daily Papers Jun 1

Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

HF Daily Papers Jun 1

The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

HF Daily Papers Jun 1

Linear Scaling Video VLMs for Long Video Understanding

HF Daily Papers Jun 1

Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

HF Daily Papers Jun 1

How can embedding models bind concepts?

HF Daily Papers Jun 1

OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

HF Daily Papers Jun 1

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

HF Daily Papers Jun 1

VLM3: Vision Language Models Are Native 3D Learners

HF Daily Papers Jun 1

DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

HF Daily Papers Jun 1

PEEK: Picking Essential frames via Efficient Knowledge distillation

HF Daily Papers Jun 1

SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

HF Daily Papers Jun 1

SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

HF Daily Papers Jun 1

Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

HF Daily Papers Jun 1

From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

HF Daily Papers Jun 1

Exploring Autonomous Agentic Data Engineering for Model Specialization

HF Daily Papers Jun 1

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

HF Daily Papers Jun 1

Task-Focused Memorization for Multimodal Agents

HF Daily Papers Jun 1

dMoE: dLLMs with Learnable Block Experts

HF Daily Papers Jun 1

Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

HF Daily Papers Jun 1

GrepSeek: Training Search Agents for Direct Corpus Interaction

HF Daily Papers Jun 1

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

HF Daily Papers Jun 1

Trust-Region Behavior Blending for On-Policy Distillation

HF Daily Papers Jun 1

Representation Forcing for Bottleneck-Free Unified Multimodal Models

HF Daily Papers Jun 1

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

HF Daily Papers Jun 1

LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

HF Daily Papers Jun 1

Mellum2 Technical Report

HF Daily Papers Jun 1

GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration

HF Daily Papers Jun 1

Function2Scene: 3D Indoor Scene Layout from Functional Specifications

HF Daily Papers Jun 1

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

HF Daily Papers Jun 1

SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

HF Daily Papers May 31

AdaState: Self-Evolving Anchors for Streaming Video Generation

HF Daily Papers May 31

Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

HF Daily Papers May 31

Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

HF Daily Papers May 31

Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

HF Daily Papers May 31

ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

HF Daily Papers May 31

Parallax: Parameterized Local Linear Attention for Language Modeling

HF Daily Papers May 31

PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

HF Daily Papers May 31

Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

HF Daily Papers May 31

CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

HF Daily Papers May 31

SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

HF Daily Papers May 31

CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM

HF Daily Papers May 31

Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation

HF Daily Papers May 31

REPOT: Recoverable Program-of-Thought via Checkpoint Repair

HF Daily Papers May 31

Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

HF Daily Papers May 31

NeuROK: Generative 4D Neural Object Kinematics

HF Daily Papers May 31

Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

HF Daily Papers May 31

UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

HF Daily Papers May 31

PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

HF Daily Papers May 31

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

HF Daily Papers May 31

PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

HF Daily Papers May 31

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

HF Daily Papers May 31

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

HF Daily Papers May 31

When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

HF Daily Papers May 31

Colored Noise Diffusion Sampling

HF Daily Papers May 31

Xetrieval: Mechanistically Explaining Dense Retrieval

HF Daily Papers May 31

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

HF Daily Papers May 31

Is Position Bias in Dense Retrievers Built In-or Learned from Data?

HF Daily Papers May 31

When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

HF Daily Papers May 31

LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

HF Daily Papers May 31

AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

HF Daily Papers May 31

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

HF Daily Papers May 31

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

HF Daily Papers May 31

CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

HF Daily Papers May 31

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

HF Daily Papers May 31

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

HF Daily Papers May 31

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

HF Daily Papers May 31

GenClaw: Code-Driven Agentic Image Generation

HF Daily Papers May 31

How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

HF Daily Papers May 31

EarlyTom: Early Token Compression Completes Fast Video Understanding

HF Daily Papers May 31

Native Audio-Visual Alignment for Generation

HF Daily Papers May 31

UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

HF Daily Papers May 31

LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

HF Daily Papers May 31

Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

HF Daily Papers May 31

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

HF Daily Papers May 31

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

Berkeley AI Research May 8

Adaptive Parallel Reasoning: The Next Paradigm in Efficient Inference Scaling

Berkeley AI Research Apr 20

Gradient-based Planning for World Models at Longer Horizons