Zero-shot Generalization

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 572 papers

Title	Date	Tasks	Status	Hype
SAMST: A Transformer framework based on SAM pseudo label filtering for remote sensing semi-supervised semantic segmentation	Jul 16, 2025	Boundary DetectionPseudo Label	—Unverified	0
Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation	Jul 15, 2025	3D ReconstructionAutonomous Driving	—Unverified	0
PoseLLM: Enhancing Language-Guided Human Pose Estimation with MLP Alignment	Jul 12, 2025	Large Language ModelPose Estimation	CodeCode Available	0
Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data	Jul 9, 2025	Motion GenerationZero-shot Generalization	CodeCode Available	0
Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models	Jul 8, 2025	Future predictionLarge Language Model	—Unverified	0
Helping CLIP See Both the Forest and the Trees: A Decomposition and Description Approach	Jul 4, 2025	AttributeContrastive Learning	—Unverified	0
DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment	Jul 3, 2025	cross-modal alignmentInstruction Following	CodeCode Available	2
RobuSTereo: Robust Zero-Shot Stereo Matching under Adverse Weather	Jul 2, 2025	DenoisingDepth Estimation	—Unverified	0
WAFT: Warping-Alone Field Transforms for Optical Flow	Jun 26, 2025	Optical Flow EstimationZero-shot Generalization	CodeCode Available	2
IRanker: Towards Ranking Foundation Model	Jun 25, 2025	GSM8Kmodel	CodeCode Available	1
TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design	Jun 24, 2025	Deep Reinforcement LearningZero-shot Generalization	CodeCode Available	0
VisLanding: Monocular 3D Perception for UAV Safe Landing via Depth-Normal Synergy	Jun 17, 2025	Decision MakingSemantic Segmentation	—Unverified	0
LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction	Jun 16, 2025	Instruction FollowingVision-Language-Action	—Unverified	0
Prohibited Items Segmentation via Occlusion-aware Bilayer Modeling	Jun 13, 2025	DecoderImage Segmentation	CodeCode Available	0
DEAL: Disentangling Transformer Head Activations for LLM Steering	Jun 10, 2025	Binary ClassificationZero-shot Generalization	—Unverified	0
ZeroVO: Visual Odometry with Minimal Assumptions	Jun 9, 2025	Autonomous DrivingCamera Calibration	—Unverified	0
CXR-LT 2024: A MICCAI challenge on long-tailed, multi-label, and zero-shot disease classification from chest X-ray	Jun 9, 2025	ClassificationDiagnostic	—Unverified	0
Deep Equivariant Multi-Agent Control Barrier Functions	Jun 9, 2025	Robot NavigationZero-shot Generalization	—Unverified	0
Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application	Jun 6, 2025	DenoisingSemantic Communication	—Unverified	0
RecGPT: A Foundation Model for Sequential Recommendation	Jun 6, 2025	Decodermodel	CodeCode Available	2
Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation	Jun 5, 2025	Zero-shot Generalization	—Unverified	0
Generating Synthetic Stereo Datasets using 3D Gaussian Splatting and Expert Knowledge Transfer	Jun 5, 2025	3DGSDataset Generation	—Unverified	0
OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis	Jun 4, 2025	Action GenerationDecision Making	CodeCode Available	1
Language-Guided Multi-Agent Learning in Simulations: A Unified Framework and Evaluation	Jun 1, 2025	Language ModelingLanguage Modelling	—Unverified	0
DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis?	May 30, 2025	DiagnosticMedical Image Analysis	CodeCode Available	1
Beyond the LUMIR challenge: The pathway to foundational registration models	May 30, 2025	Image RegistrationZero-shot Generalization	CodeCode Available	1
Memory-Efficient Visual Autoregressive Modeling with Scale-Aware KV Cache Compression	May 26, 2025	Zero-shot Generalization	CodeCode Available	2
ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers	May 26, 2025	cross-modal alignmentPosition	—Unverified	0
ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving	May 26, 2025	Autonomous DrivingBench2Drive	CodeCode Available	1
WHISTRESS: Enriching Transcriptions with Sentence Stress Detection	May 25, 2025	SentenceZero-shot Generalization	—Unverified	0
G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning	May 24, 2025	Link PredictionNode Classification	—Unverified	0
Anchored Diffusion Language Model	May 24, 2025	Language ModelingLanguage Modelling	—Unverified	0
Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing	May 23, 2025	de novo peptide sequencingReranking	CodeCode Available	1
EasyInsert: A Data-Efficient and Generalizable Insertion Policy	May 22, 2025	Pose PredictionZero-shot Generalization	—Unverified	0
CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning	May 22, 2025	Zero-shot Generalization	—Unverified	0
AnyBody: A Benchmark Suite for Cross-Embodiment Manipulation	May 21, 2025	Zero-shot Generalization	—Unverified	0
Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts	May 21, 2025	Few-Shot LearningTask 2	CodeCode Available	0
Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization	May 21, 2025	Vision-Language-ActionZero-shot Generalization	CodeCode Available	2
gen2seg: Generative Models Enable Generalizable Instance Segmentation	May 21, 2025	DecoderInstance Segmentation	—Unverified	0
EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy	May 21, 2025	Motion PlanningVision-Language-Action	—Unverified	0
A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs	May 19, 2025	Machine Translationnamed-entity-recognition	CodeCode Available	0
ORQA: A Benchmark and Foundation Model for Holistic Operating Room Modeling	May 19, 2025	Graph GenerationKnowledge Distillation	—Unverified	0
AoP-SAM: Automation of Prompts for Efficient Segmentation	May 17, 2025	Image SegmentationPrompt Engineering	—Unverified	0
RVTBench: A Benchmark for Visual Reasoning Tasks	May 17, 2025	Reasoning SegmentationVisual Question Answering (VQA)	CodeCode Available	0
GenKnowSub: Improving Modularity and Reusability of LLMs through General Knowledge Subtraction	May 16, 2025	General KnowledgeZero-shot Generalization	CodeCode Available	0
Depth Anything with Any Prior	May 15, 2025	Depth CompletionDepth Estimation	—Unverified	0
NVSPolicy: Adaptive Novel-View Synthesis for Generalizable Language-Conditioned Policy Learning	May 15, 2025	Novel View SynthesisRobot Manipulation	—Unverified	0
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis	May 14, 2025	DenoisingDepth Estimation	CodeCode Available	7
Denoising and Alignment: Rethinking Domain Generalization for Multimodal Face Anti-Spoofing	May 14, 2025	cross-modal alignmentDenoising	—Unverified	0
Foundation Models Knowledge Distillation For Battery Capacity Degradation Forecast	May 13, 2025	Knowledge DistillationTime Series	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 12Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GR-MG	Avg. sequence length	4.04	—	Unverified
2	MoDE	Avg. sequence length	4.01	—	Unverified
3	RoboUniView	Avg. sequence length	3.65	—	Unverified
4	3D Diffuser Actor	Avg. sequence length	3.27	—	Unverified
5	GR-1	Avg. sequence length	3.06	—	Unverified