SOTAVerified|Agents Browse Leaderboard About Blog

2k

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 288 papers

Title	Date	Tasks	Status	Hype
Test-Time Training Done Right	May 29, 2025	2kNovel View Synthesis	—Unverified	0
PIIvot: A Lightweight NLP Anonymization Framework for Question-Anchored Tutoring Dialogues	May 22, 2025	2k	—Unverified	0
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning	May 19, 2025	2kMathematical Reasoning	—Unverified	0
UIShift: Enhancing VLM-based GUI Agents through Self-supervised Reinforcement Learning	May 18, 2025	2kReinforcement Learning (RL)	—Unverified	0
ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation	May 12, 2025	2kRecommendation Systems	CodeCode Available	0
Calibrating Translation Decoding with Quality Estimation on LLMs	Apr 26, 2025	2kMachine Translation	CodeCode Available	0
aiXamine: Simplified LLM Safety and Security	Apr 21, 2025	2kAdversarial Robustness	—Unverified	0
Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis	Apr 20, 2025	2kKnowledge Distillation	—Unverified	0
Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading	Apr 16, 2025	2kCode Generation	—Unverified	0
On Linear Representations and Pretraining Data Frequency in Language Models	Apr 16, 2025	2kIn-Context Learning	—Unverified	0
Seedream 3.0 Technical Report	Apr 15, 2025	2kImage Generation	—Unverified	0
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration	Apr 11, 2025	2kImage Restoration	—Unverified	0
DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers	Mar 28, 2025	2kImage Generation	—Unverified	0
Nonparametric MLE for Gaussian Location Mixtures: Certified Computation and Generic Behavior	Mar 26, 2025	2k	—Unverified	0
REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities	Mar 17, 2025	2kText Generation	—Unverified	0
Evaluating the Suitability of Different Intraoral Scan Resolutions for Deep Learning-Based Tooth Segmentation	Feb 26, 2025	16k2k	—Unverified	0
Stackelberg Game Preference Optimization for Data-Efficient Alignment of Language Models	Feb 25, 2025	2kModels Alignment	—Unverified	0
Correlating and Predicting Human Evaluations of Language Models from Natural Language Processing Benchmarks	Feb 24, 2025	2kARC	—Unverified	0
Exact Recovery of Sparse Binary Vectors from Generalized Linear Measurements	Feb 21, 2025	2kQuantization	—Unverified	0
Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning	Feb 18, 2025	2kLong-Context Understanding	—Unverified	0
Improved Regret in Stochastic Decision-Theoretic Online Learning under Differential Privacy	Feb 16, 2025	2k	—Unverified	0
Domaino1s: Guiding LLM Reasoning for Explainable Answers in High-Stakes Domains	Jan 24, 2025	2kLegal Reasoning	—Unverified	0
TimeLogic: A Temporal Logic Benchmark for Video QA	Jan 13, 2025	2kAction Segmentation	—Unverified	0
LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation	Jan 9, 2025	2k8k	—Unverified	0
Toward Corpus Size Requirements for Training and Evaluating Depression Risk Models Using Spoken Language	Dec 31, 2024	2k	—Unverified	0

Show:10 25 50

← PrevPage 5 of 12Next →

No leaderboard results yet.