Instruction Following

Instruction following is the basic task of the model. This task is dedicated to evaluating the ability of the large model to follow human instructions. It is hoped that the model can generate controllable and safe answers.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1135 papers

Title	Date	Tasks	Status	Hype
Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning	Mar 31, 2025	General Reinforcement LearningInstruction Following	CodeCode Available	2
Effectively Controlling Reasoning Models through Thinking Intervention	Mar 31, 2025	Instruction FollowingSafety Alignment	—Unverified	0
Pay More Attention to the Robustness of Prompt for Instruction Data Mining	Mar 31, 2025	Instruction Following	—Unverified	0
Learning to Instruct for Visual Instruction Tuning	Mar 28, 2025	HallucinationInstruction Following	—Unverified	0
InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction	Mar 26, 2025	Instruction FollowingVideo Editing	CodeCode Available	1
Qwen2.5-Omni Technical Report	Mar 26, 2025	Automatic Speech Recognition (ASR)GSM8K	CodeCode Available	7
Gemma 3 Technical Report	Mar 25, 2025	Instruction FollowingMath	—Unverified	0
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild	Mar 24, 2025	Instruction FollowingMath	CodeCode Available	7
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence	Mar 20, 2025	Instruction FollowingNatural Language Understanding	—Unverified	0
LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning	Mar 19, 2025	Instruction FollowingMultimodal Reasoning	CodeCode Available	2
Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings	Mar 19, 2025	Instruction FollowingLarge Language Model	CodeCode Available	0
ThinkPatterns-21k: A Systematic Study on the Impact of Thinking Patterns in LLMs	Mar 17, 2025	Instruction Following	—Unverified	0
Can Language Models Follow Multiple Turns of Entangled Instructions?	Mar 17, 2025	Instruction FollowingMemorization	CodeCode Available	1
ICCO: Learning an Instruction-conditioned Coordinator for Language-guided Task-aligned Multi-robot Control	Mar 15, 2025	Instruction FollowingMulti-agent Reinforcement Learning	—Unverified	0
D3: Diversity, Difficulty, and Dependability-Aware Data Selection for Sample-Efficient LLM Instruction Tuning	Mar 14, 2025	DiversityInstruction Following	—Unverified	0
ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning	Mar 14, 2025	Code GenerationDecoder	CodeCode Available	0
Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models	Mar 13, 2025	Instruction Following	—Unverified	0
Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding	Mar 12, 2025	Instruction FollowingVideo Understanding	—Unverified	0
Got Compute, but No Data: Lessons From Post-training a Finnish LLM	Mar 12, 2025	Instruction Following	—Unverified	0
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering	Mar 11, 2025	FormInstruction Following	—Unverified	0
Open-World Skill Discovery from Unsegmented Demonstrations	Mar 11, 2025	Boundary DetectionEvent Segmentation	—Unverified	0
Robust Multi-Objective Controlled Decoding of Large Language Models	Mar 11, 2025	Instruction Following	CodeCode Available	0
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model	Mar 10, 2025	Image DescriptionImage Generation	CodeCode Available	2
XIFBench: Evaluating Large Language Models on Multilingual Instruction Following	Mar 10, 2025	Instruction FollowingSpecificity	—Unverified	0
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs	Mar 10, 2025	Code GenerationInstruction Following	CodeCode Available	2
REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding	Mar 10, 2025	Instruction FollowingKeypoint Detection	CodeCode Available	1
Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting	Mar 9, 2025	Instruction FollowingLarge Language Model	—Unverified	0
WildIFEval: Instruction Following in the Wild	Mar 9, 2025	Instruction Following	CodeCode Available	0
RouterEval: A Comprehensive Benchmark for Routing LLMs to Explore Model-level Scaling Up in LLMs	Mar 8, 2025	Instruction FollowingMathematical Reasoning	CodeCode Available	2
S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information	Mar 7, 2025	Instruction Following	—Unverified	0
Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment	Mar 6, 2025	Instruction FollowingTransfer Learning	CodeCode Available	0
FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion	Mar 6, 2025	General KnowledgeInstruction Following	CodeCode Available	1
IFIR: A Comprehensive Benchmark for Evaluating Instruction-Following in Expert-Domain Information Retrieval	Mar 6, 2025	Information RetrievalInstruction Following	—Unverified	0
CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation	Mar 5, 2025	Code GenerationInstruction Following	—Unverified	0
LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach	Mar 5, 2025	Instruction FollowingMath	—Unverified	0
Attentive Reasoning Queries: A Systematic Method for Optimizing Instruction-Following in Large Language Models	Mar 5, 2025	HallucinationInstruction Following	CodeCode Available	11
Unified Mind Model: Reimagining Autonomous Agents in the LLM Era	Mar 5, 2025	Instruction Following	—Unverified	0
Robust Learning of Diverse Code Edits	Mar 5, 2025	Code GenerationInstruction Following	—Unverified	0
Iterative Value Function Optimization for Guided Decoding	Mar 4, 2025	Decision MakingInstruction Following	—Unverified	0
InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training	Mar 4, 2025	Instruction Followingtext-to-speech	—Unverified	0
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom	Mar 3, 2025	Instruction Following	CodeCode Available	1
In-context Learning vs. Instruction Tuning: The Case of Small and Multilingual Language Models	Mar 3, 2025	In-Context LearningInstruction Following	—Unverified	0
Re-Imagining Multimodal Instruction Tuning: A Representation View	Mar 2, 2025	Instruction FollowingMME	CodeCode Available	0
Triple Phase Transitions: Understanding the Learning Dynamics of Large Language Models from a Neuroscience Perspective	Feb 28, 2025	Instruction Following	—Unverified	0
Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge	Feb 27, 2025	GSM8KHumanEval	—Unverified	0
DataMan: Data Manager for Pre-training Large Language Models	Feb 26, 2025	In-Context LearningInstruction Following	—Unverified	0
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems	Feb 26, 2025	Instruction Following	CodeCode Available	2
Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models	Feb 26, 2025	Instruction FollowingVision-Language-Action	—Unverified	0
Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments	Feb 26, 2025	Instruction FollowingVision and Language Navigation	—Unverified	0
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation	Feb 26, 2025	BenchmarkingCode Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 23Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AutoIF (Llama3 70B)	Inst-level loose-accuracy	90.4	—	Unverified
2	AutoIF (Qwen2 72B)	Inst-level loose-accuracy	88	—	Unverified
3	GPT-4	Inst-level loose-accuracy	85.37	—	Unverified
4	PaLM 2 S	Inst-level loose-accuracy	59.11	—	Unverified