Talking Head Generation

Talking head generation is the task of generating a talking face from a set of images of a person.

( Image credit: Few-Shot Adversarial Learning of Realistic Neural Talking Head Models )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 119 papers

Title	Date	Tasks	Status	Hype
MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding	Jul 8, 2025	DiversityTalking Head Generation	—Unverified	0
Advancing Talking Head Generation: A Comprehensive Survey of Multi-Modal Methodologies, Datasets, Evaluation Metrics, and Loss Functions	Jun 23, 2025	NeRFTalking Head Generation	CodeCode Available	1
Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation	Jun 2, 2025	MisinformationTalking Head Generation	CodeCode Available	1
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations	May 23, 2025	Talking Head Generation	—Unverified	0
KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution	May 1, 2025	Talking Head Generation	—Unverified	0
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation	Apr 3, 2025	MambaTalking Head Generation	CodeCode Available	3
OmniTalker: Real-Time Text-Driven Talking Head Generation with In-Context Audio-Visual Style Replication	Apr 3, 2025	Talking Head GenerationVideo Synchronization	—Unverified	0
Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis	Mar 28, 2025	Computational EfficiencyTalking Head Generation	—Unverified	0
Dual Audio-Centric Modality Coupling for Talking Head Generation	Mar 26, 2025	NeRFTalking Head Generation	—Unverified	0
Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics	Mar 26, 2025	Talking Head Generation	—Unverified	0
Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation	Mar 24, 2025	Motion GenerationPortrait Animation	—Unverified	0
InsTaG: Learning Personalized 3D Talking Head from Few-Second Video	Feb 27, 2025	3DGSTalking Head Generation	CodeCode Available	2
Dimitra: Audio-driven Diffusion model for Expressive Talking Head Generation	Feb 24, 2025	Talking Head Generation	—Unverified	0
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control	Jan 2, 2025	Talking Head GenerationVideo Generation	—Unverified	0
UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control	Dec 26, 2024	DiversityTalking Head Generation	—Unverified	0
Joint Co-Speech Gesture and Expressive Talking Face Generation using Diffusion with Adapters	Dec 18, 2024	Face GenerationTalking Face Generation	CodeCode Available	1
VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization	Dec 13, 2024	Face GenerationMotion Generation	—Unverified	0
GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression	Dec 12, 2024	DisentanglementPortrait Animation	CodeCode Available	1
IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation	Dec 5, 2024	DisentanglementTalking Head Generation	—Unverified	0
EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion	Nov 23, 2024	Talking Head Generation	—Unverified	0
ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal Guidance	Nov 23, 2024	Image Generationsingle-image-generation	—Unverified	0
Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis	Nov 20, 2024	Talking Head Generation	CodeCode Available	1
LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space	Nov 14, 2024	Talking Head Generation	—Unverified	0
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation	Oct 17, 2024	Talking Head GenerationVideo Generation	CodeCode Available	3
Beyond Fixed Topologies: Unregistered Training and Comprehensive Evaluation Metrics for 3D Talking Heads	Oct 14, 2024	Talking Head Generation	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets VoxCeleb2 - 1-shot learning VoxCeleb1 - 1-shot learning VoxCeleb1 - 32-shot learning VoxCeleb1 - 8-shot learning VoxCeleb2 - 8-shot learning 100 sleep nights of 8 caregivers VoxCeleb2 - 32-shot learning

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	48.5	—	Unverified
2	CainGAN	FID	35	—	Unverified
3	Fast Bi-layer Avatars (medium size)	CSIM	0.65	—	Unverified
4	First Order Motion Model (medium size)	CSIM	0.64	—	Unverified
5	Few-shot Vid-to-vid (medium size)	CSIM	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	45.8	—	Unverified
2	Few-shot Adversarial Model	FID	43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	56.5	—	Unverified
2	Few-shot Adversarial Model	FID	29.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	51.5	—	Unverified
2	Few-shot Adversarial Model	FID	38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	42.2	—	Unverified
2	CainGAN	FID	24.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Ashok	10%	12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	30.6	—	Unverified