Talking Head Generation

Talking head generation is the task of generating a talking face from a set of images of a person.

( Image credit: Few-Shot Adversarial Learning of Realistic Neural Talking Head Models )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 119 papers

Title	Date	Tasks	Status
Responsive Listening Head Generation: A Benchmark Dataset and Baseline	Dec 27, 2021	Talking Head GenerationTranslation	—Unverified
Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking Head Generation Using Phonetic Posteriorgrams	Jun 20, 2020	Talking Head Generation	—Unverified
Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style	Mar 11, 2024	Face GenerationTalking Face Generation	—Unverified
StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation	Aug 23, 2022	Talking Head GenerationVideo Generation	—Unverified
SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model	Sep 5, 2024	DiversityTalking Head Generation	—Unverified
Synthesizing Photorealistic Virtual Humans Through Cross-modal Disentanglement	Sep 3, 2022	Data AugmentationDisentanglement	—Unverified
TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking Styles	Apr 1, 2023	2D Semantic Segmentation task 3 (25 classes)Talking Head Generation	—Unverified
Talking Head Generation Driven by Speech-Related Facial Action Units and Audio- Based on Multimodal Representation Fusion	Apr 27, 2022	Talking Head Generation	—Unverified
Talking Head Generation with Audio and Speech Related Facial Action Units	Oct 19, 2021	Talking Head Generation	—Unverified
Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors	Dec 7, 2022	Talking Head Generation	—Unverified
X2Face: A network for controlling face generation using images, audio, and pose codes	Sep 1, 2018	Face GenerationTalking Head Generation	—Unverified
GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer	Aug 3, 2024	DiversityTalking Head Generation	—Unverified
3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head	Apr 25, 2021	3D Face ReconstructionFace Reconstruction	—Unverified
AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head Synthesis	Dec 18, 2023	Face GenerationNeRF	—Unverified
Animating Face using Disentangled Audio Representations	Oct 2, 2019	Representation LearningTalking Head Generation	—Unverified
AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary Person	Aug 9, 2021	Talking Head Generationtext-to-speech	—Unverified
EmoGene: Audio-Driven Emotional 3D Talking-Head Generation	Oct 7, 2024	NeRFTalking Head Generation	—Unverified
Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis	Mar 28, 2025	Computational EfficiencyTalking Head Generation	—Unverified
AutoLV: Automatic Lecture Video Generator	Sep 19, 2022	Speech SynthesisTalking Head Generation	—Unverified
Compressing Video Calls using Synthetic Talking Heads	Oct 7, 2022	Face ReenactmentTalking Head Generation	—Unverified
ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal Guidance	Nov 23, 2024	Image Generationsingle-image-generation	—Unverified
Deep Person Generation: A Survey from the Perspective of Face, Pose and Cloth Synthesis	Sep 5, 2021	Data AugmentationSurvey	—Unverified
DFA-NeRF: Personalized Talking Head Generation via Disentangled Face Attributes Neural Rendering	Jan 3, 2022	NeRFNeural Rendering	—Unverified
DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video Generation	Mar 15, 2022	NeRFTalking Head Generation	—Unverified
DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures	Sep 11, 2024	DiversityTalking Head Generation	—Unverified
Dimitra: Audio-driven Diffusion model for Expressive Talking Head Generation	Feb 24, 2025	Talking Head Generation	—Unverified
DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis	Sep 16, 2024	Talking Head Generation	—Unverified
Dual Audio-Centric Modality Coupling for Talking Head Generation	Mar 26, 2025	NeRFTalking Head Generation	—Unverified
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations	May 23, 2025	Talking Head Generation	—Unverified
EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis	Apr 2, 2024	DisentanglementTalking Head Generation	—Unverified
Embedded Representation Learning Network for Animating Styled Video Portrait	Apr 29, 2024	NeRFRepresentation Learning	—Unverified
Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks	Jun 6, 2023	Talking Head Generation	—Unverified
EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion	Nov 23, 2024	Talking Head Generation	—Unverified
Expressive Talking Head Generation With Granular Audio-Visual Control	Jan 1, 2022	Talking Head Generation	—Unverified
FD2Talk: Towards Generalized Talking Head Generation with Facial Decoupled Diffusion Model	Aug 18, 2024	Talking Head Generation	—Unverified
FONT: Flow-guided One-shot Talking Head Generation with Natural Head Motions	Mar 31, 2023	DiversityPose Prediction	—Unverified
From Pixels to Portraits: A Comprehensive Survey of Talking Head Generation Techniques and Applications	Aug 30, 2023	NeRFSurvey	—Unverified
Hierarchical Semantic Perceptual Listener Head Video Generation: A High-performance Pipeline	Jul 19, 2023	DecoderTalking Head Generation	—Unverified
High-Fidelity and Freely Controllable Talking Head Video Generation	Apr 20, 2023	Face ModelTalking Head Generation	—Unverified
IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation	Dec 5, 2024	DisentanglementTalking Head Generation	—Unverified
Interactive Conversational Head Generation	Jul 5, 2023	SentenceTalking Head Generation	—Unverified
KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution	May 1, 2025	Talking Head Generation	—Unverified
LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details	Oct 1, 2024	DenoisingTalking Head Generation	—Unverified
LaughTalk: Expressive 3D Talking Head Generation with Laughter	Nov 2, 2023	Talking Head Generation	—Unverified
Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation	Sep 29, 2024	Talking Head Generation	—Unverified
LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space	Nov 14, 2024	Talking Head Generation	—Unverified
SPEAK: Speech-Driven Pose and Emotion-Adjustable Talking Head Generation	May 12, 2024	DisentanglementFace Generation	—Unverified
MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding	Jul 8, 2025	DiversityTalking Head Generation	—Unverified
MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset	Jun 20, 2024	Talking Head Generation	—Unverified
NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior	May 9, 2024	Face ModelNeRF	—Unverified

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets VoxCeleb2 - 1-shot learning VoxCeleb1 - 1-shot learning VoxCeleb1 - 32-shot learning VoxCeleb1 - 8-shot learning VoxCeleb2 - 8-shot learning 100 sleep nights of 8 caregivers VoxCeleb2 - 32-shot learning

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	48.5	—	Unverified
2	CainGAN	FID	35	—	Unverified
3	Fast Bi-layer Avatars (medium size)	CSIM	0.65	—	Unverified
4	First Order Motion Model (medium size)	CSIM	0.64	—	Unverified
5	Few-shot Vid-to-vid (medium size)	CSIM	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	45.8	—	Unverified
2	Few-shot Adversarial Model	FID	43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	56.5	—	Unverified
2	Few-shot Adversarial Model	FID	29.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	51.5	—	Unverified
2	Few-shot Adversarial Model	FID	38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	42.2	—	Unverified
2	CainGAN	FID	24.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Ashok	10%	12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	30.6	—	Unverified