Talking Head Generation

Talking head generation is the task of generating a talking face from a set of images of a person.

( Image credit: Few-Shot Adversarial Learning of Realistic Neural Talking Head Models )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 119 papers

Title	Date	Tasks	Status	Score
Text-to-Video: a Two-stage Framework for Zero-shot Identity-agnostic Talking-head Generation	Aug 12, 2023	Talking Head Generationtext-to-speech	CodeCode Available	5
Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking Head Generation Using Phonetic Posteriorgrams	Jun 20, 2020	Talking Head Generation	—Unverified	0
Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style	Mar 11, 2024	Face GenerationTalking Face Generation	—Unverified	0
StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation	Aug 23, 2022	Talking Head GenerationVideo Generation	—Unverified	0
SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model	Sep 5, 2024	DiversityTalking Head Generation	—Unverified	0
Synthesizing Photorealistic Virtual Humans Through Cross-modal Disentanglement	Sep 3, 2022	Data AugmentationDisentanglement	—Unverified	0
TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking Styles	Apr 1, 2023	2D Semantic Segmentation task 3 (25 classes)Talking Head Generation	—Unverified	0
Talking Head Generation Driven by Speech-Related Facial Action Units and Audio- Based on Multimodal Representation Fusion	Apr 27, 2022	Talking Head Generation	—Unverified	0
Talking Head Generation with Audio and Speech Related Facial Action Units	Oct 19, 2021	Talking Head Generation	—Unverified	0
Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors	Dec 7, 2022	Talking Head Generation	—Unverified	0
Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation	Mar 24, 2025	Motion GenerationPortrait Animation	—Unverified	0
Towards Realistic Visual Dubbing with Heterogeneous Sources	Jan 17, 2022	DisentanglementTalking Head Generation	—Unverified	0
UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control	Dec 26, 2024	DiversityTalking Head Generation	—Unverified	0
VectorTalker: SVG Talking Face Generation with Progressive Vectorisation	Dec 18, 2023	Face GenerationImage Reconstruction	—Unverified	0
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control	Jan 2, 2025	Talking Head GenerationVideo Generation	—Unverified	0
VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior	Dec 4, 2023	Talking Head Generation	—Unverified	0
VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization	Dec 13, 2024	Face GenerationMotion Generation	—Unverified	0
Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation	Aug 3, 2024	DenoisingTalking Head Generation	—Unverified	0
X2Face: A network for controlling face generation using images, audio, and pose codes	Sep 1, 2018	Face GenerationTalking Head Generation	—Unverified	0
GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer	Aug 3, 2024	DiversityTalking Head Generation	—Unverified	0
3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head	Apr 25, 2021	3D Face ReconstructionFace Reconstruction	—Unverified	0
AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head Synthesis	Dec 18, 2023	Face GenerationNeRF	—Unverified	0
Animating Face using Disentangled Audio Representations	Oct 2, 2019	Representation LearningTalking Head Generation	—Unverified	0
AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary Person	Aug 9, 2021	Talking Head Generationtext-to-speech	—Unverified	0
EmoGene: Audio-Driven Emotional 3D Talking-Head Generation	Oct 7, 2024	NeRFTalking Head Generation	—Unverified	0

Show:10 25 50

← PrevPage 3 of 5Next →

All datasets VoxCeleb2 - 1-shot learning VoxCeleb1 - 1-shot learning VoxCeleb1 - 32-shot learning VoxCeleb1 - 8-shot learning VoxCeleb2 - 8-shot learning 100 sleep nights of 8 caregivers VoxCeleb2 - 32-shot learning

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	48.5	—	Unverified
2	CainGAN	FID	35	—	Unverified
3	Fast Bi-layer Avatars (medium size)	CSIM	0.65	—	Unverified
4	First Order Motion Model (medium size)	CSIM	0.64	—	Unverified
5	Few-shot Vid-to-vid (medium size)	CSIM	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	45.8	—	Unverified
2	Few-shot Adversarial Model	FID	43	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	56.5	—	Unverified
2	Few-shot Adversarial Model	FID	29.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	X2Face	FID	51.5	—	Unverified
2	Few-shot Adversarial Model	FID	38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	42.2	—	Unverified
2	CainGAN	FID	24.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Ashok	10%	12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Few-shot Adversarial Model	FID	30.6	—	Unverified