Data-to-Text Generation

A classic problem in natural-language generation (NLG) involves taking structured data, such as a table, as input, and producing text that adequately and fluently describes this data as output. Unlike machine translation, which aims for complete transduction of the sentence to be translated, this form of NLG is usually taken to require addressing (at least) two separate challenges: what to say, the selection of an appropriate subset of the input data to discuss, and how to say it, the surface realization of a generation.

( Image credit: Data-to-Text Generation with Content Selection and Planning )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 219 papers

Title	Date	Tasks	Status
TrICy: Trigger-guided Data-to-text Generation with Intent aware Attention-Copy	Jan 25, 2024	Data-to-Text GenerationNatural Language Understanding	—Unverified
TWT: Table with Written Text for Controlled Data-to-Text Generation	Nov 1, 2021	Data-to-Text GenerationText Generation	—Unverified
uFACT: Unfaithful Alien-Corpora Training for Semantically Consistent Data-to-Text Generation	May 1, 2022	Data-to-Text GenerationText Generation	—Unverified
Unifying Structured Data as Graph for Data-to-Text Pre-Training	Jan 2, 2024	Data-to-Text GenerationText Generation	—Unverified
Unsupervised Pidgin Text Generation By Pivoting English Data and Self-Training	Mar 18, 2020	Data-to-Text GenerationMachine Translation	—Unverified
Utilising Knowledge Graph Embeddings for Data-to-Text Generation	Dec 1, 2020	Data-to-Text GenerationKnowledge Graph Embeddings	—Unverified
ViGGO: A Video Game Corpus for Data-To-Text Generation in Open-Domain Conversation	Oct 26, 2019	Data-to-Text GenerationDiversity	—Unverified
What Makes Data-to-Text Generation Hard for Pretrained Language Models?	May 23, 2022	Data-to-Text GenerationFew-Shot Learning	—Unverified
XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages	Sep 22, 2022	Data-to-Text GenerationDescriptive	—Unverified
A Novel Task-Oriented Text Corpus in Silent Speech Recognition and its Natural Language Generation Construction Method	Apr 19, 2019	Data-to-Text GenerationDiversity	—Unverified
Transforming Multi-Conditioned Generation from Meaning Representation	Jan 12, 2021	Data-to-Text GenerationSentence	CodeCode Available
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation	Jun 6, 2022	Data-to-Text GenerationText Generation	CodeCode Available
Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text Generation	Oct 25, 2023	Data-to-Text GenerationHallucination	CodeCode Available
How Do Seq2Seq Models Perform on End-to-End Data-to-Text Generation?	May 1, 2022	Data-to-Text GenerationText Generation	CodeCode Available
The E2E Dataset: New Challenges For End-to-End Generation	Jun 28, 2017	Data-to-Text GenerationText Generation	CodeCode Available
High-quality Data-to-Text Generation for Severely Under-Resourced Languages with Out-of-the-box Large Language Models	Feb 19, 2024	Data-to-Text GenerationText Generation	CodeCode Available
Handling Rare Items in Data-to-Text Generation	Nov 1, 2018	Data-to-Text GenerationKG-to-Text Generation	CodeCode Available
Search and Learn: Improving Semantic Coverage for Data-to-Text Generation	Dec 6, 2021	Data-to-Text GenerationText Generation	CodeCode Available
Faithful Low-Resource Data-to-Text Generation through Cycle Training	May 24, 2023	Data-to-Text GenerationText Generation	CodeCode Available
Learning to Select, Track, and Generate for Data-to-Text	Jul 23, 2019	Data-to-Text GenerationText Generation	CodeCode Available
Learning with Contrastive Examples for Data-to-Text Generation	Dec 1, 2020	Comment GenerationData-to-Text Generation	CodeCode Available
FactSpotter: Evaluating the Factual Faithfulness of Graph-to-Text Generation	Oct 25, 2023	Data-to-Text GenerationDialogue Generation	CodeCode Available
Long and Diverse Text Generation with Planning-based Hierarchical Variational Model	Aug 19, 2019	Data-to-Text GenerationDiversity	CodeCode Available
Transition-Based Deep Input Linearization	Nov 7, 2019	Data-to-Text GenerationMachine Translation	CodeCode Available
Selective Token Generation for Few-shot Natural Language Generation	Sep 17, 2022	Data-to-Text GenerationLanguage Modeling	CodeCode Available
Self-training from Self-memory in Data-to-text Generation	Jan 19, 2024	Continual LearningData-to-Text Generation	CodeCode Available
Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention	May 30, 2019	Data-to-Text GenerationInductive Bias	CodeCode Available
Semantic Noise Matters for Neural Natural Language Generation	Nov 10, 2019	Data-to-Text GenerationHallucination	CodeCode Available
SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation	May 17, 2024	Data-to-Text GenerationText Generation	CodeCode Available
Evaluating Semantic Accuracy of Data-to-Text Generation with Natural Language Inference	Nov 21, 2020	Data-to-Text GenerationNatural Language Inference	CodeCode Available
Creating a Corpus for Russian Data-to-Text Generation Using Neural Machine Translation and Post-Editing	Aug 1, 2019	Data-to-Text GenerationMachine Translation	CodeCode Available
MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance	Sep 5, 2019	Data-to-Text GenerationImage Captioning	CodeCode Available
Step-by-Step: Separating Planning from Realization in Neural Data-to-Text Generation	Apr 6, 2019	Data-to-Text GenerationGraph-to-Sequence	CodeCode Available
Neural data-to-text generation: A comparison between pipeline and end-to-end architectures	Aug 23, 2019	Data-to-Text GenerationDecoder	CodeCode Available
Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy	Jul 25, 2023	Conditional Text GenerationData-to-Text Generation	CodeCode Available
Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource Agglutinative Data-to-Text Generation	Mar 12, 2024	Data-to-Text GenerationMachine Translation	CodeCode Available
Copy mechanism and tailored training for character-based data-to-text generation	Apr 26, 2019	Data-to-Text GenerationText Generation	CodeCode Available
Content Type Profiling of Data-to-Text Generation Datasets	Oct 1, 2022	Data-to-Text GenerationText Generation	CodeCode Available
Studying the Impact of Filling Information Gaps on the Output Quality of Neural Data-to-Text	Dec 1, 2020	Data-to-Text Generation	CodeCode Available
TLM: Token-Level Masking for Transformers	Oct 28, 2023	Data-to-Text GenerationGrammatical Error Correction	CodeCode Available
Improving Quality and Efficiency in Plan-based Neural Data-to-Text Generation	Sep 22, 2019	Data-to-Text GenerationReferring Expression	CodeCode Available
Commentary Generation from Data Records of Multiplayer Strategy Esports Game	Dec 21, 2022	Data-to-Text GenerationDecoder	CodeCode Available
Challenges in Data-to-Document Generation	Jul 25, 2017	Data-to-Text GenerationDescriptive	CodeCode Available
ASPIRO: Any-shot Structured Parsing-error-Induced ReprOmpting for Consistent Data-to-Text Generation	Oct 27, 2023	Data-to-Text GenerationText Generation	CodeCode Available
Enhancing AMR-to-Text Generation with Dual Graph Representations	Sep 1, 2019	Abstract Meaning RepresentationAMR-to-Text Generation	CodeCode Available
Tackling Hallucinations in Neural Chart Summarization	Aug 1, 2023	Data-to-Text GenerationTable-to-Text Generation	CodeCode Available
Bootstrapping Generators from Noisy Data	Apr 17, 2018	Data-to-Text GenerationDecoder	CodeCode Available
Online Back-Parsing for AMR-to-Text Generation	Oct 9, 2020	AMR-to-Text GenerationData-to-Text Generation	CodeCode Available
End-to-End Content and Plan Selection for Data-to-Text Generation	Oct 10, 2018	Data-to-Text GenerationSentence	CodeCode Available
A Hierarchical Model for Data-to-Text Generation	Dec 20, 2019	Data-to-Text GenerationDecoder	CodeCode Available

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets WebNLG E2E NLG Challenge WebNLG Full Cleaned E2E NLG Challenge RotoWire RotoWire (Relation Generation)ToTTo XAlign DART MULTIWOZ 2.1 RotoWire (Content Ordering)Rotowire (Content Selection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Control Prefixes (A1, T5-large)	BLEU	67.32	—	Unverified
2	Control Prefixes (A1, A2, T5-large)	BLEU	67.15	—	Unverified
3	JointGT Baseline	BLEU	67.08	—	Unverified
4	FactT5B	BLEU	67.04	—	Unverified
5	T5B Baseline	BLEU	67.04	—	Unverified
6	FactJointGT	BLEU	66.89	—	Unverified
7	T5-large + Wiki + Position	BLEU	66.07	—	Unverified
8	HTML (fine-tuning)	BLEU	65.4	—	Unverified
9	T5-small	BLEU	65.05	—	Unverified
10	TrICy (trK = trk* = 0.24)	BLEU	64.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S_1^R	BLEU	68.6	—	Unverified
2	EDA_CS	BLEU	67.05	—	Unverified
3	TrICy (trK = 0)	BLEU	66.43	—	Unverified
4	Slug	BLEU	66.19	—	Unverified
5	TGen	BLEU	65.93	—	Unverified
6	EDA_CS (TL)	BLEU	65.8	—	Unverified
7	Sys1-Primary	BLEU	65.61	—	Unverified
8	Zhang	BLEU	65.45	—	Unverified
9	Self-memory	BLEU	65.11	—	Unverified
10	Gong	BLEU	64.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Control Prefixes (A1, A2, T5-large)	BLEU	62.27	—	Unverified
2	Control Prefixes (A1, T5-large)	BLEU	61.94	—	Unverified
3	T5-large + Wiki + Position	BLEU	60.56	—	Unverified
4	T5-large	BLEU	59.7	—	Unverified
5	T5-Large	BLEU	57.1	—	Unverified
6	HTLM (prefix 0.1%)	BLEU	56.3	—	Unverified
7	DATATUNER_NO_FC	BLEU	52.9	—	Unverified
8	Transformer (Pipeline)	BLEU	51.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Control Prefixes (T5-large)	BLEU (Test set)	44.15	—	Unverified
2	DataTuner_FC	BLEU (Test set)	43.6	—	Unverified
3	TGen	BLEU (Test set)	40.73	—	Unverified
4	LSTM	METEOR (Validation set)	0.39	—	Unverified
5	TGen	METEOR (Validation set)	0.39	—	Unverified
6	BART	METEOR (Validation set)	0.37	—	Unverified
7	T5	METEOR (Validation set)	0.37	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HierarchicalEncoder + NR + IR	BLEU	17.96	—	Unverified
2	Hierarchical transformer encoder + conditional copy	BLEU	17.5	—	Unverified
3	Force-Copy	BLEU	17.26	—	Unverified
4	Neural Content Planning + conditional copy	BLEU	16.5	—	Unverified
5	Macro	BLEU	15.46	—	Unverified
6	Encoder-decoder + conditional copy	BLEU	14.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeqPlan	Precision	97.6	—	Unverified
2	Macro	Precision	97.6	—	Unverified
3	Force-Copy	Precision	95.4	—	Unverified
4	Hierarchical Transformer Encoder + conditional copy	Precision	89.46	—	Unverified
5	Neural Content Planning + conditional copy	Precision	87.47	—	Unverified
6	Encoder-decoder + conditional copy	Precision	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5-3B	BLEU	49.5	—	Unverified
2	LATTICE (T5-base)	BLEU	48.4	—	Unverified
3	BERT-to-BERT	BLEU	44	—	Unverified
4	Pointer Generator	BLEU	41.6	—	Unverified
5	NCP+CC (Puduppully et al 2019)	BLEU	19.2	—	Unverified
6	T5	METEOR	0.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fact-aware embedding with mT5	BLEU4	29.27	—	Unverified
2	Bi-lingual mT5	BLEU4	25.88	—	Unverified
3	mT5	BLEU4	25	—	Unverified
4	Vanilla Transformer	BLEU4	19.9	—	Unverified
5	Translate-Output mT5	BLEU4	18.91	—	Unverified
6	Graph Attention Network Encoder +Transformer Decoder	BLEU4	18.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5B Baseline	BLEU	48.47	—	Unverified
2	FactT5B	BLEU	48.37	—	Unverified
3	self-mem + new data	BLEU	47.76	—	Unverified
4	JointGT Baseline	BLEU	47.51	—	Unverified
5	FactJointGT	BLEU	47.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5-Base	BLEU	35.1	—	Unverified
2	T5-small	BLEU	34.96	—	Unverified
3	T2G2	BLEU	34.91	—	Unverified
4	SC-GPT2	BLEU	30.76	—	Unverified
5	HDSA	BLEU	26.48	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hierarchical Transformer Encoder + conditional copy	DLD	18.9	—	Unverified
2	Neural Content Planning + conditional copy	DLD	18.58	—	Unverified
3	Macro	DLD	17.7	—	Unverified
4	Force-Copy	DLD	17.26	—	Unverified
5	Encoder-decoder + conditional copy	DLD	8.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hierarchical Transformer Encoder + conditional copy	Precision	39.47	—	Unverified
2	Force-Copy	Precision	34.34	—	Unverified
3	Neural Content Planning + conditional copy	Precision	34.18	—	Unverified
4	Macro	Precision	34.1	—	Unverified
5	Encoder-decoder + conditional copy	Precision	29.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeqPlan	BLEU	14.29	—	Unverified
2	Macro	BLEU	12.62	—	Unverified
3	ENT	BLEU	11.5	—	Unverified
4	Force-Copy	BLEU	10.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeqPlan	DLD	22.7	—	Unverified
2	Macro	DLD	21.8	—	Unverified
3	Force-Copy	DLD	21.16	—	Unverified
4	ENT	DLD	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeqPlan	Precision	95.9	—	Unverified
2	Macro	Precision	94.4	—	Unverified
3	Force-Copy	Precision	84.5	—	Unverified
4	ENT	Precision	81.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	binmt	BLEU score	26.35	—	Unverified
2	tgen	BLEU score	21.96	—	Unverified
3	mass	BLEU score	17.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Force-Copy	Precision	49.39	—	Unverified
2	SeqPlan	Precision	43.3	—	Unverified
3	Macro	Precision	40.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	self-mem + new data (random)	METEOR	46.11	—	Unverified
2	self-mem + new data (fixed)	METEOR	46.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transition based Deep Input Linearization	BLEU	80.49	—	Unverified
2	GCN + feat	BLEU	0.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DataTuner_FC	BLEU	53.6	—	Unverified
2	Bo3	BLEU	52.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	mBART	METEOR	0.46	—	Unverified
2	mT5	METEOR	0.29	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	mBART	METEOR	0.61	—	Unverified
2	mT5	METEOR	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StructAdapt	Bleu	48	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5-large	BLEU	45.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5-large	BLEU	69.27	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Ours	BLEU	24.56	—	Unverified