Data-to-Text Generation

A classic problem in natural-language generation (NLG) involves taking structured data, such as a table, as input, and producing text that adequately and fluently describes this data as output. Unlike machine translation, which aims for complete transduction of the sentence to be translated, this form of NLG is usually taken to require addressing (at least) two separate challenges: what to say, the selection of an appropriate subset of the input data to discuss, and how to say it, the surface realization of a generation.

( Image credit: Data-to-Text Generation with Content Selection and Planning )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 219 papers

Title	Date	Tasks	Status	Hype
TextBox 2.0: A Text Generation Library with Pre-trained Language Models	Dec 26, 2022	Abstractive Text SummarizationData-to-Text Generation	CodeCode Available	3
Prompting for Numerical Sequences: A Case Study on Market Comment Generation	Apr 3, 2024	Comment GenerationData-to-Text Generation	CodeCode Available	2
TaTa: A Multilingual Table-to-Text Dataset for African Languages	Oct 31, 2022	Data-to-Text GenerationText Generation	CodeCode Available	2
CoNT: Contrastive Neural Text Generation	May 29, 2022	Code Comment GenerationComment Generation	CodeCode Available	2
Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model	Sep 11, 2024	Data-to-Text GenerationGraph-to-Sequence	CodeCode Available	1
Bridging the Gap between Different Vocabularies for LLM Ensemble	Apr 15, 2024	Arithmetic ReasoningData-to-Text Generation	CodeCode Available	1
Prompt Optimization via Adversarial In-Context Learning	Dec 5, 2023	Arithmetic ReasoningData-to-Text Generation	CodeCode Available	1
Keras GPT Copilot: Integrating the Power of Large Language Models in Deep Learning Model Development	May 15, 2023	Data-to-Text GenerationText Generation	CodeCode Available	1
TabGenie: A Toolkit for Table-to-Text Generation	Feb 27, 2023	Data-to-Text GenerationTable-to-Text Generation	CodeCode Available	1
ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models	Oct 9, 2022	Data-to-Text GenerationSentence	CodeCode Available	1
Leveraging Natural Supervision for Language Representation Learning and Generation	Jul 21, 2022	Data-to-Text GenerationLanguage Modelling	CodeCode Available	1
Robust (Controlled) Table-to-Text Generation with Structure-Aware Equivariance Learning	May 8, 2022	Data AugmentationData-to-Text Generation	CodeCode Available	1
NMTScore: A Multilingual Analysis of Translation-based Text Similarity Measures	Apr 28, 2022	Data-to-Text GenerationMachine Translation	CodeCode Available	1
GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation	Apr 13, 2022	Data-to-Text GenerationGraph Attention	CodeCode Available	1
Neural Pipeline for Zero-Shot Data-to-Text Generation	Mar 30, 2022	Data-to-Text GenerationText Generation	CodeCode Available	1
Chart-to-Text: A Large-Scale Benchmark for Chart Summarization	Mar 12, 2022	Data-to-Text GenerationImage Captioning	CodeCode Available	1
Data-to-text Generation with Variational Sequential Planning	Feb 28, 2022	Data-to-Text GenerationText Generation	CodeCode Available	1
XAlign: Cross-lingual Fact-to-Text Alignment and Generation for Low-Resource Languages	Feb 1, 2022	Data-to-Text GenerationDescriptive	CodeCode Available	1
Open Domain Question Answering with A Unified Knowledge Interface	Oct 16, 2021	Data-to-Text GenerationNatural Questions	CodeCode Available	1
Control Prefixes for Parameter-Efficient Text Generation	Oct 15, 2021	Abstractive Text SummarizationAttribute	CodeCode Available	1
Biomedical Data-to-Text Generation via Fine-Tuning Transformers	Sep 3, 2021	BenchmarkingData-to-Text Generation	CodeCode Available	1
Plan-then-Generate: Controlled Data-to-Text Generation via Planning	Aug 31, 2021	Data-to-Text GenerationDiversity	CodeCode Available	1
Improving Encoder by Auxiliary Supervision Tasks for Table-to-Text Generation	Aug 1, 2021	Data-to-Text GenerationRelation	CodeCode Available	1
Stage-wise Fine-tuning for Graph-to-Text Generation	May 17, 2021	Data-to-Text GenerationKB-to-Language Generation	CodeCode Available	1
Learning to Reason for Text Generation from Scientific Tables	Apr 16, 2021	Arithmetic ReasoningArticles	CodeCode Available	1
Data-QuestEval: A Referenceless Metric for Data-to-Text Semantic Evaluation	Apr 15, 2021	Data-to-Text GenerationQuestion Generation	CodeCode Available	1
Structural Adapters in Pretrained Language Models for AMR-to-text Generation	Mar 16, 2021	AMR-to-Text GenerationData-to-Text Generation	CodeCode Available	1
Structural Information Preserving for Graph-to-Text Generation	Feb 12, 2021	Data-to-Text GenerationText Generation	CodeCode Available	1
Controlling Hallucinations at Word Level in Data-to-Text Generation	Feb 4, 2021	Data-to-Text GenerationDecoder	CodeCode Available	1
Data-to-text Generation with Macro Planning	Feb 4, 2021	Data-to-Text GenerationDecoder	CodeCode Available	1
Data-to-text Generation by Splicing Together Nearest Neighbors	Jan 20, 2021	Conditional Text GenerationData-to-Text Generation	CodeCode Available	1
WikiTableT: A Large-Scale Data-to-Text Dataset for Generating Wikipedia Article Sections	Dec 29, 2020	Data-to-Text GenerationForm	CodeCode Available	1
Latent Template Induction with Gumbel-CRFs	Nov 29, 2020	Data-to-Text GenerationDecoder	CodeCode Available	1
Data-to-Text Generation with Iterative Text Editing	Nov 3, 2020	Data-to-Text GenerationDomain Adaptation	CodeCode Available	1
Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training	Oct 23, 2020	Data-to-Text GenerationLanguage Modeling	CodeCode Available	1
PARENTing via Model-Agnostic Reinforcement Learning to Correct Pathological Behaviors in Data-to-Text Generation	Oct 21, 2020	Data-to-Text Generationreinforcement-learning	CodeCode Available	1
Chart-to-Text: Generating Natural Language Descriptions for Charts by Adapting the Transformer Model	Oct 18, 2020	Data-to-Text GenerationDecoder	CodeCode Available	1
KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation	Oct 5, 2020	Data-to-Text GenerationGeneral Knowledge	CodeCode Available	1
Partially-Aligned Data-to-Text Generation with Distant Supervision	Oct 3, 2020	Data-to-Text GenerationSentence	CodeCode Available	1
Investigating Pretrained Language Models for Graph-to-Text Generation	Jul 16, 2020	AMR-to-Text GenerationData-to-Text Generation	CodeCode Available	1
Text-to-Text Pre-Training for Data-to-Text Tasks	May 21, 2020	Data-to-Text GenerationLanguage Modeling	CodeCode Available	1
GPT-too: A language-model-first approach for AMR-to-text generation	May 18, 2020	AMR-to-Text GenerationData-to-Text Generation	CodeCode Available	1
ToTTo: A Controlled Table-To-Text Generation Dataset	Apr 29, 2020	Conditional Text GenerationData-to-Text Generation	CodeCode Available	1
Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation with Semantic Fidelity	Apr 8, 2020	AMR-to-Text GenerationData-to-Text Generation	CodeCode Available	1
Few-shot Natural Language Generation for Task-Oriented Dialog	Feb 27, 2020	Data-to-Text GenerationFew-Shot Learning	CodeCode Available	1
Variational Template Machine for Data-to-Text Generation	Feb 4, 2020	Data-to-Text GenerationDecoder	CodeCode Available	1
Modeling Global and Local Node Contexts for Text Generation from Knowledge Graphs	Jan 29, 2020	Data-to-Text GenerationGraph-to-Sequence	CodeCode Available	1
Revisiting Challenges in Data-to-Text Generation with Fact Grounding	Jan 12, 2020	Data-to-Text GenerationLanguage Modelling	CodeCode Available	1
Language Models are Unsupervised Multitask Learners	Feb 14, 2019	Common Sense ReasoningCoreference Resolution	CodeCode Available	1
Deep Graph Convolutional Encoders for Structured Data to Text Generation	Oct 23, 2018	Data-to-Text GenerationGraph-to-Sequence	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets WebNLG E2E NLG Challenge WebNLG Full Cleaned E2E NLG Challenge RotoWire RotoWire (Relation Generation)ToTTo XAlign DART MULTIWOZ 2.1 RotoWire (Content Ordering)Rotowire (Content Selection)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Control Prefixes (A1, T5-large)	BLEU	67.32	—	Unverified
2	Control Prefixes (A1, A2, T5-large)	BLEU	67.15	—	Unverified
3	JointGT Baseline	BLEU	67.08	—	Unverified
4	FactT5B	BLEU	67.04	—	Unverified
5	T5B Baseline	BLEU	67.04	—	Unverified
6	FactJointGT	BLEU	66.89	—	Unverified
7	T5-large + Wiki + Position	BLEU	66.07	—	Unverified
8	HTML (fine-tuning)	BLEU	65.4	—	Unverified
9	T5-small	BLEU	65.05	—	Unverified
10	TrICy (trK = trk* = 0.24)	BLEU	64.73	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	S_1^R	BLEU	68.6	—	Unverified
2	EDA_CS	BLEU	67.05	—	Unverified
3	TrICy (trK = 0)	BLEU	66.43	—	Unverified
4	Slug	BLEU	66.19	—	Unverified
5	TGen	BLEU	65.93	—	Unverified
6	EDA_CS (TL)	BLEU	65.8	—	Unverified
7	Sys1-Primary	BLEU	65.61	—	Unverified
8	Zhang	BLEU	65.45	—	Unverified
9	Self-memory	BLEU	65.11	—	Unverified
10	Gong	BLEU	64.22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Control Prefixes (A1, A2, T5-large)	BLEU	62.27	—	Unverified
2	Control Prefixes (A1, T5-large)	BLEU	61.94	—	Unverified
3	T5-large + Wiki + Position	BLEU	60.56	—	Unverified
4	T5-large	BLEU	59.7	—	Unverified
5	T5-Large	BLEU	57.1	—	Unverified
6	HTLM (prefix 0.1%)	BLEU	56.3	—	Unverified
7	DATATUNER_NO_FC	BLEU	52.9	—	Unverified
8	Transformer (Pipeline)	BLEU	51.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Control Prefixes (T5-large)	BLEU (Test set)	44.15	—	Unverified
2	DataTuner_FC	BLEU (Test set)	43.6	—	Unverified
3	TGen	BLEU (Test set)	40.73	—	Unverified
4	LSTM	METEOR (Validation set)	0.39	—	Unverified
5	TGen	METEOR (Validation set)	0.39	—	Unverified
6	BART	METEOR (Validation set)	0.37	—	Unverified
7	T5	METEOR (Validation set)	0.37	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HierarchicalEncoder + NR + IR	BLEU	17.96	—	Unverified
2	Hierarchical transformer encoder + conditional copy	BLEU	17.5	—	Unverified
3	Force-Copy	BLEU	17.26	—	Unverified
4	Neural Content Planning + conditional copy	BLEU	16.5	—	Unverified
5	Macro	BLEU	15.46	—	Unverified
6	Encoder-decoder + conditional copy	BLEU	14.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeqPlan	Precision	97.6	—	Unverified
2	Macro	Precision	97.6	—	Unverified
3	Force-Copy	Precision	95.4	—	Unverified
4	Hierarchical Transformer Encoder + conditional copy	Precision	89.46	—	Unverified
5	Neural Content Planning + conditional copy	Precision	87.47	—	Unverified
6	Encoder-decoder + conditional copy	Precision	74.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5-3B	BLEU	49.5	—	Unverified
2	LATTICE (T5-base)	BLEU	48.4	—	Unverified
3	BERT-to-BERT	BLEU	44	—	Unverified
4	Pointer Generator	BLEU	41.6	—	Unverified
5	NCP+CC (Puduppully et al 2019)	BLEU	19.2	—	Unverified
6	T5	METEOR	0.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Fact-aware embedding with mT5	BLEU4	29.27	—	Unverified
2	Bi-lingual mT5	BLEU4	25.88	—	Unverified
3	mT5	BLEU4	25	—	Unverified
4	Vanilla Transformer	BLEU4	19.9	—	Unverified
5	Translate-Output mT5	BLEU4	18.91	—	Unverified
6	Graph Attention Network Encoder +Transformer Decoder	BLEU4	18.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5B Baseline	BLEU	48.47	—	Unverified
2	FactT5B	BLEU	48.37	—	Unverified
3	self-mem + new data	BLEU	47.76	—	Unverified
4	JointGT Baseline	BLEU	47.51	—	Unverified
5	FactJointGT	BLEU	47.39	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5-Base	BLEU	35.1	—	Unverified
2	T5-small	BLEU	34.96	—	Unverified
3	T2G2	BLEU	34.91	—	Unverified
4	SC-GPT2	BLEU	30.76	—	Unverified
5	HDSA	BLEU	26.48	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hierarchical Transformer Encoder + conditional copy	DLD	18.9	—	Unverified
2	Neural Content Planning + conditional copy	DLD	18.58	—	Unverified
3	Macro	DLD	17.7	—	Unverified
4	Force-Copy	DLD	17.26	—	Unverified
5	Encoder-decoder + conditional copy	DLD	8.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hierarchical Transformer Encoder + conditional copy	Precision	39.47	—	Unverified
2	Force-Copy	Precision	34.34	—	Unverified
3	Neural Content Planning + conditional copy	Precision	34.18	—	Unverified
4	Macro	Precision	34.1	—	Unverified
5	Encoder-decoder + conditional copy	Precision	29.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeqPlan	BLEU	14.29	—	Unverified
2	Macro	BLEU	12.62	—	Unverified
3	ENT	BLEU	11.5	—	Unverified
4	Force-Copy	BLEU	10.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeqPlan	DLD	22.7	—	Unverified
2	Macro	DLD	21.8	—	Unverified
3	Force-Copy	DLD	21.16	—	Unverified
4	ENT	DLD	20.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SeqPlan	Precision	95.9	—	Unverified
2	Macro	Precision	94.4	—	Unverified
3	Force-Copy	Precision	84.5	—	Unverified
4	ENT	Precision	81.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	binmt	BLEU score	26.35	—	Unverified
2	tgen	BLEU score	21.96	—	Unverified
3	mass	BLEU score	17.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Force-Copy	Precision	49.39	—	Unverified
2	SeqPlan	Precision	43.3	—	Unverified
3	Macro	Precision	40.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	self-mem + new data (random)	METEOR	46.11	—	Unverified
2	self-mem + new data (fixed)	METEOR	46.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transition based Deep Input Linearization	BLEU	80.49	—	Unverified
2	GCN + feat	BLEU	0.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DataTuner_FC	BLEU	53.6	—	Unverified
2	Bo3	BLEU	52.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	mBART	METEOR	0.46	—	Unverified
2	mT5	METEOR	0.29	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	mBART	METEOR	0.61	—	Unverified
2	mT5	METEOR	0.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StructAdapt	Bleu	48	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5-large	BLEU	45.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	T5-large	BLEU	69.27	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Ours	BLEU	24.56	—	Unverified